Exclusiones de Páginas Web

Para configurar el crawler de contenido para evitar que importe páginas web no deseadas en el portal:

Por defecto, el crawler de contenido sigue las recomendaciones del servidor web sobre las páginas que pueden resultar valiosas para los crawlers automáticos. Si desea ignorar estas recomendaciones, desactive la casilla de control Obedecer los Protocolos de Exclusión de Robots del Sitio de Destino.

En general, estas recomendaciones contribuyen a limitar el contenido no deseado que se explora en el portal. Sin embargo, algunos sitios ofrecen unas recomendaciones muy estrictas. Si el crawler de contenido no importa ningún contenido de un sitio, intente desactivar esta opción.
Por defecto, el crawler de contenido guarda las direcciones URL a las páginas web importadas con las mayúsculas y minúsculas utilizadas en el sitio web de origen. Para cambiar las direcciones URL a minúsculas, seleccione Convertir Todas las Direcciones URL a Minúsculas.
Para evitar la importación de contenido de un área de un sitio web o la importación de determinadas páginas:

Para especificar el área que se debe evitar, haga clic en Agregar Filtro de Exclusión; a continuación, en el cuadro de texto, escriba la dirección URL del área del sitio web que desea evitar.

Puede utilizar el comodín (*) para hacer la exclusión más general. Por ejemplo, para evitar la exploración de la información de ventas de un sitio, puede escribir http://micompañía.com*ventas. Como resultado, el crawler no importa ninguna página de micompañía.com que contenga "ventas" en cualquier parte de la URL.

Nota: Los comodines funcionan en cualquier parte del texto. Por ejemplo, si escribe ventas, el crawler no importará ninguna página de ningún sitio al que se acceda desde la URL de destino que contenga "ventas" en cualquier parte de la URL.

Importante: Si especifica exclusiones e inclusiones (que se describen en el paso 5), las exclusiones sólo se aplican a las páginas incluidas. Por ejemplo, si excluye ventas e incluye http://micompañía.com, el crawler importará todas las páginas de http://micompañía.com excepto las páginas que contienen "ventas" en cualquier parte de la URL.
Para eliminar un filtro de exclusión, selecciónelo y haga clic en .
Para activar o desactivar todas las casillas de control de filtros de exclusión, active o desactive la casilla situada a la izquierda de Filtros de Exclusión.

Por defecto, el crawler de contenido no explora ni importa las páginas especificadas en las exclusiones. Si el crawler de contenido va a acceder desde un enlace de una página excluida a una página que no está excluida y se debe importar, seleccione Explorar Páginas Excluidas, pero No Importarlas.
Para limitar la exploración a un área de un sitio web o a determinadas páginas:

Para especificar dónde puede explorar este crawler de contenido, haga clic en Agregar Filtro de Inclusión; a continuación, en el cuadro de texto, escriba la dirección URL del área del sitio web a la que desea restringir la exploración. Como los sitios web pueden contener enlaces a otros sitios, puede utilizar las inclusiones para mantener el crawler de contenido en un sitio concreto. Para evitar la exploración de otros sitios, agregue la dirección URL base del sitio que desea explorar a la lista de inclusión; por ejemplo, http://micompañía.com.

Puede utilizar el comodín (*) para hacer la inclusión más general. Por ejemplo, si sólo desea explorar la información sobre Single Sign-On (SSO), puede escribir http://micompañía.com*sso. Como resultado, el crawler de contenido sólo importa las páginas de micompañía.com que contienen "sso" en cualquier parte de la URL.

Nota: Los comodines funcionan en cualquier parte del texto. Por ejemplo, si escribe sso, el crawler de contenido importará todas las páginas de todos los sitios a los que se acceda desde la dirección URL de destino que contengan "sso" en cualquier parte de la URL.

Importante: Si especifica inclusiones y exclusiones, las exclusiones sólo se aplican a las páginas incluidas. Por ejemplo, si incluye http://micompañía.com y excluye sso, el crawler de contenido importará todas las páginas de http://micompañía.com excepto las páginas que contienen "sso" en cualquier parte de la dirección URL.
Para eliminar un filtro de inclusión, selecciónelo y haga clic en .
Para activar o desactivar todas las casillas de control de filtros de inclusión, active o desactive la casilla situada a la izquierda de Filtro de Inclusión.

Para mostrar la página asociada a este tema de ayuda:

Haga clic en Administración.
Abra el editor de crawlers de contenido:

Para crear un crawler de contenido web nuevo:

Abra una carpeta administrativa.
En la lista desplegable Crear Objeto, haga clic en Crawler de Contenido: WWW.

Para editar un crawler de contenido web existente:

Acceda al crawler de contenido web que desea editar.
Haga clic en el nombre del crawler de contenido web.

En la parte izquierda, en Editar Configuración de Objeto, haga clic en Exclusiones de Páginas Web.