Para configurar el crawler de contenido para evitar que importe páginas web no deseadas en el portal:
Por defecto, el crawler de contenido sigue las
recomendaciones del servidor web sobre las páginas que pueden resultar
valiosas para los crawlers automáticos. Si desea ignorar estas recomendaciones,
desactive la casilla de control Obedecer
los Protocolos de Exclusión de Robots del Sitio de Destino.
En general, estas recomendaciones contribuyen a limitar el contenido
no deseado que se explora en el portal. Sin embargo, algunos sitios ofrecen
unas recomendaciones muy estrictas. Si el crawler de contenido no importa
ningún contenido de un sitio, intente desactivar esta opción.
Por defecto, el crawler de contenido guarda las direcciones URL a las páginas web importadas con las mayúsculas y minúsculas utilizadas en el sitio web de origen. Para cambiar las direcciones URL a minúsculas, seleccione Convertir Todas las Direcciones URL a Minúsculas.
Para evitar la importación de contenido de un área de un sitio web o la importación de determinadas páginas:
Para especificar el área que se debe evitar,
haga clic en Agregar
Filtro de Exclusión; a continuación, en el cuadro de texto, escriba
la dirección URL del área del sitio web que desea evitar.
Puede utilizar el comodín (*) para hacer la exclusión más general.
Por ejemplo, para evitar la exploración de la información de ventas de
un sitio, puede escribir http://micompañía.com*ventas.
Como resultado, el crawler no importa ninguna página de micompañía.com
que contenga "ventas" en cualquier parte de la URL.
Nota: Los comodines funcionan en cualquier parte del texto.
Por ejemplo, si escribe ventas, el crawler no importará ninguna página
de ningún sitio al que se acceda
desde la URL de destino que contenga "ventas" en cualquier parte
de la URL.
Importante: Si especifica exclusiones e
inclusiones (que se describen en el paso 5), las exclusiones sólo se aplican
a las páginas incluidas. Por
ejemplo, si excluye ventas e
incluye http://micompañía.com,
el crawler importará todas las páginas de http://micompañía.com excepto las páginas que contienen "ventas"
en cualquier parte de la URL.
Para eliminar un filtro de exclusión, selecciónelo
y haga clic en .
Para activar o desactivar todas las casillas de control de filtros de exclusión, active o desactive la casilla situada a la izquierda de Filtros de Exclusión.
Por defecto, el crawler de contenido no explora ni importa las páginas especificadas en las exclusiones. Si el crawler de contenido va a acceder desde un enlace de una página excluida a una página que no está excluida y se debe importar, seleccione Explorar Páginas Excluidas, pero No Importarlas.
Para limitar la exploración a un área de un sitio web o a determinadas páginas:
Para especificar dónde puede explorar este
crawler de contenido, haga clic en Agregar Filtro de Inclusión; a continuación, en el
cuadro de texto, escriba la dirección URL del área del sitio web a la
que desea restringir la exploración. Como los sitios web pueden contener
enlaces a otros sitios, puede utilizar las inclusiones para mantener el
crawler de contenido en un sitio concreto. Para evitar la exploración
de otros sitios, agregue la dirección URL base del sitio que desea explorar
a la lista de inclusión; por ejemplo, http://micompañía.com.
Puede utilizar el comodín (*) para hacer la inclusión más general.
Por ejemplo, si sólo desea explorar la información sobre Single Sign-On
(SSO), puede escribir http://micompañía.com*sso.
Como resultado, el crawler de contenido sólo importa las páginas de micompañía.com
que contienen "sso" en cualquier parte de la URL.
Nota: Los comodines funcionan en cualquier parte del texto.
Por ejemplo, si escribe sso, el crawler de contenido importará
todas las páginas de todos los
sitios a los que se acceda desde la dirección URL de destino que contengan
"sso" en cualquier parte de la URL.
Importante: Si especifica inclusiones y
exclusiones, las exclusiones sólo se aplican a las páginas incluidas.
Por ejemplo, si incluye http://micompañía.com
y excluye sso, el crawler de
contenido importará todas las páginas de http://micompañía.com excepto
las páginas que contienen "sso" en cualquier parte de la dirección
URL.
Para eliminar un filtro de inclusión, selecciónelo
y haga clic en .
Para activar o desactivar todas las casillas de control de filtros de inclusión, active o desactive la casilla situada a la izquierda de Filtro de Inclusión.
Para mostrar la página asociada a este tema de ayuda: