Exclusiones de Páginas Web

Para configurar el crawler de contenido para evitar que importe páginas web no deseadas en el portal:

  1. Por defecto, el crawler de contenido sigue las recomendaciones del servidor web sobre las páginas que pueden resultar valiosas para los crawlers automáticos. Si desea ignorar estas recomendaciones, desactive la casilla de control Obedecer los Protocolos de Exclusión de Robots del Sitio de Destino.

    En general, estas recomendaciones contribuyen a limitar el contenido no deseado que se explora en el portal. Sin embargo, algunos sitios ofrecen unas recomendaciones muy estrictas. Si el crawler de contenido no importa ningún contenido de un sitio, intente desactivar esta opción.

  2. Por defecto, el crawler de contenido guarda las direcciones URL a las páginas web importadas con las mayúsculas y minúsculas utilizadas en el sitio web de origen. Para cambiar las direcciones URL a minúsculas, seleccione Convertir Todas las Direcciones URL a Minúsculas.

  3. Para evitar la importación de contenido de un área de un sitio web o la importación de determinadas páginas:

  4. Por defecto, el crawler de contenido no explora ni importa las páginas especificadas en las exclusiones. Si el crawler de contenido va a acceder desde un enlace de una página excluida a una página que no está excluida y se debe importar, seleccione Explorar Páginas Excluidas, pero No Importarlas.

  5. Para limitar la exploración a un área de un sitio web o a determinadas páginas:


  1. Haga clic en Administración.
  2. Abra el editor de crawlers de contenido:
  3. En la parte izquierda, en Editar Configuración de Objeto, haga clic en Exclusiones de Páginas Web.