Acerca de los Crawlers de Contenido

Cree un crawler de contenido para importar contenido en el portal desde repositorios de contenido externos. Debe ejecutar un trabajo asociado al crawler de contenido para buscar contenido de manera periódica en el repositorio externo e importarlo. Para obtener más información sobre los trabajos, consulte Acerca de los Trabajos.

Nota: Los crawlers de contenido dependen de los orígenes de contenido. Para obtener más información sobre los orígenes de contenido, consulte Acerca de los Orígenes de Contenido.

En este tema se trata la siguiente información:

Crawlers de Contenido Web
Crawlers de Contenido Remoto
Servicios Web de Contenido
Importación de la Seguridad de los Documentos
Solución de Problemas de los Resultados de las Exploraciones

Para obtener información sobre cómo crear o editar objetos administrativos (incluidos crawlers de contenido), haga clic aquí.

Crawlers de Contenido Web

Un crawler de contenido web permite a los usuarios importar contenido de web en el portal.

Para obtener información sobre el editor de crawlers de contenido web, haga clic en una de las siguientes páginas del editor:

Seleccionar Origen de Contenido
Configuración Principal
Exclusiones de Páginas Web
Configuración de Destino
Configuración de Documento
Tipo de Contenido
Configuración Avanzada
Definir Trabajo
Propiedades y Nombres
Seguridad (sólo está disponible cuando se edita un objeto)
Historial y Estado de Migración (sólo está disponible cuando se edita un objeto)

Crawlers de Contenido Remoto

Un crawler de contenido remoto permite a los usuarios importar contenido de un repositorio de contenido externo en el portal.

Algunos proveedores de exploración se instalan con el portal y están disponibles inmediatamente para los usuarios del portal, pero otros requieren que se instalen y configuren manualmente. Por ejemplo, Oracle proporciona los siguientes proveedores de exploración:

Sistema de Archivos de Windows NT (incluido con el software del portal)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Nota: Si lo que desea es información sobre cómo conseguir proveedores de exploración, visite el sitio de Oracle Technology Network en http://www.oracle.com/technology/index.html. Para obtener más información sobre la instalación de proveedores de exploración, consulte la Installation Guide for Oracle WebCenter Interaction (Guía de Instalación de Oracle WebCenter Interaction) (disponible en el sitio de Oracle Technology Network en http://www.oracle.com/technology/documentation/bea.html), la documentación de su proveedor de exploración o bien póngase en contacto con el administrador de su portal.

Para crear un crawler de contenido remoto:

Instale el proveedor de exploración en la computadora del portal o en otra computadora.
Cree un servidor remoto.
Cree un servicio web de contenido (se describe a continuación).
Cree un origen de contenido remoto.
Cree un crawler de contenido remoto.

Para obtener información sobre el editor de crawlers de contenido remoto, haga clic en una de las siguientes páginas del editor:

Seleccionar Origen de Contenido
Configuración Principal
Configuración de Documento
Tipo de Contenido
Configuración Avanzada
Definir Trabajo
Propiedades y Nombres
Seguridad (sólo está disponible cuando se edita un objeto)
Historial y Estado de Migración (sólo está disponible cuando se edita un objeto)

Los siguientes proveedores de exploración, si se instalan, incluyen al menos una página adicional en el editor de crawlers de contenido remoto:

Sistema de Archivos de Windows NT (incluido con el software del portal)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Servicios Web de Contenido

Los servicios web de contenido permiten especificar la configuración general del repositorio de contenido remoto, dejando que la configuración de destino y seguridad se defina en el origen y el crawler de contenido remoto asociados. Esto permite explorar varias ubicaciones del mismo repositorio de contenido sin tener que especificar repetidamente toda la configuración.

Nota: Debe crear servicios web de contenido en los que basar los orígenes de contenido remotos. Para obtener más información sobre los orígenes de contenido, consulte Acerca de los Orígenes de Contenido.

Para obtener información sobre el editor de servicios web de contenido, haga clic en una de las siguientes páginas del editor:

Configuración Principal
Configuración de HTTP
Preferencias
Configuración Avanzada de URL
Configuración Avanzada
Configuración de Autenticación
Preferencias
Información de Usuario
Configuración de Depuración
Objetos Asociados (sólo está disponible cuando se edita un objeto)
Propiedades y Nombres
Seguridad (sólo está disponible cuando se edita un objeto)
Historial y Estado de Migración (sólo está disponible cuando se edita un objeto)

Importación de la Seguridad de los Documentos

A los usuarios se les puede otorgar acceso automáticamente al contenido importado por crawlers de contenido remoto. La asignación global de sincronización de ACL indica a estos crawlers de contenido cómo importar seguridad de documentos de origen.

Para obtener un ejemplo de cómo funciona la importación de seguridad, consulte Ejemplo de Importación de Seguridad.

Solución de Problemas de los Resultados de las Exploraciones

Compruebe lo siguiente si el crawler de contenido no importa el contenido esperado:

Asegúrese de que los filtros de carpeta filtran correctamente el contenido. Para obtener información sobre cómo probar los filtros, consulte la sección Prueba de Filtros de la página Configuración Principal (Filtro).
Asegúrese de que el crawler de contenido no ha colocado contenido no deseado en la carpeta de destino. Si un documento no se filtra en ninguna subcarpeta, puede que el crawler de contenido coloque el documento en la carpeta de destino. Se determina mediante un valor de la página Configuración Principal del editor de carpetas.
Asegúrese de que el crawler de contenido no ha colocado contenido en la carpeta Documentos sin Clasificar. Si un documento no se puede colocar en ninguna carpeta o subcarpeta de destino, es posible que el crawler de contenido coloque el documento en la carpeta Documentos sin Clasificar. Se determina mediante un valor de la página Configuración Avanzada del editor de crawlers de contenido. Si dispone de los permisos correctos, puede ver la carpeta Documentos sin Clasificar al editar el directorio o hacer clic en Administración | Seleccionar Utilidad | Acceder a Documentos Sin Clasificar.
Asegúrese de que tiene al menos acceso de edición a la carpeta de destino.
En el caso de los crawlers de contenido web, asegúrese de que ni los protocolos de exclusión de robots ni ninguna exclusión ni inclusión impiden que el crawler de contenido importe el contenido esperado. Se determina mediante un valor de la página Exclusiones de Páginas Web del editor de crawlers de contenido.
Asegúrese de que la información de autenticación especificada en el origen de contenido asociado permite el acceso del portal al contenido.
Consulte el historial de trabajos para obtener más información.