Para especificar el idioma de contenido, lo que se tiene que hacer con los documentos rechazados y una etiqueta de crawler de contenido:
En Idioma de Contenido, en la lista desplegable, seleccione el idioma en que está escrito la mayor parte del contenido que desea importar.
En Documentos Rechazados, especifique lo que hará con los documentos que no se clasifiquen correctamente en una carpeta:
Para importar estos documentos de todos modos,
seleccione Importar en la Carpeta Documentos
Sin Clasificar.
Nota: La carpeta Documentos sin Clasificar está a disposición
de los usuarios con acceso
a documentos sin clasificar. Para acceder a los documentos sin clasificar,
en el menú Directorio, haga clic en Editar
Directorio y abra la carpeta Documentos
sin Clasificar. También puede hacer clic en Administración
| Seleccionar Utilidades
| Acceder a Documentos Sin Clasificar.
Para impedir la importación de estos documentos, seleccione No Importar.
Si está editando un crawler de contenido existente, aparecerán opciones adicionales en Documentos Rechazados que permiten especificar lo que se debe hacer cuando el crawler de contenido encuentre un documento rechazado anteriormente. La definición de "rechazado anteriormente" depende de la opción que haya seleccionado en el paso 4b:
Si ha seleccionado "por este crawler de contenido", los documentos rechazados anteriormente incluirán todos los documentos rechazados por este crawler de contenido.
Si ha seleccionado "de Este Origen de Contenido", los documentos rechazados anteriormente incluirán todos los documentos rechazados de Esta Origen de Contenido.
Especifique lo que se debe hacer con documentos rechazados anteriormente:
Para que este crawler de contenido intente volver a importar los documentos rechazados anteriormente, seleccione Volver a Importar.
Para impedir la importación de estos documentos, seleccione No Importar.
Si es absolutamente necesario, puede suprimir el historial de los documentos que se han rechazado anteriormente. De nuevo, la definición de "rechazado anteriormente" depende de la opción que haya seleccionado en el paso 4b. Si ha seleccionado "de Este Origen de Contenido" en el paso 4b, está suprimiendo el historial de rechazos de todos los crawlers de contenido que importan documentos de este origen de contenido. Si aún está seguro de que debe suprimir el historial de los documentos rechazados anteriormente, haga clic en Borrar Historial de Rechazos.
Nota: Si un documento no se clasifica en ninguna carpeta, pero se coloca en la carpeta Documentos sin Clasificar, no cuenta como rechazado. Los documentos rechazados son los que no se han colocado en ninguna carpeta.
Si está editando un crawler de contenido existente, aparecerá la sección Importando Documentos. En Importando Documentos, especifique si sólo se importarán documentos nuevos. Por defecto, este crawler de contenido intenta importar únicamente los documentos nuevos (los que no ha importado anteriormente este crawler de contenido u otros crawlers de contenido que acceden a este mismo origen de contenido). Puede cambiar la configuración de crawler de contenido para importar varias copias de cada documento, lo que puede resultar útil mientras se prueban los crawlers de contenido.
Para importar sólo documentos nuevos, seleccione Importar sólo enlaces nuevos y aparecerán nuevas opciones; de lo contrario, vaya al paso 5.
Para especificar lo que significa enlaces nuevos:
Para importar sólo los documentos que este crawler de contenido no ha importado anteriormente, seleccione por este Crawler de Contenido.
Para importar sólo los documentos que no se han importado del origen de contenido asociado (por este crawler de contenido, otro crawler o manualmente por un usuario), seleccione de Esta Origen de Contenido.
Nota: La opción que seleccione aquí afecta a las acciones de los pasos 3 y 4f.
Para refrescar los documentos importados anteriormente
según lo especificado en la página Configuración
de Documento, seleccione refrescarlos.
Por lo general, el refrescamiento de documentos es tarea del Agente de
Refrescamiento de Documentos; el refrescamiento de documentos ralentiza
al crawler de contenido. Sin embargo, si ha cambiado la configuración
de documento para este crawler de contenido o ha cambiado las asignaciones
de propiedad en los tipos de contenido asociados, al refrescar los documentos
se actualiza esta configuración para los documentos importados anteriormente.
Nota: Si está explorando una fuente RSS, la opción refrescarlos refresca las propiedades
(como el título y la descripción) con los valores de los documentos de
destino, no de la fuente RSS. Si desea conservar las propiedades de la
fuente RSS, no seleccione la opción refrescarlos.
Si ha creado carpetas adicionales o ha aplicado
filtros distintos a las carpetas de destino, seleccione intentar
ordenarlos en carpetas adicionales para ordenar los documentos
importados anteriormente en nuevas carpetas del directorio de conocimientos.
Otro crawler de contenido puede haber importado documentos del
mismo origen de contenido, pero en carpetas distintas de las de destino
especificadas para este crawler de contenido. Asegúrese de que realmente
desea volver a ordenar estos documentos en las carpetas de destino especificadas
para este crawler de contenido.
Para volver a importar los documentos que se han suprimido anteriormente (manualmente, porque han caducado o porque faltan documentos de origen), seleccione regenerar enlaces suprimidos. De este modo, se pueden volver a importar documentos que en otro momento no parecían adecuados para el portal.
Si es absolutamente necesario, puede suprimir el historial de los documentos que se han suprimido del portal. El "historial" se define por lo especificado como documentos nuevos en el paso 3b:
Si ha seleccionado "por Este Crawler de Contenido", el historial incluye todos los documentos importados por Este Crawler de Contenido que se han suprimido.
Si ha seleccionado "de Este Origen de Contenido", el historial incluye todos los documentos importados de Este Origen de Contenido que se han suprimido. Por lo tanto, está suprimiendo el historial de todos los crawlers de contenido que importan documentos de este origen de contenido.
Si aún está seguro de que debe suprimir el registro de los documentos suprimidos del portal, active Borrar Historial de Supresiones.
Para marcar los documentos importados con una etiqueta de crawler de contenido, escriba una etiqueta en el cuadro Marcar Documentos Importados con la Siguiente Etiqueta de Crawler de Contenido. Esta etiqueta se utiliza para diferenciar los documentos importados por este crawler de contenido de los importados por otro.
En Configuración de Tiempo de Ejecución, defina lo siguiente:
Threads Máximos de Recuperación de Documentos: Determina el número máximo de threads simultáneos que recuperan contenido del origen de contenido.
Threads Máximos de Indexación de Tarjetas : Determina el número máximo de threads simultáneos que se utilizan en el procesamiento del contenido una vez se ha explorado en el portal.
Los rangos permitidos para estos campos se definen en el archivo de configuración del portal. Los valores definidos aquí también están limitados por el máximo de threads permitidos en el Automation Service utilizado para el trabajo asociado a este crawler de contenido.
Para mostrar la página asociada a este tema de ayuda: