Definições Avançadas (Crawler de Conteúdo)

Para especificar o idioma do conteúdo, o que fazer com documentos rejeitados e uma tag de crawler de conteúdo:

Em Idioma do conteúdo, na lista drop-down, escolha o idioma no qual é escrita a maioria dos conteúdos a ser importada.
Em documentos rejeitados, especifique o que fazer com os documentos que não são classificados em nenhuma pasta:

De qualquer forma, para importar esses documentos, escolha Importar para a pasta Documentos não classificados.

Observação: A pasta Documentos não classificados está disponível para usuários com acesso a documentos não classificados. Para acessar documentos não classificados, no menu Diretório, clique em Editar Diretório e abra a pasta Documentos não classificados. Pode também clicar em Administração | Selecionar Utilitários | Acessar documentos não classificados.
Para impedir a importação desses documentos, selecione Não importar.

Se você estiver editando um crawler de conteúdo existente, serão exibidas opções adicionais em Documentos rejeitados que permitem que você especifique uma ação quando este crawler de conteúdo encontrar um documento anteriormente rejeitado. A definição de "anteriormente rejeitado" depende da opção escolhida na etapa 4b:

Se você tiver escolhido "por este Crawler de Conteúdo", os documentos anteriormente rejeitados incluirão todos os documentos rejeitados por este crawler de conteúdo.
Se você tiver escolhido "desta origem de Conteúdo", os documentos anteriormente rejeitados incluirão todos os documentos rejeitados desta origem de Conteúdo.

Especifique o que fazer com documentos anteriormente rejeitados:

Para que o crawler de conteúdo tente importar documentos anteriormente rejeitados, selecione Importar novamente.
Para impedir a importação desses documentos, selecione Não importar.

Se for absolutamente necessário, você poderá excluir o histórico de documentos anteriormente rejeitados. Novamente, a definição de "anteriormente rejeitado" depende da opção escolhida na etapa 4b. Se optar por "desta origem de Conteúdo" na etapa 4b, você estará excluindo o histórico de rejeição de todos os crawlers de conteúdo que importam documentos dessa origem de Conteúdo. Se ainda estiver seguro de que deve excluir o histórico de documentos anteriormente rejeitados, clique em Limpar histórico de rejeição.

Observação: Se um documento não for classificado em alguma pasta, mas for colocado na pasta Documentos não classificados, ele não contará como rejeitado. Documentos rejeitados são documentos que não foram colocados em qualquer pasta.

Se você estiver editando um crawler de conteúdo existente, será exibida a seção Importando documentos. Em Importando documentos, especifique se somente os documentos novos deverão ser importados. Por default, esse crawler de conteúdo tenta importar somente novos documentos (os que não foram importados anteriormente por esse crawler de conteúdo ou outros rastreados de conteúdo que acessam essa mesma origem de Conteúdo). Você pode alterar a definição do crawler de conteúdo para importar cópias múltiplas de cada documento, o que pode ser útil ao testar crawlers de conteúdo.

Para importar somente novos documentos, selecione Importar somente novos links e novas opções serão exibidas. Caso contrário, ignore a etapa 5.
Para especificar que novos links são esses:

Para importar somente os documentos que não foram importados anteriormente por esse crawler de conteúdo, escolha por este Crawler de Conteúdo.
Para importar somente os documentos que não foram importados da origem de conteúdo associada (seja por esse crawler de conteúdo, outro qualquer, ou manualmente por um usuário), escolha desta Origem de Conteúdo.

Observação:A opção escolhida aqui afetará suas ações nas etapas 3f a 4f.

Para atualizar os documentos anteriormente importados conforme especificado na página , selecione atualize-os. Em geral, a atualização de documentos é o job do Agente de atualização do documento. A atualização de documentos reduz o desempenho do crawler de conteúdo. No entanto, se você tiver alterado as definições de documento para esse crawler de conteúdo ou os mapeamentos de propriedades nos tipos de conteúdo associados, a atualização de documentos atualizará as definições dos documentos importados anteriormente.

Observação: Se você estiver rastreando um alimentador de RSS, a opção atualize-os irá atualizar as propriedades (como o título e a descrição) com os valores dos documentos de destino, não do alimentador de RSS. Se desejar reter as propriedades do alimentador de RSS, não selecione atualize-os.
Se tiver criado pastas adicionais ou aplicado filtros diferentes a pastas de destino, selecione tente classificá-los em pastas adicionais para classificar os documentos anteriormente importados em novas pastas do Diretório Knowledge.

Outro crawler de conteúdo pode ter importado documentos da mesma origem de Conteúdo, mas para pastas de destino diferentes das especificadas para esse crawler de conteúdo. Certifique-se de que realmente deseja reclassificar os documentos nas pastas de destino especificadas para esse crawler de conteúdo.
Para voltar a importar documentos que foram excluídos anteriormente (manualmente, por data de expiração ou devido à ausência dos documentos de origem), marque restaurar links excluídos. Esse procedimento poderá voltar a importar documentos que, em algum momento, foram considerados inadequados para o portal.
Se for absolutamente necessário, você poderá excluir o histórico de documentos que foram excluídos do portal. O "histórico" é definido pelo que você tiver especificado como novos documentos na etapa 3b:

Se escolher "por este Crawler de Conteúdo", o histórico incluirá todos os documentos importados por este crawler de conteúdo que tenham sido excluídos.
Se escolher "desta origem de Conteúdo", o histórico incluirá todos os documentos importados desta origem de Conteúdo que tenham sido excluídos. Sendo assim, você está excluindo o histórico de todos os crawlers de conteúdo que importam documentos dessa origem de Conteúdo.

Se ainda estiver seguro de que deve excluir o registro de documentos excluídos do portal, clique em Limpar histórico de exclusão.

Para marcar documentos importados com uma tag de crawler de conteúdo, digite uma tag na caixa Marcar Documentos Importados com a Seguinte Tag de Crawler de Conteúdo. Essa tag é usada para diferenciar os documentos importados por esse crawler de conteúdo dos importados por outro crawler de conteúdo.
Em Configuração de Runtime, defina o seguinte:

Encaminhamentos máximos de busca de documento - determina o número máximo de encaminhamentos simultâneos usados para colher conteúdo na origem de Conteúdo.
Encaminhamentos máximos de indexação de cartão - determina o número máximo de encaminhamentos simultâneos usados no processamento de conteúdo depois de ter sido rastreado para o portal.

Os intervalos permitidos para esses campos são definidos no arquivo de configuração de portal. Os valores definidos aqui também são limitados pelo máximo de encaminhamentos permitidos no serviço de automação usado para o job associado a esse crawler de conteúdo.

Para exibir a página associada a este tópico de ajuda:

Clique em Administração.
Abra o Editor de Crawlers de Conteúdo:

Para criar um novo crawler:

Abra uma pasta administrativa.
Na lista drop-down Criar Objeto, clique no tipo de crawler de conteúdo a ser criado.

Para editar um crawler existente:

Navegue até o crawler a ser editado.
Clique no nome do crawler de conteúdo.

À esquerda, em Editar Definições do Objeto, clique em Definições Avançadas.