Definições Avançadas (Crawler de Conteúdo)

Para especificar o idioma do conteúdo, o que fazer com documentos rejeitados e uma tag de crawler de conteúdo:

  1. Em Idioma do conteúdo, na lista drop-down, escolha o idioma no qual é escrita a maioria dos conteúdos a ser importada.

  2. Em documentos rejeitados, especifique o que fazer com os documentos que não são classificados em nenhuma pasta:

  3. Se você estiver editando um crawler de conteúdo existente, serão exibidas opções adicionais em Documentos rejeitados que permitem que você especifique uma ação quando este crawler de conteúdo encontrar um documento anteriormente rejeitado. A definição de "anteriormente rejeitado" depende da opção escolhida na etapa 4b:

  4. Especifique o que fazer com documentos anteriormente rejeitados:

    Se for absolutamente necessário, você poderá excluir o histórico de documentos anteriormente rejeitados. Novamente, a definição de "anteriormente rejeitado" depende da opção escolhida na etapa 4b. Se optar por "desta origem de Conteúdo" na etapa 4b, você estará excluindo o histórico de rejeição de todos os crawlers de conteúdo que importam documentos dessa origem de Conteúdo. Se ainda estiver seguro de que deve excluir o histórico de documentos anteriormente rejeitados, clique em Limpar histórico de rejeição.

    Observação: Se um documento não for classificado em alguma pasta, mas for colocado na pasta Documentos não classificados, ele não contará como rejeitado. Documentos rejeitados são documentos que não foram colocados em qualquer pasta.

  5. Se você estiver editando um crawler de conteúdo existente, será exibida a seção Importando documentos. Em Importando documentos, especifique se somente os documentos novos deverão ser importados. Por default, esse crawler de conteúdo tenta importar somente novos documentos (os que não foram importados anteriormente por esse crawler de conteúdo ou outros rastreados de conteúdo que acessam essa mesma origem de Conteúdo). Você pode alterar a definição do crawler de conteúdo para importar cópias múltiplas de cada documento, o que pode ser útil ao testar crawlers de conteúdo.

    1. Para importar somente novos documentos, selecione Importar somente novos links e novas opções serão exibidas. Caso contrário, ignore a etapa 5.

    2. Para especificar que novos links são esses:

    3. Observação:A opção escolhida aqui afetará suas ações nas etapas 3f a 4f.

    4. Para atualizar os documentos anteriormente importados conforme especificado na página , selecione atualize-os. Em geral, a atualização de documentos é o job do Agente de atualização do documento. A atualização de documentos reduz o desempenho do crawler de conteúdo. No entanto, se você tiver alterado as definições de documento para esse crawler de conteúdo ou os mapeamentos de propriedades nos tipos de conteúdo associados, a atualização de documentos atualizará as definições dos documentos importados anteriormente.

      Observação:
      Se você estiver rastreando um alimentador de RSS, a opção atualize-os irá atualizar as propriedades (como o título e a descrição) com os valores dos documentos de destino, não do alimentador de RSS. Se desejar reter as propriedades do alimentador de RSS, não selecione atualize-os.

    5. Se tiver criado pastas adicionais ou aplicado filtros diferentes a pastas de destino, selecione tente classificá-los em pastas adicionais para classificar os documentos anteriormente importados em novas pastas do Diretório Knowledge.

      Outro crawler de conteúdo pode ter importado documentos da mesma origem de Conteúdo, mas para pastas de destino diferentes das especificadas para esse crawler de conteúdo. Certifique-se de que realmente deseja reclassificar os documentos nas pastas de destino especificadas para esse crawler de conteúdo.

    6. Para voltar a importar documentos que foram excluídos anteriormente (manualmente, por data de expiração ou devido à ausência dos documentos de origem), marque restaurar links excluídos. Esse procedimento poderá voltar a importar documentos que, em algum momento, foram considerados inadequados para o portal.

    7. Se for absolutamente necessário, você poderá excluir o histórico de documentos que foram excluídos do portal. O "histórico" é definido pelo que você tiver especificado como novos documentos na etapa 3b:

    8. Se ainda estiver seguro de que deve excluir o registro de documentos excluídos do portal, clique em Limpar histórico de exclusão.

  6. Para marcar documentos importados com uma tag de crawler de conteúdo, digite uma tag na caixa Marcar Documentos Importados com a Seguinte Tag de Crawler de Conteúdo. Essa tag é usada para diferenciar os documentos importados por esse crawler de conteúdo dos importados por outro crawler de conteúdo.

  7. Em Configuração de Runtime, defina o seguinte:

  8. Os intervalos permitidos para esses campos são definidos no arquivo de configuração de portal. Os valores definidos aqui também são limitados pelo máximo de encaminhamentos permitidos no serviço de automação usado para o job associado a esse crawler de conteúdo.


  1. Clique em Administração.
  2. Abra o Editor de Crawlers de Conteúdo:
  3. À esquerda, em Editar Definições do Objeto, clique em Definições Avançadas.