Sobre Crawlers de Conteúdo

Crie um crawler de conteúdo para importar conteúdo para seu portal a partir de repositórios de conteúdo externos. Você deve executar um job associado ao crawler de conteúdo para pesquisar periodicamente o conteúdo do repositório externo e importar esse conteúdo. Para obter mais informações sobre jobs, consulte Sobre Jobs.

Observação: Crawlers de conteúdo dependem de origens de conteúdo. Para obter informações sobre origens de conteúdo, consulte Sobre Origens de Conteúdo.

Este tópico trata das seguintes informações:

Crawlers de Conteúdo Web
Crawlers de Conteúdo Remotos
Web Services de Conteúdo
Importar Segurança de Documentos
Solucionando Problemas de Resultados de um Crawling

Para saber como criar ou editar objetos administrativos (inclusive crawlers de conteúdo), clique aqui.

Crawlers de Conteúdo Web

Um crawler de conteúdo Web permite que usuários importem conteúdo Web para o portal.

Para saber mais sobre o Editor de Crawler de Conteúdo Web, clique em uma das páginas a seguir:

Escolher Origem de Conteúdo
Definições Principais
Exclusões de Página Web
Definições de Destino
Definições do Documento
Tipo de Conteúdo
Definições Avançadas
Definir Job
Propriedades e Nomes
Segurança (disponível somente durante a edição de um objeto)
Status e Histórico de Migração (disponível somente durante a edição de um objeto)

Crawlers de Conteúdo Remotos

Um crawler de conteúdo remoto permite que usuários importem conteúdo de um repositório externo para o portal.

Alguns provedores de crawling são instalados com o portal e ficam prontamente disponíveis para os usuários, mas outros exigem instalação e configuração manuais. Por exemplo, a Oracle oferece os seguintes provedores de crawling:

Arquivos do Windows NT (incluído com o software do portal)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Observação: Para informações sobre como obter provedores de crawling, consulte a Oracle Technology Network em http://www.oracle.com/technology/index.html. Para obter informações sobre a instalação de provedores de crawling, consulte o Installation Guide for Oracle WebCenter Interaction (disponível na Oracle Technology Network em http://www.oracle.com/technology/documentation/bea.html) ou a documentação que acompanha seu provedor de crawling. Se preferir, entre em contato com o administrador do portal.

Para criar um crawler de conteúdo remoto:

Instale o provedor de crawling no computador do portal ou em outro computador.
Crie um servidor remoto.
Crie um Web service de conteúdo (abordado a seguir).
Crie uma origem de conteúdo remota.
Crie um crawler de conteúdo remoto.

Para saber mais sobre o Editor de Crawler de Conteúdo Remoto, clique em uma das páginas do editor a seguir:

Escolher Origem de Conteúdo
Definições Principais
Definições do Documento
Tipo de Conteúdo
Definições Avançadas
Definir Job
Propriedades e Nomes
Segurança (disponível somente durante a edição de um objeto)
Status e Histórico de Migração (disponível somente durante a edição de um objeto)

Os seguintes provedores de crawling, se instalados, incluem pelo menos uma página extra no Editor de Crawler de Conteúdo Remoto.

Arquivo do Windows NT (incluído com o software do portal)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Web Services de Conteúdo

Os Web services de conteúdo permitem que você especifique definições gerais para seu repositório de conteúdo externo, deixando as definições de destino e segurança para serem definidas no crawler de conteúdo remoto e na origem de conteúdo remota associados. Isso permite rastrear diversos lugares do mesmo repositório de conteúdo sem ter de especificar todas as definições repetidamente.

Observação: Você cria Web services de conteúdo nos quais baseia as origens de conteúdo remotas. Para obter informações sobre origens de conteúdo, consulte Sobre Origens de Conteúdo.

Para saber mais sobre o Editor do Web Service de conteúdo, clique em uma das páginas do editor a seguir:

Definições Principais
Configuração HTTP
Preferências
Definições Avançadas do URL
Definições Avançadas
Definições de Autenticação
Preferências
Informações do Usuário
Definições de Depuração
Objetos Associados (somente disponível durante a edição de um objeto)
Propriedades e Nomes
Segurança (disponível somente durante a edição de um objeto)
Status e Histórico de Migração (disponível somente durante a edição de um objeto)

Importar Segurança de Documentos

É possível conceder automaticamente ao usuário acesso ao conteúdo importado por alguns crawlers de conteúdo remotos. O mapa de sincronização da ACL global mostra a esses crawlers de conteúdo como importar a segurança do documento de origem.

Para obter um exemplo de como funciona a importação de segurança, consulte Exemplo de Importação de Segurança.

Solucionar Problemas de Resultados de Crawling

Se seu crawler de conteúdo não importar o conteúdo esperado, confira alguns itens:

Certifique-se de que os filtros de pastas estão filtrando conteúdo corretamente. Para informações sobre teste de filtros, consulte a seção Testar filtros na página Definições Principais (Filtro).
Certifique-se de que o crawler de conteúdo coloque somente conteúdo desejado na pasta de destino. Se um documento não for filtrado em uma subpasta, o crawler de conteúdo deverá inserir o documento na pasta de destino. Isso é determinado por uma definição na página Definições Principais do editor de pastas.
Certifique-se de que o crawler de conteúdo não inseriu conteúdo na pasta Documentos Não Classificados. Se não for possível inserir um documento em uma pasta ou em uma subpasta de destino, o crawler de conteúdo deverá inseri-lo na pasta Documentos Não Classificados. Isso é determinado por uma definição na página Definições Avançadas do Editor de Crawler de Conteúdo. Se tiver as permissões corretas, você poderá exibir a pasta Documentos Não Classificados quando estiver editando o diretório ou ao clicar em Administração | Selecionar Utilitário | Acessar Documentos Não Classificados.
Certifique-se de que tenha, pelo menos, acesso para edição à pasta de destino.
No caso de crawlers de conteúdo Web, certifique-se de que os protocolos de exclusão do robô ou quaisquer exclusões ou inclusões não estejam impedindo que o crawler de conteúdo importe o conteúdo esperado. Isso é determinado por uma definição na página Exclusões de Página Web do Editor de Crawler de Conteúdo.
Certifique-se de que a informação de autenticação especificada na origem de conteúdo associada permita que o portal acesse o conteúdo.
Revise o histórico de jobs para obter mais informações.