Para configurar este crawler de forma a evitar a importação de páginas Web indesejadas para o portal:
Por default, este crawler segue as recomendações
do servidor Web sobre quais páginas podem ser úteis para crawlers de conteúdo
automatizados. Para ignorar essas recomendações, desmarque a caixa de
seleção Obedecer aos protocolos de exclusão
do robô do site de destino.
Em geral, essas recomendações ajudam a limitar o crawling de conteúdos
indesejados para o portal. Entretanto, alguns sites apresentam recomendações
muito severas. Se o crawler não estiver importando nenhum conteúdo de
um site, tente desativar essa opção.
Por default, o crawler salva os URLs de páginas Web importadas no formato usado no Website de origem. Para alterar os URLs para minúsculas, selecione Converter todos os URLs em minúsculas.
Para evitar a importação de conteúdos de uma área de um Website ou evitar a importação de páginas específicas:
Para especificar uma área a ser evitada, clique
em Adicionar
filtro de exclusão; em seguida; na caixa de texto, digite o URL
na área do Web site que você deseja evitar.
Você pode usar a notação de curinga (*) para tornar a exclusão
mais geral. Por exemplo, para evitar crawling das informações de venda
de um site, você pode digitar http://mycompany.com*sales.
Como resultado, este crawler não importaria nenhuma página de mycompany.com
que tem "sales" em qualquer lugar do URL.
Observação: Os curingas são assumidos no lado do texto.
Por exemplo, se você digitar sales,
o crawler não importará nenhuma página de nenhum
site acessível do URL de destino que tem "sales" em qualquer
lugar do URL.
Importante: Se você listar as exclusões e
inclusões (descritas na etapa 5), as exclusões serão aplicadas somente
às páginas incluídas. Por exemplo,
se você excluiu sales e incluiu
http://mycompany.com, seu crawler
importaria todas as páginas de http://mycompany.com exceto
para essas páginas que tinham "sales" em qualquer lugar do URL.
Para remover uma exclusão, selecione a exclusão
e clique em .
Para marcar ou desmarcar todas as caixas de seleção de exclusão, marque ou desmarque a caixa à esquerda de Exclusões.
Por default, o crawler não rastreia nem importa nenhuma página especificada nas exclusões. Se o crawler navegar de um link numa página excluída para uma página que não esteja excluída e que deveria ser importada, selecione Rastrear páginas excluídas, mas não importá-las.
Para limitar o crawling a uma área de um Website ou a páginas específicas:
Para especificar onde este crawler de conteúdo
pode ser submetido a crawling, clique em Adicionar filtro de inclusão; em seguida, na caixa
de texto, digite o URL na área do Web site para a qual você deseja restringir
seu crawling. Como os Web sites podem conter links para outros sites,
você pode usar as inclusões para manter o crawler de conteúdo em um site
específico. Para evitar crawling de outros sites, adicione o URL base
do site que você deseja fazer crawling para a lista de inclusões, por
exemplo, http://mycompany.com.
Você pode usar a notação curinga (*) para fazer a inclusão geral.
Por exemplo, se quiser fazer crawling somente de informações sobre sign-on
único (SSO), você pode digitarhttp://mycompany.com*sso.
Como resultado, este crawler de conteúdo importaria somente páginas de
mycompany.com que tem "sso" em qualquer lugar do URL.
Observação:O curingas são assumidos no lado de seu texto.
Por exemplo, se você digitar sso,
o crawler de conteúdo importará qualquer página de qualquer
site acessível do URL de destino que tem "sso" em qualquer
lugar do URL.
Importante: Se você listar inclusões e
exclusões, as exclusões são aplicadas somente às páginas incluídas.
Por exemplo, se você incluiu http://mycompany.com
e excluiu sso, seu crawler de
conteúdo importaria todas as páginas de http://mycompany.com exceto
para aquelas páginas que tinham "sso" em qualquer lugar do URL.
Para remover um filtro de inclusão, selecione
o filtro e clique em .
Para marcar ou desmarcar todas as caixas de seleção do filtro de inclusão, marque ou desmarque a caixa à esquerda de Filtros de Inclusão.
Para exibir a página associada a este tópico de ajuda: