要配置此内容 Crawler 以避免将不需要的 Web 页面导入到门户,请执行以下操作:
默认情况下,此内容 Crawler 遵循 Web 服务器关于哪些页面可能对自动 Crawler 具有价值的建议。如果要忽略这些建议,请清除遵循目标站点的自动排除协议复选框。
一般情况下,这些建议有助于限制将不需要的内容搜索到门户中。但是,一些站点会提出非常严格的建议。如果内容 Crawler 未从站点中导入任何内容,请尝试关闭此选项。
默认情况下,此内容 Crawler 会保存所导入 Web 页面的 URL,以备源 Web 站点需要时使用。要将 URL 更改为小写形式,请选择将所有 URL 转换为小写。
要避免从某个 Web 站点区域导入内容或避免导入特定页面,请执行以下操作:
要指定避免搜索的区域,请单击 添加排除筛选器;然后,在文本框中键入要避免搜索的 Web 站点区域的 URL。
您可以使用通配符 (*) 进行更广泛的排除。例如,要避免搜索站点的销售信息,则可以键入 http://mycompany.com*sales。这种情况下,此 Crawler 将不导入来自 mycompany.com 的、在其 URL 中的任何位置包含“sales”的页面。
注:通配符用于文本的任意一侧。例如,如果键入 sales,则 Crawler 将不导入从目标 URL 可以访问的任何站点的、在其 URL 中的任意位置包含“sales”的页面。
重要提示:如果列出了排除项和包含项 (在步骤 5 中说明),则排除项只应用于包含的页面。例如,如果排除了 sales 并包含了 http://mycompany.com,则 Crawler 将导入 http://mycompany.com 中的所有页面,但不包括 URL 中的任意位置包含“sales”的页面。
要删除排除筛选器,请选择该筛选器并单击 。
要选中或清除所有排除筛选器对应的复选框,请选中或清除排除筛选器左侧的复选框。
默认情况下,此内容 Crawler 不会搜索或导入排除项中指定的任何页面。如果内容 Crawler 要从已排除页面上的链接导航到未排除且应导入的页面,请选择搜索排除的页面但不导入。
要将搜索限制为 Web 站点的区域或特定页面,请执行以下操作:
要指定此内容 Crawler 将搜索的位置,请单击添加包含筛选器;然后,在文本框中,键入要将搜索限制到的 Web 站点区域的 URL。由于 Web 站点可能包含其他站点的链接,可以使用包含项将内容 Crawler 限制于特定站点。要避免搜索其他站点,请将要搜索的站点的基础 URL 添加到包含列表中;例如 http://mycompany.com。
可以使用通配符 (*) 来包含更广泛的内容。例如,如果只希望搜索一次登入 (SSO) 的信息,则可以键入 http://mycompany.com*sso。在这种情况下,此内容 Crawler 仅导入来自 mycompany.com 的、其 URL 中的任意位置包含“sso”的页面。
注:通配符用于文本的任意一侧。例如,如果键入 sso,则内容 Crawler 将导入从目标 URL 可以访问的任何站点的、其 URL 中的任意位置包含“sso”的页面。
重要提示:如果列出了包含项和排除项,则排除项将仅应用于包含的页面。例如,如果包含 http://mycompany.com 并排除了 sso,则内容 Crawler 将导入 http://mycompany.com 的所有页面,但不包括 URL 中的任意位置包含“sso”的页面。
要删除包含筛选器,请选择该筛选器并单击 。
要选中或清除所有包含筛选器对应的复选框,请选中或清除包含筛选器左侧的复选框。
要显示与此帮助主题相关联的页面,请执行以下操作: