Web 页排除

要配置此内容 Crawler 以避免将不需要的 Web 页面导入到门户,请执行以下操作:

  1. 默认情况下,此内容 Crawler 遵循 Web 服务器关于哪些页面可能对自动 Crawler 具有价值的建议。如果要忽略这些建议,请清除遵循目标站点的自动排除协议复选框。

    一般情况下,这些建议有助于限制将不需要的内容搜索到门户中。但是,一些站点会提出非常严格的建议。如果内容 Crawler 未从站点中导入任何内容,请尝试关闭此选项。

  2. 默认情况下,此内容 Crawler 会保存所导入 Web 页面的 URL,以备源 Web 站点需要时使用。要将 URL 更改为小写形式,请选择将所有 URL 转换为小写

  3. 要避免从某个 Web 站点区域导入内容或避免导入特定页面,请执行以下操作:

  4. 默认情况下,此内容 Crawler 不会搜索或导入排除项中指定的任何页面。如果内容 Crawler 要从已排除页面上的链接导航到未排除且导入的页面,请选择搜索排除的页面但不导入

  5. 要将搜索限制为 Web 站点的区域或特定页面,请执行以下操作:


  1. 单击管理
  2. 打开内容 Crawler 编辑器:
  3. 在左侧的“编辑对象设置”下,单击 Web 页排除