Informazioni sui crawler di contenuto

È possibile creare un crawler di contenuto per importare contenuto nel portale dai repository di contenuto esterni. Sarà necessario eseguire un job associato al crawler di contenuto per eseguire ricerche periodiche di contenuto nel repository esterno e importare il contenuto rilevato. Per informazioni sui job, vedere Informazioni sui job.

Nota: i crawler di contenuto dipendono dalle origini contenuto. Per informazioni sulle origini dati, vedere Informazioni sulle origini contenuto.

In questo argomento vengono trattati:

Crawler di contenuto Web
Crawler di contenuto remoto
Servizi Web contenuto
Importazione della sicurezza dei documenti
Risoluzione di problemi relativi ai risultati di un crawling

Per ulteriori informazioni sulla creazione e modifica degli oggetti amministrativi (crawler di contenuto inclusi), fare clic qui.

Crawler di contenuto Web

Un crawler di contenuto Web consente di importare contenuto dal Web nel portale.

Per ulteriori informazioni sull'editor Crawler di contenuto Web, fare clic su una delle seguenti pagine dell'editor:

Scegli un'origine contenuto
Impostazioni principali
Esclusioni pagine Web
Impostazioni di destinazione
Impostazioni documento
Tipo di contenuto
Impostazioni avanzate
Imposta job
Proprietà e nomi
Sicurezza (disponibile solo in caso di modifica di un oggetto)
Cronologia e stato migrazioni (disponibile solo in caso di modifica di un oggetto)

Crawler di contenuto remoto

Un crawler di contenuto remoto consente agli utenti di importare contenuto da un repository di contenuto esterno nel portale.

Alcuni provider di crawling vengono installati con il portale e risultano subito disponibili ai relativi utenti. Altri provider devono essere installati e impostati manualmente. Ad esempio, Oracle offre i provider di crawling riportati di seguito.

File Windows NT (fornito con il software del portale)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Nota: per ulteriori informazioni su come ottenere provider di crawling, consultare Oracle Technology Network all'indirizzo http://www.oracle.com/technology/index.html. Per ulteriori informazioni sull'installazione dei provider di crawling, vedere Installation Guide for WebCenter Interaction, disponibile in Oracle Technology Network all'indirizzo http://www.oracle.com/technology/documentation/bea.html o la documentazione fornita assieme al provider di crawling. In alternativa, contattare l'amministratore del portale.

Per creare un nuovo crawler di contenuto remoto, effettuare le operazioni riportate di seguito.

Installare il provider di crawling sul computer del portale o su un altro computer.
Creare un server remoto.
Creare un servizio Web contenuto (vedere più avanti).
Creare un'origine contenuto remota.
Creare un crawler di contenuto remoto.

Per ulteriori informazioni sull'editor Crawler di contenuto remoto, fare clic su una delle seguenti pagine dell'editor:

Scegli un'origine contenuto
Impostazioni principali
Impostazioni documento
Tipo di contenuto
Impostazioni avanzate
Imposta job
Proprietà e nomi
Sicurezza (disponibile solo in caso di modifica di un oggetto)
Cronologia e stato migrazioni (disponibile solo in caso di modifica di un oggetto)

I seguenti provider di crawling installati includono almeno una pagina aggiuntiva per l'editor Crawler di contenuto remoto.

File Windows NT (fornito con il software del portale)
Documentum
Microsoft Exchange
Lotus Notes
Oracle Universal Content Management

Servizi Web contenuto

I servizi Web contenuto consentono di specificare le impostazioni generali per il repository di contenuto remoto, lasciando invariate le impostazioni di destinazione e sicurezza nell'origine di autenticazione remota associata e nel crawler di contenuto remoto. Ciò consente di eseguire il crawling di più posizioni dello stesso repository di contenuto senza dover ripetutamente specificare tutte le impostazioni.

Nota: è possibile creare servizi Web contenuto su cui basare le origini contenuto remoto. Per informazioni sulle origini dati, vedere Informazioni sulle origini contenuto.

Per ulteriori informazioni sull'editor dei servizi Web contenuto, fare clic su una delle seguenti pagine dell'editor:

Impostazioni principali
Configurazione HTTP
Preferenze
Impostazioni URL avanzate
Impostazioni avanzate
Impostazioni di autenticazione
Preferenze
Informazioni utente
Impostazioni debug
Oggetti associati (disponibile solo in caso di modifica di un oggetto)
Proprietà e nomi
Sicurezza (disponibile solo in caso di modifica di un oggetto)
Cronologia e stato migrazioni (disponibile solo in caso di modifica di un oggetto)

Importazione della sicurezza dei documenti

Agli utenti può essere automaticamente concesso l'accesso al contenuto importato da alcuni crawler di contenuto remoti. La mappa di sincronizzazione ACL globale indica a tali crawler di contenuto come importare la sicurezza dei documenti di origine.

Se si desidera visualizzare un esempio di importazione della sicurezza, fare clic su Esempio di importazione della sicurezza.

Risoluzione di problemi relativi ai risultati di un crawling

Se il crawler di contenuto non importa il contenuto previsto, è consigliabile controllare quanto segue.

Verificare che i filtri delle cartelle eseguano correttamente l'applicazione di filtri al contenuto. Per ulteriori informazioni su come controllare i filtri, vedere la sezione Test dei filtri nella pagina Impostazioni principali (Filtro).
Verificare che il crawler di contenuto non abbia collocato contenuto indesiderato nella cartella di destinazione. Se un documento non passa i filtri di qualsiasi cartella secondaria, il crawler di contenuto potrà collocare il documento in una cartella di destinazione. Ciò viene determinato da un'impostazione nella pagina Impostazioni principali dell'editor Cartella.
Verificare che il crawler di contenuto non abbia posizionato contenuto nella cartella Documenti non classificati. Se un documento non può essere inserito in alcuna cartella o cartella secondaria di destinazione, il crawler di contenuto potrebbe posizionarlo nella cartella Documenti non classificati. Ciò viene determinato da un'impostazione nella pagina Impostazioni avanzate dell'editor Crawler di contenuto. Se si dispone delle autorizzazioni corrette, sarà possibile visualizzare la cartella Documenti non classificati mentre si modifica la directory o facendo clic su Amministrazione | Seleziona utility | Accedi a documenti non classificati.
Assicurarsi di disporre almeno dell'accesso di tipo Modifica alla cartella di destinazione.
Per i crawler di contenuto Web, verificare che i protocolli di esclusione robot o qualsiasi esclusione o inclusione non impediscano al crawler di importare il contenuto previsto. Ciò è determinato da un'impostazione nella pagina Esclusioni pagine Web dell'editor crawler di contenuto.
Verificare che le informazioni di autenticazione specificate nell'origine contenuto associata consentano al portale di accedere al contenuto.
Rivedere la cronologia job per ulteriori informazioni.