1. Vous devez télécharger l’extension « Site Crawler » ici :

http://typo3.org/extensions/repository/view/crawler/current/


2. Activez l’indexation du site en typoscript :

config.index_enable = 1
config.index_externals = 1

3. Désactivez l’indexation à la volée :

2009-04-20_131623

4. Configuration « TsConfig » à placer sur la page racine du site:

#set up a crawl for users that arent logged in

tx_crawler.crawlerCfg.paramSets.monsite =
tx_crawler.crawlerCfg.paramSets.monsite {
 cHash = 1
 procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
 baseUrl = http://mon_url/
}

# for tt_news
# _PID:40 is the sysfolder with the news records
# pidsOnly = 20 is the page with the news singeview.

tx_crawler.crawlerCfg.paramSets {
 tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:40]
 tt_news.procInstrFilter = tx_indexedsearch_reindex
 tt_news.cHash = 1
 tt_news.pidsOnly = 20
 tt_news.baseUrl = http://mon_url/
}
tx_crawler.crawlerCfg.paramSets {
 newscal = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:203]
 newscal.procInstrFilter = tx_indexedsearch_reindex
 newscal.cHash = 1
 newscal.pidsOnly = 204
 newscal.baseUrl = http://mon_url/
}

5. Créez l’utilisateur backend sans groupe ni droits (user=_cli_crawler & mdp=_cli_crawler)

6. Mettre en place un script SH qui lance l’indexation en 2 temps:
- Mise en queue
- Crawl du site

typo3/cli_dispatch.phpsh crawler_im 2 -d 99 -proc tx_indexedsearch_reindex -n 200 -o queue
typo3/cli_dispatch.phpsh crawler

Les paramètres de la fonction de mise en queue sont les suivants :

2 : ID de la page racine de l'indexation
-d 99: Profondeur de récursivité
-proc tx_indexedsearch_reindex: force la réindexation
-n 200: nombre d'url par minute à traiter
-o queue: construit la queue

Attention : Par défaut, la commande crawler ne parcourt que 100 urls, vous devez modifier ce paramètre dans l’extension manager ou alors lancer plusieurs fois la commande (par paquet de 100) :

2009-10-09_102902

Pour des compléments d’informations sur la TsConfig (utilisateurs authentifiés etc…) rendez-vous ici:
http://wiki.typo3.org/index.php/Ext_crawler

Partager :


Article(s) sur le même sujet :

  1. CMS PHP : Site de démo TYPO3 4.2
  2. TYPO3 Profiler pour optimiser les performances d’un site TYPO3
  3. Bienvenue à Site’nGo
  4. Script de sauvegarde de site
  5. Générer des urls « propres » avec typo3