Crawler et indexer son site Typo3 automatiquement

Posté le 21-04-2009

  1. Vous devez télécharger l’extension « Site Crawler » ici :

http://typo3.org/extensions/repository/view/crawler/current/

  1. Activez l’indexation du site en typoscript :
config.index_enable = 1
config.index_externals = 1
  1. Désactivez l’indexation à la volée :

2009-04-20_131623

  1. Configuration « TsConfig » à placer sur la page racine du site:
#set up a crawl for users that arent logged in
tx_crawler.crawlerCfg.paramSets.monsite =
tx_crawler.crawlerCfg.paramSets.monsite {
 cHash = 1
 procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
 baseUrl = http://mon_url/
}
# for tt_news
# _PID:40 is the sysfolder with the news records
# pidsOnly = 20 is the page with the news singeview.
tx_crawler.crawlerCfg.paramSets {
 tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:40]
 tt_news.procInstrFilter = tx_indexedsearch_reindex
 tt_news.cHash = 1
 tt_news.pidsOnly = 20
 tt_news.baseUrl = http://mon_url/
}
tx_crawler.crawlerCfg.paramSets {
 newscal = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:203]
 newscal.procInstrFilter = tx_indexedsearch_reindex
 newscal.cHash = 1
 newscal.pidsOnly = 204
 newscal.baseUrl = http://mon_url/
}
  1. Créez l’utilisateur backend sans groupe ni droits (user=_cli_crawler & mdp=_cli_crawler)

  2. Mettre en place un script SH qui lance l’indexation en 2 temps:
    • Mise en queue
    • Crawl du site
typo3/cli_dispatch.phpsh crawler_im 2 -d 99 -proc tx_indexedsearch_reindex -n 200 -o queue
typo3/cli_dispatch.phpsh crawler

Les paramètres de la fonction de mise en queue sont les suivants :

2 : ID de la page racine de l'indexation
-d 99: Profondeur de récursivité
-proc tx_indexedsearch_reindex: force la réindexation
-n 200: nombre d'url par minute à traiter
-o queue: construit la queue

Attention : Par défaut, la commande crawler ne parcourt que 100 urls, vous devez modifier ce paramètre dans l’extension manager ou alors lancer plusieurs fois la commande (par paquet de 100) :

2009-10-09_102902

Pour des compléments d’informations sur la TsConfig (utilisateurs authentifiés etc…) rendez-vous ici:
http://wiki.typo3.org/index.php/Ext_crawler

comments powered by Disqus