Crawler et indexer son site Typo3 automatiquement
21/04/09
1. Vous devez télécharger l’extension « Site Crawler » ici :
http://typo3.org/extensions/repository/view/crawler/current/
2. Activez l’indexation du site en typoscript :
config.index_enable = 1 config.index_externals = 1
3. Désactivez l’indexation à la volée :

4. Configuration « TsConfig » à placer sur la page racine du site:
#set up a crawl for users that arent logged in
tx_crawler.crawlerCfg.paramSets.monsite =
tx_crawler.crawlerCfg.paramSets.monsite {
cHash = 1
procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
baseUrl = http://mon_url/
}
# for tt_news
# _PID:40 is the sysfolder with the news records
# pidsOnly = 20 is the page with the news singeview.
tx_crawler.crawlerCfg.paramSets {
tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:40]
tt_news.procInstrFilter = tx_indexedsearch_reindex
tt_news.cHash = 1
tt_news.pidsOnly = 20
tt_news.baseUrl = http://mon_url/
}
tx_crawler.crawlerCfg.paramSets {
newscal = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:203]
newscal.procInstrFilter = tx_indexedsearch_reindex
newscal.cHash = 1
newscal.pidsOnly = 204
newscal.baseUrl = http://mon_url/
}
5. Créez l’utilisateur backend sans groupe ni droits (user=_cli_crawler & mdp=_cli_crawler)
6. Mettre en place un script SH qui lance l’indexation en 2 temps:
- Mise en queue
- Crawl du site
typo3/cli_dispatch.phpsh crawler_im 2 -d 99 -proc tx_indexedsearch_reindex -n 200 -o queue typo3/cli_dispatch.phpsh crawler
Les paramètres de la fonction de mise en queue sont les suivants :
2 : ID de la page racine de l'indexation -d 99: Profondeur de récursivité -proc tx_indexedsearch_reindex: force la réindexation -n 200: nombre d'url par minute à traiter -o queue: construit la queue
Attention : Par défaut, la commande crawler ne parcourt que 100 urls, vous devez modifier ce paramètre dans l’extension manager ou alors lancer plusieurs fois la commande (par paquet de 100) :

Pour des compléments d’informations sur la TsConfig (utilisateurs authentifiés etc…) rendez-vous ici:
http://wiki.typo3.org/index.php/Ext_crawler
Article(s) sur le même sujet :



21 avril 2009 - 14 h 44 min
Thank you for the nice review of setting up crawler with indexed_search. I’m hoping your procInstrFilter settings fix my realurl recognition issue.