
J’ai effectué aujourd’hui le petit nettoyage régulier des articles et billets indexés dans
Xoolyx.fr, le service d’information basé sur l’aggrégation de sites web et blogs. J’ai donc supprimé tous les articles antérieurs au 15 octobre 2007, soit plus de 260 000 articles et billets. Ce nettoyage fait passer le nombre des articles et billets de plus de 837 000 à un peu plus de 577 000 articles ayant moins de 5 mois d’ancienneté. Pour ceux qui aiment la technique, cette suppression dans la base de données a durée plus de 21 minutes et la ré-indexation des documents avec
Apache Lucene s’est effectuée en 10 minutes. A noter que suis passé de Lucene 2.0 à Lucene 2.3.1. Le temps d’indexation avec cette dernière version s’est donc significativement réduit.
Toujours un constat, après plus de deux ans d’indexation des blogs, il n’est pas encore donné à tout le monde de produire un XML RSS valide. Pour la majorité des blogs qui utilisent des plateformes hébergées, logiciels libres ou Feedburner, pas de problème, tout va à peu près bien. Mais alors pour ce qui est des sites que l’on appelle des « grands médias », c’est souvent du n’importe quoi avec du XML bien souvent non valide, avec du contenu encodé n’importe comment. Alors pour ces flux RSS bousillés, Xoolyx n’indexe rien, du moins pendant la période ou le flux contient des erreurs, tant pis pour eux, ils n’ont qu’à faire un boulot correct.
J’en ai aussi profité pour bloquer tous les robots d’indexation qui passeraient sur Xoolyx, ceux de Google, Microsoft et Yahoo compris. Pas la peine de vous demander si je suis devenu fou. En moyenne les visiteurs d’un site web proviennent à 70% des moteurs de recherche, mais pour le coup les pages indexées de Xoolyx dans les principaux moteurs sont uniquement les liens de redirection vers les articles, les utilisateurs venant par là ne verront même pas apparaitre les pages de Xoolyx. Alors à quoi bon à part générer des faux votes (et oui, si vous allez faire un tour sur Xoolyx, vous verrez quasiment tous les articles se trouvant sur les pages principales sont votés. Une partie infime de ceux-ci sont réellement effectués par des vrais utilisateurs, ils sont le fait des méchants robots qui n’hésitent pas suivre les liens javascript), j’ai donc choisi de m’en passer.