Monday 27 February 2012

Concordancier bilingue "sur les stéroÏdes"

Google n'est pas qu'un moteur de recherche, c'est un très bon moteur de recherche. Une page modifiée sur Internet se retrouvera réindexée assez rapidement.

Notre concordancier bilingue n'est pas encore tout à fait en temps réel. Une page qui a été changée ne se retrouve pas aussi rapidement dans notre index que dans celui de Google. Il y a beaucoup d'étapes à franchir... détecter les pages modifiées ou nouvelles sur Internet, détecter la page dans l'autre langue, extraire les segments, les aligner, enrichir les segments, créer des index et, finalement, distribuer les index dans notre architecture unique. Pour un corpus donné, il peut s'agir de beaucoup de données et de traitement.

Bref, il y a plusieurs problèmes à surmonter et les solutions ne sont pas tous bonnes. Nous ne voulons surtout pas sacrifier notre vitesse de recherche.

Nous avons commencé ce projet il y a quelques semaines. Enfin, nous avons mise en place la première étape qui consiste à mettre à jour certains sites en temps réel de façon automatique, et ce, plusieurs fois par jour.

Voici les deux sites en question :
HANSARD - Les débats parlementaires
NEWSGCCA - Centre des nouvelles du Canada

Pourquoi avoir commencé par ces deux sites? Eh bien, parce que, dans le cas de ces sites, il est facile de voir par où les fichiers sont ajoutés. Les débats parlementaire et le Centre des nouvelles du Canada effectuent leurs mises à jour à des endroits biens précis.

Ce n'est pas en temps réel, mais c'est assez proche. Vous pouvez le constater en consultant la page Web qui décrit nos corpus : Les statistiques des corpus de TradooIT. En fait, les nouvelles versions de ces deux sites sont indexées dans TradooIT avant Google! (2 pour TradooIT et 100 353 883 pour Google) Bon, il faut bien commencer quelque part...

D'un autre côté, il faut près d'un mois pour balayer certains sites. Alors, vous pouvez vous imaginez qu'il ne sera pas possible d'offrir du temps réel pour tous les sites. Par contre, notre architecture nous permet de savoir quelles pages ont été modifiées et de retraiter seulement ces pages-là! Donc, vous pouvez vous attendre à ce que la mise à jour des sites se fasse plus régulièrement bientôt!

S'il y a un site (nouveau ou pas) que vous aimeriez que nous réindexions en temps réel, n'hésitez pas à communiquer avec nous!

Bonne recherche!

No comments:

Post a Comment

Note: only a member of this blog may post a comment.