Monday 27 February 2012

Concordancier bilingue "sur les stéroÏdes"

Google n'est pas qu'un moteur de recherche, c'est un très bon moteur de recherche. Une page modifiée sur Internet se retrouvera réindexée assez rapidement.

Notre concordancier bilingue n'est pas encore tout à fait en temps réel. Une page qui a été changée ne se retrouve pas aussi rapidement dans notre index que dans celui de Google. Il y a beaucoup d'étapes à franchir... détecter les pages modifiées ou nouvelles sur Internet, détecter la page dans l'autre langue, extraire les segments, les aligner, enrichir les segments, créer des index et, finalement, distribuer les index dans notre architecture unique. Pour un corpus donné, il peut s'agir de beaucoup de données et de traitement.

Bref, il y a plusieurs problèmes à surmonter et les solutions ne sont pas tous bonnes. Nous ne voulons surtout pas sacrifier notre vitesse de recherche.

Nous avons commencé ce projet il y a quelques semaines. Enfin, nous avons mise en place la première étape qui consiste à mettre à jour certains sites en temps réel de façon automatique, et ce, plusieurs fois par jour.

Voici les deux sites en question :
HANSARD - Les débats parlementaires
NEWSGCCA - Centre des nouvelles du Canada

Pourquoi avoir commencé par ces deux sites? Eh bien, parce que, dans le cas de ces sites, il est facile de voir par où les fichiers sont ajoutés. Les débats parlementaire et le Centre des nouvelles du Canada effectuent leurs mises à jour à des endroits biens précis.

Ce n'est pas en temps réel, mais c'est assez proche. Vous pouvez le constater en consultant la page Web qui décrit nos corpus : Les statistiques des corpus de TradooIT. En fait, les nouvelles versions de ces deux sites sont indexées dans TradooIT avant Google! (2 pour TradooIT et 100 353 883 pour Google) Bon, il faut bien commencer quelque part...

D'un autre côté, il faut près d'un mois pour balayer certains sites. Alors, vous pouvez vous imaginez qu'il ne sera pas possible d'offrir du temps réel pour tous les sites. Par contre, notre architecture nous permet de savoir quelles pages ont été modifiées et de retraiter seulement ces pages-là! Donc, vous pouvez vous attendre à ce que la mise à jour des sites se fasse plus régulièrement bientôt!

S'il y a un site (nouveau ou pas) que vous aimeriez que nous réindexions en temps réel, n'hésitez pas à communiquer avec nous!

Bonne recherche!

Monday 13 February 2012

Le temps qui passe...

Combien de temps passez-vous à attendre vos résultats de recherche?

Vous ne le savez pas?
Supposons qu'un langagier effectue au moins 66 requêtes par jour en utilisant différents outils. Si le temps d'attente est de 1 seconde par requête, ça veut dire qu'il attendra 66 secondes par jour. Si le temps d'attente est de 5 secondes, il attendra 5 minutes et demie.

De temps en temps, il peut arriver que les résultats prennent plus de temps que d'habitude. On peut vivre avec ça. Mais, si nos 66 recherches prennent chacune 5 secondes à retourner des résultats, notre patience est mise à l'épreuve. En plus, s'il n'y a aucun résultat, ça peut devenir très frustrant. Une telle situation nous pousse à y penser deux fois avant de faire une requête.

Combien d'entre nous faisons une recherche dans Google juste pour nous rendre sur un site dont nous connaissons l'adresse URL? Nous le faisons parce que Google est rapide et qu'il nous corrigera si nous nous trompons!

Certains de nos utilisateurs font jusqu'à 600 requêtes par jour. Imaginez-vous, si les résultats mettaient 5 secondes à revenir, ces utilisateurs pourraient attendre jusqu'à 50 minutes par jour! Sérieusement, je ne pense pas que nous aurions des utilisateurs qui feraient autant de requêtes si notre système était lent. Notre concordancier retourne les résultats en moyenne en 250 à 500 millisecondes environ.


Est-ce acceptable? Notre objectif est de tout retourner en moins de 300 millisecondes. À cette vitesse, l'utilisateur interagit avec le système plutôt que d'attendre.

Maintenant, combien de temps passez-vous à chercher l'information dans les résultats retournés? En effet, même si la recherche est rapide, il faut quand même être en mesure de trouver l'information rapidement.

Le premier élément à regarder est le surlignage des chaînes dans les deux langues. J'espère qu'aujourd'hui tous les outils offrent cette fonctionnalité.

Deuxième élément : la présentation de l'information. Lorsqu'il y a 25 000 résultats, est-ce vraiment utile de voir seulement 10 segments alignés? Dans TradooIT, nous pensons qu'il est important d'avoir une vue d'ensemble de toutes les 25 000 occurrences. Une des façons de vous aider est d'afficher des statistiques sur différents aspects de votre recherche, et ce, pour la totalité des résultats. Ces rubriques (à gauche) peuvent aussi servir de filtre, tout dépendant de vos besoins et contextes.

Troisième étape, éviter que les utilisateurs aient à faire plusieurs recherches pour la même chose. Lorsqu'il y a peu ou pas de résultats, pourquoi ne pas vérifier l'orthographe (p. ex., evaluaiton) ou bien trouver une chaîne semblable (p. ex., records debts au lieu de recording debts)? Pour en savoir davantage à ce sujet, vous pouvez lire un autre blogue dédié à cette fonctionnalité. À ce titre, TradooIT offre aussi un langage d'interrogation qui permet de rechercher entre autres sur la racine des mots (p. ex., record+ debt+) et éviter de faire plusieurs recherches pour le singulier, pluriel, conjugaisons, etc. (Voir le blogue à ce sujet.)

Également, pourquoi ne pas rechercher aussi dans des sites terminologiques et ainsi faire d'une pierre deux, trois, quatre coups ou même plus?

Bref, il y a plein de petits détails qui font en sorte qu'un outil augmente ou baisse l'efficacité d'un langagier. On vous réserve d'autres petits détails du genre que vous allez voir au courant des semaines et des mois à venir...

Entre-temps, faites-nous part de vos idées pour augmenter votre efficacité!

Bonne recherche!

Thursday 2 February 2012

Quels corpus y a-t-il dans le concordancier bilingue TradooIT ?

Cette question nous a été posée à quelques reprises. Nous comprenons qu'il est très important pour vous de savoir la source des corpus pour des questions de qualité et de fiabilité. Notre concordancier montre la source de chaque occurrence, mais, jusqu'à tout récemment, il était impossible pour nos utilisateurs d'obtenir une vue d'ensemble des différentes sources de données de TradooIT. Certains utilisateurs ont même pris le temps de nous en informer! Je leur en remercie!

C'est donc pour satisfaire votre curiosité que nous avons construit la page suivante : "Les statistiques des corpus de TradooIT".

En plus de vous donner une description de chaque source, nous avons été plus loin! En effet, pour chaque corpus, nous fournissons plein d'autre renseignements : le nombre de documents, de segments, de mots ainsi que la dernière mise à jour effectuée.

La description est très utile. Ce n'est pas parce que LOICAN est là que nous indexons tout le site des lois canadiennes. Il arrive que seulement certaines sections des sites soient indexées et c'est dans la description que vous trouverez ces précisions. Nous n'avons pas encore terminé de rédiger les descriptions des sites, mais nous nous engageons à vous fournir le plus de détails possible sous peu.

Notre concordancier bilingue vous permet également de faire des recherches dans des sites terminologiques. Par contre, ceux-ci ne sont pas mentionnés sur la page des statistiques puisqu'il ne s'agit pas de corpus....

Nous travaillons en ce moment même à automatiser la mise à jour des données. Il est donc à prévoir que, très prochainement, nos corpus seront mis à jour régulièrement, de façon automatisée! (Ce sera d'ailleurs le sujet de mon prochain blogue.)

Nous avons mis un lien en bas de la page de statistiques des corpus, qui vous permet d'envoyer des commentaires ou des suggestions sur les corpus que vous aimeriez voir ajoutés à notre concordancier bilingue. N'hésitez pas à l'utiliser!

Bonne recherche!