Thursday, 20 October 2011

Suggestions

Nous avons intégré à notre concordancier bilingue une nouvelle fonctionnalité : la suggestion de nouvelles recherches.

Combien de fois vous est-il arrivé de faire une faute de frappe lors de vos recherches? Selon nos statistiques... souvent.

Le module de suggestions vise à vous suggérer des chaînes plus susceptibles de vous intéresser que votre recherche actuelle. L'idée des suggestions n'est pas nouvelle, et il existe plusieurs façons de le faire.

Correcteur orthographique

Une des mises en oeuvre très populaire et facile à réaliser est le "correcteur orthographique". Celui-ci utilise un dictionnaire pour vérifier vos termes de recherche. Lorsque vos termes ne s'y trouvent pas, il calcule la distance entre vos termes et les mots qu'il contient. Plus la distance est petite, plus les mots sont susceptibles d'être retenus pour les suggestions. Par exemple, la correction des termes suivants serait un jeu d'enfant : "appartment", "adress", "evaluaiton", etc.

Jusqu'à présent, rien de nouveau. La plupart des sites offrent ce principe.

Chaînes

Maintenant, prenons la chaîne "Ontario Colleagues of Teachers". En théorie, tous les mots existent... donc pas de traitement à faire pour le correcteur orthographique. Celui-ci peut quand même suggérer une liste de mots semblables pour chaque mot, ce qui donne :

"Ontario Colleagues of Teachers"
"Ontario Colleague of Teachers"
"Ontario Colleague of Teacher"
"Ontario College of Teacher"
"Ontario Colleagues of Bleacher"
etc.

Mais il faut valider tout cela. Le correcteur orthographique ne peut pas faire cela à moins de contenir toutes les chaînes possibles, ce qui est impensable pour nous. Bien sûr, les moteurs de recherche donnent des suggestions, mais ce sont des expressions populaires "valides" recherchées partout dans le monde. Ils sont loin de contenir toutes les combinaisons possibles.

Notre approche ressemble à celle des moteurs de recherche, sauf qu'au lieu d'être fondée sur les "milliers" de recherches des autres utilisateurs, elle sera fondée sur nos corpus dans le contexte de la requête.

Donc, pour l'exemple qui précède, TradooIT suggérera dans un temps de 0,390 ms :

"Ontario College of Teachers"

En effet, les chaînes "Ontario Colleagues of Bleacher" ou "Ontario College of Teacher" n'existent pas dans notre corpus et ne sont donc pas retenues. Cette étape de validation vous évite de faire beaucoup de recherches dans nos corpus. Elle est non restrictive, ce qui veut dire que cela nous permet une certaine flexibilité dans les recherches.

Il arrive également que les suggestions n'ont aucun rapport avec votre recherche initiale... donc rien n'est parfait! Voici quelques exemples de suggestions cocasses :

"team building" -> "term sick building"
"mess things" -> "men think"

Je pense quand même que nous avons là un petit outil assez pratique et unique. Retenez bien que nous ne tenons pas une liste de toutes les chaînes valides : tout est calculé par rapport à nos corpus au moment de la requête. Tout cela, grâce à la rapidité de TradooIT. Merci TradooIT!

Lors de la mise en place de ce module, je me suis amusé à faire des recherches "erronées". Je dois dire que je m'en suis donné à coeur joie!

"Silly developpement"
"Ontario Colleagues of Teaser"
"Banal Street"

Bonne recherche!

No comments:

Post a Comment