Nous avons intégré à notre concordancier bilingue une nouvelle fonctionnalité : la suggestion de nouvelles recherches.
Combien de fois vous est-il arrivé de faire une faute de frappe lors de vos recherches? Selon nos statistiques... souvent.
Le module de suggestions vise à vous suggérer des chaînes plus susceptibles de vous intéresser que votre recherche actuelle. L'idée des suggestions n'est pas nouvelle, et il existe plusieurs façons de le faire.
Correcteur orthographique
Une des mises en oeuvre très populaire et facile à réaliser est le "correcteur orthographique". Celui-ci utilise un dictionnaire pour vérifier vos termes de recherche. Lorsque vos termes ne s'y trouvent pas, il calcule la distance entre vos termes et les mots qu'il contient. Plus la distance est petite, plus les mots sont susceptibles d'être retenus pour les suggestions. Par exemple, la correction des termes suivants serait un jeu d'enfant : "appartment", "adress", "evaluaiton", etc.
Jusqu'à présent, rien de nouveau. La plupart des sites offrent ce principe.
Chaînes
Maintenant, prenons la chaîne "Ontario Colleagues of Teachers". En théorie, tous les mots existent... donc pas de traitement à faire pour le correcteur orthographique. Celui-ci peut quand même suggérer une liste de mots semblables pour chaque mot, ce qui donne :
"Ontario Colleagues of Teachers"
"Ontario Colleague of Teachers"
"Ontario Colleague of Teacher"
"Ontario College of Teacher"
"Ontario Colleagues of Bleacher"
etc.
Mais il faut valider tout cela. Le correcteur orthographique ne peut pas faire cela à moins de contenir toutes les chaînes possibles, ce qui est impensable pour nous. Bien sûr, les moteurs de recherche donnent des suggestions, mais ce sont des expressions populaires "valides" recherchées partout dans le monde. Ils sont loin de contenir toutes les combinaisons possibles.
Notre approche ressemble à celle des moteurs de recherche, sauf qu'au lieu d'être fondée sur les "milliers" de recherches des autres utilisateurs, elle sera fondée sur nos corpus dans le contexte de la requête.
Donc, pour l'exemple qui précède, TradooIT suggérera dans un temps de 0,390 ms :
"Ontario College of Teachers"
En effet, les chaînes "Ontario Colleagues of Bleacher" ou "Ontario College of Teacher" n'existent pas dans notre corpus et ne sont donc pas retenues. Cette étape de validation vous évite de faire beaucoup de recherches dans nos corpus. Elle est non restrictive, ce qui veut dire que cela nous permet une certaine flexibilité dans les recherches.
Il arrive également que les suggestions n'ont aucun rapport avec votre recherche initiale... donc rien n'est parfait! Voici quelques exemples de suggestions cocasses :
"team building" -> "term sick building"
"mess things" -> "men think"
Je pense quand même que nous avons là un petit outil assez pratique et unique. Retenez bien que nous ne tenons pas une liste de toutes les chaînes valides : tout est calculé par rapport à nos corpus au moment de la requête. Tout cela, grâce à la rapidité de TradooIT. Merci TradooIT!
Lors de la mise en place de ce module, je me suis amusé à faire des recherches "erronées". Je dois dire que je m'en suis donné à coeur joie!
"Silly developpement"
"Ontario Colleagues of Teaser"
"Banal Street"
Bonne recherche!
Thursday, 20 October 2011
Sunday, 9 October 2011
TradooIT Concordancier bilingue
Bonjour,
Je m'appelle Simon McDuff et ce blogue portera sur un produit que nous développons depuis bientôt 4 ans.
TradooIT est une "boîte à outils" pour les traducteurs professionnels. Pour l'instant, le premier outil que nous offrons sur Internet est le concordancier bilingue.
Une des raisons pour lesquelles nous avons créé cet outil, c'est que nous trouvions que les produits existants pour les traducteurs pigistes (ceux que je connais, du moins) ne tirent pas partie de la technologie de pointe. En effet, comment expliquer que nous puissions faire des recherches sur Internet de façon instantanée, mais qu'il soit si long de consulter une petite mémoire de traduction? Et tout cela pour obtenir dix malheureux segments alignés... quand on sait qu'il y en a des milliers d'autres.
Un concordancier devrait faire beaucoup plus, comme donner des statistiques sur les traductions, les formes, les sources, etc. Il doit également surligner les occurrences dans le texte de départ et d'arrivée. Il peut aussi trouver des termes et leur définition un peu partout, comme dans Wikipédia ou Termium. Toutes ces fonctionnalités ne devraient pas prendre plus de 1 seconde. La philosophie de Google est de 400 millisecondes, mais bon, peut-être qu'un jour j'aurai le même standard.
C'est avec cette vision que nous avons créé notre concordancier bilingue. En fait, c'est en regardant des traducteurs faire des recherches dans des mémoires ou des concordanciers existants que nous avons voulu faciliter leur tâche.
Les corpus que nous utilisons proviennent d'Internet. Nous alignons des documents que nous trouvons sur Internet, et quelques sources proviennent du site Opus Corpus maintenu par Joerg Tiedemann. Joerg aligne des corpus avant de les offrir sur Internet, ce qui facilite grandement notre tâche. Il a écrit un livre Bitext Alignment, que j'ai lu l'été dernier, et j'ai même mis en oeuvre quelques-uns de ses algorithmes. Malheureusement, les corpus qu'il offre ne contiennent pas la page d'origine...
Voici les sites que notre mémoire contient jusqu'à présent :
- Agriculture et Agroalimentaire Canada
- CCHST
- EMEA (Opus Corpus)
- EUROPARL (Opus Corpus)
- Lois canadiennes
- Lois ontariennes
- Ministère de la Justice du Canada
- OpenSubtitles (Opus Corpus)
- Ressources humaines et Développement des compétences Canada (CNP et compétences en milieu de travail)
- Santé Canada
- Wikipédia - seulement pour la terminologie
- Organisation mondiale du commerce
Nous ne prenons pas toutes les pages sur les sites; seulement celles que nous jugeons avoir assez de contenu. Les pages qui sont difficiles à aligner sont quand même insérées pour l'instant. Cela changera dans les prochaines semaines.
Notre mémoire contient actuellement des millions de segments, ce qui est encore très loin de notre objectif.
Si vous aimeriez que nous ajoutions un site intéressant (bilingue), n'hésitez pas à communiquer avec moi!
Bonne recherche!
Simon McDuff
Je m'appelle Simon McDuff et ce blogue portera sur un produit que nous développons depuis bientôt 4 ans.
TradooIT est une "boîte à outils" pour les traducteurs professionnels. Pour l'instant, le premier outil que nous offrons sur Internet est le concordancier bilingue.
Une des raisons pour lesquelles nous avons créé cet outil, c'est que nous trouvions que les produits existants pour les traducteurs pigistes (ceux que je connais, du moins) ne tirent pas partie de la technologie de pointe. En effet, comment expliquer que nous puissions faire des recherches sur Internet de façon instantanée, mais qu'il soit si long de consulter une petite mémoire de traduction? Et tout cela pour obtenir dix malheureux segments alignés... quand on sait qu'il y en a des milliers d'autres.
Un concordancier devrait faire beaucoup plus, comme donner des statistiques sur les traductions, les formes, les sources, etc. Il doit également surligner les occurrences dans le texte de départ et d'arrivée. Il peut aussi trouver des termes et leur définition un peu partout, comme dans Wikipédia ou Termium. Toutes ces fonctionnalités ne devraient pas prendre plus de 1 seconde. La philosophie de Google est de 400 millisecondes, mais bon, peut-être qu'un jour j'aurai le même standard.
C'est avec cette vision que nous avons créé notre concordancier bilingue. En fait, c'est en regardant des traducteurs faire des recherches dans des mémoires ou des concordanciers existants que nous avons voulu faciliter leur tâche.
Les corpus que nous utilisons proviennent d'Internet. Nous alignons des documents que nous trouvons sur Internet, et quelques sources proviennent du site Opus Corpus maintenu par Joerg Tiedemann. Joerg aligne des corpus avant de les offrir sur Internet, ce qui facilite grandement notre tâche. Il a écrit un livre Bitext Alignment, que j'ai lu l'été dernier, et j'ai même mis en oeuvre quelques-uns de ses algorithmes. Malheureusement, les corpus qu'il offre ne contiennent pas la page d'origine...
Voici les sites que notre mémoire contient jusqu'à présent :
- Agriculture et Agroalimentaire Canada
- CCHST
- EMEA (Opus Corpus)
- EUROPARL (Opus Corpus)
- Lois canadiennes
- Lois ontariennes
- Ministère de la Justice du Canada
- OpenSubtitles (Opus Corpus)
- Ressources humaines et Développement des compétences Canada (CNP et compétences en milieu de travail)
- Santé Canada
- Wikipédia - seulement pour la terminologie
- Organisation mondiale du commerce
Nous ne prenons pas toutes les pages sur les sites; seulement celles que nous jugeons avoir assez de contenu. Les pages qui sont difficiles à aligner sont quand même insérées pour l'instant. Cela changera dans les prochaines semaines.
Notre mémoire contient actuellement des millions de segments, ce qui est encore très loin de notre objectif.
Si vous aimeriez que nous ajoutions un site intéressant (bilingue), n'hésitez pas à communiquer avec moi!
Bonne recherche!
Simon McDuff
Subscribe to:
Posts (Atom)