Sunday, 9 October 2011

TradooIT Concordancier bilingue

Bonjour,

Je m'appelle Simon McDuff et ce blogue portera sur un produit que nous développons depuis bientôt 4 ans.
TradooIT est une "boîte à outils" pour les traducteurs professionnels. Pour l'instant, le premier outil que nous offrons sur Internet est le concordancier bilingue.

Une des raisons pour lesquelles nous avons créé cet outil,  c'est que nous trouvions que les produits existants pour les traducteurs pigistes (ceux que je connais, du moins) ne tirent pas partie de la technologie de pointe. En effet, comment expliquer que nous puissions faire des recherches sur Internet de façon instantanée, mais qu'il soit si long de consulter une petite mémoire de traduction? Et tout cela pour obtenir dix malheureux segments alignés... quand on sait qu'il y en a des milliers d'autres.

Un concordancier devrait faire beaucoup plus, comme donner des statistiques sur les traductions, les formes, les sources, etc. Il doit également surligner les occurrences dans le texte de départ et d'arrivée. Il peut aussi trouver des termes et leur définition un peu partout, comme dans Wikipédia ou Termium. Toutes ces fonctionnalités ne devraient pas prendre plus de 1 seconde. La philosophie de Google est de 400 millisecondes, mais bon, peut-être qu'un jour j'aurai le même standard.

C'est avec cette vision que nous avons créé notre concordancier bilingue. En fait, c'est en regardant des traducteurs faire des recherches dans des mémoires ou des concordanciers existants que nous avons voulu faciliter leur tâche.

Les corpus que nous utilisons proviennent d'Internet. Nous alignons des documents que nous trouvons sur Internet, et quelques sources proviennent du site Opus Corpus maintenu par Joerg Tiedemann. Joerg aligne des corpus avant de les offrir sur Internet, ce qui facilite grandement notre tâche. Il a écrit un livre Bitext Alignment, que j'ai lu l'été dernier, et j'ai même mis en oeuvre quelques-uns de ses algorithmes. Malheureusement, les corpus qu'il offre ne contiennent pas la page d'origine...

Voici les sites que notre mémoire contient jusqu'à présent :
- Agriculture et Agroalimentaire Canada
- CCHST
- EMEA (Opus Corpus)
- EUROPARL (Opus Corpus)
- Lois canadiennes
- Lois ontariennes
- Ministère de la Justice du Canada
- OpenSubtitles (Opus Corpus)
- Ressources humaines et Développement des compétences Canada (CNP et compétences en milieu de travail)
- Santé Canada
- Wikipédia - seulement pour la terminologie
- Organisation mondiale du commerce

Nous ne prenons pas toutes les pages sur les sites; seulement celles que nous jugeons avoir assez de contenu. Les pages qui sont difficiles à aligner sont quand même insérées pour l'instant. Cela changera dans les prochaines semaines.

Notre mémoire contient actuellement des millions de segments, ce qui est encore très loin de notre objectif.

Si vous aimeriez que nous ajoutions un site intéressant (bilingue), n'hésitez pas à communiquer avec moi!

Bonne recherche!

Simon McDuff

No comments:

Post a Comment