Wednesday 7 December 2011

Nouvelle source terminologique dans TradooIT : ONTERM

Vous savez probablement déjà que toutes les recherches que vous faites dans TradooIT peuvent vous retourner des résultats provenant de Termium.

Nous avons maintenant ajouté ONTERM comme source de terminologie. ONTERM contient environ 23 000 entrées, principalement des appellations officielles du gouvernement ontarien et des appellations génériques.(ex: aboriginal affairs)

S'il y a une source terminologique que vous aimeriez voir ajouter dans notre concordancier bilingue, n'hésitez surtout pas à communiquer avec nous!

Bonne recherche!

Wednesday 23 November 2011

Baptême de TradooIT

Au cours des deux dernières semaines, nous avons pris part à deux conférences, celle de l'AILIA et celle de l'OTTIAQ. Nous pouvons dire que ce fut le baptême de notre concordancier bilingue, car c'était la première fois que nous le montrions au grand public.

Nous étions impatients (et même anxieux) de vous rencontrer et de recevoir vos commentaires. Bien sûr, nous aurions pu repousser la présentation et améliorer le produit... faire d'autres tests... allonger la période d'essai interne... Mais nous avons déjà fait tout cela. Ce serait mentir que de dire que le produit n'était pas prêt.

Lors de la présentation de notre produit, vos commentaires ont tous été très positifs, ce qui vient confirmer ce que nous pensions : TradooIT comble des besoins grâce à ses fonctionnalités uniques.

Vous avez même eu de bonnes idées pour améliorer le produit. Nous ne pouvions pas en demander plus!

Cela dit, nous continuerons de travailler fort pour améliorer le produit, et j'espère que vous suivrez notre évolution!

Merci à tous les participants!

Bonne recherche!

Thursday 3 November 2011

Terminologie et Politique

La terminologie est quelque chose de très précieux lorsqu'elle est bien structurée. Cette définition s'applique bien à TERMIUM que nous avons ajouté récemment à notre index terminologique. Donc, lorsque vous faites une recherche qui se trouve dans TERMIUM, notre concordancier vous suggérera le terme de TERMIUM en plus de celui de Wikipédia.

Nous aimerions ajouter d'autres banques de terminologie, mais c'est quelquefois très ardu. Pourtant, la difficulté ne se situe pas au niveau technologique mais bien politique. Nous pourrions aller balayer les sites terminologiques sans ne rien dire à personne. Cependant, nous respectons toujours les normes Web qui empêchent l'indexation de certaines pages sur Internet. Nous demandons également la permission aux responsables d'abord, afin d'être aussi transparents que possible dans notre démarche.

Prenons par exemple le Grand dictionnaire terminologique. Nous pourrions aller balayer le site, mais les normes Web en interdisent l'indexation. Nous avons donc communiqué avec les responsables pour leur demander l'accès à leurs données. La première réponse a été bouleversante. En effet, on nous a laissé entendre au téléphone que seule l'entreprise X peut obtenir ces données publiques. Lorsque nous leur avons mentionné qu'en tant qu'organisation publique ils ne pouvaient pas favoriser une entreprise aux dépens d'une autre, ils nous ont répondu avec nervosité qu'ils évalueraient notre dossier. Quelques temps plus tard, nous recevions un courriel "officiel". Une nouvelle phase de reconfiguration de leur infrastructure (2009-2014) leur impose de mettre un embargo sur la diffusion de leurs données à de nouvelles entreprises. Et ce, même si cela n'exige aucun travail de leur part, puisque nous utilisons nos propres outils pour balayer les sites. Bel alibi! Ça ne me semble pas très honnête, mais j'espère que je me trompe!

Certains sites terminologiques publics semblent vouloir garder leurs données pour eux-mêmes. Pourtant, ils ne se rendent pas compte que, en acceptant de les partager, ils ne feraient qu'accroître leur visibilité puisque nous redirigeons nos clients vers leur site de toute façon. Bref, il s'agirait pour eux d'une publicité gratuite! Mais si cela risque de réduire la visibilité de l'entreprise X, alors je comprends un peu mieux.

Bonne recherche!

Tuesday 1 November 2011

Ajout de nouveaux corpus dans notre concordancier bilingue

Nous sommes très fiers d'ajouter dans notre mémoire publique 5 nouveaux corpus qui représentent environ 20 millions de mots.

Il s'agit des sites suivants :
- Statistique Canada
- Ministère de la Justice
- Affaires étrangères et Commerce international
- Industrie Canada
- Diversification de l'économie de l'Ouest Canada

Comme dans tous nos autres corpus, les segments ont été alignés de façon purement automatique, et aucun filtre n'enlève les alignements de moins bonne qualité. Les résultats sont vraiment encourageants, mais nous continuerons de travailler à améliorer la qualité de notre alignement!

Bonne recherche!

Thursday 20 October 2011

Suggestions

Nous avons intégré à notre concordancier bilingue une nouvelle fonctionnalité : la suggestion de nouvelles recherches.

Combien de fois vous est-il arrivé de faire une faute de frappe lors de vos recherches? Selon nos statistiques... souvent.

Le module de suggestions vise à vous suggérer des chaînes plus susceptibles de vous intéresser que votre recherche actuelle. L'idée des suggestions n'est pas nouvelle, et il existe plusieurs façons de le faire.

Correcteur orthographique

Une des mises en oeuvre très populaire et facile à réaliser est le "correcteur orthographique". Celui-ci utilise un dictionnaire pour vérifier vos termes de recherche. Lorsque vos termes ne s'y trouvent pas, il calcule la distance entre vos termes et les mots qu'il contient. Plus la distance est petite, plus les mots sont susceptibles d'être retenus pour les suggestions. Par exemple, la correction des termes suivants serait un jeu d'enfant : "appartment", "adress", "evaluaiton", etc.

Jusqu'à présent, rien de nouveau. La plupart des sites offrent ce principe.

Chaînes

Maintenant, prenons la chaîne "Ontario Colleagues of Teachers". En théorie, tous les mots existent... donc pas de traitement à faire pour le correcteur orthographique. Celui-ci peut quand même suggérer une liste de mots semblables pour chaque mot, ce qui donne :

"Ontario Colleagues of Teachers"
"Ontario Colleague of Teachers"
"Ontario Colleague of Teacher"
"Ontario College of Teacher"
"Ontario Colleagues of Bleacher"
etc.

Mais il faut valider tout cela. Le correcteur orthographique ne peut pas faire cela à moins de contenir toutes les chaînes possibles, ce qui est impensable pour nous. Bien sûr, les moteurs de recherche donnent des suggestions, mais ce sont des expressions populaires "valides" recherchées partout dans le monde. Ils sont loin de contenir toutes les combinaisons possibles.

Notre approche ressemble à celle des moteurs de recherche, sauf qu'au lieu d'être fondée sur les "milliers" de recherches des autres utilisateurs, elle sera fondée sur nos corpus dans le contexte de la requête.

Donc, pour l'exemple qui précède, TradooIT suggérera dans un temps de 0,390 ms :

"Ontario College of Teachers"

En effet, les chaînes "Ontario Colleagues of Bleacher" ou "Ontario College of Teacher" n'existent pas dans notre corpus et ne sont donc pas retenues. Cette étape de validation vous évite de faire beaucoup de recherches dans nos corpus. Elle est non restrictive, ce qui veut dire que cela nous permet une certaine flexibilité dans les recherches.

Il arrive également que les suggestions n'ont aucun rapport avec votre recherche initiale... donc rien n'est parfait! Voici quelques exemples de suggestions cocasses :

"team building" -> "term sick building"
"mess things" -> "men think"

Je pense quand même que nous avons là un petit outil assez pratique et unique. Retenez bien que nous ne tenons pas une liste de toutes les chaînes valides : tout est calculé par rapport à nos corpus au moment de la requête. Tout cela, grâce à la rapidité de TradooIT. Merci TradooIT!

Lors de la mise en place de ce module, je me suis amusé à faire des recherches "erronées". Je dois dire que je m'en suis donné à coeur joie!

"Silly developpement"
"Ontario Colleagues of Teaser"
"Banal Street"

Bonne recherche!

Sunday 9 October 2011

TradooIT Concordancier bilingue

Bonjour,

Je m'appelle Simon McDuff et ce blogue portera sur un produit que nous développons depuis bientôt 4 ans.
TradooIT est une "boîte à outils" pour les traducteurs professionnels. Pour l'instant, le premier outil que nous offrons sur Internet est le concordancier bilingue.

Une des raisons pour lesquelles nous avons créé cet outil,  c'est que nous trouvions que les produits existants pour les traducteurs pigistes (ceux que je connais, du moins) ne tirent pas partie de la technologie de pointe. En effet, comment expliquer que nous puissions faire des recherches sur Internet de façon instantanée, mais qu'il soit si long de consulter une petite mémoire de traduction? Et tout cela pour obtenir dix malheureux segments alignés... quand on sait qu'il y en a des milliers d'autres.

Un concordancier devrait faire beaucoup plus, comme donner des statistiques sur les traductions, les formes, les sources, etc. Il doit également surligner les occurrences dans le texte de départ et d'arrivée. Il peut aussi trouver des termes et leur définition un peu partout, comme dans Wikipédia ou Termium. Toutes ces fonctionnalités ne devraient pas prendre plus de 1 seconde. La philosophie de Google est de 400 millisecondes, mais bon, peut-être qu'un jour j'aurai le même standard.

C'est avec cette vision que nous avons créé notre concordancier bilingue. En fait, c'est en regardant des traducteurs faire des recherches dans des mémoires ou des concordanciers existants que nous avons voulu faciliter leur tâche.

Les corpus que nous utilisons proviennent d'Internet. Nous alignons des documents que nous trouvons sur Internet, et quelques sources proviennent du site Opus Corpus maintenu par Joerg Tiedemann. Joerg aligne des corpus avant de les offrir sur Internet, ce qui facilite grandement notre tâche. Il a écrit un livre Bitext Alignment, que j'ai lu l'été dernier, et j'ai même mis en oeuvre quelques-uns de ses algorithmes. Malheureusement, les corpus qu'il offre ne contiennent pas la page d'origine...

Voici les sites que notre mémoire contient jusqu'à présent :
- Agriculture et Agroalimentaire Canada
- CCHST
- EMEA (Opus Corpus)
- EUROPARL (Opus Corpus)
- Lois canadiennes
- Lois ontariennes
- Ministère de la Justice du Canada
- OpenSubtitles (Opus Corpus)
- Ressources humaines et Développement des compétences Canada (CNP et compétences en milieu de travail)
- Santé Canada
- Wikipédia - seulement pour la terminologie
- Organisation mondiale du commerce

Nous ne prenons pas toutes les pages sur les sites; seulement celles que nous jugeons avoir assez de contenu. Les pages qui sont difficiles à aligner sont quand même insérées pour l'instant. Cela changera dans les prochaines semaines.

Notre mémoire contient actuellement des millions de segments, ce qui est encore très loin de notre objectif.

Si vous aimeriez que nous ajoutions un site intéressant (bilingue), n'hésitez pas à communiquer avec moi!

Bonne recherche!

Simon McDuff