Tuesday 21 November 2017

Traduction automatique

Eh oui!! Le sujet de l'heure est la traduction automatique.

Jusqu'à tout récemment, les traducteurs ne voulaient rien savoir de la traduction automatique. J'étais en partie d'accord avec eux. Le temps de corriger toutes les fautes ou bien de vérifier le sens, voire de comprendre ce charabia, ne faisait que compliquer la tâche de traduction.

Grâce à l'apprentissage profond, la traduction automatique a réussi à faire une percée spectaculaire.

Traduction statistique

La traduction automatique statistique était assez bonne pour que l'on comprenne le sens, mais contenait beaucoup de fautes...

Si l'on compare les traductions de la phrase "The apples fall from the tree in the fall", il est évident que la traduction neuronale est bien meilleure!

Traduction statistiqueLes pommes tombent de l'arbre dans la chute.
Traduction neuronaleLes pommes tombent de l’arbre à l’automne.

Pour voir d'autres différences, vous pouvez consulter une analyse approfondie à cette adresse.

Traduction neuronale

Voici à quoi peut ressembler un réseau neuronal.



Sans expliquer en détail ce qu'est un réseau neuronal (il y a déjà beaucoup de documentation à ce sujet), je veux simplement dire que la couche d'entrée représente votre phrase de départ et que la couche de sortie représente la phrase d'arrivée. Les neurones (cercles) entre les deux définissent des fonctions et les lignes représentent le poids entre eux.

L'utilisateur définit les neurones et les liens entre eux. L'entraînement trouve les meilleurs poids sur les lignes pour arriver à la traduction. Imaginez des millions de phrases traduites et l'apprentissage automatique doit trouver les meilleures valeurs qui vont fonctionner pour toutes les traductions que nous avons.

Évidemment, le but n'est pas de trouver une traduction parfaite, mais plutôt de nous mettre sur la bonne voie.

Remarquez la relation entre un neurone et les mots à la sortie. Combien de chemins possibles y a-t-il? Beaucoup. On peut donc dire que tous les mots à la sortie peuvent avoir été influencés par chacun des mots à l'entrée, et ce, même si la phrase est longue. Ce qui n'était pas vrai pour les modèles statistiques.

Imaginez maintenant qu'il n'y a pas 2 couches au milieu, mais de 6 à 10 couches... et imaginez que chaque couche a des dizaines de neurones. C'est pour cela qu'il faut énormément de calculs pour entraîner un système de traduction neuronal.

TradooIT

TradooIT a développé son propre modèle neuronal entraîné uniquement sur des publications officielles du gouvernement. On parle ici de plusieurs dizaines de millions de phrases. Les documents sur lesquels nous entraînons notre système ont une incidence directe sur les traductions produites. Voici quelques exemples de traduction neuronale effectuée par 3 différents systèmes : TradooIT, DeepL et Google.

Quelle est la meilleure traduction pour chacune des phrases?

A) Simon and his dog ran out of the park. *

1- Simon et son chien sont sortis du parc.
2- Simon et son chien sont sortis du parc en courant.
3- Simon et son chien ont couru hors du parc.

Bonne réponse : 2 - TradooIT
La réponse 1 ne contient pas l'élément d'empressement et la réponse 2 n'indique pas la direction.

B) LSQ is the French sign language version used in Canada. 

1- LSQ est la version française de la langue des signes utilisée au Canada.
2- LSQ est la version en langue des signes française utilisée au Canada.

Bonne réponse : 1 - TradooIT et Google

C) Government of Canada Strengthens Canada Child Benefit.

1- Le gouvernement du Canada renforce l’Allocation canadienne pour enfants.
2- Le gouvernement du Canada renforce la Prestation canadienne pour enfants.

Bonne Réponse : 1 - TradooIT
Évidemment, Google et DeepL (2) se sont entraînés sur des corpus qui ne sont pas strictement canadiens. Mais, quand même, l'expression "Canada Child Benefit" revient très souvent!

D) Quebec company guilty of illegally exporting polar bear skin rugs.

1- Une entreprise québécoise coupable d'avoir exporté illégalement des tapis en peau d'ours polaire.
2- Une entreprise québécoise coupable d’exporter illégalement des tapis de peau d’ours blanc.
3- Une entreprise du Québec se rend coupable d'exportation illégale de tapis en peau d'ours polaire.

Bonne réponse : La plus proche est 1-2 (DeepL, TradooIT)

La traduction neuronale permet de produire une meilleure traduction dans son contexte. Il est rare que la traduction ne soit pas fluide... il faut quand même faire attention aux omissions dans la traduction.

Voici un exemple qui démontre même que 2 phrases ont été fusionnées en une seule en langue d'arrivée...

Texte de départ :
Edmonton inhabitants are benefitting from the Shumka Dance Centre. The Shumka Dance Centre is a facility where Canadian and Ukrainian cultures are celebrated through dance.

Texte d'arrivée :
Les habitants d’Edmonton profitent du Shumka Dance Centre, où les cultures canadienne et ukrainienne sont célébrées par la danse.

Le système a compris que la deuxième phrase est une description et ne va pas répéter inutilement "Centre de danse Shumka". C'est ça qui arrive quand la traduction est meilleure de l'original!

Impressionné? Époustouflé?...

Traducteurs

Les commentaires des traducteurs qui ont bien voulu faire l'essai de notre traducteur automatique à partir de  Gazoo et dans les prétraductions sont très positifs. En gros, le système permet aux traducteurs de concentrer leur effort intellectuel sur le message plutôt que sur la syntaxe ou les fautes d'orthographe ou de grammaire.

Les traducteurs sont également plus productifs. On ne parle pas d'une petite hausse de productivité; on parle d'au moins 30 % à 75 %.

Ce qui est drôle, c'est qu'ils deviennent marabouts lorsque la traduction automatique n'est pas disponible (et je vous parle d'un cas réel :-) ).

Bref, la traduction neuronale produit souvent une réponse assez proche de la traduction humaine... Est-ce que c'est suffisant pour être utile aux traducteurs? Répondre non serait faire l'autruche!

Je vous invite à l'essayer à https://www.tradooit.com/translate/.

Bonne traduction neuronale!

Simon

* Exemple tiré de la publication suivante : http://aclweb.org/anthology/D/D17/D17-1262.pdf.

Tuesday 24 January 2017

Bulletin d'information de janvier 2017


Saviez-vous que TradooIT est beaucoup plus qu'un concordancier? 

L'écosystème TradooIT vous permet d'aligner vos textes traduits, de prétraduire vos documents et de faire des recherches dans vos archives ainsi que dans votre terminologie. Bref, il devient un outil indispensable pour plusieurs langagiers professionnels.

Corpus, corpus, corpus!

Au cours de la dernière année, nous avons procédé à un ajout massif de corpus dans 3 paires de langues (en-fr, es-fr, en-es). Notre mémoire compte maintenant tout près de 1,2 milliards de mots!

La paire de langues anglais-français dépasse maintenant les 450 millions de mots!

Balayage de sites Web

Pour nous aider à créer ces corpus, nous avons mis au point une application interne qui permet de faire ceci :

- Balayage : téléchargement du contenu de sites Web

- Alignement : établissement d'un plan d'alignement afin d'aligner toutes les pages d'un site Web téléchargé

- Filtrage : définition d'options de filtrage de façon à obtenir une très bonne qualité d'alignement

- Importation : une fois qu'on est satisfait du résultat d'alignement et de filtrage, on peut importer tous les nouveaux bitextes dans la mémoire

- Balayage périodique : par la suite, certains sites peuvent continuer d'être mis à jour automatiquement!

Est-ce que cet outil vous serait utile?

Alignement de fichiers amélioré

Afin de vous simplifier la tâche, nous avons amélioré l'alignement des fichiers. Il est maintenant possible de faire ce qui suit :

- Aligner des lots de fichiers à partir d'un fichier ZIP.
  • Mise en correspondance des fichiers (d'après leur nom)
  • Alignement du contenu
  • Importation des fichiers dans la mémoire
- Aligner des fichiers PDF.


Bonne recherche! Et bon alignement!

Simon McDuff