Monday 20 August 2012

Création de bitextes - Aligneurs


Êtes-vous satisfait de vos aligneurs actuels?
Combien de temps passez-vous à aligner vos textes?

Historique

Au départ, pour développer nos corpus publics et par la suite pour établir nos mémoires privées, nous voulions utiliser un produit externe pour faire l'alignement. En effet, pourquoi réinventer la roue?
Après en avoir essayé plusieurs (et avoir été déçus chaque fois), nous avons entrepris de créer nos propres aligneurs. Oui, il faut réinventer la roue... pour courir en F1! :-)

Nous avons commencé par établir une liste de fonctionnalités que nous devions avoir :

- NE doit PAS reposer exclusivement (ou en majeure partie) sur la longueur des segments pour déterminer les correspondances. Honnêtement, peut-on vraiment utiliser des aligneurs de ce type pour aligner cette page tirée des lois canadiennes?

- Doit prendre en charge l'inversion des segments. Très peu de produits possèdent une telle fonctionnalité qui fonctionne vraiment...

- Doit prendre en charge l'absence de certains segments en langue de départ ou d'arrivée.

- Doit prendre en charge l'absence de certaines diapositives PowerPoint dans le texte de départ ou d'arrivée.

- Doit apprendre par lui-même.

- Doit être simple, rapide et efficace (ce qui nous démarque).

L'été dernier, nous avons créé une architecture pour l'alignement des corpus publics. Les sites Web qui constituent notre corpus aujourd'hui nous ont posé certains défis que nous avons su surmontés.

Ce printemps, nous avons étendu notre architecture de façon à aligner les documents Word et PowerPoint. Nous sommes très satisfaits de la version BETA.

Nous avons pris des milliers de documents alignés manuellement et nous les avons comparés avec le résultat de nos aligneurs. Évidemment, cet exercice nous a permis d'améliorer nos algorithmes, mais, à quelques reprises, nous avons été impressionnés par la qualité de notre alignement.

Fonctionnalités

- Aligner un document avec une table des matières, où les numéros des sections ne sont pas les mêmes dans les versions anglaise et française.

- Reconnaître qu'une section a été ajoutée dans le document d'arrivée. Ainsi, vous ne perdrez pas votre temps à réaligner tout votre document de 150 pages! :-)

- Reconnaître que du texte a été ajouté dans le document d'arrivée pour traduire une image dans le document de départ.

- Reconnaître que deux paragraphes ont été inversés.

Il y a tellement de petits détails, que je ne peux tous les énumérer... (combinaison de tableaux, lecture des tableaux de haut en bas ou de gauche à droite, création d'hypothèses pour optimiser l'alignement, etc.) 

Est-ce que nous pouvons faire mieux? Oui! Nous pouvons toujours faire mieux. Nous travaillons à améliorer nos algorithmes pour prendre en charge les documents bilingues et détecter les glossaires!

TradooIT met maintenant cette technologie à votre disposition pour vous permettre d'insérer des textes dans votre mémoire.

Pour commencer

Sur le site de TradooIT, connectez-vous à votre mémoire.
Une fois que vous êtes dans votre mémoire, cliquez sur le lien Importer.



Même si Alignetoo offre des dizaines d'options, nous vous présentons une interface simple avec des options qui permettent de cerner vos besoins. Donc, choisissez les fichiers de départ et d'arrivée à aligner et sélectionnez les options qui vous conviennent.


Cliquez sur le bouton Importer au bas de la page. En quelques secondes, vous devriez obtenir un bitexte aligné.


Le seul champ obligatoire au haut de la page est "Source ou client". Vous pouvez également vérifier l'alignement et apporter des corrections manuellement. Il sera toujours possible de modifier votre document plus tard au besoin.

Cliquez sur le bouton Enregistrer. Ainsi, votre document sera 
- enrichi de plusieurs renseignements permettant de filtrer les résultats de recherche;
- enregistré dans nos bases de données sous plusieurs formes;
- distribué sur plusieurs serveurs pour vous permettre de bénéficier de toute la rapidité de l'architecture de TradooIT!

Les bitextes que vous alignez ainsi sont accessibles par vous seul, en toute confidentialité.

Bonne recherche!

No comments:

Post a Comment

Note: only a member of this blog may post a comment.