Monday, 16 January 2012

Nouveau corpus dans le concordancier bilingue : Brevets

Jusqu'à présent, TradooIT n'avait pas beaucoup de corpus techniques. Certes, le site terminologique TERMIUM vers lequel TradooIT renvoie contient beaucoup de termes techniques, mais il manquait des corpus techniques illustrant l'usage. Ce qui veut dire que les recherches sur "ONCOLYTIC VIRUS" ou "GAMETOCIBESne donnaient aucun résulat.

Eh bien, nous sommes heureux de vous annoncer que nous avons ajouté les brevets depuis 1869 à partir des données de l'Office de la propriété intellectuelle du Canada. La majorité des titres et beaucoup d'abrégés des brevets ont ainsi été insérés dans notre corpus. Tout cela totalise 29 991 239 mots assez techniques, ce qui donne un corpus global de 230 millions de mots dans chaque langue. Hourra! Nous avons franchi la barre des 200 millions!

Le simple balayage du site nous a pris 30 jours... Pour récupérer plus de 511 439 brevets. Il y en a beaucoup plus que cela; malheureusement, certaines pages n'ont pas pu être téléchargées pour diverses raisons techniques. Lors de notre prochain balayage, nous remédierons à ce problème. Je ne voulais pas vous faire attendre encore 30 jours avant de vous donner un aperçu des données!

Pour chacune des 500 000 pages, il y a seulement une partie des documents qui est traduite, soit les titres et les abrégés, et encore là, pas toujours.

La traduction des titres est disponible la plupart du temps. Plus on remonte dans le temps, moins ils sont traduits. En effet, un brevet de 1906 a moins de chance d'être traduit qu'un brevet de 2011.
Il est important de noter que les titres sont entièrement en majuscules et que les accents n'y figurent pas (ex.: METHODE DE LIBERATION CONTROLEE). Je ne connais pas exactement la raison de cela, mais, si quelqu'un peut m'éclairer là-dessus, je pourrais faire part de cette information à tout le monde.

Les abrégés ont les accents, mais ils sont moins souvent traduits. On ne peut pas tout avoir!

Pour ce qui est du reste du document, il se trouve dans la langue de la personne qui a soumis le brevet. La majorité du temps, c'est l'anglais.

Le niveau de langue des mots est assez unique. Pour obtenir un alignement de mots de haute qualité, nous avons donc créé un modèle d'alignement de mots spécialement pour ce corpus.

Même si ce corpus est disponible dès maintenant, nous comptons continuer de l'améliorer. Première étape, analyser le travail requis pour remettre les accents dans les titres. Il est plus agréable de voir "APPAREIL ET PROCÉDÉ VIDÉO D'ENTRAÎNEMENT" que  "APPAREIL ET PROCEDE VIDEO D'ENTRAINEMENT", n'est-ce pas? Si vous avez des idées à ce sujet, n'hésitez pas à nous les communiquer.

Bonne recherche!

Wednesday, 11 January 2012

Langage d'interrogation d'un concordancier bilingue

Il est très difficile de définir un langage d'interrogation qui sera à la fois simple et utile.

Il existe une profonde différence entre un concordancier bilingue et un moteur de recherche sur Internet. Le premier s'adresse principalement aux langagiers, tandis que le second s'adresse à monsieur et madame Tout-le-monde. C'est pourquoi, nous avons cru nécessaire de doter notre concordancier d'un langage d'interrogation adapté aux langagiers.

Saviez-vous que TradooIT n'utilise que trois symboles pour les recherches? C'est l'été dernier qu'on a sélectionné ces symboles et établi leur signification. Il y a eu de nombreux débats lors de la sélection. Notre choix final s'est beaucoup inspiré des grands moteurs de recherche avec une touche particulière des langagiers!

Nous avons donc établi que :

  • "+" est ajouté à la fin d'un mot pour faire une recherche sur son radical et trouver toutes ses formes (singulier/pluriel, conjugué, nom, verbe, adjectif, etc.).
  • "*" peut être ajouté n'importe où dans l'expression de recherche pour indiquer la présence obligatoire d'un mot. On peut aussi en ajouter plusieurs pour remplacer plusieurs mots.
  • "?" peut être ajouté n'importe où dans l'expression de recherche pour indiquer la présence facultative d'un mot. On peut aussi en ajouter plusieurs. 

Notre concordancier bilingue, conjugué avec son langage d'interrogation, permet d'être utilisé comme dictionnaire bilingue, de trouver des cooccurrences, de réviser des traductions, de traduire des mots dans un sens bien précis, etc.

Voici quelques exemples d'emploi du langage d'interrogation :

  • effective ? skills : Pour savoir comment traduire "effective" lorsqu'il qualifie "skills". Dans ce contexte, il n'est pas important qu'il s'agisse de "communication skills", de "writing skills", etc.
  • provide+ ? service+ : Lors de la révision d'un texte, un réviseur se demande si "provide a service" peut vraiment être traduit par "donner un service".  En recherchant les traductions de "provide+ ? service+", vous confirmez en un clin d'oeil que la traduction "donner un service" ne figure pas dans la liste!
    Attention, cependant. Vous savez probablement qu'il ne faut pas se fier aveuglément aux résultats de recherche dans les concordanciers bilingues. Leur fiabilité dépend énormément de la qualité des traductions et de l'exhaustivité du corpus.
Bref, toute cette flexibilité et cette puissance de recherche est possible grâce à notre architecture. N'hésitez pas à nous faire part de vos idées sur des fonctionnalités que vous aimeriez retrouver dans notre outil!

Bonne recherche!

Simon