Jusqu'à présent, TradooIT n'avait pas beaucoup de corpus techniques. Certes, le site terminologique TERMIUM vers lequel TradooIT renvoie contient beaucoup de termes techniques, mais il manquait des corpus techniques illustrant l'usage. Ce qui veut dire que les recherches sur "ONCOLYTIC VIRUS" ou "GAMETOCIBES" ne donnaient aucun résulat.
Eh bien, nous sommes heureux de vous annoncer que nous avons ajouté les brevets depuis 1869 à partir des données de l'Office de la propriété intellectuelle du Canada. La majorité des titres et beaucoup d'abrégés des brevets ont ainsi été insérés dans notre corpus. Tout cela totalise 29 991 239 mots assez techniques, ce qui donne un corpus global de 230 millions de mots dans chaque langue. Hourra! Nous avons franchi la barre des 200 millions!
Le simple balayage du site nous a pris 30 jours... Pour récupérer plus de 511 439 brevets. Il y en a beaucoup plus que cela; malheureusement, certaines pages n'ont pas pu être téléchargées pour diverses raisons techniques. Lors de notre prochain balayage, nous remédierons à ce problème. Je ne voulais pas vous faire attendre encore 30 jours avant de vous donner un aperçu des données!
Pour chacune des 500 000 pages, il y a seulement une partie des documents qui est traduite, soit les titres et les abrégés, et encore là, pas toujours.
La traduction des titres est disponible la plupart du temps. Plus on remonte dans le temps, moins ils sont traduits. En effet, un brevet de 1906 a moins de chance d'être traduit qu'un brevet de 2011.
Il est important de noter que les titres sont entièrement en majuscules et que les accents n'y figurent pas (ex.: METHODE DE LIBERATION CONTROLEE). Je ne connais pas exactement la raison de cela, mais, si quelqu'un peut m'éclairer là-dessus, je pourrais faire part de cette information à tout le monde.
Les abrégés ont les accents, mais ils sont moins souvent traduits. On ne peut pas tout avoir!
Pour ce qui est du reste du document, il se trouve dans la langue de la personne qui a soumis le brevet. La majorité du temps, c'est l'anglais.
Le niveau de langue des mots est assez unique. Pour obtenir un alignement de mots de haute qualité, nous avons donc créé un modèle d'alignement de mots spécialement pour ce corpus.
Même si ce corpus est disponible dès maintenant, nous comptons continuer de l'améliorer. Première étape, analyser le travail requis pour remettre les accents dans les titres. Il est plus agréable de voir "APPAREIL ET PROCÉDÉ VIDÉO D'ENTRAÎNEMENT" que "APPAREIL ET PROCEDE VIDEO D'ENTRAINEMENT", n'est-ce pas? Si vous avez des idées à ce sujet, n'hésitez pas à nous les communiquer.
Bonne recherche!
No comments:
Post a Comment
Note: only a member of this blog may post a comment.