Nous sommes très fiers d'ajouter dans notre mémoire publique 5 nouveaux corpus qui représentent environ 20 millions de mots.
Il s'agit des sites suivants :
- Statistique Canada
- Ministère de la Justice
- Affaires étrangères et Commerce international
- Industrie Canada
- Diversification de l'économie de l'Ouest Canada
Comme dans tous nos autres corpus, les segments ont été alignés de façon purement automatique, et aucun filtre n'enlève les alignements de moins bonne qualité. Les résultats sont vraiment encourageants, mais nous continuerons de travailler à améliorer la qualité de notre alignement!
Bonne recherche!
No comments:
Post a Comment
Note: only a member of this blog may post a comment.