Friday 7 December 2012

Rapidité des recherches dans TradooIT

Nous passons toujours beaucoup de temps à optimiser notre moteur de recherche. Et je pense que les résultats le reflètent aujourd'hui. À l'heure actuelle, le temps moyen de nos requêtes se situe autour de 200 ms. Alors, qu'arrive-t-on à faire en 200 ms?

Premièrement, nous recherchons dans 253 millions de mots sur plusieurs serveurs. TradooIT ne met aucun résultat en cache car ses corpus sont mis à jour plusieurs fois par jour, et nous voulons toujours vous donner la dernière version.

Deuxièmement, si vous êtes connecté à TradooIT et que vous avez une mémoire privée, TradooIT cherchera également dans votre mémoire privée.

Lors de ces 2 étapes, TradooIT doit charger en mémoire toutes vos occurrences pour faire des statistiques sur celles-ci. Voilà ce qui nous distingue des autres moteurs de recherche, où seuls les 10 ou 20 résultats les plus populaires sont chargés en mémoire. Et cette simple différence nous permet de faire beaucoup de choses!

Troisièmement, TradooIT cherche dans des sites terminologiques comme TERMIUM Plus, Wikipédia, ONTERM et le portail linguistique de Microsoft.

Quatrièmement, si vous n'obtenez pas assez de résultats, TradooIT tentera de trouver des occurrences susceptibles de vous intéresser. Encore là, il n'y a rien de précalculé; pour vous faire des suggestions, nos algorithmes font les recherches en direct dans les corpus publics et les corpus privés s'il y a lieu.

Finalement, TradooIT recombine les résultats et vous les affiche. Pour chaque requête, plusieurs serveurs et une centaine de coeurs s'échangent des données en une synchronisation parfaite! Ouf... Incroyable n'est-ce pas?

Nous travaillons présentement sur des optimisations qui permettront d'accélérer ce processus encore davantage. Nous aimerions beaucoup atteindre une moyenne de 160 à 190 ms. Eh oui, nous adorons rendre les choses encore plus rapides, simples et efficaces! :-)

Bonne recherche!

Monday 1 October 2012

Bulletin d'information de septembre 2012


TradooIT est un écosystème en pleine évolution.

L'écosystème TradooIT vous permet d'aligner vos textes traduits, de prétraduire vos documents et de faire des recherches dans vos archives. Bref, il devient un outil indispensable pour plusieurs langagiers professionnels.

Nouvelle paire de langues anglais-espagnol

Nous vous avions donné la puce à l'oreille le mois passé. Eh bien, comme promis, nous avons ajouté une nouvelle paire de langues. Vous pouvez lire le billet en question pour plus d'information.

Quelle paire de langues aimeriez-vous avoir dans TradooIT? Nous aimerions bien le savoir!

250 millions

Lorsque TradooIT a atteint 240 millions de mots, j'avais écrit un blogue à ce sujet. J'avais bien aimé établir des liens avec l'actualité. J'ai donc recommencé avec la même recette!

Faits saillants de la mise à jour 2.8.1 de TradooIT
  • [TRADOOIT-322] - Les liens vers les documents prétraduits ne fonctionnent pas.
  • [TRADOOIT-325] - "Panne de serveur" à la recherche de "consultation with".
  • [TRADOOIT-326] - Impossible de télécharger des fichier avec des accents ou "&" dans le module de prétraduction.
  • [TRADOOIT-327] - Certaines requêtes retournent des résultats, mais ils ne s'affichent pas.
  • [TRADOOIT-328] - Prise en charge d'une nouvelle paire de langues : anglais-espagnol
  • [TRADOOIT-329] - Ajout d'un nouveau corpus anglais-espagnol : OpenSubtitles
  • [TRADOOIT-330] - Ajout d'un nouveau corpus anglais-espagnol : EUROPA
  • [TRADOOIT-331] - Ajout d'un nouveau corpus anglais-espagnol : EMEA
  • [TRADOOIT-332] - Ajout d'un nouveau corpus anglais-espagnol : UNESCO
  • [TRADOOIT-333] - Ajout d'un nouveau corpus anglais-espagnol : EUROPARL

Monday 10 September 2012

¡Hola!

¡Hola!

Until now, TradooIT only supported English-French searches. It is no longer the case.

Your favorite bilingual concordancer now allows you to search in English-Spanish! We have more than 140 million words in that language pair waiting to be searched on.

Moreover, we are in the process of extracting English-Spanish terminology from Termium, Wikipedia and Microsoft Language Portal.

Do not hesitate to add your own bitexts in your private memory, which is securely and confidentially provided to you at the following address: https://www.tradooit.com/home.

¡Buenas búsquedas!


Tuesday 4 September 2012

250 millions


Lorsque TradooIT a atteint 240 millions de mots, j'avais écrit un blogue à ce sujet. J'avais bien aimé faire des liens avec l'actualité. Donc je recommence avec la même recette!

Voilà quelques jours, TradooIT a atteint 250 millions de mots (nombre de mots en anglais seulement) dans le concordancier bilingue que nous mettons entièrement gratuitement à la disposition du public.

250 millions, c'est beaucoup... Voici quelques exemples pour vous faire une petite idée.
  • Apple a livré plus de 250 millions d'iPhone depuis les 5 dernières années.
Normalement, dans n'importe quel système, plus il y a des données, plus le système se met à ralentir... Eh bien, cela ne semble pas être notre cas. Même que c'est le contraire qui nous arrive. Nos statistiques nous montrent que nous avons réduit le temps de recherche de 16 millisecondes en moyenne. Comment est-ce possible? Il y a deux raisons pour cela :

  • Premièrement, lors de l'ajout d'UNESCO, nous avons effectué une mise à jour de nos systèmes qui contenait des optimisations (dans l'extraction des données).
  • La deuxième raison est que notre architecture a la capacité de s'étendre horizontalement. Nos serveurs actuels nous permettraient de faire des recherches dans 10 milliards de mots aussi rapidement que présentement.
Et voilà!

Bonne recherche!

Wednesday 29 August 2012

Bulletin d'information d'août 2012


TradooIT est un écosystème en pleine évolution.

L'écosystème TradooIT vous permet d'aligner vos textes, de prétraduire vos documents et de faire des recherches dans vos documents. Bref, il devient un outil indispensable pour plusieurs langagiers professionnels.

Architecture multilingue

En théorie, nous avions conçu TradooIT de façon à ce qu'il puisse prendre en charge plusieurs paires de langues. En pratique, nous n'avions jamais mis cette fonctionnalité à l'essai jusqu'à tout récemment. Évidemment, nous avons dû apporter certaines modifications.

En plus de nous assurer que notre architecture fonctionne bien avec d'autres paires de langues, nous devons effectuer un certain travail pour veiller à l'intégration complète de chaque nouvelle langue.

Nous en sommes à la dernière étape du développement de cette fonctionnalité, et une nouvelle paire de langues sera dévoilée sous peu...

Nouveau corpus : UNESCO

Vous trouverez dans ce corpus plus de 7 millions de mots touchant les domaines de l’éducation, des sciences, de la culture, de la communication et de l’information.

Alignetoo : Création de bitextes

Pour apprendre comment créer votre propre mémoire à partir de vos documents, cliquez ici.

Faits saillants de la mise à jour 2.8.0 de TradooIT
  • Nous avons effectué 28 résolutions de bogue, améliorations ou nouvelles fonctionnalités.
  • [TRADOOIT-275] - Le pourcentage indiqué pour les correspondances approximatives dans les prétraductions est inexact dans certains cas.
  • [TRADOOIT-276] - L'extraction de texte pour les présentations PowerPoint ne fonctionne pas dans certains cas.
  • [TRADOOIT-312] - Nouvelle option dans Alignetoo : alignement à la phrase
  • [TRADOOIT-317] - Mise à jour de l'index de Microsoft Language Portal : Certains termes ne s'y trouvaient pas
  • [TRADOOIT-319] - Repetoo : L'affichage du jeu de caractères est incorrect.
  • [TRADOOIT-315] - Générer le format de document Trados pour les prétraductions.
  • [TRADOOIT-318] - Traduction vers le français du widget de téléchargement.
  • [TRADOOIT-316] - Création d'un nouveau corpus : UNESCO

Monday 20 August 2012

Création de bitextes - Aligneurs


Êtes-vous satisfait de vos aligneurs actuels?
Combien de temps passez-vous à aligner vos textes?

Historique

Au départ, pour développer nos corpus publics et par la suite pour établir nos mémoires privées, nous voulions utiliser un produit externe pour faire l'alignement. En effet, pourquoi réinventer la roue?
Après en avoir essayé plusieurs (et avoir été déçus chaque fois), nous avons entrepris de créer nos propres aligneurs. Oui, il faut réinventer la roue... pour courir en F1! :-)

Nous avons commencé par établir une liste de fonctionnalités que nous devions avoir :

- NE doit PAS reposer exclusivement (ou en majeure partie) sur la longueur des segments pour déterminer les correspondances. Honnêtement, peut-on vraiment utiliser des aligneurs de ce type pour aligner cette page tirée des lois canadiennes?

- Doit prendre en charge l'inversion des segments. Très peu de produits possèdent une telle fonctionnalité qui fonctionne vraiment...

- Doit prendre en charge l'absence de certains segments en langue de départ ou d'arrivée.

- Doit prendre en charge l'absence de certaines diapositives PowerPoint dans le texte de départ ou d'arrivée.

- Doit apprendre par lui-même.

- Doit être simple, rapide et efficace (ce qui nous démarque).

L'été dernier, nous avons créé une architecture pour l'alignement des corpus publics. Les sites Web qui constituent notre corpus aujourd'hui nous ont posé certains défis que nous avons su surmontés.

Ce printemps, nous avons étendu notre architecture de façon à aligner les documents Word et PowerPoint. Nous sommes très satisfaits de la version BETA.

Nous avons pris des milliers de documents alignés manuellement et nous les avons comparés avec le résultat de nos aligneurs. Évidemment, cet exercice nous a permis d'améliorer nos algorithmes, mais, à quelques reprises, nous avons été impressionnés par la qualité de notre alignement.

Fonctionnalités

- Aligner un document avec une table des matières, où les numéros des sections ne sont pas les mêmes dans les versions anglaise et française.

- Reconnaître qu'une section a été ajoutée dans le document d'arrivée. Ainsi, vous ne perdrez pas votre temps à réaligner tout votre document de 150 pages! :-)

- Reconnaître que du texte a été ajouté dans le document d'arrivée pour traduire une image dans le document de départ.

- Reconnaître que deux paragraphes ont été inversés.

Il y a tellement de petits détails, que je ne peux tous les énumérer... (combinaison de tableaux, lecture des tableaux de haut en bas ou de gauche à droite, création d'hypothèses pour optimiser l'alignement, etc.) 

Est-ce que nous pouvons faire mieux? Oui! Nous pouvons toujours faire mieux. Nous travaillons à améliorer nos algorithmes pour prendre en charge les documents bilingues et détecter les glossaires!

TradooIT met maintenant cette technologie à votre disposition pour vous permettre d'insérer des textes dans votre mémoire.

Pour commencer

Sur le site de TradooIT, connectez-vous à votre mémoire.
Une fois que vous êtes dans votre mémoire, cliquez sur le lien Importer.



Même si Alignetoo offre des dizaines d'options, nous vous présentons une interface simple avec des options qui permettent de cerner vos besoins. Donc, choisissez les fichiers de départ et d'arrivée à aligner et sélectionnez les options qui vous conviennent.


Cliquez sur le bouton Importer au bas de la page. En quelques secondes, vous devriez obtenir un bitexte aligné.


Le seul champ obligatoire au haut de la page est "Source ou client". Vous pouvez également vérifier l'alignement et apporter des corrections manuellement. Il sera toujours possible de modifier votre document plus tard au besoin.

Cliquez sur le bouton Enregistrer. Ainsi, votre document sera 
- enrichi de plusieurs renseignements permettant de filtrer les résultats de recherche;
- enregistré dans nos bases de données sous plusieurs formes;
- distribué sur plusieurs serveurs pour vous permettre de bénéficier de toute la rapidité de l'architecture de TradooIT!

Les bitextes que vous alignez ainsi sont accessibles par vous seul, en toute confidentialité.

Bonne recherche!

Wednesday 1 August 2012

Bulletin d'information de juillet 2012


TradooIT est un écosystème en pleine évolution.

En vérité, nous effectuons des mises à jour de nos services régulièrement sans que vous le sachiez, le but étant  toujours de vous offrir un service de grande qualité.

Pour être aussi transparents que possible, nous vous dévoilerons ces renseignements "confidentiels" une fois par mois dans nos bulletins d'information (à la fin de chaque mois).

Pendant l'été 2012, nous avons plusieurs belles surprises pour vous, et nous sommes impatients de vous les montrer.

 Alignetoo

Nouvelle composante de TradooIT! Alignetoo est une composante clé de la réussite du concordancier bilingue. Elle a permis d'aligner des millions de segments, et ce, avec une efficacité sans précédent.

L'équipe de TradooIT vous offre maintenant cette technologie qu'elle a amélioré et adapté pour vous permettre d'aligner vos documents.

Voici quelques fonctionnalités de la version bêta d'Alignetoo :
  • Prise en charge de documents Word et PowerPoint
  • Prise en charge de la fusion et de la division de segments (alignement 2 à 1 et 1 à 2)
  • Détection de segments inversés
  • Détection de segment manquants
  • PowerPoint : Détection de diapositives manquantes
  • PowerPoint : Détection de diapositives inversées
Alignetoo est disponible à l'adresse suivante : https://www.tradooit.com/home/?locale=fr#import.
Vous devez vous inscrire pour accéder à Alignetoo. Profitez-en, c'est gratuit!

Blogues


  • Lexique, lexique et lexique...



  • 240 millions



  • Sécurité et confidentialité de vos données!


  • Faits saillants de la mise à jour 2.7.8 de TradooIT
    • Mise en place d'un certificat SSL Entrust sur http://www.tradooit.com/
    • Nouveau lexique : Microsoft
    • Nouveau lexique : Bureau de la traduction
    • Optimisation de la compression des corpus
    • Dévoilement d'Alignetoo

    Thursday 14 June 2012

    Lexique, lexique et lexique....



    Bonne nouvelle pour les amateurs de lexiques! Nous avons ajouté plus de 80 nouveaux lexiques dans le concordancier bilingue de TradooIT.

    Le premier est le glossaire informatique de Microsoft, qui est offert sur Internet. Il compte près de 10 000 mots. On y retrouve tous les termes utilisés dans les produits Microsoft (p ex., pop-up blockers utilisé dans Internet Explorer). C'est un outil très précieux pour les personnes qui font de la localisation!

    Le deuxième, troisième... et tous les autres lexiques proviennent du Bureau de la traduction du Canada.
    Ils couvrent de nombreux domaines, allant du transport à l'histoire. Bien que beaucoup de termes se trouvent déjà dans TERMIUM, il en existe d'autres qui sont uniques (p. ex., capacité d'absorption des pertes). Si vous cliquez sur le terme, TradooIT vous amènera directement à la page contenant la fiche.

     J'espère que vous apprécierez ce travail de moine.

    Bonne recherche!





    Friday 8 June 2012

    240 millions


    240 millions peut désigner plusieurs choses, mais une seule s'applique à TradooIT Laquelle d'après vous?


    Devinette un peu facile. Je vous ai même donné quelques indices. :-)

    Et oui!!!! Chaque recherche que vous faites dans TradooIT se fait dans 240 millions de mots, sans compter la terminologie et votre mémoire privée.

    Nous avons atteint 240 millions de mots le 6 juin 2012. Vous pouvez consulter notre page de statistiques pour voir les chiffres en temps réel.

    Le nombre de mots traduits équivaut au travail d'un traducteur à temps plein avec 460 années d'expérience. Il doit sûrement avoir les cheveux gris...

    Pour chacune de vos recherches, c'est un travail gigantesque que TradooIT doit accomplir, et il le fait en 300 millisecondes... Impressionnés? Attendez de voir la suite.

    Nous prévoyons ajouter de nouveaux sites dans un avenir rapproché. Gardez l’oeil ouvert.

    Vous pouvez toujours nous suggérer les sites que vous aimeriez voir ajouter dans notre concordancier en écrivant à simon.mcduff@tradooit.com.

    Bonne recherche!

    Monday 4 June 2012

    Sécurité et confidentialité de vos données!


    Que vous soyez un traducteur autonome ou un cabinet de traduction, vos traductions, votre terminologie, bref, toutes vos données sont très précieuses pour vous. C'est pourquoi, lorsque nous avons introduit la mémoire privée, nous avons pris la sécurité très au sérieux.

    Authentification
    En tant qu'utilisateur, vous pouvez vous connecter à TradooIT par le biais de votre compte Google, Facebook ou Yahoo. De cette façon, seule votre adresse électronique est transférée à TradooIT; votre mot de passe demeure secret. Dans le cas où vous créeriez un compte directement avec TradooIT, votre mot de passe serait encrypté pour assurer la confidentialité absolue de l'échange de données.

    Confidentialité
    Lorsque vous insérez des données dans TradooIT, vous seul y avez accès! En effet, une place privilégiée est créée sur nos serveurs lorsque vous utilisez la mémoire de TradooIT. Cet emplacement n'est accessible qu'à vous. Dites-vous que, depuis plus de deux ans, nous archivons des millions de segments, et ce, de façon très sécuritaire pour des clients qui, comme vous, nous ont fait confiance.

    Encryption de la connexion
    Qu'est-ce que TradooIT et une banque ont en commun? Mis à part que nous gardons vos biens les plus précieux, la réponse est que nous affichons le même petit symbole vert au début de l'adresse, qui indique que le site est très sécurisé.


    Pour vous, cela signifie que les données que vous transférez par notre connexion ne peuvent pas être lues par une tierce personne! Ce symbole apparaîtra seulement dans les endroits sensibles du site.

    Perte de données
    Vous est-il déjà arrivé de perdre des données? Ce sont des choses qui arrivent : virus, perte de disque dur, suppression de vos fichiers par accident, etc. De notre côté, nous utilisons un modèle très unique qui réplique une partie de vos données dès le moment où vous les téléchargez dans TradooIT.
    Nous effectuons également des sauvegardes quotidiennes de toutes vos données.

    Je n'essaie pas de vous convaincre que nous sommes parfaits, mais nous travaillons sans relâche à améliorer notre écosystème pour vous permettre d'en profiter au maximum!

    Bonne recherche!


    Monday 30 April 2012

    Memoires Privées

    TradooIT vous offre maintenant une composante de mémoire privée, qui vous permet d'importer vos propres archives et d'y faire des recherches à l'aide du concordancier bilingue.

    Saviez-vous que, depuis plusieurs années déjà, des entreprises privées confient leurs immenses mémoires à TradooIT? Elles bénéficient ainsi de plusieurs avantages...

    Faites de même, et votre expérience du concordancier bilingue de TradooIT changera du tout au tout.

    En effet, en une seule recherche, vous pourrez fouiller dans plusieurs sites Internet et terminologiques, ainsi que dans vos propres bitextes. Vous obtiendrez le même genre de résultats pour vos bitextes que pour les bitextes publics : statistiques de traduction, 1001 formes, sources, etc. De plus, vous pourrez obtenir le compte de mots de votre mémoire et attribuer des étiquettes pour filtrer encore plus efficacement.

    Les techniques de filtrage (persistantes ou temporaires) vous permettront de consulter seulement les bitextes que vous désirez.

    N'est-ce pas merveilleux? D'autres composantes de l'écosystème TradooIT utilisant vos bitextes s'ajouteront très bientôt.

    Innovation
    TradooIT se fait un devoir d'innover pour chaque composante de son écosystème. Pour ceux qui connaissent notre concordancier bilingue, son approche innovatrice ne fait aucun doute!

    Architecture
    Lorsque vous importez vos bitextes, ils sont insérés dans l'architecture unique de TradooIT. Nos multiples serveurs assureront la disponibilité de vos bitextes en tout temps! Les technologies et méthodologies que nous développons sont normalement offertes à des entreprises, mais notre but est de les rendre accessibles pour vous!

    Bitextes
    Toutes vos mémoires seront stockées sous forme de bitextes dans TradooIT. La raison est fort simple : on souhaite garder le contexte. Un texte n'est pas seulement une suite de segments décontextualisés... Êtes-vous d'accord avec ça? Le contexte renferme un grande richesse de renseignements...
    La prochaine composante que nous dévoilerons (très bientôt) utilisera à pleine capacité ce que plusieurs produits oublient trop souvent.

    Si votre mémoire est une suite de segments, TradooIT fera de son mieux pour regrouper les segments en bitextes. Par contre, il serait avantageux pour vous d'importer vos mémoires sous forme de texte (p. ex., un fichier TMX par bitexte) pour garder le contexte.

    Sécurité
    Dormez tranquille, les bitextes que vous importez dans TradooIT peuvent être consultés par vous seulement. Il ne sont pas partagés avec les autres utilisateurs. En effet, lorsque vous prenez quelques secondes pour créer un compte, TradooIT crée un espace sécurisé pour vous. Nous accordons une très grande importance à la sécurité!

    Rétroaction
    Comme toujours, vos commentaires sont crucials pour nous. TradooIT a été conçu par vous et pour vous! Envoyez-vous un courriel ou un commentaire par le biais de la communauté TradooIT!

    Cherchez autrement dans vos archives grâce à l'écosystème TradooIT : simple, rapide et efficace. Essayez-le, c'est gratuit! (pour un temps limité)

    Bonne recherche!

    Monday 27 February 2012

    Concordancier bilingue "sur les stéroÏdes"

    Google n'est pas qu'un moteur de recherche, c'est un très bon moteur de recherche. Une page modifiée sur Internet se retrouvera réindexée assez rapidement.

    Notre concordancier bilingue n'est pas encore tout à fait en temps réel. Une page qui a été changée ne se retrouve pas aussi rapidement dans notre index que dans celui de Google. Il y a beaucoup d'étapes à franchir... détecter les pages modifiées ou nouvelles sur Internet, détecter la page dans l'autre langue, extraire les segments, les aligner, enrichir les segments, créer des index et, finalement, distribuer les index dans notre architecture unique. Pour un corpus donné, il peut s'agir de beaucoup de données et de traitement.

    Bref, il y a plusieurs problèmes à surmonter et les solutions ne sont pas tous bonnes. Nous ne voulons surtout pas sacrifier notre vitesse de recherche.

    Nous avons commencé ce projet il y a quelques semaines. Enfin, nous avons mise en place la première étape qui consiste à mettre à jour certains sites en temps réel de façon automatique, et ce, plusieurs fois par jour.

    Voici les deux sites en question :
    HANSARD - Les débats parlementaires
    NEWSGCCA - Centre des nouvelles du Canada

    Pourquoi avoir commencé par ces deux sites? Eh bien, parce que, dans le cas de ces sites, il est facile de voir par où les fichiers sont ajoutés. Les débats parlementaire et le Centre des nouvelles du Canada effectuent leurs mises à jour à des endroits biens précis.

    Ce n'est pas en temps réel, mais c'est assez proche. Vous pouvez le constater en consultant la page Web qui décrit nos corpus : Les statistiques des corpus de TradooIT. En fait, les nouvelles versions de ces deux sites sont indexées dans TradooIT avant Google! (2 pour TradooIT et 100 353 883 pour Google) Bon, il faut bien commencer quelque part...

    D'un autre côté, il faut près d'un mois pour balayer certains sites. Alors, vous pouvez vous imaginez qu'il ne sera pas possible d'offrir du temps réel pour tous les sites. Par contre, notre architecture nous permet de savoir quelles pages ont été modifiées et de retraiter seulement ces pages-là! Donc, vous pouvez vous attendre à ce que la mise à jour des sites se fasse plus régulièrement bientôt!

    S'il y a un site (nouveau ou pas) que vous aimeriez que nous réindexions en temps réel, n'hésitez pas à communiquer avec nous!

    Bonne recherche!

    Monday 13 February 2012

    Le temps qui passe...

    Combien de temps passez-vous à attendre vos résultats de recherche?

    Vous ne le savez pas?
    Supposons qu'un langagier effectue au moins 66 requêtes par jour en utilisant différents outils. Si le temps d'attente est de 1 seconde par requête, ça veut dire qu'il attendra 66 secondes par jour. Si le temps d'attente est de 5 secondes, il attendra 5 minutes et demie.

    De temps en temps, il peut arriver que les résultats prennent plus de temps que d'habitude. On peut vivre avec ça. Mais, si nos 66 recherches prennent chacune 5 secondes à retourner des résultats, notre patience est mise à l'épreuve. En plus, s'il n'y a aucun résultat, ça peut devenir très frustrant. Une telle situation nous pousse à y penser deux fois avant de faire une requête.

    Combien d'entre nous faisons une recherche dans Google juste pour nous rendre sur un site dont nous connaissons l'adresse URL? Nous le faisons parce que Google est rapide et qu'il nous corrigera si nous nous trompons!

    Certains de nos utilisateurs font jusqu'à 600 requêtes par jour. Imaginez-vous, si les résultats mettaient 5 secondes à revenir, ces utilisateurs pourraient attendre jusqu'à 50 minutes par jour! Sérieusement, je ne pense pas que nous aurions des utilisateurs qui feraient autant de requêtes si notre système était lent. Notre concordancier retourne les résultats en moyenne en 250 à 500 millisecondes environ.


    Est-ce acceptable? Notre objectif est de tout retourner en moins de 300 millisecondes. À cette vitesse, l'utilisateur interagit avec le système plutôt que d'attendre.

    Maintenant, combien de temps passez-vous à chercher l'information dans les résultats retournés? En effet, même si la recherche est rapide, il faut quand même être en mesure de trouver l'information rapidement.

    Le premier élément à regarder est le surlignage des chaînes dans les deux langues. J'espère qu'aujourd'hui tous les outils offrent cette fonctionnalité.

    Deuxième élément : la présentation de l'information. Lorsqu'il y a 25 000 résultats, est-ce vraiment utile de voir seulement 10 segments alignés? Dans TradooIT, nous pensons qu'il est important d'avoir une vue d'ensemble de toutes les 25 000 occurrences. Une des façons de vous aider est d'afficher des statistiques sur différents aspects de votre recherche, et ce, pour la totalité des résultats. Ces rubriques (à gauche) peuvent aussi servir de filtre, tout dépendant de vos besoins et contextes.

    Troisième étape, éviter que les utilisateurs aient à faire plusieurs recherches pour la même chose. Lorsqu'il y a peu ou pas de résultats, pourquoi ne pas vérifier l'orthographe (p. ex., evaluaiton) ou bien trouver une chaîne semblable (p. ex., records debts au lieu de recording debts)? Pour en savoir davantage à ce sujet, vous pouvez lire un autre blogue dédié à cette fonctionnalité. À ce titre, TradooIT offre aussi un langage d'interrogation qui permet de rechercher entre autres sur la racine des mots (p. ex., record+ debt+) et éviter de faire plusieurs recherches pour le singulier, pluriel, conjugaisons, etc. (Voir le blogue à ce sujet.)

    Également, pourquoi ne pas rechercher aussi dans des sites terminologiques et ainsi faire d'une pierre deux, trois, quatre coups ou même plus?

    Bref, il y a plein de petits détails qui font en sorte qu'un outil augmente ou baisse l'efficacité d'un langagier. On vous réserve d'autres petits détails du genre que vous allez voir au courant des semaines et des mois à venir...

    Entre-temps, faites-nous part de vos idées pour augmenter votre efficacité!

    Bonne recherche!

    Thursday 2 February 2012

    Quels corpus y a-t-il dans le concordancier bilingue TradooIT ?

    Cette question nous a été posée à quelques reprises. Nous comprenons qu'il est très important pour vous de savoir la source des corpus pour des questions de qualité et de fiabilité. Notre concordancier montre la source de chaque occurrence, mais, jusqu'à tout récemment, il était impossible pour nos utilisateurs d'obtenir une vue d'ensemble des différentes sources de données de TradooIT. Certains utilisateurs ont même pris le temps de nous en informer! Je leur en remercie!

    C'est donc pour satisfaire votre curiosité que nous avons construit la page suivante : "Les statistiques des corpus de TradooIT".

    En plus de vous donner une description de chaque source, nous avons été plus loin! En effet, pour chaque corpus, nous fournissons plein d'autre renseignements : le nombre de documents, de segments, de mots ainsi que la dernière mise à jour effectuée.

    La description est très utile. Ce n'est pas parce que LOICAN est là que nous indexons tout le site des lois canadiennes. Il arrive que seulement certaines sections des sites soient indexées et c'est dans la description que vous trouverez ces précisions. Nous n'avons pas encore terminé de rédiger les descriptions des sites, mais nous nous engageons à vous fournir le plus de détails possible sous peu.

    Notre concordancier bilingue vous permet également de faire des recherches dans des sites terminologiques. Par contre, ceux-ci ne sont pas mentionnés sur la page des statistiques puisqu'il ne s'agit pas de corpus....

    Nous travaillons en ce moment même à automatiser la mise à jour des données. Il est donc à prévoir que, très prochainement, nos corpus seront mis à jour régulièrement, de façon automatisée! (Ce sera d'ailleurs le sujet de mon prochain blogue.)

    Nous avons mis un lien en bas de la page de statistiques des corpus, qui vous permet d'envoyer des commentaires ou des suggestions sur les corpus que vous aimeriez voir ajoutés à notre concordancier bilingue. N'hésitez pas à l'utiliser!

    Bonne recherche!

    Monday 16 January 2012

    Nouveau corpus dans le concordancier bilingue : Brevets

    Jusqu'à présent, TradooIT n'avait pas beaucoup de corpus techniques. Certes, le site terminologique TERMIUM vers lequel TradooIT renvoie contient beaucoup de termes techniques, mais il manquait des corpus techniques illustrant l'usage. Ce qui veut dire que les recherches sur "ONCOLYTIC VIRUS" ou "GAMETOCIBESne donnaient aucun résulat.

    Eh bien, nous sommes heureux de vous annoncer que nous avons ajouté les brevets depuis 1869 à partir des données de l'Office de la propriété intellectuelle du Canada. La majorité des titres et beaucoup d'abrégés des brevets ont ainsi été insérés dans notre corpus. Tout cela totalise 29 991 239 mots assez techniques, ce qui donne un corpus global de 230 millions de mots dans chaque langue. Hourra! Nous avons franchi la barre des 200 millions!

    Le simple balayage du site nous a pris 30 jours... Pour récupérer plus de 511 439 brevets. Il y en a beaucoup plus que cela; malheureusement, certaines pages n'ont pas pu être téléchargées pour diverses raisons techniques. Lors de notre prochain balayage, nous remédierons à ce problème. Je ne voulais pas vous faire attendre encore 30 jours avant de vous donner un aperçu des données!

    Pour chacune des 500 000 pages, il y a seulement une partie des documents qui est traduite, soit les titres et les abrégés, et encore là, pas toujours.

    La traduction des titres est disponible la plupart du temps. Plus on remonte dans le temps, moins ils sont traduits. En effet, un brevet de 1906 a moins de chance d'être traduit qu'un brevet de 2011.
    Il est important de noter que les titres sont entièrement en majuscules et que les accents n'y figurent pas (ex.: METHODE DE LIBERATION CONTROLEE). Je ne connais pas exactement la raison de cela, mais, si quelqu'un peut m'éclairer là-dessus, je pourrais faire part de cette information à tout le monde.

    Les abrégés ont les accents, mais ils sont moins souvent traduits. On ne peut pas tout avoir!

    Pour ce qui est du reste du document, il se trouve dans la langue de la personne qui a soumis le brevet. La majorité du temps, c'est l'anglais.

    Le niveau de langue des mots est assez unique. Pour obtenir un alignement de mots de haute qualité, nous avons donc créé un modèle d'alignement de mots spécialement pour ce corpus.

    Même si ce corpus est disponible dès maintenant, nous comptons continuer de l'améliorer. Première étape, analyser le travail requis pour remettre les accents dans les titres. Il est plus agréable de voir "APPAREIL ET PROCÉDÉ VIDÉO D'ENTRAÎNEMENT" que  "APPAREIL ET PROCEDE VIDEO D'ENTRAINEMENT", n'est-ce pas? Si vous avez des idées à ce sujet, n'hésitez pas à nous les communiquer.

    Bonne recherche!

    Wednesday 11 January 2012

    Langage d'interrogation d'un concordancier bilingue

    Il est très difficile de définir un langage d'interrogation qui sera à la fois simple et utile.

    Il existe une profonde différence entre un concordancier bilingue et un moteur de recherche sur Internet. Le premier s'adresse principalement aux langagiers, tandis que le second s'adresse à monsieur et madame Tout-le-monde. C'est pourquoi, nous avons cru nécessaire de doter notre concordancier d'un langage d'interrogation adapté aux langagiers.

    Saviez-vous que TradooIT n'utilise que trois symboles pour les recherches? C'est l'été dernier qu'on a sélectionné ces symboles et établi leur signification. Il y a eu de nombreux débats lors de la sélection. Notre choix final s'est beaucoup inspiré des grands moteurs de recherche avec une touche particulière des langagiers!

    Nous avons donc établi que :

    • "+" est ajouté à la fin d'un mot pour faire une recherche sur son radical et trouver toutes ses formes (singulier/pluriel, conjugué, nom, verbe, adjectif, etc.).
    • "*" peut être ajouté n'importe où dans l'expression de recherche pour indiquer la présence obligatoire d'un mot. On peut aussi en ajouter plusieurs pour remplacer plusieurs mots.
    • "?" peut être ajouté n'importe où dans l'expression de recherche pour indiquer la présence facultative d'un mot. On peut aussi en ajouter plusieurs. 

    Notre concordancier bilingue, conjugué avec son langage d'interrogation, permet d'être utilisé comme dictionnaire bilingue, de trouver des cooccurrences, de réviser des traductions, de traduire des mots dans un sens bien précis, etc.

    Voici quelques exemples d'emploi du langage d'interrogation :

    • effective ? skills : Pour savoir comment traduire "effective" lorsqu'il qualifie "skills". Dans ce contexte, il n'est pas important qu'il s'agisse de "communication skills", de "writing skills", etc.
    • provide+ ? service+ : Lors de la révision d'un texte, un réviseur se demande si "provide a service" peut vraiment être traduit par "donner un service".  En recherchant les traductions de "provide+ ? service+", vous confirmez en un clin d'oeil que la traduction "donner un service" ne figure pas dans la liste!
      Attention, cependant. Vous savez probablement qu'il ne faut pas se fier aveuglément aux résultats de recherche dans les concordanciers bilingues. Leur fiabilité dépend énormément de la qualité des traductions et de l'exhaustivité du corpus.
    Bref, toute cette flexibilité et cette puissance de recherche est possible grâce à notre architecture. N'hésitez pas à nous faire part de vos idées sur des fonctionnalités que vous aimeriez retrouver dans notre outil!

    Bonne recherche!

    Simon