Dans son rapport de tendances annuelles, l’observateur de consommation d’Ericsson a révélé que 63% des consommateurs interrogés aimeraient des « écouteurs qui traduisent de manière simultanée ». Ce qui est appelé « écoute augmentée » est une tendance nouvelle parmi les attentes des consommateurs pour leurs futurs smartphones y compris la fonctionnalité de traduction simultanée.
Les écouteurs de traduction permettent à leurs utilisateurs d’écouter un discours dans une langue étrangère et d’obtenir une traduction simultanée à travers les écouteurs dans leur langue natale éliminant le besoin de techniques de traduction intermédiaires telles que l’interprétation ou la traduction manuelle.

Comment fonctionnent les écouteurs de traduction ?
Plusieurs écouteurs de traduction on été développés par diverses entreprises, chacun basé sur une technologie et des procédés différents. Prenons par exemple les derniers arrivés dans le secteur, les Google Pixel Buds. Ces écouteurs sans câbles utilisent Google Assistant, une application intelligente qui peut parler, comprendre et assister l’utilisateur. Une des fonctionnalités mise en avant est le support de Google Translate qui dit capable de traduire dans 40 langues différentes. Une technologie impressionnante pour la modeste somme de 159$.
La traduction simultanée de conversation consiste en une chaîne de technologies distinctes dont chacune a connu une progression rapide ces dernières années. La chaîne de l’entrée audio au résultat final ressemble à cela :
Conditionnement de l’entrée audio : les écouteurs enregistrent les bruits en arrière-plan et les interférences captant efficacement un mélange de la voix de l’utilisateur et des autres sons. Le process de « denoising » supprime les sons d’arrière-plan alors qu’un détecteur d’activité vocale (DAV) est utilisé pour activer le système seulement lorsque la personne en question parle. Le contrôle tactile permet d’améliorer la précision de DAV.
Reconnaissance de langue : le système utilise l’apprentissage automatique pour identifier quelle est la langue parlée en quelques secondes. Cela est important, car tout ce qui s’ensuit est spécifique à la langue. Pour la reconnaissance de langue, les caractéristiques phonétiques sont insuffisantes pour distinguer les langues (des langues telles que l »ukrainien ou le russe, l »urdu et le hindi sont virtuellement identiques dans leurs unités de son, ou phonèmes), de nouvelles représentations acoustiques ont du être développées.
Reconnaissance de conversation automatique (RCA) : la RCA utilise un modèle acoustique pour convertir la conversation enregistrée en une suite de phonèmes et puis la modélisation de langue est utilisée pour convertir la phonétique en mots. En utilisant les règles de grammaire orales, le contexte, les probabilités et un dictionnaire de prononciation, la RCA rempli les vides d’information et corrige les phonèmes reconnus par erreur pour en déduire une représentation textuelle de ce qui à été dit.
Traitement de langue : les écouteurs produisent une traduction automatique d’une langue à l’autre. Cela n’est pas aussi simple qu’une simple substitution de noms et de verbes, mais inclut l’identification du sens de l’entrée audio et le ré-encodage de ce sens vers la sortie dans la langue cible. Cela avec toutes les nuances et complexités qui font qu’il nous est si difficile d’apprendre une seconde langue.
Synthétisation de voix ou texte vers audio (TVA) : quasiment l’opposé de la RCA, ce process synthétise une voix au son naturel à partir d’une suite de mots (ou informations phonétiques). Le résultat est finalement envoyé au logiciel de TVA de la langue cible produisant un enregistrement compressé du résultat. Ceci est alors joué dans les écouteurs.
Un marché des traducteurs portables très compétitif
Bien que les Google Pixel Buds aient fait une entrée retentissante sur le marché, certaines sociétés se sont penchées sur les écouteurs de traductions our traducteurs portables depuis 2014. Le marché est composé de start-ups spécialisées en technologie de traduction, des géants technologiques et également de moteurs de recherche.
Par exemple, la société allemande Bragi qui conçoit et développe des écouteurs intelligents a lancé le Dash, des écouteurs de traduction en 2014.
La société américaine Timeketle vient de clore une campagne de financement sur Kickstarter pour son projet de traducteur simultané WT2.
Les écouteurs de traduction Pilot conçus par Waverly Labs auraient amassé plus de 6 millions de dollar en pré-commandes en mai.
Un écouteur alimenté par IBM-Watson a commencé à être vendu en juillet 2017 pour une peu plus de 150 euros. Lingmo International, une start-up australienne, a lancé l’appareil lors d’un évènement de l’ONU en Suisse en juin. Il se dit que l’appareil peut gérer huit langues.
La tendance à intégrer la traduction dans les technologies de grand public ne se limite pas seulement aux écouteurs. En septembre, Baidu a présenté un appareil qui traduit une conversation de manière quasi-instantanée et, en décembre son rival chinois le moteur de recherche Sogou a lancé son propre système de traduction de conversation simultanée.
D’autres appareils de traduction ont débuté en 2017 tel que le traducteur portable Ili, le Samsung Galaxy Note 8 et le Huawei Mate 10 Pro.
En quoi cela affecte le secteur de la localisation ?
Tous ces appareils de traduction se basent sur la traduction automatique ou MT (Machine Translation). Bien que la traduction automatique progresse régulièrement, en particulier avec la traduction automatique neuronale (NMT), aucune de ces technologies n’est assez avancée pour rendre la même qualité de traduction/inteprétation produite par un traducteur ou linguiste professionnel. Dans un secteur qui gère les stratégies de localisation de firmes multinationales ainsi que les relations internationales entre gouvernements, il y a très peu de place à l’erreur.
Après le lancement des Google Pixel Buds, la majorité des retours indique que la technologie ne délivre pas ses promesses. Un article paru dans Wired UK indique qu’ils « ne sont pas seulement mauvais, mais totalement inutiles ». Le Guardian voit en ces écouteurs « imparfaits » une « occasion manquée », Gizmodo a déclaré « ce n’est même pas proche d’être bon ».
Là ou Google échoue, il est peu probable de voir un autre réussir. En effet, chacune de ces technologies est seulement aussi bonne que le moteur de traduction automatique qui l’alimente. Ajoutez à cela le besoin de reconnaissance d’accent et de sortie audio naturelle, la qualité de la traduction et l’idée d’une conversation en deux langues distinctes facilitée par la technologie est encore futuriste.