12 Novembre 2016

Skype Translator ou Appels vidéo traduit en temps réel

C'est le rêve de tout un chacun, que Microsoft serait sur le point de concrétiser : proposer un module de traduction intégré à Skype capable de traduire les conversations à la volée.

Lors de la conférence "Code" qui se déroulait à Rancho Palos Verdes (Californie), Satya Nadella le nouveau CEO de Microsoft a profite de cette événement pour introduire une nouvelle fonctionnalité qui sera bientôt en beta sur Skype pour Windows 8 : la traduction, en quasi temps réel sur les appels vidéos, d’une conversation dans la langue de l’interlocuteur. C’est une combinaison entre la voix et la messagerie instantanée au travers d'un outil grand public "Skype".

Microsoft dispose déjà du traducteur "Bing", qui fonctionne à la manière de Google Translator. Mais cette fois, cela travaille directement sur la voix en temps réel.

En guise de démonstration, il a alors demandé à Gurdeep Pall, le VP d’Office Lync, de le rejoindre sur scène et d’engager une conversation avec Diana Heinrichs, un autre employé Microsoft. Pall s’exprimait en Anglais tandis que Heinrichs parlait en Allemand. Cet échange avait pour but de montrer les avancements de Microsoft dans le domaine.

« Imaginez que vous parliez en allemand et que votre message soit traduit en anglais » commente Peter Lee, VP de Microsoft Research, qui s’est chargé de la vidéo de présentation de Skype Translator.

Pour utiliser cet outil, il suffit de lancer l’appel comme n’importe quel appel Skype à une différence près : la personne n’a plus besoin de parler votre langue.

Derrière cette prouesse, on retrouve plusieurs technologies, dont une de traduction sur laquelle Microsoft travaille depuis près de 15 ans. Le cœur de Skype Translator est un réseau neuronal pour la partie reconnaissance vocale, capable d’apprendre les langues.

Chaque nouvelle langue qu’il apprend le rend encore meilleur dans celle qu’il maîtrise. « A franchement parler, nous ne savons pas exactement pourquoi », expliquait Satya Nadella, le PDG de Microsoft. « C’est de la magie », concluait-il, ce à quoi Gurdeep Singh Pall ajoutait qu’il s’agissait plutôt d’une version« prébêta de la magie ». Ce qui explique sans doute le petit raté en fin d'une conversation qui semblait par ailleurs très « scriptée ».

Une version bêta devrait arriver sur Windows 8 d’ici la fin de l’année. Pour ses premiers pas, Skype Translator ne devrait être utilisable que dans quelques langues, celles qu’il maîtrise le mieux.

Le processus de fonctionnement au niveau de l’utilisateur est assez simple : à la fin de la phrase de son interlocuteur, le texte est d’abord retranscrit sous forme de message texte, traduit puis lu par une voix de synthèse en l’espace de quelques secondes. Ci-dessous la démo.

Ce sont les tout premiers jours pour cette technologie, mais la vision pour un traducteur universel n’est pas aussi éloignée et son potentiel est tout aussi excitant. 

Ceci dit ce translator existait déjà en version commerciale, mais uniquement dans les épisodes de "Star Trek".

Microsoft affirme que plus de 300 millions de personnes utilisent Skype chaque mois, et plus de deux milliards de minutes de conversation ont lieu tous les jours. Le service pourrait s’avérer utile pour les entreprises qui travaillent à l’échelle internationale, même si la traduction en temps réel ne peut pas supprimer la maladresse dans des communications professionnelles, elle pourrait au moins faire l’essentiel de ce que nous voulons.

Le produit devrait arriver en beta public dans peu de temps, pour une sortie commerciale cette année.

Il faut aussi noter que Google à mis la main sur Quest Visual en ce premier semettre 2014. La société est à l'origine d'une application mobile "Word Lens" permettant la traduction en temps réel des mots avec le capteur de l'appareil photo numérique du smartphone. Sur le principe, "Word Lens" exploite le capteur de l'appareil photo numérique du smartphone ( ou de la tablette ) afin de proposer une traduction en temps réel des mots dans une autre langue. Les mots identifiés et traduits sont affichés dans leur contexte d'origine grâce à de la réalité augmentée. Les résultats ne sont pour l'instant pas toujours probants.

Source :