L’interface de parole EA4T, c’est un peu du R2D2 avant l’heure ?

Philippe LeBas : Pas encore, mais presque ! Nous créons pour nos clients des interfaces vocales donnant la possibilité d’instaurer de nouveaux usages, à travers une passerelle de communication par la voix. Techniquement, nous proposons les API qui permettent de comprendre les gens en fonction d’un secteur ou d’un métier donné.

Notre plateforme agnostique est capable d’appréhender le langage naturel, grâce à la création de ce que l’on appelle des ontologies (NDLR « Un modèle de données représentatif d’un ensemble de concepts dans un domaine » Source) en lien avec un domaine précis d’activité. Nous avons par exemple créé un système très complexe pour comprendre le fonctionnement d’une administration. Nous sommes capables de répondre à de très nombreuses questions via une application qui s’appelle la Mairie virtuelle. Cet outil est destiné aux collectivités et permet aux citoyens de poser des questions sur tous les sujets liés à la mairie, dans un langage naturel, en obtenant des réponses pertinentes, correspondant à leurs attentes. La force de notre système réside dans notre capacité à comprendre un contexte. C’est vraiment une différence d’approche par rapport aux autres acteurs du marché. La partie moteur de reconnaissance de la parole n’est pas disjointe d’une base ontologique augmentée.

À lire aussi : Intelligence artificielle, cet abus de langage

Pour nos clients, nous pouvons fonctionner selon plusieurs modèles : en mode SaaS via une requête vers nos API ou avec un système embarqué directement chez eux. Nous sommes même en mesure, sur des petites configurations, de fonctionner sans liaison avec Internet. Nous avons par exemple développé un prototype pour une start-up qui propose des écrans de services pour les EHPAD, capables d’agir pour des commandes comme « est-ce que tu peux éteindre la lumière », « est-ce que tu peux mettre France 2 », « j’ai trop chaud, baisse le chauffage ». Ils ont donc mis en place leur propre système et nous y avons intégré le pilotage par la voix.

À quels usages cela répond aujourd’hui ? Demain ?

P. L. : La recherche vocale peut être utile partout où il est nécessaire de communiquer avec un client. Cela peut répondre aux besoins de petites collectivités, dans des communes où les bureaux administratifs ne sont ouverts que quelques heures par semaine.

Cela peut concerner également, l’industrie. Nous sommes par exemple en train de travailler sur des systèmes de contrôle de robot par la voix avec Akka Technology. Quand les deux mains sont déjà occupées et qu’elles ne peuvent plus être utilisées pour faire des opérations supplémentaires, le fait de le faire par la voix permet d’accéder à de nouvelles tâches complexes et à un niveau supérieur de contrôle. On rentre dans ce que l’on nomme la cobotique.

Les serveurs vocaux intelligents sont aussi concernés. Par exemple, à la Mairie de Paris, il est aujourd’hui possible d’appeler des opérateurs humains via un numéro de renseignements. Ces personnes utilisent le site de Paris.fr pour répondre à la plupart des questions des citoyens. Demain, un robot sera en mesure d’apporter les mêmes réponses, mais de nuit. Parce que dans notre société, il peut être intéressant également d’avoir des renseignements, peu importe l’heure.

Dans le monde de la banque, il sera également possible de faire une demande de crédit par la voix. L’idée est de rendre la demande plus sympathique et plus ludique qu’un système écrit où l’on passe du temps.

Dans tous les cas, le principe est de se dire que l’information existe. C’est le temps d’accès à cette information qui est important, mais pas seulement. Il s’agit aussi de permettre un accès plus simple et plus intuitif à l’information, même pour des personnes ne connaissant pas les processus ou les terminologies d’un jargon métier. Nous nous adressons également à des personnes ayant des déficiences visuelles. Demain, nous pourrons ainsi parler en langage naturel à des ordinateurs, des smartphones, des écrans TV, des bornes interactives et tout ce que l’on peut imaginer.

Et Google, Apple et Amazon, ils font la même chose ? Même pas peur ?

P. L. : L’idée est d’être plus précis avec notre assistant vocal. Tout ce qui est hors contexte, nous n’allons pas y répondre. Nous répondons à des marchés beaucoup plus verticaux, dans le monde de la banque, de la e-santé, de l’aéronautique, de l’industrie, de la collectivité. Quand on parle à un assistant, on veut une réponse juste et non des liens qui vont nous emmener sur Internet, sinon à quoi sert un assistant vocal. Nous ne sommes pas là pour faire un assistant universel, de type Google ou autres. Il faudrait créer des ontologies pour tout ce qui existe sur terre. L’idée est qu’on le fasse dans un métier, dans quelque chose de complètement dominé par les gens qui y travaillent.

Par ailleurs, notre plateforme inclut un moteur de reconnaissance vocale, que l’on développe en propre. L’idée est de pouvoir être maitre du vocabulaire que l’on va utiliser et ne pas passer par Google ou Amazon qui récupèreraient toutes nos data. Ainsi, nous-mêmes ou nos clients restons propriétaires de ces données. Ce moteur travaille en collaboration avec le moteur sémantique basé sur les ontologies de façon à proposer une recherche qui ne soit pas disjointe.

Nous sommes d’ailleurs les seuls à proposer ce fonctionnement. En effet, les autres approches d’assistants vocalux ont des fonctionnements disjoints. Le moteur de traitement du langage va analyser ce que vous dites, va ressortir du texte et ce texte va être envoyé à un outil sémantique ou un bot qui va détecter un ou deux mots clés et faire du Machine Learning dessus. De notre côté, nous apprenons d’abord à la machine le fonctionnement humain et ce fonctionnement humain va aussi aider la partie reconnaissance vocale, c’est-à-dire le moteur, sur des mots non reconnus, sur la possibilité de comprendre un concept ou un contexte. Notre objectif n’est alors pas d’être meilleur que Google, mais d’être plus précis.

Le mieux est encore de vous donner un exemple. Dans le secteur de la banque, si je pose une question compliquée comme celle-ci — « est-ce que la mensualité de mon crédit est prise en charge par l’assurance si mon coemprunteur est malade ? » — Google va analyser les deux premiers mots clés et va essayer de trouver une réponse avec ces éléments. Mais le contexte, c’est « je ne peux pas payer, comment je dois faire ? », et cela, Google ne l’aura pas compris. En revanche, avec notre système, nous savons répondre à ce type de questions complexes et nous donnons des réponses justes. Il va faire, par inférence, des regroupements thématiques et conceptuels et imaginer toutes les questions logiques que l’on peut poser sur un domaine.

Autre exemple, la Poste a mis dans l’Open Data, toutes les positions géographiques des boites postales jaunes sur le territoire. Notre système, si vous lui demandez « où je peux déposer mon courrier ? », va comprendre que si vous voulez déposer votre courrier, c’est qu’il est timbré et que vous cherchez simplement un endroit pour que le courrier soit ramassé. Nous allons vous géolocaliser, et aller voir l’emplacement des boîtes aux lettres les plus proches. Nous sommes en mesure de travailler sur les phrases complexes, les concepts, les contextes. Par contre, si vous dites à Siri, « Je veux contacter la mairie de Cabourg », l’assistant vocal voit le mot « Contact » et va consulter si quelqu’un s’appelle « Marie » dans la liste de contacts de votre téléphone, parce qu’il a vu Mairie et va travailler par similitude. Il ne vous dira pas que pour contacter la Mairie de Cabourg, vous pouvez téléphoner à ce numéro, envoyer un mail ou aller sur place. La détection de mots clés ne permet pas de gérer un contexte ou un concept.

Et l’Intelligence Artificielle dans tout cela, on en parle un peu ?

P. L. : C’est toujours complexe de parler d’IA, parce que cela n’existe pas réellement. Aujourd’hui, la machine n’est pas capable de décider d’elle-même. Elle va utiliser des algorithmes qu’on lui a donnés pour pouvoir prendre une décision. On parle plutôt d’artifice d’intelligence. Selon moi, l’IA est un buzzword, que l’on utilise pour mettre tout à l’intérieur. Chez EA4T, nous apprenons à la machine comment fonctionne un modèle humain dans un contexte. Nous mettons en place l’ontologie et avec seulement quelques éléments, nous sommes déjà pertinents. Nous n’avons pas besoin de toujours proposer du Machine Learning, car ce dernier ne fonctionne pas sur dix mille entrées. Il en faut des millions pour être en mesure de faire des analyses et prédictions pertinentes via les data sciences. Notre force est donc que nous n’avons pas besoin de structure énorme pour fonctionner. Alors que pour l’IA d’aujourd’hui, il faut souvent des énormes silos de données, avec lesquels vous n’arriverez pas forcément à quelque chose de précis.

Demain, il y aura un couplage de plusieurs technologies, notamment de la réalité augmentée et de la voix par exemple. Toutefois, la voix est quelque chose de prépondérant parce que naturelle. Depuis la nuit des temps, on transmet les idées et les informations par la voix, en plus de l’écrit. On tend à ce que la machine comprenne l’homme et c’est pour cela que nous sommes partis sur cette option. Qu’y a-t-il a de plus frustrant que de tomber sur un assistant personnel qui ne comprend pas ce qu’on dit ! L’idée de le faire par secteur, par domaine d’activité, nous permet d’avoir des assistants qui comprennent les personnes et apportent une vraie réponse.

Pour en savoir plus sur EA4T, c’est par ici !