Intelligence artificielle : pourquoi la commande vocale en arabe est à la traîne
Alexa ne parle pas arabe. Cortana non plus. Siri peut comprendre l’arabe standard, mais pas les dialectes. Google Translate n’est guère précis.
Lorsqu’il s’agit de comprendre la cinquième langue la plus parlée au monde, la technologie du XXIe siècle est en retard.
« L’arabe est parlé par près de 300 millions de personnes à travers le monde et c’est la langue religieuse d’environ 1,5 milliard de personnes », indique Mustafa Jarrar, informaticien à l’Université Birzeit de Ramallah. « Mais c’est l’une des langues les moins représentées dans le secteur de la technologie. »
Jarrar et d’autres informaticiens au Moyen-Orient veulent changer les choses. Ils cherchent à étendre l’inclusivité du monde de la technologie en améliorant la compréhension de l’arabe par l’intelligence artificielle (IA) au-delà de la version standard.
Leur espoir ? Que les programmes, les applications et les services vocaux qui sont de plus en plus répandus soient enfin capables de comprendre la trentaine de dialectes arabes.
Le fantôme dans la machine
La branche de l’intelligence artificielle qui permet aux ordinateurs de traiter et d’interpréter le langage humain est connue sous le nom de traitement automatique du langage naturel (TALN).
Lorsque nous demandons à Alexa, l’assistante virtuelle à commande vocale d’Amazon, de jouer une chanson, elle utilise des techniques de TALN pour traiter notre commande vocale. Cette technologie est également utilisée par les outils de traduction automatique tels que Google Translate.
Mais la manière dont les ordinateurs emmagasinent les langues est, sans surprise, différente du processus utilisé par les humains.
« Les ordinateurs apprennent les langues à l’aide de statistiques », explique Jarrar. Pour passer d’une langue à une autre, l’ordinateur recueille des millions, parfois des milliards de phrases ayant la même signification dans les deux langues, et en déduit quelle traduction est la plus fréquente. »
Les chercheurs attribuent également des caractéristiques aux mots, telles que la position du mot dans une phrase ou ses préfixes et suffixes, créant ainsi un ensemble de données sur lesquelles l’ordinateur peut baser ses statistiques. Plus il accumule de données, plus il peut être précis.
Tout cela signifie que les données sont vitales lorsqu’il s’agit d’enseigner des langues à un ordinateur. Mais, selon Jarrar, il est difficile d’en emmagasiner assez en matière de dialectes arabes.
« Sur les réseaux sociaux, les Arabes écrivent comme ils parlent – phonétiquement »
- Mustafa Jarrar, Université de Birzeit, Ramallah
« Avant les réseaux sociaux, aucun dialecte n’était vraiment écrit », explique Jarrar, spécialiste du dialecte palestinien. « C’est juste comme ça que vous parliez à votre famille et à vos amis. Sur les réseaux sociaux, les Arabes écrivent comme ils parlent – phonétiquement. »
Les dialectes arabes n’ont commencé à être écrits sur internet que bien après des langues telles que l’anglais, le français et l’espagnol, qui utilisent l’alphabet romain. Cela signifie que les scientifiques comme Mustafa Jarrar disposent de moins de données pour former l’IA que leurs collègues travaillant dans d’autres langues. En comparaison, si quelqu’un veut travailler sur un projet utilisant des techniques de TALN en anglais, il dispose déjà de données. « Tout le monde travaille sur l’anglais », ajoute Jarrar, « l’anglais, c’est fait ».
Selon lui, pour développer le dialecte palestinien, il a fallu rassembler d’énormes corpus de texte, puis en relire chaque mot et leur attribuer des caractéristiques ou valeurs pour l’ordinateur, comme l’endroit où le mot apparaît dans le discours, ses préfixes, ses suffixes, sa signification en anglais ainsi qu’en arabe standard.
Mais il y a eu une percée en 2016. « Désormais, les ordinateurs peuvent comprendre le dialecte palestinien », déclare Jarrar, qui est le second seulement à avoir entraîné un ordinateur à un dialecte arabe : le premier était l’armée américaine, qui a obtenu le même résultat avec le dialecte égyptien.
L’énigme de l’arabe
Ce n’est pas seulement le manque de données qui entrave l’apprentissage de l’arabe par les ordinateurs : la langue présente également plusieurs caractéristiques qui peuvent ajouter des couches d’ambiguïté et de difficulté.
« L’arabe n’utilise pas les majuscules, qui servent à distinguer les noms de personnes, de lieux et d’entreprises. Les lettres arabes changent également de forme chaque fois que leur position dans le mot change », explique Ali Farghaly, chercheur égyptien en TALN.
En outre, des mots plus longs en arabe peuvent être créés en enchaînant des éléments de langage plus petits.
« Un mot complexe peut être analysé en un sujet, un verbe et un objet », poursuit Farghaly, « et souvent, un mot complexe peut être décomposé de trois manières différentes ou plus, ce qui aggrave l’ambiguïté. »
Prenez, par exemple, la phrase « He killed them » ou « Il les a tués ». En anglais comme en français, elle comporte trois éléments : le sujet (« he », « il »), le verbe (« killed », « a tués ») et l’objet (« them », « les »). Mais en arabe, cette phrase se résume à un mot : « qatalahum » (قتلهم).
Farghaly donne un autre exemple. « Un mot en arabe comme ''wafi'' peut être considéré comme un seul mot signifiant ''fidèle'' ou peut être divisé en deux mots : ''wa'' signifiant ''et'' et ''fi'' signifiant ''dans''. Le fait que de tels mots puissent être déconstruits de plusieurs façons fait de la désambiguïsation en arabe une tâche ardue en TALN. »
Pourquoi l’arabe est sous-financé
De tels problèmes d’apprentissage automatique sont courants et les scientifiques tentent de les résoudre depuis le début des années 1980.
La recherche s’est accélérée après un événement déterminant. « Après le 11 septembre [2001], le gouvernement américain a généreusement financé les universités, les centres de recherche et les entreprises privées pour qu’ils travaillent sur le TALN en arabe », a déclaré Farghaly.
« Si nous avions fabriqué un chatbot anglais, le marché aurait été beaucoup plus vaste »
- Abdallah Faza, Arabot
« Des scientifiques américains ont mis en œuvre une technologie de pointe pour développer des systèmes de traduction automatique en arabe. Cela a également eu un impact positif sur le travail du TALN dans le monde arabe. »
Malgré ce regain, l’arabe – et en particulier ses dialectes – est relativement sous-financé, des entreprises clés comme Amazon, Google et IBM y investissant moins que pour les langues latines.
Abdallah Faza, un entrepreneur jordanien spécialisé dans les technologies, explique que ce manque d’investissement tient en grande partie au fait qu’il existe davantage d’incitations à développer des produits dans d’autres langues plus fréquemment utilisées, telles que le mandarin, ou ayant une application plus commerciale, telles que l’espagnol.
Faza a créé Arabot, l’un des premiers chatbots en arabe. Le programme permet aux clients de poser des questions sur des produits en ligne, auxquelles un ordinateur répond ensuite.
« Si nous avions fabriqué un chatbot anglophone, le marché aurait été beaucoup plus vaste », explique-t-il. « Pour les chatbots, IBM est le principal concurrent, mais ils travaillent à un niveau basique en arabe. »
D’autres projets à vocation commerciale sont en train d’émerger. Plus tôt cette année, Abu Dhabi Media, le radiodiffuseur public d’Abou Dabi, a annoncé qu’il mettait au point la première présentatrice arabophone issue de l'intelligence artificielle au monde.
Mawdoo3, une entreprise jordanienne, a annoncé l’année dernière qu’elle avait commencé à travailler sur un assistant virtuel – comme Alexa ou Siri – appelé Salma, qui fonctionnerait en arabe et dans tous ses dialectes.
ONU : les ordinateurs doivent comprendre
Ces avancées ne se limitent d’ailleurs pas au secteur commercial. Une équipe de chercheurs de l’Université américaine de Beyrouth au Liban, par exemple, s’emploie à améliorer le TALN arabe afin de l’utiliser pour analyser le contenu des réseaux sociaux et recueillir des événements et informations importants mais non détectés.
« Nous développons et utilisons des techniques du TALN pour analyser du texte arabe, y compris les réseaux sociaux – Instagram, Snapchat, Facebook et Twitter », explique Fadi Zaraket, qui dirige l’équipe.
« Les analyseurs que nous développons peuvent être utilisés pour détecter les mentions de personnes, de lieux, de violences, de plaintes et d’autres événements sur les réseaux sociaux. Cela complète l’image diffusée dans les médias traditionnels en capturant les événements que les médias n’ont peut-être pas relevés. »
Il est essentiel que les ordinateurs comprennent l’arabe, car il permet d’identifier des événements qui n’ont pas été repérés par la communauté internationale.
« Un ordinateur peut traiter le contenu, mais il ne comprend pas vraiment le sens des mots »
- Mustafa Jarrar, Université de Birzeit, Ramallah
Les organisations internationales ont également détecté ce potentiel. Martin Waehlisch est conseiller politique au Département des affaires politiques et de la consolidation de la paix des Nations unies, au sein d’une équipe travaillant à la mise au point d’un système qui utilisera des ordinateurs formés aux dialectes arabes pour organiser des groupes de discussion de masse. Le système posera des questions à des milliers de personnes dans une zone de conflit, puis examinera les réponses pour trouver des réponses communes.
« Le traitement des langues naturelles pour l’arabe et d’autres langues est un problème de longue date pour les affaires publiques et politiques », explique Waehlisch, « car nous souhaitons mieux comprendre les préoccupations et les besoins des gens, ce qui peut nous aider à instaurer un dialogue et des processus de paix plus durables. »
Le système permettra à l’ONU d’obtenir une indication en temps réel de l’opinion et l’état d’esprit général dans les zones à accès physique limité ou subissant d'autres restrictions. Faire fonctionner le système en arabe est primordial pour le projet, étant donné les conflits dans la région.
Mustafa Jarrar, pour sa part, est optimiste quant à l’avenir des ordinateurs et de l’arabe et fier des progrès déjà accomplis. « Le TALN pour l’arabe est bien meilleur qu’il y a cinq ou dix ans », dit-il.
Une fois le traitement des dialectes terminé, le prochain défi sera de travailler sur des ordinateurs qui comprennent vraiment la langue, explique-t-il, au lieu de prédire les traductions sur la base de statistiques.
« Si vous dites à un ordinateur que vous partez en vacances, il peut traduire cela, mais si vous lui posez la question suivante : “Où est-ce que je pars en vacances ?”, il ne peut pas répondre », explique le spécialiste. « Il peut traiter le contenu, mais il ne comprend pas vraiment le sens des mots. C’est donc la prochaine étape sur laquelle travailler.
« L’anglais est plus avancé que l’arabe dans cette prochaine étape, mais même dans ce cas, il n’est pas parfait. Mais je pense que dans quelques années, nous pourrons poser n’importe quelle question à Siri et elle répondra. Et je pense que ce sera pareil en arabe aussi. »
Traduit de l’anglais (original) par VECTranslation.
Middle East Eye propose une couverture et une analyse indépendantes et incomparables du Moyen-Orient, de l’Afrique du Nord et d’autres régions du monde. Pour en savoir plus sur la reprise de ce contenu et les frais qui s’appliquent, veuillez remplir ce formulaire [en anglais]. Pour en savoir plus sur MEE, cliquez ici [en anglais].