La révolution de l’intelligence artificielle oublie les arabophones
Lorsque j’ai lu pour la première fois Homo Deus : une brève histoire du futur, j’étais tout simplement incapable d’adhérer à la prophétie de l’historien Yuval Noah Harari selon laquelle les algorithmes et les données deviendraient « la source suprême d’autorité ». Je me disais à l’époque : « Ce seront plutôt des données dans certaines langues. »
Je craignais que, même dans le combat de l’humanité contre l’intrusion de l’intelligence artificielle (IA), certains groupes linguistiques ne demeurent en marge de la bataille... et de l’équation.
Lorsque j’ai commencé à utiliser ChatGPT-4, j’ai compris que mes craintes s’étaient déjà matérialisées. La bataille a déjà commencé et la langue arabe n’a pas été « invitée » à y participer.
En tant que journaliste et formatrice intéressée par l’intelligence artificielle, je ne peux que constater à quel point les outils actuels d’IA révolutionnent l’industrie du contenu, la recherche et les canaux de communication.
Cependant, je constate aussi avec regret que ces mêmes outils de changement révèlent un profond fossé linguistique qui désavantage les locuteurs de l’arabe par rapport aux anglophones.
J’ai passé beaucoup de temps à expérimenter des outils tels que ChatGPT. Je lui ai donné des instructions en arabe et en anglais et j’ai observé comment la qualité de ses résultats évoluait en changeant de langue.
L’IA et le fossé linguistique
Ce ne sont pas seulement la formulation ou la syntaxe qui font que les résultats de ChatGPT Arabic sont de mauvaise qualité, mais l’information elle-même. Je me suis « amusée » à expérimenter le « prompt engineering » de ChatGPT dans deux langues différentes et à le voir se muer, tel un méchant à deux visages ou un « schizophrène ».
Dans ses résultats en anglais, ChatGPT m’est apparu comme un chercheur en début de carrière : un travailleur appliqué et acharné qui accorde une attention particulière aux détails, aux structures et à la précision.
Quant à ses résultats en arabe, ils renvoient au stéréotype de l’employé des archives paresseux qui ne veut pas se casser la tête à chercher les références au bon endroit ou faire attention aux structures linguistiques, tout en me répondant négligemment : « C’est tout ce que j’ai. Maintenant partez. »
Un outil tel que ChatGPT doit encore être entraîné sur une quantité massive de données écrites en langue arabe de qualité, diverses et représentatives. Le manque de données fait qu’en arabe, l’outil est incapable de distinguer les nuances, la précision et la profondeur nécessaires pour générer un contenu de qualité.
Nombreux sont ceux qui rétorqueront : « Mais le problème est que la langue arabe est complexe et qu’il est difficile de comprendre toutes ses particularités grammaticales, syntaxiques et lexicales. »
Je leur réponds : « L’humanité a été capable d’envoyer un homme sur la Lune, alors pourquoi ne pourrait-elle pas enseigner à un chatbot les règles de grammaire arabe ? »
L’impact sur les utilisateurs arabophones
Outre la frustration, les utilisateurs arabophones d’outils d’IA sont confrontés aux conséquences profondes de la fracture linguistique. En tête de liste figure l’accès limité à l’information, dans la mesure où la grande majorité des références et des mégadonnées que ces outils analysent pour générer leurs résultats sont principalement disponibles en anglais.
Cet écart entrave la capacité des utilisateurs arabophones à tirer parti de l’IA pour leur développement professionnel et personnel et perpétue une fracture numérique aux répercussions durables.
Cet écart entrave la capacité des utilisateurs arabophones à tirer parti de l’IA pour leur développement professionnel et personnel et perpétue une fracture numérique
Aujourd’hui, les outils d’IA peuvent être « détournés » en fournissant des instructions en anglais, en récupérant des résultats dans cette langue, puis en les traduisant en arabe. Mais cette solution soulève un autre problème, celui de la traduction.
De l’anglais vers l’arabe, la qualité des outils de traduction disponibles sur internet, tels que Google Traduction, est également faible et peut avoir de graves conséquences pour ceux qui ne maîtrisent pas la langue source et ne peuvent donc pas comprendre les défauts de la traduction.
Une autre conséquence de la régression de la version arabe des outils d’IA est la perte d’opportunités. De nombreux journalistes et créateurs de contenu travaillant en arabe possèdent les compétences nécessaires pour produire un contenu de qualité, mais l’inadéquation d’une grande partie des outils d’intelligence artificielle à la langue arabe constitue pour eux un obstacle majeur.
Certains outils de création de vidéos pilotés par l’IA, par exemple, sont encore incapables de réguler correctement le sens de l’écriture en arabe. Imaginez l’extrême frustration ressentie par un journaliste ou un créateur de contenu qui souhaite commencer son titre par un chiffre et qui s’aperçoit que les mots se chevauchent, que leur position est inversée et que le titre devient incompréhensible.
Ces opportunités perdues se traduisent par une moindre capacité à utiliser ces outils pour créer un contenu de haute qualité, à atteindre une portée significative et à contribuer au développement de l’écosystème de l’industrie du contenu arabophone.
Ces opportunités concernent aussi bien les individus que les entreprises et les institutions. En effet, la faible qualité des outils pilotés par l’IA dans leur version arabe signifie que les professionnels et les entrepreneurs devront poursuivre leur combat dans le contexte d’une concurrence déloyale caractéristique du marché mondial.
Les malentendus culturels sont un autre aspect des lacunes des outils d’intelligence artificielle dans leur version arabe pour ce qui a trait à la compréhension des spécificités et des sensibilités culturelles. Ces robots, entraînés sur une quantité limitée de données par rapport à leurs versions dans d’autres langues, peuvent avoir tendance à générer des contenus inappropriés ou agressifs sur le plan culturel, ce qui accentue le sentiment de marginalisation éprouvé par l’utilisateur et réduit sa confiance à l’égard de l’outil.
Je ne parle pas ici des spécificités culturelles des groupes arabophones par rapport à d’autres parlant d’autres langues, mais plutôt des différents groupes spécifiques dans le cercle des communautés arabophones elles-mêmes.
Combler le fossé
Que signifie combler le fossé entre l’IA et la langue ? Cela signifie une réelle volonté d’investir dans l’entraînement de ces outils sur des données en langue arabe diversifiées, représentatives et en très grande quantité. Seules des mégadonnées de qualité peuvent améliorer efficacement les performances de l’IA.
Pour combler ce fossé, il faudra également développer des outils de recherche soutenus par l’intelligence artificielle capables de comprendre la langue arabe de manière plus approfondie et plus précise. Si nous reconnaissons que l’arabe est une langue difficile et complexe, la seule solution consiste à développer des outils de recherche améliorés capables de comprendre ses complexités et ses variables.
Enfin, il est possible de combler le fossé linguistique dans le domaine de l’intelligence artificielle par des efforts conjoints de la part de développeurs d’IA, de linguistes et d’experts en la matière. Seul un effort concerté entre le monde universitaire, l’industrie technologique et les acteurs communautaires pourra garantir que les utilisateurs arabophones auront accès au même contenu de haute qualité généré par l’IA que les anglophones.
Les malentendus culturels sont un autre aspect des lacunes des outils d’intelligence artificielle dans leur version arabe
Je me mets à la place des développeurs d’outils d’IA tels que ChatGPT et je me pose les questions suivantes : « Pourquoi devrais-je former mon outil sur des données plus vastes et de meilleure qualité en arabe ? Qu’est-ce que j’y gagne ? »
La réponse est peut-être toute trouvée : le nombre d’arabophones, qui s’élève à environ 400 millions de personnes, fait de l’arabe un bon marché dans lequel il est important d’investir.
Je suis cependant convaincue que l’intelligence des développeurs d’IA ne se satisferait que d’une réponse bien plus profonde.
« La technologie nous façonne et nous la façonnons », souligne Mira Murati, directrice de la technologie d’OpenAI, qui a développé ChatGPT.
En ce qui me concerne, la version arabe de la technologie ChatGPT me fait craindre que la société qu’elle façonnera ne soit non seulement incapable d’entrer dans la société post-informationnelle, mais aussi incapable d’accéder simplement à l’information.
Ceci en dehors du fait que nous, arabophones, ne façonnons pas cette technologie.
Je salue le fait que Mira Murati, la femme derrière ChatGPT, défende une régulation et une gouvernance de l’intelligence artificielle. Mais je ne suis pas certaine que la gouvernance dont elle parle comprenne le principe de l’égalité des chances.
Par égalité des chances, on entend l’idée que tous les êtres humains à travers le monde puissent bénéficier de l’intelligence artificielle et en tirer parti, afin que la prophétie de Yuval Noah Harari ne soit pas une « malédiction » pour les seuls arabophones.
- Amal El Mekki est une journaliste tunisienne primée et une formatrice dans le domaine des médias établie en Suisse. Ses travaux portent sur les droits de l’homme, les migrations et l’intelligence artificielle.
Les opinions exprimées dans cet article n’engagent que leur auteur et ne reflètent pas nécessairement la politique éditoriale de Middle East Eye.
Traduit de l’anglais (original) par VECTranslation.
Middle East Eye propose une couverture et une analyse indépendantes et incomparables du Moyen-Orient, de l’Afrique du Nord et d’autres régions du monde. Pour en savoir plus sur la reprise de ce contenu et les frais qui s’appliquent, veuillez remplir ce formulaire [en anglais]. Pour en savoir plus sur MEE, cliquez ici [en anglais].