L’IA comprend-elle ce qu’elle fait ?

Vous souvenez-vous du jeu Jeopardy diffusé en France de 1989 à 1992 ? Une sorte d’anti-quiz : l’animateur fournissait une réponse, et les candidats imaginaient la question. Aux États-Unis, patrie originelle du programme (la 38e saison est en cours aujourd’hui !), une intelligence artificielle (IA) conçue par IBM et baptisée Watson est devenue un crack à ce jeu en battant, en février 2011, deux anciens champions humains. Une publicité de l’époque prétendait même que « Watson comprend le langage naturel dans toute sa complexité et son ambiguïté ». Cependant, les promesses n’ont pas été tenues, et Watson a échoué de manière spectaculaire dans sa quête pour « révolutionner la médecine avec l’intelligence artificielle ». Preuve qu’une facilité linguistique de surface est bien différente d’une réelle compréhension du langage humain.

Depuis longtemps, le traitement du langage naturel est un des objectifs majeurs de la recherche en IA. Les chercheurs ont d’abord essayé de programmer à la main tout ce dont une machine peut avoir besoin pour comprendre un magazine, un roman ou toute autre production écrite. Cette approche, Watson l’a montré, était vaine – il est impossible de coucher noir sur blanc tous les faits, règles et suppositions qui n’ont pas encore été écrits et sont nécessaires pour comprendre un texte.

Plus récemment, un nouveau paradigme a été établi : au lieu de les abreuver de connaissances explicites et les dresser à prédire des mots, nous laissons les machines comprendre le langage par elles-mêmes en leur faisant ingurgiter d’énormes quantités de textes. Le résultat est ce que les chercheurs appellent un « modèle de langage ». Le GPT-3 de la société OpenAI, inauguré en mai 2020, par exemple, peut produire de la prose (et de la poésie !) humaine à s’y méprendre, et conduire des raisonnements linguistiques apparemment raffinés.

Mais GPT-3, entraîné avec des textes issus de milliers de sites web, de livres et d’encyclopédies, va-t-il au-delà du simple vernis de Watson ? Comprend-il les mots qu’il produit et sur lesquels il raisonne ostensiblement ? C’est là un sujet de vif désaccord au sein de la communauté des chercheurs en IA. De telles discussions étaient l’apanage des philosophes, mais tout au long de la décennie passée, l’IA a jailli hors de sa bulle académique vers le monde réel. La question n’est pas que réthorique, car son manque de compréhension de ce monde peut avoir des conséquences concrètes et parfois dévastatrices. Dans une étude portant sur les recommandations de Watson pour lutter contre le cancer, des « exemples multiples de traitements incorrects et peu sûrs » ont été pointés. D’autres travaux ont montré que le système de traduction de Google commettait d’importantes erreurs lorsqu’il s’appliquait à des instructions médicales destinées à des patients non anglophones.

En 2011, aux Etats-Unis, l’ordinateur Watson d’IBM triomphe au jeu Jeopardy. Nourri avec l’équivalent d’un million de livres, il capte les questions posées en langage naturel par le présentateur, le sens des mots, mais aussi s’il faut ou non répondre à une question. Une performance pas si élémentaire… mais sans lendemain.

© IBM

Comment juger, en pratique, si une machine a la capacité de comprendre ? En 1950, le pionnier de l’informatique Alan Turing a essayé de répondre à cette question avec son fameux « jeu de l’imitation », aujourd’hui connu sous le nom de test de Turing. Une machine et un humain, tous deux cachés, sont en compétition pour convaincre un juge humain de leur humanité en n’usant que de la conversation écrite. Si le juge est incapable de trancher, pensait Turing, nous devrions alors considérer que la machine pense – et, en effet, comprend.

Malheureusement, Turing a sous-estimé la propension des humains à se faire duper. Même de simples robots de conversation, tels qu’Eliza – l’ersatz de psychothérapeute conçu par Joseph Weizenbaum en 1960 –, ont réussi à faire croire à des testeurs qu’ils discutaient avec un être doué de compréhension, alors même qu’ils savaient parler à une machine.

Maître du monde pour un pronom

Dans un article de 2012, les informaticiens Hector Levesque, Ernest Davis et Leora Morgenstern ont proposé un test plus objectif, qu’ils ont baptisé « challenge du schéma Winograd ». Ce test a, depuis, été adopté par la communauté du langage de l’IA comme moyen, peut-être le meilleur, d’évaluer le degré de compréhension d’une machine – bien que, nous le verrons, il ne soit pas parfait. Un schéma Winograd, nommé d’après le chercheur en linguistique Terry Winograd, de l’université Stanford, consiste en une paire de phrases différant d’un mot exactement, chacune suivie d’une question. Voici deux exemples :

Paire 1, phrase 1 : J’ai versé de l’eau de la bouteille dans la tasse jusqu’à ce qu’elle soit pleine.

Question : Qu’est-ce qui était rempli, la bouteille ou la tasse ?

Paire 1, phrase 2 : J’ai versé de l’eau de la bouteille dans la tasse jusqu’à ce qu’elle soit vide.

Question : Qu’est-ce qui était vide, la bouteille ou la tasse ?

Paire 2, phrase 1 : L’oncle de Joe peut encore le battre au tennis, bien qu’il soit trente ans plus vieux.

Question : Qui est plus vieux, Joe ou l’oncle de Joe ?

Paire 2, phrase 2 : L’oncle de Joe peut encore le battre au tennis, bien qu’il soit trente ans plus jeune.

Question : Qui est plus jeune, Joe ou l’oncle de Joe ?

Dans chaque paire, la différence d’un mot (que nous avons souligné) peut changer la personne ou la chose à laquelle le pronom fait référence. Répondre correctement à ces questions semble nécessiter une compréhension de type sens commun. Les schémas Winograd sont conçus précisément pour évaluer cela, en réduisant la vulnérabilité du test de Turing aux juges humains non fiables et aux astuces des robots conversationnels. En particulier, les auteurs ont conçu quelques centaines de schémas qu’ils pensent être imperméables à Google : une machine ne devrait pas être capable de lancer une recherche Google (ou tout autre moteur de recherche) pour répondre à ces questions correctement.

Ces schémas ont été l’objet d’une compétition tenue en 2016 durant laquelle le programme vainqueur a répondu juste à seulement 58 % des phrases – un résultat à peine meilleur que celui qu’elle aurait obtenu en devinant les réponses au hasard. Ce qui fait dire malicieusement à Oren Etzioni, éminent chercheur en IA : « Quand une intelligence artificielle ne peut déterminer à qui un pronom fait référence dans une phrase, il est difficile d’imaginer qu’elle puisse prendre un jour le contrôle du monde. »

Cependant, la capacité des programmes d’IA à résoudre les schémas Winograd a grimpé en flèche avec l’avènement des modèles de langage en réseau neuronal. En 2020, une étude d’OpenAI relatait que GPT-3, qui relève de cette catégorie d’IA, obtenait de bonnes réponses sur près de 90 % des phrases dans un lot de référence de schémas Winograd. D’autres modèles de langage sont encore plus performants après s’être entraînés spécifiquement à ces tâches. Fin 2021, les modèles de langage en réseau neuronal atteignaient 97 % de précision sur un lot particulier de schémas Winograd qui font partie d’une compétition de compréhension des langues par les IA, nommée SuperGLUE. C’est à peu près équivalent aux performances humaines. Cela signifie-t-il que les modèles de langage en réseau neuronal ont atteint un niveau de compréhension comparable au nôtre ?

Être collé à la compétition SuperGLUE

Pas forcément. Malgré tous les efforts de leurs créateurs, ces schémas Winograd n’étaient en fait pas imperméables à Google. Ces défis, comme beaucoup d’autres tests actuels de compréhension du langage par les IA, recourent parfois à des raccourcis statistiques grâce auxquels les réseaux neuronaux sont performants sans comprendre. Prenez, par exemple, les phrases « la voiture de sport a doublé la camionnette de la poste, car elle était plus rapide » et « la voiture de sport a doublé la camionnette de la poste, car elle était plus lente ». Un modèle de langage entraîné avec un large corpus de phrases en français aura assimilé la corrélation entre « voiture de sport » et « rapide », et entre « camionnette de la poste » et « lent » ; il peut donc répondre correctement uniquement grâce à ces corrélations. De fait, beaucoup de schémas Winograd de la compétition SuperGLUE autorisent ce genre de lien statistique.

Plutôt qu’abandonner les schémas Winograd en tant que test de compréhension, un groupe de chercheurs de l’institut Allen (du nom d’un cofondateur de Microsoft) pour l’IA, à Seattle, a essayé de régler certains de leurs problèmes. En 2019, ils ont créé WinoGrande, un lot bien plus étoffé de schémas Winograd : il contient 44 000 phrases, contre quelques centaines jusque-là. Pour obtenir autant d’exemples, les chercheurs ont fait appel à Amazon Mechanical Turk, une plateforme pour proposer à des humains, contre rémunération, des tâches plus ou moins complexes. Il a été demandé à chaque travailleur d’écrire quelques paires de phrases, avec des contraintes pour s’assurer que l’ensemble aborderait divers sujets, mais avec la possibilité que ces paires puissent à présent différer de plus d’un mot.

Les chercheurs ont ensuite tenté d’éliminer les phrases propices à des raccourcis statistiques, en soumettant chacune d’entre elles à une IA assez peu sophistiquée et en écartant toutes celles qui étaient trop simples à résoudre. Comme ils s’y attendaient, les phrases restantes offraient un défi bien plus difficile pour les machines que la collection originale. Tandis que les humains continuaient d’obtenir des scores très élevés, les modèles de langage en réseau neuronal qui égalaient la performance humaine sur le lot d’origine ont vu leur score s’effondrer avec le lot WinoGrande. Ce nouveau défi restaurait le statut de « test de compréhension de sens commun » pour les schémas Winograd – du moment que les phrases étaient scrupuleusement filtrées pour assurer leur imperméabilité à des recherches Google.

Cependant, une autre surprise allait surgir. Dans les deux années qui suivirent la publication de la collection WinoGrande, les modèles de langage en réseau neuronal ont continué de croître, et plus ils sont larges, meilleur semble être leur score à ce nouveau défi. Fin 2021, les meilleurs programmes actuels – d’abord entraînés avec des térabits de textes, puis avec des milliers d’exemples WinoGrande – obtenaient près de 90 % de bonnes réponses (contre 94 % pour les humains). Cette hausse de performance est presque entièrement imputable à l’augmentation de la taille des modèles de langage en réseau neuronal et de la quantité de leurs données d’entraînement.

Ces réseaux encore plus larges ont-ils enfin atteint un niveau de compréhension similaire au nôtre ? Encore une fois, c’est peu probable. Les résultats de WinoGrande s’accompagnent d’importantes mises en garde. Par exemple, parce que les phrases dépendent des travailleurs d’Amazon Mechanical Turk, la qualité et la cohérence de l’écriture sont assez inégales. L’IA utilisée pour filtrer les phrases « non imperméables à Google » peut avoir été trop peu sophistiquée pour repérer tous les potentiels raccourcis statistiques qu’un énorme réseau neuronal pourrait emprunter, et elle ne s’appliquait qu’à des phrases individuelles, si bien que certaines des phrases restantes ont fini par perdre leur « jumelle ». Une étude postérieure à ces travaux a montré que les modèles de langage en réseau neuronal testés uniquement avec des phrases jumelles, et devant répondre correctement aux deux, sont bien moins précis que les humains, ce qui indique que le résultat de 90 % vu plus tôt est moins significatif qu’il pouvait le paraître.

Au final, que retenir de cette saga Winograd ? La leçon principale est qu’il est souvent difficile de déterminer, à partir de leur performance lors d’un défi donné, si des systèmes d’IA comprennent véritablement le langage (ou d’autres données) qu’ils traitent. Nous savons que les réseaux neuronaux utilisent souvent des raccourcis statistiques – au lieu de vraiment faire preuve d’une compréhension semblable à celle des humains – pour obtenir de bonnes performances sur les schémas Winograd et sur d’autres bancs d’essais orientés vers une « compréhension générale du langage ».

Le nœud du problème, à mon avis, est que comprendre le langage nécessite de comprendre le monde, et notamment ce que signifie que « la voiture de sport a doublé la camionnette de la poste parce qu’elle était plus lente ». Cela suppose de savoir ce que sont des voitures de sport et des camionnettes de la poste, que des voitures peuvent se « doubler », et, à un niveau encore plus fondamental, que les véhicules sont des objets qui existent et interagissent dans le monde, conduits par des humains avec leurs propres objectifs.

Ces connaissances, nous, humains, les tenons pour acquises, mais ce n’est pas le cas des machines. Et il est peu probable que ce soit écrit explicitement dans le texte d’entraînement de n’importe quel modèle de langage. Certains chercheurs en cognition estiment que les humains, pour apprendre le langage, s’appuient sur un noyau de connaissances, prélinguistiques et innées, de l’espace, du temps et de nombreuses autres propriétés essentielles du monde. Si nous voulons que les machines maîtrisent le langage comme nous, nous devrons d’abord les doter des principes primordiaux avec lesquels nous naissons. Et pour évaluer leur niveau de compréhension, nous devrions commencer par évaluer leur capacité à saisir ces principes, ce qu’on pourrait appeler une « métaphysique infantile ».

Entraîner et évaluer des machines au niveau d’intelligence d’un nourrisson peut apparaître comme un pas de géant en arrière par rapport aux prouesses de Watson et de GPT-3. Mais si l’objectif est une compréhension authentique et digne de confiance, il se peut que ce soit le seul chemin vers des machines vraiment capables de comprendre à quoi « il » ou « elle » fait référence dans une phrase.

L’IA comprend-elle ce qu’elle fait ?

We would like to give thanks to the writer of this short article for this outstanding content

L’IA comprend-elle ce qu’elle fait ?

Check out our social media profiles and also other pages related to themhttps://www.ai-magazine.com/related-pages/