Historique des Hallucinations, dans l'IA
L’utilisation du terme « hallucination » appliquée à « l’intelligence » artificielle, notamment à ChatGPT, est très récente : 2021.
La définition qui s’appliquerait le mieux semble être celle du dictionnaire américain : « l'objet visualisée lors d’un état hallucinatoire »
Selon l’Enquête sur les hallucinations dans la génération du langage naturel parue en mars 2023, aucun des informaticiens ne remet en cause l’existence d’hallucinations, leur seul objectif est d’en minimiser les effets.
Quelques remarques personnelles complètent cet article :
- Pour les Homo sapiens que nous sommes, …
- Reconnaissance dynamique
- Du silicium au Nylon !
- Memcomputing et épiphanie
Une de mes lectrices me pose une question pertinente : quand les « hallucinations » sont-elles apparues, dans les « larges modèles de langage » ?
Commençons par la définition de « hallucination ».
Les dictionnaires français et américains, donnent les deux mêmes sens :
- trouble mental « qui se manifeste généralement sous forme d'images visuelles ou auditives. » (US)
ou « Phénomène psychique par lequel un sujet en état de veille éprouve des perceptions ou des sensations sans qu'aucun objet extérieur les fasse naître » (France)
- Au sens figuré : illusion : « une fausse idée, croyance ou impression » « a false notion, belief, or impression » … le CNRTL donne l’exemple « d’hallucination littéraire »
Le dictionnaire américain insère une définition particulièrement adaptée à ChatGPT : « la sensation causée par un état hallucinatoire, ou l'objet, ou la scène visualisée. “the sensation caused by a hallucinatory condition, or the object or scene visualized. »
Plus traditionaliste, et ajoutant à la confusion, le Dictionnaire de Cambridge … restreint « hallucination » au sens du trouble mental ! Ce qui peut troubler les étrangers pour lesquels l’anglais de Cambridge est la langue de référence.
Finalement, les synonymes de « hallucination » dans le contexte de l’ « intelligence » artificielle appliquée aux « larges modèles de langage » pourraient être :
- défaillance (failure) d’un système, d’un algorithme, …
- plus technique : biais d'objet, "biais » dans le sens de « déformation », l’objet pouvant être une image, un mot, etc.
- inconsistance, inconséquence ou incohérence seraient des quasi synonymes (voir § 8.2 Génération de dialogue en domaine ouvert, pour les nuances subtiles entre "incohérence" et "hallucination".)
- épiphanie (dans le sens de Manifestation d'une réalité cachée, pas celle de fève de la galette des rois !) utilisée dans le cas particulier d'une rupture technologique, celle des ordinateurs ferroélectriques du Memcoumputing .
En termes de marketing, Hallucination frappe bien davantage les esprits des humains néoténiques
(et appelle bien plus efficacement les investisseurs)
... que « défaillance » ou « biais d’objet », ou "inconsistance, inconséquence ou "incohérence" !
Aller directement aux Hallucinations récentes
Le mot « hallucination » dans « l’Intelligence » Artificielle semble être apparu pour la première fois lors du congrès Fourth IEEE International Conference on Automatic Face and Gesture Recognition (28-30 March 2000) ...
… faisant suite à Hallucinating faces. Technical. Report TR-99-32, The Robotics Institute, Carnegie Mellon. University, September 1999.
… mais, ces hallucinations ont été ajoutées et non pas subies par la machine.
Pour améliorer la reconnaissance faciale, les deux auteurs,
Simon Baker (Microsoft Research)
et Takeo Kanade (Robotics Institute Carnegie Mellon University, Pittsburgh, PA)
... ont « légèrement » modifié des algorithmes bayésiens utilisés précédemment par Schultz et al. et par Hardie et al.
La méthodologie consiste à incorporer des pixels supplémentaires à l’algorithme, des pixels "hallucinés".
L’addition de ces pixels est réalisée en partant, du fait que sur une photographie, de face, d’un visage, a priori le nez est au milieu de la figure, etc. La méthode est donc limitée aux reconnaissances faciale de face. Mais le résultat est hallucinant ! (voir figure ci-dessous)
N’ayant pas d’existence « réelle », ces pixels sont qualifiés par Baker et Kanade « d'hallucinés ». The additional pixels are, in effect, hallucinated.
Sans doute par soucis de simplification (ou de facétie ?) Baker et Kanade nomment les images produites par leur logiciel de « hallucinées » (deuxième photo en partant de la droite, l'image avant traitement est la première à droite. Photo à haute résolution à droite, "Schultz" fait référence à un autre algorithme d'amélioration de la netteté d'une image)
La méthode de Baker et Kanade appliquée à la reconnaissance de texte donne des résulats moins "hallucinants" (c)
Les algorithmes de ChatGPT ajoutent-ils des mots, comme Baker et Kanade ont ajouté des pixels ? Ces mots "hallucinés" pourrraient rendre la texte plus « naturel », par exemple des conjonctions de coordinations (mais, ou, et, or, ni, car, soit, voire.) destiné à « unir deux mots, ou deux groupes de mots, en établissant entre eux un lien logique »
Passer mes remarques et aller directement au § Hallucinations récentes
… le degré de netteté/flou acceptable dépend de la décision à prendre.
Les informations contenues dans un visage très flou peuvent être suffisantes pour la recherche d'une information sociale très rapide/urgente, comme l’expression de la peur, de la joie, ou de la sérénité.
Le temps d’acquisition de cette information est inférieur à 70 millisecondes, le même temps que celui nécessaire pour détecter un mouvement (ce qui laisserait penser que « l’information sociale » est effectuée par la vision périphérique).
Par contre, 250 millisecondes est un minimum nécessaire pour savoir si un visage est connu ou non, ou le plus souvent hésiter, hésitation qui oblige notre cerveau de demander à nos yeux de refaire une nouvelle analyse. Mais un nouveau facteur entre en jeu, il n’est pas socialement convenable de regarder trop longtemps une personne !
Autant efficace qu’elle soit, la méthodologie utilisée par Baker et Kanade est limitée aux vues de face.
Je pense que la reconnaissance faciale commencerait à devenir efficace en utilisant une « reconnaissance dynamique »
La reconnaissance dynamique n’utiliserait non pas une photographie mais une courte vidéo celle-ci permettrait d’utiliser des vecteurs,
Pour cela, il faudrait abandonner le silicium pour du Nylon-11 (par exemple). Le silicium est utilisé depuis près de 60-70 ans dans les ordinateurs, ne serait-il pas temps de changer ?
Il faudrait également abandonner la numérotation discrète/discontinue de Leibniz : 0-1, pour des valeurs continues, comme celles d’un vecteur "tangent" à une courbe d’hystérésis d’un matériau ferroélectrique.
Il semble que les informaticiens ne savent pas, aujourd’hui, détecter ni les bifurcations ni les chaos ! Ni les hallucinations !
Peut-être est-ce impossible avec les ordinateurs à système binaire de Leibniz
Peut-être serait-ce possible avec des ordinateurs ferroélectriques, inspirés des protéines de mémoire et des synapses.
Dans Notre mémoire probabiliste et … quantique … j’attire l’attention du lecteur vers le Memcomputing ...
… proposé, en 2013, par l’Oak Ridge National Laboratory à partir de matériaux ferroélectriques …et quasiment envoyé aux oubliettes. La communauté scientifique est sans doute une des « confréries » les plus ultra-conservatrices !
« L’apparition imprévisible d'une portion de damier » a inspiré la métaphore « d’épiphanie » (nous n’en étions pas encore aux « hallucinations » !)
Ces « épiphanies » pourraient émerger à partir « du comportement des domaines ferroélectriques en faisant intervenir la théorie du chaos.
Chaos, ou plus probablement conséquence d'un phénomène quantique ? sachant que même si une théorie quantique de la ferroélectricité émergea dès les années 1990
… ce n’est que très récemment que la ferroélectricité quantique commence à intéresser la communauté scientifique (notamment en raison de la possibilité d'utiliser des informations quantiques à la température de la pièce !) .
Par exemple : Réunion thématique du GDR MEETICC: « De la matière quantique aux matériaux fonctionnels (Paris, Collège de France, janvier 24-25, 2023)… et plus particulièrement dans Matériaux pour l'électronique du futur :
Room temperature strained induced-ferroelectric switching in bismuth based perovskites
Plus généralement voir la série d’articles de Vers une Intelligence Biophysique ?
Dans Enregistrement de notre mémoire, je compare les tores mnésiques imparfaitement accordés au signal neuronal à cette « apparition imprévisible"
Il faut faire un saut d’environ vingt ans, après les Hallucining faces de Baker et Kanade pour (re)trouver les hallucinations au sens actuel dans l'IA..
En s’étonnant de la présence d’une horloge sur une plage, pendant le IEEE/CVF Winter Conference on Applications of Computer Vision, de 2021,
Ali Furkan Biten, Lluis Gomez et Dimosthenis Karatzas du Computer Vision Center (Université autonome de Barcelone) proposent une méthodologie pour « réduire considérablement le biais d'objet (hallucination) »
Également en 2021, au cours du IEEE International Conference on Image Processing
… sous le titre Hallucination In Object Detection,
Osman Semih Kayhan, Bart Vredebregt, Jan C. van Gemert (Computer Vision Lab, Delft University of Technology)
... ont montré, sur l’exemple des vélos de la ville de Delft, que les détecteurs d'objets peuvent halluciner et détecter des objets manquants … avec précision ... mais non existants.
Un vélo auquel il manque une roue et/ou une selle est-il un vélo ?
En annotant (manuellement) l’étiquette rattachée au vélo pour 22 pièces (roue, selle, etc) les auteurs ont amélioré « les détecteurs d'objets » comme les vélos.
Nous voyons ici l’importance des « annotations » réalisées par des humains. Ces annotations sont rarement avouées par les entreprises de l’IA, alors que des milliers de personnes (installées en Inde, au Kenya, au Nigeria, à Madagascar, ...) sont affectées à ce travail, ...
... comme l’a rappelé Lauren Boudard dans un documentaire présenté lors de la Conférence : L’intelligence artificielle va-t-elle trop loin ? (Biarritz 24 avril 2023)
L' "intelligence" artificielle est d'abord celle de l'intelligence d'humains !
L’Enquête sur les hallucinations dans la génération du langage naturel,, effectuée par l’université de Hong Kong (Center for Artificial Intelligence Research (CAiRE), parue le 03 mars 2023, pose parfaitement le problème des hallucinations.
(Les articles précédemment commentés - sur les bicyclettes et sur l'horloge sur la plage - font partie des 240 références de cette Enquête, mais je l’ai avait déjà lues avant)
Les hallucinations, ou « incohérences », sont parfaitement admises, factuelles. Aucun des auteurs ne semblent mettre en cause des chaos ou des bifurcations inhérent aux itérations de l’apprentissage profond.
Les recherches ne concernent que les façons de réduire l’effet de ces hallucinations.
Deux articles, de 2022, méritent plus particulièrement notre attention.
Emily Dinan, est co-signataire de ces deux articles, cette auteure fait partie de DeepMind (Esprit profond) qui se présente ainsi : “Nous sommes une équipe de scientifiques, d'ingénieurs, d'éthiciens et plus, engagés à résoudre l'intelligence, à faire avancer la science et à profiter à l'humanité. »
1° Dans Réduire l'excès de confiance des agents conversationnels grâce au calibrage linguistique … les auteurs prennent acte que dans dialogues entre une machine et un humain, « les modèles reposent sur la probabilité que les réponses soient factuellement incorrectes (ou correctes). Puis proposent un agent de dialogue avec un calibrage linguistique grandement amélioré. »
Comme je le signale dans le § Pondération, une valeur issue d’un chaos ou d’une bifurcation ne risque-t-elle pas de biaiser un calcul de probabilité.
En comparant chaque valeur individuelle à la valeur moyenne, il devrait être possible de repérer, et d’isoler, une hallucination, mais ces calculs de calibration demanderaient un grand temps-machine quand le nombre de données dépasse les millions.
2° Dans Recettes pour créer un chatbot à domaine ouvert … nous apprenons qu’aux ingrédients habituels d’un chatbot. Pour que la conversation soit performante il faut ajouter : « des points de discussion engageants et écouter ses partenaires, et afficher ses connaissances, son empathie et sa personnalité de manière appropriée, tout en conservant une personnalité cohérente. »
Demander de l’empathie (Capacité de s'identifier à autrui, d'éprouver ce qu'il éprouve.) anthropomorphique à une machine n’est-il pas un début d’hallucination ?
Peut-on avoir de l’empathie avec une casserole ?
... pour reprendre les propos du professeur François Pellegrini, (vice-président de la CNIL) lors de la Conférence : L’intelligence artificielle va-t-elle trop loin ? (Biarritz 24 avril 2023)
… à moins que l’empathie ne soit apportée par les "annotateurs" installés en Inde, au Kenya, au Nigeria ...
"L'intelligence" artificielle reste, d'abord une intelligence humaine (bis)
« Pour que le chatbot parvienne à un résultat cohérent, il faut savoir bien le guider. » (Marine Protais) pourrait parfaitement conclure les possibilités des chatbot ...
... hors une façon d'encourager les levées de fonds.