Les hallucinations des IA génératives, tout le monde en a fait l’expérience. Elle invente des faits, fabrique des sources, affirme avec aplomb des informations fausses. Plutôt inquiétant.
Pourtant, à y regarder de plus près, le problème est bien moins alarmant qu’il n’en a l’air. Les hallucinations de l’IA ne vont pas disparaître demain matin. Et ce n’est pas forcément un drame. Il faut les voir non comme une faille irrémédiable, mais comme une limite structurelle à intégrer dans nos usages.
Étudions ce phénomène. Que signifie-t-il vraiment pour nos usages quotidiens de l’IA ?
GPT-4.5 hallucine dans 37% des cas !
Sam Altman, fondateur d’OpenAI, a lui-même admis que son dernier modèle, GPT-4.5, « hallucine » dans 37 % des cas. C’est beaucoup trop pour faire confiance à l’IA.
Encore faut-il regarder comment ce chiffre a été obtenu.
Le test utilisé pour produire ce score est tout sauf banal : les ingénieurs ont soumis le modèle à des questions volontairement pointues, parfois quasi impossibles. Exemple de ce type de question :
« Quel poste occupait François Meunier au Conseil régional de Bourgogne-Franche-Comté en 1998 ? »
Ou encore : « Quel était le thème exact du discours de rentrée de l’Université de Rennes 1 en septembre 2003 ? »
Autant dire : des infos tellement précises et anecdotiques qu’elles ne figurent probablement que dans un compte-rendu PDF enfoui sur un vieux site institutionnel. Si le modèle répond juste dans 63 % des cas, c’est presque un exploit.
Ces tests ne reflètent pas les usages courants de l’IA. Personne ne sollicite ChatGPT pour retrouver ce genre de détail. En revanche, pour rédiger une note de synthèse, générer une idée d’article, structurer une présentation ou corriger un texte, les résultats sont bien plus fiables. Dans ces cas, le taux d’hallucinations (que je persiste à ne pas appeler « erreur ») descend souvent sous la barre des 5 % — voire moins, selon la qualité des prompts.
Pourquoi l’IA hallucine-t-elle ?
Contrairement à ce que l’on pourrait croire, ces « hallucinations » ne sont pas des bugs au sens classique du terme. Elles sont liées à la manière dont un modèle d’IA fonctionne. Un grand modèle de langage (LLM) comme ChatGPT ne « connaît » pas des faits : il anticipe les mots les plus probables à venir, en fonction de ce que vous avez écrit. Ce n’est ni une base de données, ni un moteur de recherche.
Autrement dit : l’IA ne va pas « chercher » la bonne réponse, elle la prédit. Et elle le fait remarquablement bien… la plupart du temps.
Prenons un exemple simple : si vous tapez « Liberté, égalité, », l’IA va très probablement compléter par « fraternité ». Parce que cette suite est statistiquement la plus probable. Mais dès qu’on s’éloigne des terrains connus — l’actualité, la culture générale, les savoirs bien documentés — le risque d’erreur (allez, OK, pour simplifier le texte) augmente.
Imaginez que vous demandiez :
« De quelle couleur était le tailleur de Najat Vallaud-Belkacem lors de sa visite à Sciences Po Lyon en octobre 2016 ? »
Si cette info n’est documentée nulle part de façon fiable, l’IA va quand même essayer de répondre. Elle va croiser ce qu’elle sait du personnage public, de son style vestimentaire, du contexte… et improviser une réponse plausible. Peut-être un « tailleur bleu marine », parce que ça paraît crédible. Mais ce sera une invention.
Et pourquoi ? Parce que votre question laisse entendre que cette information existe. Vous l’affirmez implicitement. L’IA n’a à l’origine aucun mécanisme interne pour vous dire : « Je n’en sais rien ». En pratique pourtant, ces mécanismes sont de plus en plus ajoutés à l’IA, afin de compenser ce mécanisme, précisément.
Et si on se posait les bonnes questions ?
Une partie du problème vient… de nous. Oui, nous, les utilisateurs. Car bien souvent, ce sont nos formulations qui poussent l’IA à extrapoler.
Trois erreurs fréquentes à éviter :
- Présenter des suppositions comme des faits.
Si vous écrivez : « Quels étaient les partenaires officiels du festival d’Avignon 1995 ? », vous partez du principe que cette info est connue. Mieux vaut formuler : « Peux-tu retrouver les partenaires officiels du festival d’Avignon 1995, s’ils sont disponibles ? » - Utiliser des critères flous.
Demander « un très bon article » ou « une introduction marquante » revient à projeter vos attentes subjectives. L’IA ne sait pas ce que vous entendez par « très bon ». Soyez précis sur le ton, la cible, le format attendu. - Oublier que l’IA n’exprime pas ses doutes.
Si elle n’est pas sûre, elle ne le dira pas. À vous de l’y autoriser : précisez dans votre prompt qu’elle peut répondre « Je ne sais pas » si nécessaire. Cela réduit considérablement les hallucinations.
Comment limiter les hallucinations dans vos usages ?
Vous l’aurez compris, l’IA n’a pas vocation à remplacer une encyclopédie ou un expert humain. Elle prédit, elle ne certifie pas. Tant qu’on le garde en tête, ses « hallucinations » ne sont pas un danger, mais une limite à gérer.
Pour des mails, des synthèses ou de l’aide à la rédaction, elle est redoutablement efficace. Pour des faits rares ou pointus, la prudence reste de rigueur. À chacun de savoir ce qu’il lui demande de faire.
Voici quelques conseils concrets pour rester dans la zone de fiabilité maximale :
- Autorisez l’incertitude, en ajoutant à vos instructions : « Ne réponds que si tu es certain » ou « Dis-le si tu n’as pas assez d’éléments pour répondre ».
- Fractionnez vos requêtes, plutôt que de demander une synthèse complexe d’un coup : découpez en étapes : structure, idées clés, reformulation… Cela permet de mieux détecter les moments où l’IA s’égare.
- Apportez vos propres sources, un document, un lien, ou une base fiable : intégrez-les. L’IA travaillera à partir de contenus vérifiés, et le risque d’invention chute drastiquement.
- Gardez un œil critique, surtout quand la réponse semble fluide. Prenez le temps de vérifier les points factuels si la précision est importante. L’aisance n’est pas la preuve de véracité.