Comprendre un PDF, pour un humain, c’est trivial.
Pour une IA générative, pas du tout.
Lors des sessions de coaching IA que je mène régulièrement — notamment pour mon partenaire Puissance AI — il y a un moment qui revient presque à chaque fois. Tôt ou tard, quelqu’un finit par raconter, un peu agacé, parfois franchement énervé :
« Cette semaine, je me suis trop énervé contre ChatGPT. Je lui ai donné un PDF, et j’ai l’impression qu’il ne l’a même pas lu. Pourtant, lire et comprendre un PDF, c’est quand même simple. N’importe quel humain sait faire ça. Tu parles d’une soi‑disant intelligence… »
La réaction est compréhensible. Et elle constitue surtout une excellente occasion de remettre quelques pendules à l’heure.
Non, un LLM n’est pas intelligent au sens où nous l’entendons.
Et non, ce qui nous paraît évident — voir, lire, comprendre, relier un texte à un tableau, interpréter un schéma ou un plan — n’a aucun rapport avec la manière dont fonctionnent les GPT-5, Haiku, Gemini ou leurs collègues.
Un LLM n’« ouvre » pas un document. Il ne le parcourt pas des yeux. Il ne lit pas une mise en page. Il manipule des représentations abstraites issues de ce qu’il parvient à extraire sous forme de vecteurs. Autrement dit, il compare, rapproche et classe des signaux statistiques. Pas des pages. Pas des plans. Pas des intentions.
Et c’est précisément là que le format PDF devient problématique.

Le PDF est un format d’affichage, pas un format de connaissance. Il est conçu pour figer une mise en page — colonnes, aplats, encadrés, tableaux, images — pas pour exposer une structure logique exploitable par une machine.
Or ce sont précisément ces types de documents que manipulent au quotidien les acteurs culturels, institutionnels, aménageurs, agences publiques, bureaux d’études ou équipes de maîtrise d’ouvrage.
Alors, concrètement, fin 2025, que se passe‑t‑il quand on confie ce genre de PDF à un LLM grand public ?
État de l’art fin 2025
Lorsque le document est majoritairement composé de texte linéaire, avec une structure claire et des tableaux standards, les résultats sont souvent satisfaisants. Les grands modèles de langage actuellement accessibles — ChatGPT 5.x, Claude, Gemini, Le Chat, dans leurs versions gratuites ou standards — savent extraire le texte principal, produire des résumés cohérents, répondre à des questions générales et repérer des informations explicites dans des tableaux simples.
Demander par exemple « quel est le montant indiqué dans ce tableau » ou « quels sont les points clés de ce rapport » fonctionne, dans une majorité de cas.
Sur ce terrain, le gain de productivité est réel et immédiatement perceptible.

Dès que l’on sort de ce cadre relativement sage, les limites apparaissent rapidement.
La mise en page multi‑colonnes est l’un des premiers écueils : le texte est souvent linéarisé de façon erratique, les colonnes se mélangent et l’ordre logique de lecture disparaît.
Les tableaux complexes posent un second problème majeur. Cellules fusionnées, en‑têtes multiples, notes de bas de page, tableaux servant autant à présenter qu’à structurer l’information : autant d’éléments qui génèrent des erreurs, des omissions ou des interprétations incorrectes. Les chiffres peuvent être faux, les lignes sautées, les relations hiérarchiques perdues.
Les images techniques — plans, éclatés, schémas annotés, captures d’écran — sont décrites de manière générale, mais sans compréhension fine. Les détails importants sont souvent manqués, les liens entre texte et image mal établis, et le contexte d’une page à l’autre se dissout.

Enfin, la volumétrie reste un facteur aggravant. Au‑delà d’une dizaine ou d’une vingtaine de pages denses, les modèles perdent en précision, oublient des éléments, ou commencent à extrapoler. Autrement dit : ils hallucinent.
Résultats observés en pratique
Sur la base de tests récents et d’observations croisées, les performances des LLM publics atteignent généralement 70 à 80 % de fiabilité sur des PDF simples mêlant texte et images basiques.
En revanche, ce taux chute fréquemment entre 40 et 60 % dès qu’il s’agit de tableaux multi‑niveaux, de documents très mis en page ou de plans techniques.
Claude et GPT‑4o restent globalement les plus à l’aise sur l’analyse visuelle. Gemini se montre souvent plus robuste sur les tableaux bien structurés. Mais aucune de ces solutions ne permet aujourd’hui de traiter de façon fiable, sans précaution, un PDF complexe tel qu’on en rencontre couramment dans les projets institutionnels.
Ce n’est pas un bug. C’est une limite structurelle.

Pourquoi la frustration est légitime… mais mal orientée
La frustration exprimée par les utilisateurs est compréhensible. Le discours ambiant sur l’IA a largement entretenu l’idée d’une machine « qui comprend tout ». Or, en l’état actuel, les IA génératives grand public ne comprennent pas un PDF comme un humain le ferait.
La bonne question n’est donc pas « pourquoi l’IA n’arrive‑t‑elle pas à lire mon PDF », mais plutôt « dans quelles conditions peut‑elle exploiter utilement ce type de document ».
Et surtout : est‑il raisonnable d’attendre cela sans préparation, sans outillage spécifique et sans cadrage méthodologique ?
Ce qu’il faut retenir, côté décideur
Non, ce n’est pas vous qui utilisez mal l’IA.
Non, le problème ne va pas disparaître par magie, même si les éditeurs progressent rapidement.
Oui, des approches plus robustes existent déjà — mais elles sortent du simple geste consistant à déposer un PDF dans une interface de chat.
Tant que l’on confondra format de présentation et structure informationnelle, on alimentera la déception.
Un LLM est aujourd’hui un excellent assistant de raisonnement sur du contenu déjà structuré.
Ce n’est pas encore un lecteur universel de documents complexes.
Dans ce contexte, le rôle du consultant n’est pas de vendre de l’IA à tout prix, mais d’alerter, de cadrer les usages et d’aider les organisations à décider où l’outil est pertinent — et où il ne l’est pas encore.
Pour l’instant, la lucidité reste la meilleure boussole.
Générique
- Problématique : source humaine réelle 100% bio
- Recherche d’informations actuelles : Perplexity
- Illustrations de l’article : Gamma
- Illustration d’entête : ChatGPT image 1.5 (tout nouveau tout beau et, déso, mais Gemini était nul, là)
- Rédaction initiale du billet (et JSON caché) : ChatGPT
- Signataire qui assume : @fxbodin