← Blog IA et données Intermédiaire 16 min

LLMs : comment l'IA apprend de vos données (et pourquoi ça vous concerne)

Quand vous posez une question à ChatGPT, Claude ou Gemini, la réponse semble sortir de nulle part. On pourrait croire que le système "sait" des choses. Ce n'est pas le cas. Derrière chaque réponse, un modèle mathématique entraîné sur des milliards de textes aspirés du web — des textes que vous avez peut-être écrits.

Ces systèmes s'appellent des LLM : Large Language Models, grands modèles de langage. Ils posent un problème fondamental pour vos données personnelles : une fois ingérées, vos informations ne peuvent pas en être retirées. Cet article vous explique comment ces modèles fonctionnent, d'où viennent les données qui les alimentent, et ce que vous pouvez faire.

Qu'est-ce qu'un LLM ?

Une machine à prédire le mot suivant

Un LLM — Large Language Model — est un programme informatique entraîné à produire du texte. Son fonctionnement repose sur un principe simple : étant donné une suite de mots, prédire le mot suivant le plus probable.

Prenez la phrase : "La capitale de la France est..." Le LLM a vu cette construction des milliers de fois. Il attribue une probabilité élevée au mot "Paris", faible à "une", infime à "banane". Il choisit "Paris". Puis recommence avec le mot suivant, et ainsi de suite jusqu'à former une réponse complète.

Pas de compréhension au sens humain. Pas de raisonnement logique natif. Le modèle ne "sait" pas que Paris est une ville. Il a appris que "Paris" suit fréquemment "la capitale de la France est" dans les textes qu'il a ingérés.

Les acteurs du marché

Les acteurs dominants en 2026 :

GPT-4 / GPT-4o (OpenAI) — le modèle derrière ChatGPT. Propriétaire, fermé.
Claude (Anthropic) — concurrent direct, avec un accent sur la sécurité. Propriétaire, fermé.
Gemini (Google DeepMind) — intégré à la recherche Google et à l'écosystème Android. Propriétaire, fermé.
LLaMA (Meta) — modèle open-weight : les poids sont publiés, le code d'entraînement ne l'est pas. N'importe qui peut le télécharger et l'utiliser.
Mistral (France) — startup parisienne, modèles open-weight parmi les plus performants pour leur taille. Un rare acteur européen dans la course.

La distinction compte. Un modèle fermé est une boîte noire. Un modèle open-weight publie ses paramètres — ce qui permet l'audit et la recherche, mais aussi le détournement.

Ce que "grand" veut dire

Le "L" de LLM n'est pas décoratif. GPT-4 contiendrait environ 1 800 milliards de paramètres (le chiffre exact n'est pas public). Un paramètre, c'est un nombre décimal — une sorte de bouton de réglage parmi des milliards d'autres. C'est dans ces paramètres que les "connaissances" du modèle sont encodées, sous forme de relations statistiques entre les mots.

À retenir :

Un LLM prédit le mot suivant le plus probable, mot par mot — il ne "comprend" pas
Les principaux LLMs : GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), LLaMA (Meta), Mistral (France)
Les modèles fermés sont des boîtes noires ; les modèles open-weight permettent l'inspection mais aussi le détournement
"Grand" = des centaines de milliards de paramètres, chacun encodant une relation statistique

Comment un LLM est entraîné

Phase 1 : aspirer le web

GPT-4 aurait été entraîné sur environ 13 000 milliards de tokens (un token = un mot ou un fragment de mot). Pour atteindre ce volume, les entreprises puisent dans plusieurs sources :

Common Crawl — projet à but non lucratif qui archive le web depuis 2008, environ 250 milliards de pages. Colonne vertébrale de la plupart des datasets : articles, blogs, forums, profils publics.

Livres — des millions de livres numérisés, parfois sous copyright. Books3 (196 000 livres piratés) a valu des poursuites à OpenAI et Meta. Le New York Times a porté plainte fin 2023.

Wikipedia — l'intégralité, toutes langues. Moins de 0,01 % du corpus de GPT-4.

Code source — des milliards de lignes issues de GitHub.

Forums et réseaux sociaux — Reddit a signé un accord de 60 millions de dollars avec Google pour fournir ses données. Stack Overflow, Quora et d'autres plateformes ont été scrapées sans accord.

Point commun : les personnes dont les textes ont été aspirés n'ont pas donné leur consentement.

Phase 2 : l'entraînement proprement dit

Le modèle est ensuite entraîné : on lui montre des milliards de phrases et on lui demande de prédire le mot suivant. Quand il se trompe, on ajuste ses paramètres. Répétez des milliards de fois, sur des milliers de GPU Nvidia pendant des mois.

Le coût est colossal. L'entraînement de GPT-4 est estimé à environ 100 millions de dollars (matériel, électricité, ingénieurs). Celui de Gemini Ultra aurait dépassé les 190 millions. L'Agence Internationale de l'Énergie estime que les data centers liés à l'IA consommeront plus de 1 000 TWh par an d'ici 2026 — soit la consommation électrique du Japon.

Phase 3 : l'alignement humain (RLHF)

Le modèle brut produit du texte probable, mais pas forcément utile ou sûr. Il répondrait à "comment fabriquer une bombe" aussi volontiers qu'à "recette de ratatouille".

Pour corriger cela, les entreprises d'IA utilisent le RLHF — Reinforcement Learning from Human Feedback. Des milliers d'annotateurs évaluent des paires de réponses : "Cette réponse est meilleure que celle-ci." Le modèle apprend à privilégier les réponses bien notées. C'est cette étape qui transforme un générateur de texte brut en assistant conversationnel. Mais elle introduit des biais : les réponses sont orientées vers ce que les annotateurs — souvent sous-payés, en Afrique ou en Asie du Sud-Est — jugent "bon".

Le saviez-vous ? Une enquête du TIME a révélé en 2023 que des annotateurs kényans travaillant pour Sama (sous-traitant d'OpenAI) étaient exposés à des contenus violents et traumatisants pour moins de 2 dollars de l'heure. Leur travail consistait à étiqueter du contenu toxique pour apprendre au modèle à ne pas le reproduire.

À retenir :

L'entraînement repose sur le scraping massif du web : Common Crawl, livres, code, forums — sans consentement
Coût : ~100M$ pour GPT-4, des milliers de GPU pendant des mois, une consommation énergétique considérable
Le RLHF (retour humain) transforme le modèle brut en assistant — mais introduit des biais
Les annotateurs humains, souvent sous-payés, sont un maillon invisible de la chaîne

Vos données sont dedans (et vous ne le savez pas)

Ce qui a probablement été aspiré

Si vous avez publié quoi que ce soit de publiquement accessible sur le web, il y a une probabilité élevée que ce contenu figure dans les données d'entraînement d'un ou plusieurs LLMs : un post LinkedIn, un commentaire de forum, un avis Google, un article de blog écrit il y a dix ans, un tweet même supprimé depuis (les snapshots Common Crawl conservent des versions archivées), une photo publique contenant du texte, un avis client sur Amazon ou Trustpilot.

Vous n'avez pas été informé. Vous n'avez pas consenti. Et vous ne pouvez pas vérifier.

Le problème de la "fusion" des données

Vos données ne sont pas stockées dans le LLM comme des fichiers dans un dossier. Elles ont été transformées en ajustements de paramètres — diluées dans des centaines de milliards de nombres décimaux. Imaginez un peintre qui a contemplé un million de paysages avant de peindre le sien. Vous ne pouvez pas pointer un pixel de sa toile et dire : "Ça, c'est le champ de lavande que j'ai photographié en Provence."

Conséquence juridique majeure : on ne peut pas "extraire" vos données d'un LLM. On ne peut pas les identifier. On ne peut pas les supprimer.

La mémorisation involontaire

Les chercheurs ont cependant démontré que les LLMs peuvent mémoriser certaines données mot pour mot. En 2023, une équipe de Google DeepMind a fait régurgiter à ChatGPT des passages entiers de ses données d'entraînement — adresses email, numéros de téléphone, textes sous copyright — via des prompts spécifiques. C'est une propriété émergente : plus le modèle est grand, plus il mémorise des séquences rares. Si une séquence contient vos informations personnelles, le modèle peut les restituer.

À retenir :

Vos publications web (posts, commentaires, avis, articles) ont probablement été aspirées dans les datasets d'entraînement
Les données sont "fondues" dans les paramètres du modèle : impossible de les identifier ou de les extraire
Malgré cette fusion, les LLMs peuvent mémoriser et restituer des données personnelles mot pour mot
Aucun mécanisme actuel ne permet de vérifier si vos données spécifiques sont dans un modèle donné

Hallucinations : quand l'IA invente des faits sur vous

Le mécanisme

Un LLM ne distingue pas le vrai du faux. Il produit la suite de mots la plus probable. Si vous lui demandez "Qui est Jean Dupont ?", il génère une réponse plausible en combinant des fragments statistiques — qui peut être exacte ou complètement inventée. C'est ce qu'on appelle une hallucination : pas un dysfonctionnement, mais le fonctionnement normal du modèle hors de ses zones de certitude.

Des cas réels

Les hallucinations ne sont pas un problème théorique. Elles ont des conséquences concrètes :

2023, États-Unis — Un avocat a utilisé ChatGPT pour rédiger un mémoire juridique. Le modèle a inventé six décisions de justice inexistantes, avec de faux numéros de dossier. L'avocat a été sanctionné.
2023, Australie — ChatGPT a affirmé qu'un maire de Melbourne avait purgé une peine de prison pour corruption, alors qu'il était le lanceur d'alerte. Procédure en diffamation contre OpenAI.
2024, Europe — L'EDPB a statué que les hallucinations sur des personnes réelles constituent un traitement de données inexactes. Les fournisseurs doivent les prévenir ou les corriger.

Pas de mécanisme de rectification simple

Dans une base de données classique, on corrige une erreur et on vérifie. Avec un LLM, OpenAI peut ajouter un filtre pour empêcher le modèle de répéter une information. Mais l'information reste encodée dans les paramètres, le filtre peut être contourné, et il ne s'applique qu'au service d'OpenAI — pas aux milliers de produits tiers qui utilisent l'API GPT-4.

À retenir :

Les hallucinations sont le fonctionnement normal d'un LLM hors de ses zones de certitude, pas un bug
Le modèle peut inventer un casier judiciaire, un faux CV ou une condamnation fictive vous concernant
L'EDPB a qualifié ces hallucinations de traitement de données inexactes — les fournisseurs doivent agir
Aucun mécanisme fiable ne permet de corriger une hallucination dans les paramètres d'un modèle

RGPD contre LLMs : le choc frontal

Le droit d'accès dans l'impasse

L'article 15 du RGPD vous donne le droit de savoir quelles données un organisme détient sur vous. Écrivez à OpenAI : ils fourniront vos données de compte (email, conversations, paiement). Pour les données d'entraînement — vos textes scrapés du web — ils sont dans l'incapacité technique de répondre. Les données sont diluées dans les paramètres. Le droit d'accès suppose que le responsable de traitement peut identifier les données d'une personne donnée. Avec un LLM, c'est impossible.

Le droit à l'effacement : désapprendre est prohibitif

L'article 17 du RGPD vous permet de demander l'effacement de vos données. Appliqué à un LLM : "Retirez toute trace de mes publications de votre modèle." Pour supprimer l'influence d'un point de donnée dans 1 800 milliards de paramètres, il faudrait réentraîner le modèle — des dizaines de millions de dollars, des mois de calcul, pour chaque demande. Des pistes de recherche existent ("machine unlearning"), mais elles sont expérimentales. En pratique, les fournisseurs proposent un filtre en sortie : un masquage, pas un effacement.

Les autorités européennes en action

Le Garante italiano a été le premier à frapper : interdiction temporaire de ChatGPT en mars 2023 (absence de base légale, impossibilité d'exercer les droits d'accès/effacement, pas de vérification d'âge). OpenAI a rétabli le service un mois plus tard. En décembre 2024, amende de 15 millions d'euros.

Les autres autorités suivent : la CNIL (France) a ouvert une instruction en 2023 et publié des recommandations exigeant des garanties sérieuses pour invoquer l'intérêt légitime. L'EDPB a précisé en décembre 2024 que les hallucinations sont un traitement de données inexactes. L'autorité polonaise et l'AEPD (Espagne) ont lancé leurs propres enquêtes en 2024.

Le fil rouge : le RGPD n'a pas été conçu pour des systèmes qui "fondent" les données dans des paramètres. Les droits individuels se heurtent à une impossibilité technique. Le cadre juridique tient, mais son application bute sur la réalité des LLMs.

Le saviez-vous ? OpenAI a mis en place un formulaire sur privacy.openai.com pour les demandes d'accès et d'opposition. En pratique, les réponses couvrent les données de compte. Pour les données d'entraînement, OpenAI indique ne pas être "en mesure d'identifier des données spécifiques" dans le modèle.

À retenir :

Le droit d'accès se heurte à l'impossibilité technique d'identifier vos données dans un LLM
Le droit à l'effacement est inapplicable : réentraîner un modèle pour une demande individuelle coûterait des dizaines de millions
Le Garante italiano a infligé 15M€ d'amende à OpenAI ; la CNIL, l'EDPB, la Pologne et l'Espagne enquêtent
Le RGPD tient juridiquement, mais son application se heurte à la réalité technique des LLMs

Opt-out : comment limiter l'utilisation de vos données

Du côté des sites web

Si vous gérez un site web, le fichier robots.txt permet de signaler aux crawlers de ne pas utiliser votre contenu. Depuis 2023, les principaux fournisseurs reconnaissent des directives spécifiques : GPTBot (OpenAI), Google-Extended (Google), ClaudeBot (Anthropic), CCBot (Common Crawl). Limite : c'est un protocole de bonne volonté, techniquement non contraignant. Le standard complémentaire AI.txt (2024) offre plus de granularité, mais son adoption reste marginale.

Du côté des plateformes sociales

Les réseaux sociaux ont ajouté des options d'opt-out, généralement enfouies dans les paramètres :

Plateforme	Où trouver l'opt-out	Activé par défaut ?
LinkedIn	Paramètres > Confidentialité > Données pour l'IA générative	Désactivé pour les Européens (RGPD)
X (Twitter)	Paramètres > Confidentialité > Grok	Activé
Instagram / Facebook	Formulaire d'opposition en ligne (Meta)	Suspendu en Europe après intervention CNIL + DPC
Google	Mon activité > Historique web et apps	Partiel (contrôle limité sur les données déjà collectées)

Marche à suivre : pour chaque plateforme, allez dans les paramètres de confidentialité et cherchez une mention "IA", "entraînement de modèles" ou "amélioration des produits". Désactivez.

Les limites à connaître

L'opt-out a trois faiblesses : il est prospectif (ne couvre pas les données déjà aspirées), fragmentaire (service par service, plateforme par plateforme) et invérifiable (aucun audit ne certifie le respect de votre choix). Malgré cela, combiné au droit d'opposition du RGPD (article 21), il reste le levier le plus concret à votre disposition.

À retenir :

robots.txt et AI.txt permettent de bloquer les crawlers IA sur vos sites web
LinkedIn, X, Meta et Google proposent des opt-out enfouis dans les paramètres — vérifiez les vôtres
L'opt-out est prospectif (ne couvre pas le passé), fragmentaire et invérifiable
C'est malgré tout votre première ligne de défense, à combiner avec le droit d'opposition RGPD

Open source vs propriétaire : transparence et risques

Les modèles fermés

GPT-4 (OpenAI), Claude (Anthropic) et Gemini (Google) sont des modèles propriétaires. Vous interagissez avec eux via une interface ou une API, mais vous n'avez accès ni aux données d'entraînement, ni aux poids du modèle, ni au code. L'entreprise peut filtrer les sorties et appliquer des garde-fous. En contrepartie : opacité totale. Vous devez la croire sur parole quant au traitement de vos données.

Les modèles open-weight

LLaMA (Meta) et Mistral publient leurs poids — les paramètres du modèle. N'importe qui peut les télécharger, les exécuter sur son propre matériel, les adapter.

Compromis entre transparence et risque. Les chercheurs peuvent auditer le modèle, un État peut le faire tourner sans dépendre d'un fournisseur américain. Mais un modèle open-weight peut être modifié pour supprimer ses filtres de sécurité (des versions "jailbreakées" de LLaMA circulent), et une fois publié, il ne peut plus être rappelé.

Le cas Mistral est notable pour l'Europe : seul acteur européen crédible dans la course aux LLMs de pointe, ses modèles open-weight offrent une alternative de souveraineté face aux géants américains.

À retenir :

Les modèles fermés (GPT-4, Claude, Gemini) offrent du contrôle mais zéro transparence sur les données
Les modèles open-weight (LLaMA, Mistral) permettent l'audit mais aussi le détournement
Mistral est le seul acteur européen majeur — un enjeu de souveraineté numérique
La question de la responsabilité juridique des modèles open-weight reste ouverte

Ce que vous pouvez faire concrètement

1. Vérifiez vos paramètres de confidentialité

Sur chaque plateforme que vous utilisez (LinkedIn, X, Instagram, Facebook, Google), cherchez les paramètres liés à l'IA et à l'entraînement de modèles. Désactivez-les. Cinq minutes par plateforme. C'est la mesure la plus immédiate.

2. Exercez votre droit d'opposition

Le droit d'opposition (article 21 du RGPD) vous permet de vous opposer à l'entraînement IA sur vos données. Formulaires dédiés : privacy.openai.com (OpenAI), support.google.com/legal (Google), paramètres Instagram/Facebook (Meta). L'entreprise doit cesser le traitement, sauf "motifs légitimes et impérieux".

3. Configurez robots.txt si vous avez un site web

Ajoutez les directives pour bloquer les crawlers IA. Ce n'est pas infaillible, mais c'est un signal clair et reconnu par les principaux acteurs.

4. Surveillez les hallucinations vous concernant

Posez la question "Que sais-tu sur [votre nom] ?" à ChatGPT, Claude ou Gemini. Si le modèle génère des informations fausses vous concernant, documentez-les (captures d'écran) et exercez votre droit de rectification (article 16 du RGPD) auprès du fournisseur.

À retenir :

Vérifiez et désactivez les paramètres d'entraînement IA sur vos réseaux sociaux
Exercez votre droit d'opposition auprès d'OpenAI, Google et Meta via leurs formulaires dédiés
Si vous avez un site web, bloquez les crawlers IA via robots.txt
Surveillez régulièrement ce que les LLMs disent de vous — et exercez votre droit de rectification si nécessaire

FAQ

Qu'est-ce qu'un LLM en termes simples ?

Un LLM (Large Language Model) est un programme entraîné à générer du texte en prédisant le mot suivant le plus probable, à partir de milliards de textes issus du web. ChatGPT, Claude et Gemini sont des LLMs.

ChatGPT a-t-il été entraîné sur mes données ?

Si vous avez publié du contenu accessible sur le web (posts, commentaires, articles, avis), il y a une probabilité significative que ce contenu figure dans les datasets d'entraînement. OpenAI ne fournit aucun moyen de le vérifier individuellement. Vous pouvez exercer votre droit d'accès via privacy.openai.com.

Peut-on supprimer ses données d'un LLM ?

Non. Vos données sont "fondues" dans les paramètres. Les supprimer nécessiterait de réentraîner le modèle entier — des mois de calcul, des dizaines de millions de dollars. OpenAI propose un filtre empêchant le modèle de mentionner certaines informations. Ce n'est pas un effacement.

Qu'est-ce qu'une hallucination d'IA ?

Une hallucination, c'est quand un LLM génère des informations factuellement fausses avec un ton assuré. Par exemple, inventer un casier judiciaire ou un diplôme fictif vous concernant. Ce n'est pas un bug : c'est le fonctionnement normal du modèle quand il manque de données fiables sur un sujet.

Quelle différence entre un LLM ouvert et fermé ?

Un LLM fermé (GPT-4, Claude) ne donne pas accès à ses paramètres. Un LLM open-weight (LLaMA, Mistral) les publie : n'importe qui peut le télécharger et le modifier. Plus de transparence, mais aussi plus de risques de détournement.

Que fait la CNIL face aux LLMs ?

La CNIL a ouvert une instruction en 2023 et publié des recommandations sur les bases légales du scraping de données pour l'entraînement. Elle considère que l'intérêt légitime peut être invoqué sous conditions strictes (transparence, opt-out effectif, minimisation). Aucune sanction n'a été prononcée en France à ce stade, mais l'Italie a infligé 15 millions d'euros d'amende à OpenAI.

Vos données ont entraîné des LLMs — exercez vos droits

Les LLMs ont été construits à partir de milliards de textes collectés sur le web — y compris, probablement, les vôtres. Le RGPD vous donne des droits face à ce traitement massif. Mais un droit qu'on n'exerce pas est un droit qui s'éteint.

Fairmi vous permet d'agir. Identifiez les entreprises qui traitent vos données — OpenAI, Google, Meta, Anthropic — et exercez vos droits en quelques clics. Demande générée, conforme au RGPD, prête à envoyer.

Exercer mes droits face aux LLMs ->

LLMs : comment l'IA apprend de vos données (et pourquoi ça vous concerne)

Qu'est-ce qu'un LLM ?

Une machine à prédire le mot suivant

Les acteurs du marché

Ce que "grand" veut dire

Comment un LLM est entraîné

Phase 1 : aspirer le web

Phase 2 : l'entraînement proprement dit

Phase 3 : l'alignement humain (RLHF)

Vos données sont dedans (et vous ne le savez pas)

Ce qui a probablement été aspiré

Le problème de la "fusion" des données

La mémorisation involontaire

Hallucinations : quand l'IA invente des faits sur vous

Le mécanisme

Des cas réels

Pas de mécanisme de rectification simple

RGPD contre LLMs : le choc frontal

Le droit d'accès dans l'impasse

Le droit à l'effacement : désapprendre est prohibitif

Les autorités européennes en action

Opt-out : comment limiter l'utilisation de vos données

Du côté des sites web

Du côté des plateformes sociales

Les limites à connaître

Open source vs propriétaire : transparence et risques

Les modèles fermés

Les modèles open-weight

Ce que vous pouvez faire concrètement

1. Vérifiez vos paramètres de confidentialité

2. Exercez votre droit d'opposition

3. Configurez robots.txt si vous avez un site web

4. Surveillez les hallucinations vous concernant

FAQ

Qu'est-ce qu'un LLM en termes simples ?

ChatGPT a-t-il été entraîné sur mes données ?

Peut-on supprimer ses données d'un LLM ?

Qu'est-ce qu'une hallucination d'IA ?

Quelle différence entre un LLM ouvert et fermé ?

Que fait la CNIL face aux LLMs ?

Vos données ont entraîné des LLMs — exercez vos droits

Dans la même série

Agents IA : quand l'intelligence artificielle agit en votre nom... et à vos risques