← Blog Nouveaux enjeux Avancé 18 min

IA générative et données personnelles : ce que ChatGPT change pour vous

En novembre 2022, OpenAI a mis ChatGPT en ligne. Deux mois plus tard, 100 millions d'utilisateurs -- record absolu. En mars 2023, l'Italie l'a interdit sur son territoire. Premier pays européen à bloquer un service d'IA générative. Résultat final : 15 millions d'euros d'amende fin 2024.

Premier affrontement frontal entre une technologie qui aspire le web entier pour fonctionner et le RGPD, bâti sur le principe que chaque individu contrôle ses propres données. L'IA Act européen (2024) ajoute des obligations spécifiques aux modèles d'IA générative.

Ce qui se passe sous le capot, pourquoi vos données y sont probablement déjà, ce que le droit européen permet, et les leviers à votre disposition.

Qu'est-ce que l'IA générative ?

Des machines qui créent, pas qui trient

L'IA n'est pas née en 2022. Filtres anti-spam, reconnaissance faciale, recommandations Netflix -- c'est de l'IA classificatrice : elle trie, étiquette, prédit. Spam ou pas spam. Chat ou chien.

L'IA générative fait autre chose. Elle produit du contenu nouveau : texte, images, code, musique, vidéo. Ce n'est pas de la recherche Google remise en forme -- c'est une génération statistique de contenu, mot par mot, pixel par pixel, à partir de modèles entraînés sur des volumes de données colossaux.

Les acteurs principaux en 2026 :

Texte : ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google DeepMind), Llama (Meta), Mistral (France)
Images : Midjourney, DALL-E (OpenAI), Stable Diffusion (Stability AI), Firefly (Adobe)
Vidéo : Sora (OpenAI), Veo (Google), Runway
Code : GitHub Copilot (Microsoft/OpenAI), Cursor, Claude Code (Anthropic)
Musique : Suno, Udio

Pourquoi c'est différent cette fois

Les chatbots et générateurs de texte existaient avant. Mais ils produisaient du contenu médiocre. Ce qui a changé avec les grands modèles de langage (LLM -- Large Language Models), c'est l'échelle : des centaines de milliards de paramètres. À cette échelle, le texte généré devient indiscernable d'un texte humain, les images trompent des experts, les vidéos approchent du photoréalisme.

Conséquence directe : le contenu généré par IA peut contenir des informations sur vous -- parfois exactes, parfois fausses -- sans votre autorisation. Et retrouver l'origine de ces informations dans les entrailles d'un modèle est, à ce jour, techniquement impossible.

À retenir :

L'IA générative produit du contenu (texte, image, code, vidéo) ; l'IA classique classe et prédit
Les modèles actuels sont si performants que leur output est souvent indistinguable d'une création humaine
Cette performance repose sur un entraînement massif à partir de données scrapées du web -- dont les vôtres

Comment ces modèles sont entraînés

Le web entier comme matière première

Un LLM ne "sait" rien. Il a appris des patterns statistiques : la probabilité qu'un mot suive un autre, étant donné un contexte. Pour cela, il lui faut des données. Beaucoup de données.

Les principaux datasets sont publics ou semi-publics : Common Crawl (des milliards de pages web indexées depuis 2008), The Pile (886 Go de texte -- livres, articles scientifiques, Wikipedia, code GitHub), LAION-5B (5,85 milliards de paires image-texte pour Stable Diffusion -- où des chercheurs de Stanford ont trouvé des images d'abus sur mineurs en 2023), Books3 (196 000 livres piratés qui ont valu des poursuites à OpenAI et Meta).

Point commun : scraping massif du web, sans demander l'autorisation aux personnes dont les données y figurent.

Vos données sont probablement dedans

Si vous avez publié quelque chose sur internet -- post LinkedIn, commentaire de forum, avis Google, article de blog, photo Instagram, tweet -- il y a une probabilité élevée que ce contenu ait été aspiré dans un dataset d'entraînement.

Ce n'est pas de la spéculation. En 2023, des chercheurs de Berkeley ont démontré qu'il était possible d'extraire des informations personnelles (noms, emails, téléphones) des réponses de ChatGPT via des prompts spécifiques. Le modèle avait "mémorisé" certaines données au lieu de simplement apprendre des patterns.

Le problème est structural : les données d'entraînement sont transformées en poids mathématiques. Vos informations ne sont pas stockées dans une table consultable -- elles sont "diluées" dans des milliards de paramètres. C'est comme demander à quelqu'un qui a lu un million de livres de vous citer la page exacte où il a appris un mot.

Le saviez-vous ? GPT-4 a été entraîné sur un corpus estimé à 13 000 milliards de tokens (mots ou fragments de mots). Pour comparaison, l'intégralité de Wikipedia en français représente environ 1 milliard de tokens -- soit moins de 0,01 % du corpus d'entraînement. Le reste provient du web, de livres, de code source et de conversations.

À retenir :

Les modèles d'IA générative sont entraînés sur des datasets de milliards de pages web scrapées sans consentement
Vos publications publiques (réseaux sociaux, forums, blogs) ont probablement alimenté ces datasets
Les données sont "fondues" dans les poids du modèle : impossible de les identifier ou de les extraire individuellement

Les tensions avec le RGPD

Base légale : le maillon faible

Le RGPD exige une base légale pour tout traitement de données personnelles. Pour le scraping massif du web, les entreprises d'IA invoquent l'intérêt légitime (article 6.1.f) : "Notre intérêt commercial à développer un modèle d'IA est légitime." Mais l'intérêt légitime suppose un équilibre avec les droits des personnes concernées.

Le Garante italiano a jugé en décembre 2024 que cet équilibre n'était pas respecté par OpenAI : aucune information préalable aux personnes scrapées, aucun mécanisme d'opposition effectif, incapacité à identifier les données personnelles dans le dataset. Amende : 15 millions d'euros.

La CNIL française a lancé sa propre instruction en 2023. Position nuancée mais ferme : l'intérêt légitime peut être invoqué, à condition que des garanties sérieuses soient en place (transparence, opposition, minimisation). À ce jour, aucune entreprise d'IA générative n'a démontré qu'elle remplissait toutes ces conditions.

Droit d'accès : l'impasse technique

L'article 15 du RGPD vous donne le droit de savoir quelles données un organisme détient sur vous. Vous pouvez écrire à OpenAI. La réponse couvrira vos données de compte (email, conversations, paiement). Pour les données d'entraînement -- vos publications scrapées -- OpenAI est dans l'incapacité technique de vous répondre. Les données sont diluées dans les paramètres du modèle. Aucun mécanisme actuel ne permet d'identifier si une information provient de vos publications ou d'un million d'autres sources.

Angle mort fondamental : le droit d'accès suppose que le responsable de traitement peut identifier les données qu'il détient sur vous. Avec un LLM, cette identification est impossible.

Droit à l'effacement : désapprendre est (quasi) impossible

L'article 17 du RGPD vous donne le droit à l'effacement. Appliqué à un LLM, cela signifierait : "Retirez toute trace de mes données de votre modèle." Le problème : on ne "désapprend" pas un LLM. Supprimer l'influence d'un point de donnée dans un modèle de 175 milliards de paramètres nécessiterait de le réentraîner entièrement -- des dizaines de millions de dollars et des mois de calcul.

Des pistes de recherche existent ("machine unlearning"), mais elles sont expérimentales. Ce qu'OpenAI propose en pratique, c'est d'empêcher le modèle de répéter certaines informations dans ses réponses -- un filtre en sortie, pas un effacement réel.

Hallucinations : quand l'IA invente des faits sur vous

Le droit de rectification (article 16) permet de corriger des données inexactes. Avec l'IA générative, ce droit prend une dimension nouvelle : les modèles génèrent régulièrement des informations factuellement fausses sur des personnes réelles. C'est ce qu'on appelle une "hallucination".

Un LLM peut affirmer que vous avez été condamné pour un délit jamais commis, ou que vous êtes affilié à une organisation dont vous n'avez jamais entendu parler. Ce n'est pas de la malveillance -- c'est un artefact statistique. Le modèle génère la suite de mots la plus "probable" sans vérifier si le résultat est vrai. En 2023, ChatGPT a accusé à tort un avocat américain de harcèlement sexuel (en citant un article fictif) et a présenté un maire australien comme coupable de corruption alors qu'il était le lanceur d'alerte. Les deux ont engagé des procédures.

Le saviez-vous ? Le Comité Européen de la Protection des Données (EDPB) a publié en décembre 2024 un avis précisant que les hallucinations portant sur des personnes réelles constituent un traitement de données personnelles inexactes -- et que les fournisseurs d'IA générative ont l'obligation de les prévenir ou de les corriger. Pas seulement de mettre un disclaimer "l'IA peut se tromper".

À retenir :

L'intérêt légitime comme base légale du scraping est contesté par les autorités européennes
Le droit d'accès se heurte à l'impossibilité technique d'identifier vos données dans un LLM
Le droit à l'effacement est inapplicable en l'état : désentraîner un modèle est prohibitivement coûteux
Les hallucinations créent un nouveau problème juridique : des fausses informations générées sur des personnes réelles

L'IA Act : le nouveau cadre européen

Classification des systèmes par risque

L'IA Act, adopté en mars 2024, est le premier cadre juridique au monde à réguler l'IA de manière transversale. Son architecture repose sur quatre niveaux de risque :

Niveau de risque	Exemples	Régime
Inacceptable	Score social, manipulation comportementale, reconnaissance faciale en temps réel dans les espaces publics (sauf exceptions)	Interdit
Haut risque	Recrutement automatisé, notation de crédit, diagnostic médical, justice prédictive	Obligations strictes (transparence, audit, supervision humaine)
Risque limité	Chatbots, deepfakes, systèmes de recommandation	Obligations de transparence
Risque minimal	Filtres anti-spam, jeux vidéo, assistants de navigation	Pas d'obligation spécifique

Les IA génératives relèvent du "risque limité", avec des obligations renforcées quand elles sont classées comme "modèles à usage général" (GPAI).

Ce que l'IA Act impose aux modèles génératifs

Les fournisseurs de modèles d'IA générative à usage général doivent :

Publier un résumé des données d'entraînement suffisamment détaillé pour permettre aux ayants droit de vérifier si leurs contenus ont été utilisés.
Respecter le droit d'auteur européen : identifier et respecter les réservations d'opt-out des ayants droit (directive copyright 2019 + IA Act).
Marquer les contenus générés par IA : watermarking technique + mention visible pour les utilisateurs.
Pour les modèles à risque systémique (au-delà de 10^25 FLOPs) : évaluations de risque, tests adversariaux ("red teaming"), signalement d'incidents graves.

Calendrier d'application

L'entrée en vigueur est progressive : interdictions des systèmes à risque inacceptable dès février 2025, obligations GPAI (dont les IA génératives) en août 2025, systèmes à haut risque en août 2026, application complète en août 2027.

L'IA Act ne remplace pas le RGPD -- il le complète. Les tensions sur le droit d'accès et l'effacement restent entières. L'IA Act ajoute transparence et responsabilité, mais ne résout pas le problème fondamental de la "dilution" des données dans les modèles.

Le saviez-vous ? Les sanctions de l'IA Act sont proportionnées au chiffre d'affaires mondial : jusqu'à 35 millions d'euros ou 7 % du CA pour les violations des interdictions, 15 millions ou 3 % du CA pour les autres manquements. Pour une entreprise comme OpenAI (valorisée à plus de 150 milliards de dollars), les montants potentiels sont considérables.

À retenir :

L'IA Act classe les systèmes par risque : inacceptable, haut, limité, minimal
Les IA génératives doivent documenter leurs données d'entraînement, respecter le droit d'auteur et marquer les contenus générés
Le calendrier s'étale de 2025 à 2027 ; les obligations GPAI s'appliquent dès août 2025
L'IA Act complète le RGPD mais ne résout pas les tensions sur l'accès et l'effacement des données d'entraînement

Opt-out : empêcher l'entraînement sur vos données

Les mécanismes techniques

Plusieurs outils permettent de signaler aux robots d'indexation qu'ils ne doivent pas utiliser votre contenu pour l'entraînement de modèles d'IA :

robots.txt -- Le fichier standard placé à la racine d'un site web. Depuis 2023, les principaux fournisseurs d'IA ont déclaré respecter des directives spécifiques : GPTBot (OpenAI), Google-Extended (Google DeepMind), ClaudeBot (Anthropic), CCBot (Common Crawl). Le problème : robots.txt est un protocole basé sur la confiance. Rien n'empêche techniquement un crawler de l'ignorer. Et les datasets déjà constitués ne seront pas rétroactivement nettoyés.

ai.txt et balises meta HTML -- Des standards complémentaires proposés en 2024, plus granulaires (permissions par type d'usage pour ai.txt, balises noai / noimageai pour le HTML). Leur adoption reste marginale et inégale entre les fournisseurs.

Les paramètres des plateformes

Les réseaux sociaux ont réagi en ajoutant des options d'opt-out -- souvent après avoir commencé à utiliser vos données sans vous prévenir :

LinkedIn (2023) : opt-out dans Paramètres > Confidentialité > Données pour l'IA générative. Désactivé par défaut pour les Européens (RGPD), activé pour les autres.
X/Twitter (2023) : opt-out enfoui dans Paramètres > Confidentialité > Grok. Activé par défaut.
Meta (2024) : a dû suspendre l'entraînement sur les posts publics en Europe face à la DPC irlandaise et la CNIL. Formulaire d'opposition en ligne, processus volontairement complexe.
Reddit (2024) : accord de 60 millions de dollars avec Google pour fournir ses données à l'entraînement IA. Utilisateurs non consultés.

Les limites de l'opt-out

Soyons francs : l'opt-out est un pansement, pas un remède. Il est prospectif (ne couvre pas les données déjà aspirées), fragmentaire (à configurer service par service), et non vérifiable (aucun audit indépendant).

Le droit d'opposition du RGPD (article 21) reste votre levier le plus solide. Vous pouvez écrire directement à OpenAI, Google, Meta ou Anthropic pour vous opposer au traitement de vos données à des fins d'entraînement. L'entreprise doit cesser le traitement, sauf à démontrer des "motifs légitimes et impérieux" qui prévalent sur vos droits.

À retenir :

robots.txt, ai.txt et les balises meta permettent de bloquer les crawlers IA sur vos sites
Les réseaux sociaux ont ajouté des opt-out enfouis dans les paramètres -- vérifiez les vôtres
L'opt-out est prospectif, fragmentaire et non vérifiable : il ne couvre pas les données déjà collectées
Le droit d'opposition RGPD (article 21) reste l'outil juridique le plus puissant

Deepfakes et désinformation : la donnée retournée contre vous

Voix clonées, visages volés

L'IA générative ne se contente pas d'exploiter vos données en amont (entraînement). Elle peut aussi les utiliser en aval pour produire du contenu faux à votre image.

Un deepfake, c'est un contenu audio ou vidéo généré par IA qui reproduit l'apparence ou la voix d'une personne réelle. Quelques secondes d'enregistrement vocal suffisent pour cloner une voix. Une poignée de photos pour générer une vidéo. Les outils sont accessibles : Eleven Labs pour la voix, les modèles open source comme Stable Diffusion pour les images, des dizaines d'applications mobiles pour le tout-venant.

Les cas les plus marquants : arnaques téléphoniques par clonage vocal (le FBI a émis une alerte spécifique en 2023), pornographie non consentie (96 % des deepfakes en ligne selon Sensity AI, punissable en France de 2 ans d'emprisonnement depuis la loi SREN de 2024), désinformation politique (faux audio du Premier ministre slovaque diffusé 48h avant le scrutin européen 2024), et fraude en entreprise (25 millions de dollars volés à Hong Kong via un deepfake vidéo d'un directeur financier en visioconférence).

Ce que le droit prévoit

L'IA Act impose que tout contenu généré par IA soit identifié comme tel (watermarking + mention visible). Mais l'obligation s'applique aux fournisseurs d'outils, pas aux individus malveillants. Le RGPD protège votre image et votre voix comme données biométriques (article 9), dont le traitement est interdit sans consentement explicite. En droit français, l'article 226-8 du Code pénal (modifié par la loi SREN de 2024) punit le montage d'images ou de voix sans consentement, avec aggravation pour l'usage d'IA.

Les protections individuelles : limitez vos photos et enregistrements publics (moins de matériel brut = deepfake plus difficile), activez l'authentification à deux facteurs, et signalez les deepfakes sur les plateformes, à la CNIL, ou via PHAROS. Des outils de détection existent (Microsoft Video Authenticator, Hive Moderation), mais la course technologique entre génération et détection est permanente.

Le saviez-vous ? L'IA Act interdit les systèmes d'IA qui manipulent le comportement humain de manière subliminale ou exploitent les vulnérabilités de groupes spécifiques. Les deepfakes de manipulation tombent sous cette interdiction -- mais encore faut-il identifier les auteurs.

À retenir :

Les deepfakes exploitent vos données publiques (photos, voix) pour générer du faux contenu à votre image
La loi SREN de 2024 crée un délit spécifique pour les deepfakes, avec aggravation pour l'usage d'IA
Le RGPD protège vos données biométriques (visage, voix) comme catégorie spéciale à protection renforcée
Limitez vos contenus publics, signalez les abus, et utilisez les outils de détection disponibles

FAQ

ChatGPT a-t-il été entraîné sur mes données personnelles ?

Si vous avez publié du contenu accessible sur le web (posts sur les réseaux sociaux, articles de blog, commentaires sur des forums, avis en ligne), il y a une probabilité significative que ce contenu ait été inclus dans les datasets d'entraînement de ChatGPT via Common Crawl ou d'autres sources. OpenAI ne fournit pas de moyen de le vérifier individuellement. Vous pouvez exercer votre droit d'accès (article 15 du RGPD) auprès d'OpenAI via leur formulaire dédié à privacy.openai.com.

Puis-je demander à OpenAI de supprimer mes données de ChatGPT ?

Vos données de compte (conversations, profil) sont supprimables via les paramètres ou en contactant OpenAI. Pour les données d'entraînement, un formulaire d'opposition (article 21 du RGPD) est disponible sur privacy.openai.com. Cela empêche le modèle de mentionner vos informations dans ses réponses, mais ne les retire pas du modèle.

L'IA Act interdit-il l'entraînement sur des données personnelles ?

Non. Il impose transparence (résumé des données d'entraînement), respect du droit d'auteur (opt-out), et marquage des contenus générés. La licéité du traitement de données personnelles reste régie par le RGPD. Les deux textes s'appliquent en parallèle.

Comment vérifier si une image ou une vidéo est un deepfake ?

Indices visuels : incohérences dans les reflets oculaires, artefacts autour du visage, lèvres désynchronisées, texture de peau trop lisse. Outils automatisés : Microsoft Video Authenticator, Hive Moderation, Sensity AI (aucun fiable à 100 %). En cas de doute, signalez sur la plateforme et sur PHAROS.

Comment empêcher l'IA d'utiliser mes photos sur les réseaux sociaux ?

Vérifiez les paramètres de confidentialité de chaque plateforme (LinkedIn, X/Twitter, Meta -- voir la section opt-out ci-dessus). Passez vos profils en privé quand c'est possible. Cela n'efface pas les données déjà collectées, mais limite les futures collectes.

Le RGPD s'applique-t-il à une IA dont le siège est aux États-Unis ?

Oui. Portée extraterritoriale (article 3) : toute entreprise qui traite des données de résidents européens doit respecter le RGPD, quel que soit son siège. C'est sur ce fondement que le Garante italiano a sanctionné OpenAI en 2024.

Reprenez le contrôle face à l'IA générative

L'IA générative est là. Ses bénéfices sont réels. Mais son fonctionnement repose sur une collecte massive de données personnelles qui n'a, pour l'essentiel, jamais été consentie. Le RGPD et l'IA Act vous donnent des leviers -- mais un droit qu'on n'exerce pas est un droit qui n'existe pas.

Fairmi vous aide à passer à l'action. Vous identifiez les entreprises qui détiennent vos données -- y compris OpenAI, Google, Meta -- et vous exercez vos droits en quelques clics. Accès, opposition, effacement : la demande est générée, conforme au RGPD, prête à envoyer.

Exercer mes droits face à l'IA générative ->

IA générative et données personnelles : ce que ChatGPT change pour vous

IA générative et données personnelles : ce que ChatGPT change pour vous

Qu'est-ce que l'IA générative ?

Des machines qui créent, pas qui trient

Pourquoi c'est différent cette fois

Comment ces modèles sont entraînés

Le web entier comme matière première

Vos données sont probablement dedans

Les tensions avec le RGPD

Base légale : le maillon faible

Droit d'accès : l'impasse technique

Droit à l'effacement : désapprendre est (quasi) impossible

Hallucinations : quand l'IA invente des faits sur vous

L'IA Act : le nouveau cadre européen

Classification des systèmes par risque

Ce que l'IA Act impose aux modèles génératifs

Calendrier d'application

Opt-out : empêcher l'entraînement sur vos données

Les mécanismes techniques

Les paramètres des plateformes

Les limites de l'opt-out

Deepfakes et désinformation : la donnée retournée contre vous

Voix clonées, visages volés

Ce que le droit prévoit

FAQ

ChatGPT a-t-il été entraîné sur mes données personnelles ?

Puis-je demander à OpenAI de supprimer mes données de ChatGPT ?

L'IA Act interdit-il l'entraînement sur des données personnelles ?

Comment vérifier si une image ou une vidéo est un deepfake ?

Comment empêcher l'IA d'utiliser mes photos sur les réseaux sociaux ?

Le RGPD s'applique-t-il à une IA dont le siège est aux États-Unis ?

Reprenez le contrôle face à l'IA générative

Dans la même série

DSA et DMA : comment l'Europe réécrit les règles du jeu numérique

Cybersécurité en 2025 : ransomwares, phishing et comment vous protéger

Souveraineté numérique : l'Europe peut-elle s'émanciper des géants ?

Email