← Blog Comprendre les données Initié 14 min

L'explosion des données : du blog à TikTok

En 1994, un étudiant californien de 19 ans, Justin Hall, ouvre une page web pour y raconter sa vie. Pas de likes, pas de followers, pas d'algorithme. Juste du texte brut sur un écran, accessible à quiconque connaît l'adresse. Trente ans plus tard, l'humanité produit 120 zettaoctets de données par an. Pour donner une échelle : un zettaoctet, c'est mille milliards de gigaoctets. Multipliez par 120.

Comment on en est arrivé là ? Pas par un accident technologique. Par un basculement de pouvoir. Le web était un journal qu'on lisait. Il est devenu un mégaphone que tout le monde peut saisir. Cette transformation a un nom — le Web 2.0 — et ses conséquences touchent directement vos [données personnelles](-> Article 2 : Les données personnelles).

Quand les internautes ont pris le micro

Du spectateur au créateur : blogs, wikis et le web 2.0

Le web des origines, celui du début des années 1990, était un outil de chercheurs. Tim Berners-Lee l'a conçu au CERN pour que des physiciens partagent des documents. Pas de commentaires. Pas de formulaires. Pas de comptes utilisateurs. Vous lisiez, point.

Justin Hall a cassé ce modèle sans le savoir. Sa page personnelle, qu'il met à jour quotidiennement dès 1994, est considérée comme l'un des premiers blogs. Le mot n'existe pas encore : on parle de "web logs" — des journaux de bord du web. En 1999, Peter Merholz découpe le terme sur son propre site : "we blog". Le mot "blog" est né.

Puis vient le wiki. En 1995, Ward Cunningham crée le concept : une page web que n'importe qui peut modifier. Six ans plus tard, Jimmy Wales et Larry Sanger reprennent l'idée pour lancer Wikipédia (2001). Une encyclopédie que personne ne possède, que tout le monde peut écrire. Les experts étaient sceptiques. Vingt-cinq ans après, Wikipédia compte plus de 60 millions d'articles dans 300 langues et reste l'un des 10 sites les plus visités au monde.

WordPress, lancé en 2003 comme simple outil de blog, illustre l'ampleur du basculement. En 2018, il propulsait 25 % des sites web. En 2025, c'est 43 %. Presque un site sur deux dans le monde tourne sur un logiciel créé pour que des gens ordinaires publient du contenu.

Ce mouvement porte un nom : le Web 2.0. Le terme, popularisé par Tim O'Reilly en 2004, désigne le passage d'un web en lecture seule à un web en lecture-écriture. La création de contenu n'est plus réservée à ceux qui savent coder une page HTML. N'importe qui peut publier, commenter, partager. Et chaque action génère des données.

Le saviez-vous ? L'expression "Web 2.0" n'a jamais désigné une version technique du web. C'est un terme marketing, inventé lors d'une conférence. Le protocole HTTP, lui, n'a pas changé. Ce qui a changé, c'est l'usage : les internautes sont passés de consommateurs à producteurs de contenu.

YouTube, le big bang de la vidéo

En février 2005, trois anciens employés de PayPal — Chad Hurley, Steve Chen et Jawed Karim — déposent le nom de domaine youtube.com. La première vidéo, "Me at the zoo", dure 18 secondes. On y voit Jawed Karim devant des éléphants au zoo de San Diego. Rien de spectaculaire.

Dix-huit mois plus tard, Google rachète YouTube pour 1,65 milliard de dollars. À l'époque, beaucoup jugent le prix délirant. Avec le recul, c'est probablement l'acquisition la plus rentable de l'histoire de la tech.

Les chiffres de 2025 donnent le vertige : 500 heures de vidéo sont uploadées chaque minute sur YouTube. Chaque minute. Le temps que vous lisiez ce paragraphe, environ 2 000 heures de contenu vidéo ont été ajoutées à la plateforme. YouTube n'est plus un site de vidéos amateurs — c'est le deuxième moteur de recherche au monde, derrière Google (qui, coïncidence, en est le propriétaire).

À retenir :

Le web est passé de la lecture seule (Web 1.0) à la lecture-écriture (Web 2.0) au tournant des années 2000
Blogs, wikis, puis vidéos : chaque nouvelle forme de contenu a multiplié le volume de données créées par les utilisateurs
Ce basculement a transformé les internautes en producteurs de données, souvent sans qu'ils en prennent conscience

L'ère des réseaux sociaux

Facebook et la naissance du web social

Le 4 février 2004, Mark Zuckerberg lance "TheFacebook" depuis sa chambre à Harvard. Au départ, seuls les étudiants du campus y ont accès. Le site s'ouvre progressivement aux autres universités, puis à tous les internautes en septembre 2006.

L'ascension est fulgurante. En 2008, Facebook dépasse Myspace — le réseau social dominant de l'époque, celui où l'on personnalisait sa page avec des fonds pailletés et de la musique en autoplay. En 2012, Facebook atteint le milliard d'utilisateurs. Meta (la maison mère depuis 2021) revendique aujourd'hui plus de 3 milliards d'utilisateurs actifs mensuels sur Facebook, Instagram et WhatsApp combinés.

Mais Facebook a aussi inauguré quelque chose de plus profond : l'idée que votre vie sociale se déroule sur une plateforme privée. Vos anniversaires, vos photos de vacances, vos opinions politiques, vos ruptures — tout cela existe désormais sous forme de données, stockées sur les serveurs d'une entreprise californienne.

En 2006, le magazine Time désigne "You" comme personnalité de l'année. La couverture montre un écran d'ordinateur avec un miroir à la place de l'écran. Le message : les vrais acteurs du web, ce sont les utilisateurs. "La multitude", comme la nomment Nicolas Colin et Henri Verdier dans leur essai de 2012 — ces milliards d'individus qui, en publiant, commentant, likant, créent la matière première de l'économie numérique.

TikTok : l'algorithme qui a redéfini les règles

TikTok (version internationale de Douyin, lancé en Chine en 2016) débarque sur les marchés occidentaux en 2018. L'application pulvérise tous les records de croissance : 1,5 milliard d'utilisateurs actifs mensuels en 2025.

Ce qui distingue TikTok de ses prédécesseurs, ce n'est pas le format vidéo court — Vine faisait ça dès 2013. C'est l'algorithme. Sur Facebook ou Instagram, votre fil est construit à partir de vos connexions : vous voyez le contenu de vos amis, des pages que vous suivez. Sur TikTok, la "For You Page" vous propose du contenu de parfaits inconnus, sélectionné par un algorithme qui analyse votre comportement en temps réel. Vous regardez une vidéo de cuisine pendant 8 secondes, vous scrollez une vidéo de sport après 2 secondes ? L'algorithme ajuste. Instantanément.

Résultat : un créateur inconnu peut atteindre des millions de vues sans avoir un seul abonné. Le système récompense le contenu, pas la notoriété. Cette mécanique a rendu TikTok si addictif que l'application est devenue un concurrent direct de Google pour les recherches chez les 18-25 ans. Vous cherchez un restaurant, une recette, un avis produit ? Beaucoup de jeunes tapent d'abord dans TikTok, pas dans Google.

La conséquence en termes de données est colossale. L'algorithme TikTok ne fonctionne qu'en accumulant des signaux comportementaux extrêmement fins : temps de visionnage, pauses, retours en arrière, interactions, heure de connexion. Chaque seconde passée sur l'application nourrit le modèle.

Et tous les autres : Instagram, X, Snapchat, Discord...

La liste des réseaux sociaux qui ont marqué ces vingt dernières années est longue : Myspace (2003, défunt), LinkedIn (2003, racheté par Microsoft), Flickr (2004), Twitter (2006), Pinterest (2010), Instagram (2010, racheté par Meta), Snapchat (2011)...

Chaque plateforme a capté un usage, un format, une audience. Mais le paysage bouge vite.

X (ex-Twitter) est le cas le plus spectaculaire. Racheté par Elon Musk fin 2022 pour 44 milliards de dollars, le réseau a perdu une part significative de ses annonceurs et de ses utilisateurs. Le rebranding en "X", la refonte de la vérification, les licenciements massifs ont provoqué un exode vers des alternatives : Bluesky (créé par Jack Dorsey, cofondateur de Twitter) et Threads (lancé par Meta en 2023). Mastodon, réseau décentralisé et open source, a aussi bénéficié de cet afflux, sans atteindre la masse critique.

Discord, lancé en 2015 pour les joueurs de jeux vidéo, s'est transformé en plateforme communautaire généraliste. Clubs de lecture, groupes d'entraide, communautés professionnelles — Discord est devenu le lieu de sociabilité en ligne des moins de 30 ans, là où Facebook l'était pour la génération précédente.

BeReal, l'application française qui vous demande une photo spontanée par jour, a connu un pic de popularité en 2022 avant de retomber. L'application illustre une tendance récurrente : la lassitude face aux contenus ultra-produits et le désir d'authenticité.

Le saviez-vous ? Il faut distinguer médias sociaux et réseaux sociaux. Les réseaux sociaux (Facebook, LinkedIn, TikTok) sont un sous-ensemble des médias sociaux, qui incluent aussi les blogs, les forums, les messageries instantanées et les wikis. Tout réseau social est un média social, mais l'inverse n'est pas vrai.

À retenir :

Les réseaux sociaux ont transformé les relations humaines en flux de données exploitables
L'algorithme TikTok a brisé le modèle "suivre pour voir" et accéléré l'explosion des contenus
Le paysage est instable : des plateformes naissent, dominent et déclinent en quelques années

La multitude : des milliards de créateurs de données

L'économie des créateurs

Publier du contenu en ligne n'est plus un hobby. C'est un métier. L'économie des créateurs — YouTubeurs, TikTokeurs, streamers Twitch, podcasteurs, auteurs de newsletters Substack — pèse plus de 250 milliards de dollars en 2025 selon Goldman Sachs.

Le mécanisme est simple : les plateformes ont besoin de contenu pour retenir leurs utilisateurs. Elles rémunèrent donc les créateurs, directement (YouTube verse environ 55 % des revenus publicitaires) ou indirectement (visibilité qui permet le sponsoring, les partenariats, la vente de produits).

Substack et le renouveau des newsletters illustrent un contre-mouvement intéressant. Après deux décennies de contenu court, algorithmique et gratuit, une partie du public est prête à payer pour du contenu long, indépendant et sans publicité. Le blog de Justin Hall, en somme, mais avec un modèle économique.

Chaque créateur, chaque abonné, chaque vue génère des données. L'économie des créateurs n'est pas seulement une économie de contenu — c'est une économie de données comportementales à grande échelle.

Quand les machines aussi créent du contenu

Fin 2022, ChatGPT a rendu visible ce que les chercheurs savaient depuis plusieurs années : les machines savent produire du texte, des images, du code et de la musique difficiles à distinguer de productions humaines.

Midjourney génère des images photoréalistes à partir d'une phrase. Les modèles de langage rédigent des articles, des emails, des scripts. Les deepfakes — vidéos truquées par IA — reproduisent le visage et la voix de personnes réelles avec un réalisme croissant.

La conséquence sur le volume de données est mécanique : quand produire du contenu ne coûte plus rien, la quantité explose. Mais une question nouvelle se pose. Si une IA génère un texte à partir de millions de textes existants, les données d'entraînement — vos publications, vos photos, vos commentaires — deviennent une matière première. Sont-elles protégées par le [RGPD](-> Article 5 : RGPD, vos 7 droits concrets) ? Par le droit d'auteur ? Les tribunaux européens commencent à trancher, mais le cadre juridique reste flou.

Le saviez-vous ? En 2023, une image générée par Midjourney a remporté un concours photo au Colorado State Fair, déclenchant un débat mondial. Le créateur avait soumis l'image dans la catégorie "art numérique", mais n'avait pas précisé qu'elle avait été générée par IA. La question "qui est l'auteur d'un contenu généré par IA ?" n'a toujours pas de réponse juridique claire en Europe.

À retenir :

L'économie des créateurs génère des données massives : chaque vue, chaque abonnement, chaque interaction alimente les algorithmes
L'IA générative multiplie le volume de contenu — et brouille la frontière entre données humaines et données synthétiques
Vos données publiées en ligne servent potentiellement à entraîner des modèles d'IA, souvent sans votre consentement explicite

Plateformes : l'effet de réseau et ses limites

L'effet de réseau : pourquoi tout le monde est sur la même appli

Pourquoi utilisez-vous WhatsApp ? Probablement pas parce que c'est la meilleure messagerie du marché. Parce que vos contacts y sont déjà. C'est l'effet de réseau : plus une plateforme a d'utilisateurs, plus elle attire de nouveaux utilisateurs, plus elle devient difficile à quitter.

Une plateforme numérique est un intermédiaire. Elle met en relation des utilisateurs entre eux (Facebook, TikTok) ou des utilisateurs avec des fournisseurs (Amazon, Uber, Airbnb). Le web lui-même est la plus grande plateforme jamais créée — un espace où tout le monde peut publier et consulter du contenu.

L'effet de réseau explique la concentration du marché. Quelques plateformes captent l'essentiel de l'attention, donc l'essentiel des données. Et ces données renforcent leur avantage : plus Facebook a de données sur vous, mieux il cible la publicité, plus les annonceurs paient, plus Facebook investit pour vous garder sur la plateforme.

Ce cercle vertueux (pour la plateforme) est un cercle vicieux pour la concurrence et pour les utilisateurs. C'est pourquoi le Digital Markets Act européen (DMA), applicable depuis mars 2024, impose aux "gatekeepers" (Google, Apple, Meta, Amazon, Microsoft, ByteDance) des obligations d'interopérabilité et de [portabilité des données](-> Article 5 : RGPD, vos 7 droits concrets).

La "mafia PayPal" incarne cette concentration. Elon Musk (Tesla, SpaceX, X — et désormais l'homme le plus riche du monde), Reid Hoffman (LinkedIn), Peter Thiel (Palantir, investisseur politique majeur aux États-Unis), Chad Hurley, Steve Chen et Jawed Karim (YouTube) : tous sont passés par PayPal avant de fonder ou financer les plateformes qui dominent le web. Un même réseau d'individus a façonné l'infrastructure numérique mondiale.

Quand les plateformes se dégradent

En 2023, l'écrivain et activiste Cory Doctorow a forgé un mot : "enshittification". Le concept décrit un cycle en trois temps que traversent les grandes plateformes :

Phase 1 : la plateforme traite bien ses utilisateurs pour les attirer (service gratuit, peu de publicité, algorithme généreux)
Phase 2 : une fois la masse critique atteinte, la plateforme dégrade l'expérience utilisateur au profit de ses clients payants (annonceurs, marchands)
Phase 3 : la plateforme pressurise aussi ses clients payants pour maximiser ses propres profits, jusqu'à ce que tout le monde soit mécontent — mais captif

Amazon qui noie ses résultats de recherche sous les produits sponsorisés. Facebook qui réduit la portée organique des pages pour pousser la publicité. Google qui affiche de plus en plus de résultats publicitaires avant les résultats naturels. Twitter/X qui dégrade le service gratuit pour pousser l'abonnement premium.

L'enshittification n'est pas un bug. C'est le modèle économique des plateformes qui vivent de la publicité et de l'effet de réseau. Quand partir coûte trop cher (vos données, vos contacts, vos habitudes sont là-bas), la plateforme peut se permettre de dégrader le service.

C'est précisément pour ça que le [droit à la portabilité](-> Article 5 : RGPD, vos 7 droits concrets) est stratégique : il réduit le coût de départ. Si vous pouvez emporter vos données, vous êtes moins captif.

À retenir :

L'effet de réseau concentre les données sur quelques plateformes dominantes
L'enshittification décrit la dégradation progressive des plateformes une fois qu'elles ont capté leur audience
Le RGPD (portabilité) et le DMA tentent de casser cet enfermement en redonnant du choix aux utilisateurs

En résumé

En trente ans, le web est passé d'un réseau de chercheurs échangeant des documents à une machine planétaire qui génère 120 zettaoctets de données par an. Ce basculement tient en trois étapes :

Les outils : blogs, wikis, puis plateformes vidéo ont donné à chacun les moyens de publier
Les réseaux sociaux : Facebook, TikTok et les autres ont transformé la vie sociale en flux de données, accélérés par des algorithmes toujours plus sophistiqués
Les plateformes : l'effet de réseau a concentré ces données entre les mains de quelques acteurs, dont le modèle économique repose sur leur exploitation

L'IA générative ajoute une couche supplémentaire : les machines produisent désormais du contenu à partir de nos données, multipliant encore le volume global.

Face à cette explosion, vos droits existent. Le RGPD vous donne le pouvoir de [savoir quelles données sont collectées, de les récupérer, de les supprimer](-> Article 5 : RGPD, vos 7 droits concrets). Encore faut-il les exercer.

FAQ

Combien de données sont produites chaque jour dans le monde ?

En 2023, l'humanité a produit environ 120 zettaoctets de données sur l'année, soit environ 330 exaoctets par jour. Ce volume double tous les deux à trois ans, porté par la vidéo, l'Internet des objets et l'IA générative.

Qu'est-ce que le Web 2.0 ?

Le Web 2.0 désigne le passage, au début des années 2000, d'un web statique (consultation de pages) à un web participatif (création de contenu par les utilisateurs). Blogs, wikis, réseaux sociaux, plateformes vidéo : tous relèvent du Web 2.0. Le terme n'a pas de définition technique — c'est un changement d'usage, pas de protocole.

Pourquoi TikTok génère-t-il autant de données ?

L'algorithme de TikTok repose sur une analyse comportementale extrêmement fine : temps de visionnage de chaque vidéo, pauses, retours en arrière, partages, heure de connexion. Chaque seconde d'utilisation produit des signaux exploités en temps réel. Multipliez par 1,5 milliard d'utilisateurs actifs et vous obtenez un volume de données comportementales sans précédent.

Qu'est-ce que l'enshittification des plateformes ?

Terme forgé par Cory Doctorow en 2023 pour décrire le cycle de dégradation des plateformes numériques : elles attirent d'abord les utilisateurs avec un bon service, puis dégradent l'expérience au profit des annonceurs, puis pressurisent aussi les annonceurs pour maximiser leurs profits. Le résultat : un service médiocre dont les utilisateurs sont captifs par l'effet de réseau.

Mes données publiées sur les réseaux sociaux peuvent-elles entraîner des IA ?

Oui, et c'est déjà le cas. Meta a confirmé utiliser les publications Facebook et Instagram pour entraîner ses modèles d'IA. Le cadre juridique est contesté : plusieurs plaintes ont été déposées en Europe au titre du RGPD. Vous pouvez exercer votre [droit d'opposition](-> Article 5 : RGPD, vos 7 droits concrets) pour refuser ce traitement.

Reprenez le contrôle de vos données

Chaque photo postée, chaque vidéo regardée, chaque like distribué alimente les serveurs de plateformes que vous ne contrôlez pas. L'explosion des données n'est pas une abstraction — ce sont vos données, produites par vos gestes quotidiens.

Fairmi vous permet d'exercer vos droits RGPD auprès de ces plateformes : savoir ce qu'elles détiennent, récupérer vos données, demander leur suppression. Pas de jargon. Pas de modèle de lettre à chercher. Quelques clics.

Exercer mes droits auprès des plateformes ->

L'explosion des données : du blog à TikTok

L'explosion des données : du blog à TikTok

Quand les internautes ont pris le micro

Du spectateur au créateur : blogs, wikis et le web 2.0

YouTube, le big bang de la vidéo

L'ère des réseaux sociaux

Facebook et la naissance du web social

TikTok : l'algorithme qui a redéfini les règles

Et tous les autres : Instagram, X, Snapchat, Discord...

La multitude : des milliards de créateurs de données

L'économie des créateurs

Quand les machines aussi créent du contenu

Plateformes : l'effet de réseau et ses limites

L'effet de réseau : pourquoi tout le monde est sur la même appli

Quand les plateformes se dégradent

En résumé

FAQ

Combien de données sont produites chaque jour dans le monde ?

Qu'est-ce que le Web 2.0 ?

Pourquoi TikTok génère-t-il autant de données ?

Qu'est-ce que l'enshittification des plateformes ?

Mes données publiées sur les réseaux sociaux peuvent-elles entraîner des IA ?

Reprenez le contrôle de vos données

Dans la même série

Algorithmes : la recette secrète derrière vos écrans

Email