< Return to Video

Ce que nous avons appris de 5 millions de livres.

  • 0:00 - 0:02
    Erez Lieberman Aiden: Tout le monde sait
  • 0:02 - 0:05
    qu’une image vaut un millier de mots.
  • 0:07 - 0:09
    Mais à Harvard
  • 0:09 - 0:12
    nous nous sommes demandé si c’était vrai.
  • 0:12 - 0:14
    (Rires)
  • 0:14 - 0:18
    Nous avons donc rassemblé un groupe d’experts,
  • 0:18 - 0:20
    qui viennent d’Harvard, du MIT,
  • 0:20 - 0:23
    de The American Heritage Dictionary, The Encyclopedia Britannica
  • 0:23 - 0:25
    et même notre heureux sponsor,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    Et nous y avons réfléchi
  • 0:30 - 0:32
    pendant quatre ans.
  • 0:32 - 0:37
    Et nous sommes arrivés à une conclusion surprenante.
  • 0:37 - 0:40
    Mesdames et messieurs, une image ne vaut pas un millier de mots.
  • 0:40 - 0:42
    En fait, nous avons trouvé des images
  • 0:42 - 0:47
    qui valent 500 milliards de mots.
  • 0:47 - 0:49
    Jean-Baptiste Michel : Comment sommes-nous arrivés à cette conclusion ?
  • 0:49 - 0:51
    Donc Erez et moi nous étions en train de penser à des moyens
  • 0:51 - 0:53
    d’avoir une image complète de la culture humaine
  • 0:53 - 0:56
    et de l‘histoire humaine : les changements dans le temps.
  • 0:56 - 0:58
    Beaucoup de livres ont été écrits au fil des ans.
  • 0:58 - 1:00
    Nous avons donc pensé, le meilleur moyen d’apprendre des livres
  • 1:00 - 1:02
    est de lire tous ces millions de livres.
  • 1:02 - 1:05
    Bien sur, s’il existe une échelle pour voir à quel point c’est impressionnant,
  • 1:05 - 1:08
    ça doit être classé très très haut.
  • 1:08 - 1:10
    Le problème est qu’il y a un axe X pour cela,
  • 1:10 - 1:12
    qui est l’axe de la praticité.
  • 1:12 - 1:14
    Ce qui le classe très très bas.
  • 1:14 - 1:17
    (Applaudissements)
  • 1:17 - 1:20
    Les gens ont tendance à utiliser une approche alternative,
  • 1:20 - 1:22
    qui est de prendre quelques sources et les lire très attentivement.
  • 1:22 - 1:24
    Ce qui est extrêmement pratique, mais pas si impressionnant.
  • 1:24 - 1:27
    Ce que vous voulez vraiment faire
  • 1:27 - 1:30
    c’est arriver à l’impressionnant et pratique en même temps de ce côté-là.
  • 1:30 - 1:33
    Il s’avère qu’il y avait une compagnie au-delà du fleuve qui s’appelle Google
  • 1:33 - 1:35
    qui avait commencé un projet de numérisation quelques années auparavant
  • 1:35 - 1:37
    qui aurait pu faciliter cette approche.
  • 1:37 - 1:39
    Ils ont numérisé des millions de livres.
  • 1:39 - 1:42
    Cela signifie qu’on peut utiliser des méthodes de calcul
  • 1:42 - 1:44
    pour lire tous les livres avec un clic.
  • 1:44 - 1:47
    C’est très pratique et extrêmement impressionnant.
  • 1:48 - 1:50
    ELA : Laissez-moi vous raconter d’où viennent les livres.
  • 1:50 - 1:53
    Depuis des temps immémoriaux il y a eu des auteurs.
  • 1:53 - 1:56
    Ces auteurs se sont efforcé d’écrire des livres.
  • 1:56 - 1:58
    Et c’est devenu considérablement plus facile
  • 1:58 - 2:00
    avec le développement de l’imprimerie il y a quelques siècles.
  • 2:00 - 2:03
    Depuis, les auteurs ont eu
  • 2:03 - 2:05
    129 millions différentes occasions,
  • 2:05 - 2:07
    de publier des livres.
  • 2:07 - 2:09
    Si ces livres ne sont pas perdus dans l’histoire,
  • 2:09 - 2:11
    alors ils sont quelque part dans une bibliothèque,
  • 2:11 - 2:14
    et beaucoup de ces livres ont été récupérés des bibliothèques
  • 2:14 - 2:16
    et numérisés par Google,
  • 2:16 - 2:18
    qui a scanné 15 millions de livres à ce jour.
  • 2:18 - 2:21
    Quand Google numérise un livre, il le transforme en un très beau format.
  • 2:21 - 2:23
    Nous avons maintenant les données, et nous avons les métadonnées.
  • 2:23 - 2:26
    Nous avons les informations sur des choses comme où il a été publié,
  • 2:26 - 2:28
    qui était l’auteur, la date de publication.
  • 2:28 - 2:31
    Ce que nous faisons c’est parcourir tous ces archives
  • 2:31 - 2:35
    et exclure tout ce qui n’est pas de très haute qualité.
  • 2:35 - 2:37
    Ce qui nous reste
  • 2:37 - 2:40
    c’est une collection de cinq millions de livres,
  • 2:40 - 2:43
    500 milliards de mots,
  • 2:43 - 2:45
    une série de caractères mille fois plus longs
  • 2:45 - 2:48
    que le génome humain --
  • 2:48 - 2:50
    un texte qui, écrit,
  • 2:50 - 2:52
    un aller et un retour d'ici jusqu'à la lune
  • 2:52 - 2:54
    plus de 10 fois --
  • 2:54 - 2:58
    un véritable fragment de notre génome culturel.
  • 2:58 - 3:00
    Bien sur ce que nous avons fait
  • 3:00 - 3:03
    en faisant face à cette hyperbole outrageuse…
  • 3:03 - 3:05
    (Rires)
  • 3:05 - 3:08
    est ce que n’importe quel chercheur respectable
  • 3:08 - 3:11
    aurait fait.
  • 3:11 - 3:13
    Nous avons pris une page de XKCD,
  • 3:13 - 3:15
    et nous avons dit, « Marche arrière.
  • 3:15 - 3:17
    Nous allons essayer la science. »
  • 3:17 - 3:19
    (Rires)
  • 3:19 - 3:21
    JM : Bien sur, nous avons pensé,
  • 3:21 - 3:23
    commençons par sortir les données
  • 3:23 - 3:25
    pour que les gens puissent faire de la science.
  • 3:25 - 3:27
    Nous avons réfléchi, quelles données pouvons-nous sortir?
  • 3:27 - 3:29
    Bien sûr, on veut prendre les livres
  • 3:29 - 3:31
    et sortir le texte complet de ces cinq millions de livres.
  • 3:31 - 3:33
    Google, et en particulier Jon Orwant,
  • 3:33 - 3:35
    nous a expliqué une équation qu’il nous faudrait apprendre.
  • 3:35 - 3:38
    Vous avez cinq millions, ce qui représente, cinq millions d’auteurs
  • 3:38 - 3:41
    et cinq millions de plaintes judiciaires c’est un procès énorme.
  • 3:41 - 3:43
    Donc, malgré cela puisse être vraiment redoutable,
  • 3:43 - 3:46
    encore une fois, c’est extrêmement, extrêmement peu pratique.
  • 3:46 - 3:48
    (Rires)
  • 3:48 - 3:50
    Encore une fois, nous avons cédé,
  • 3:50 - 3:53
    et nous avons suivi l’approche pratique, qui était un peu moins redoutable.
  • 3:53 - 3:55
    On s’est dit, plutôt que de faire sortir le texte complet,
  • 3:55 - 3:57
    nous allons faire sortir des statistiques sur les livres.
  • 3:57 - 3:59
    Prenez par exemple, « Une étincelle de bonheur ».
  • 3:59 - 4:01
    Quatre mots ; on l’appelle quadri-gramme.
  • 4:01 - 4:03
    Nous allons vous dire combien de fois un quadri-gramme en particulier
  • 4:03 - 4:05
    est apparu dans les livres en 1801, 1802, 1803,
  • 4:05 - 4:07
    jusqu’à 2008.
  • 4:07 - 4:09
    Cela nous donne une série temporelle
  • 4:09 - 4:11
    sur la fréquence avec laquelle cette phrase en particulier a été utilisée dans le temps.
  • 4:11 - 4:14
    Nous le faisons pour tous les mots et les phrases qui apparaissent dans ces livres,
  • 4:14 - 4:17
    ce qui nous donne un tableau de deux milliards de lignes
  • 4:17 - 4:19
    qui nous raconte les changements culturels.
  • 4:19 - 4:21
    ELA : Donc ces deux milliards de lignes,
  • 4:21 - 4:23
    nous les appelons les deux milliards d’n-grammes.
  • 4:23 - 4:25
    Qu’est ce qu’ils nous disent?
  • 4:25 - 4:27
    L’n-gramme individuel mesure les tendances culturelles.
  • 4:27 - 4:29
    Prenons un exemple.
  • 4:29 - 4:31
    Supposez que je sois épanoui,
  • 4:31 - 4:33
    et demain matin je veux vous raconter comme j’étais bien.
  • 4:33 - 4:36
    Je pourrai donc dire, « Yesterday, I throve. » [Hier j’étais épanoui]
  • 4:36 - 4:39
    Sinon, je pourrai dire, « Yesterday, I thrived.»
  • 4:39 - 4:42
    Laquelle devrais-je utiliser ?
  • 4:42 - 4:44
    Comment savoir ?
  • 4:44 - 4:46
    Pour ce qui est d’il y a six mois,
  • 4:46 - 4:48
    le dernier cri dans le domaine
  • 4:48 - 4:50
    est que, par exemple,
  • 4:50 - 4:52
    vous iriez chez le premier psychologue avec une coiffure fabuleuse,
  • 4:52 - 4:54
    et vous diriez,
  • 4:54 - 4:57
    « Steve, tu es un expert en verbes irréguliers.
  • 4:57 - 4:59
    qu’est ce que je devrais faire ? »
  • 4:59 - 5:01
    Et il dirait, « La plupart des gens disent ‘thrived’,
  • 5:01 - 5:04
    mais certains disent ‘throve’»
  • 5:04 - 5:06
    Et vous sauriez également que,
  • 5:06 - 5:09
    si vous deviez revenir en arrière de 200 ans
  • 5:09 - 5:12
    et demander la même chose à un homme d’état avec la même coiffure,
  • 5:12 - 5:15
    (Rires)
  • 5:15 - 5:17
    « Tom, qu’est que je devrais dire ? »
  • 5:17 - 5:19
    Il dirait, « De nos jours, beaucoup disent ‘throve’,
  • 5:19 - 5:22
    certains disent ‘thrived’»
  • 5:22 - 5:24
    Maintenant ce que je vais vous montrer c’est des données bruts.
  • 5:24 - 5:28
    Deux lignes de cette tableau de deux milliards d’entrées.
  • 5:28 - 5:30
    Ce que vous voyez c’est la fréquence année par année
  • 5:30 - 5:33
    de « thrived » et « throve » dans le temps.
  • 5:34 - 5:36
    Voici deux
  • 5:36 - 5:39
    des deux milliards de lignes.
  • 5:39 - 5:41
    L’entière série de données
  • 5:41 - 5:44
    est un milliard de fois plus impressionnante que cette diapo.
  • 5:44 - 5:46
    (Rires)
  • 5:46 - 5:50
    (Applaudissements)
  • 5:50 - 5:52
    JM : Il y a plein d’autres photos qui valent 500 milliards de mots.
  • 5:52 - 5:54
    Une par exemple.
  • 5:54 - 5:56
    Si vous prenez la grippe,
  • 5:56 - 5:58
    vous voyez des pics dans les périodes pendant lesquelles vous saviez
  • 5:58 - 6:01
    que les grandes grippes épidémiques tuaient les gens partout dans le monde.
  • 6:01 - 6:04
    ELA : si vous n’êtes pas encore convaincu,
  • 6:04 - 6:06
    le niveau des océans monte,
  • 6:06 - 6:09
    ainsi que le CO2 et la température globale.
  • 6:09 - 6:12
    JM : Vous pourriez également jeter un coup d’œil à cet n-gramme,
  • 6:12 - 6:15
    et c’est pour dire à Nietzche que Dieu n’est pas mort,
  • 6:15 - 6:18
    bien que vous pourriez convenir qu’il ait besoin d’un meilleur attaché de presse.
  • 6:18 - 6:20
    (Rires)
  • 6:20 - 6:23
    ELA : Vous pouvez obtenir des concepts assez abstrait avec ce genre de chose.
  • 6:23 - 6:25
    Par exemple, je vais vous raconter l’histoire
  • 6:25 - 6:27
    de l’année 1950.
  • 6:27 - 6:29
    Pendant la majeure partie de l’histoire,
  • 6:29 - 6:31
    tout le monde s’est fiché de 1950.
  • 6:31 - 6:33
    En 1700, en 1800, en 1900,
  • 6:33 - 6:36
    personne ne s’en intéresse.
  • 6:37 - 6:39
    Pendant les années 30 et 40,
  • 6:39 - 6:41
    personne ne s’y intéresse.
  • 6:41 - 6:43
    Tout à coup, au milieu des années 40,
  • 6:43 - 6:45
    une agitation débute.
  • 6:45 - 6:47
    Les gens se rendent compte que 1950 approche,
  • 6:47 - 6:49
    et ça peut être énorme.
  • 6:49 - 6:52
    (Rires)
  • 6:52 - 6:55
    Mais rien n’a intéressé personne à 1950
  • 6:55 - 6:58
    jusqu’à 1950.
  • 6:58 - 7:01
    (Rires)
  • 7:01 - 7:03
    Les gens se promenaient de touts les côtés obsédés.
  • 7:03 - 7:05
    Ils n’arrêtaient pas de parler
  • 7:05 - 7:08
    de tout ce qu’ils avaient fait en 1950,
  • 7:08 - 7:11
    tout ce qu’ils prévoyaient de faire en 1950,
  • 7:11 - 7:16
    tous les rêves qu’ils voulaient accomplir en 1950.
  • 7:16 - 7:18
    En fait, 1950 était si fascinant
  • 7:18 - 7:20
    que dans les années qui ont suivi,
  • 7:20 - 7:23
    les gens n’arrêtaient pas de parler de toutes les choses extraordinaires qui étaient arrivées
  • 7:23 - 7:25
    en 51, 52, 53.
  • 7:25 - 7:27
    Finalement en 1954,
  • 7:27 - 7:29
    quelqu’un s’est levé et s’est rendu compte
  • 7:29 - 7:33
    que 1950 en quelque sorte était passé.
  • 7:33 - 7:35
    (Rires)
  • 7:35 - 7:37
    Et tout d’un coup, la bulle a éclaté.
  • 7:37 - 7:39
    (Rires)
  • 7:39 - 7:41
    Et l’histoire de 1950
  • 7:41 - 7:43
    est l’histoire de chaque année pour laquelle nous avons un passé,
  • 7:43 - 7:46
    avec un petit zest, puisque nous avons maintenant ces beaux diagrammes.
  • 7:46 - 7:49
    Et vu que nous avons ces beaux diagrammes, nous pouvons mesurer les choses.
  • 7:49 - 7:51
    Nous sommes en mesure de dire, « A quelle vitesse la bulle a éclaté »
  • 7:51 - 7:54
    Et il s’avère que nous pouvons la mesurer avec précision.
  • 7:54 - 7:57
    Nous en avons dérivé des équations et des représentations graphiques,
  • 7:57 - 7:59
    et le résultat final
  • 7:59 - 8:02
    est que nous découvrons que la bulle a éclaté de plus en plus vite
  • 8:02 - 8:04
    à chaque année qui passait.
  • 8:04 - 8:09
    Nous perdons intérêt pour le passé rapidement.
  • 8:09 - 8:11
    JM : Maintenant un tout petit conseil pour la carrière.
  • 8:11 - 8:13
    Pour ceux parmi vous qui cherchent à devenir célèbres,
  • 8:13 - 8:15
    nous pouvons apprendre des 35 personnages politiques les plus célèbres,
  • 8:15 - 8:17
    écrivains, acteurs et ainsi de suite.
  • 8:17 - 8:20
    Si vous voulez devenir célèbre très tôt, vous devriez vous faire acteur,
  • 8:20 - 8:22
    parce que la célébrité commence à monter vers la fin de la vingtaine --
  • 8:22 - 8:24
    vous êtes encore jeunes, c’est fabuleux.
  • 8:24 - 8:26
    Si vous pouvez attendre un peu, vous devriez vous faire écrivain,
  • 8:26 - 8:28
    parce qu’ensuite vous montez très haut,
  • 8:28 - 8:30
    comme Mark Twain, par exemple : très célèbre.
  • 8:30 - 8:32
    Mais si vous voulez atteindre le sommet,
  • 8:32 - 8:34
    vous devriez retarder la gratification
  • 8:34 - 8:36
    et, bien sûr, devenir un personnage politique.
  • 8:36 - 8:38
    Et là vous devenez célèbre à la fin de la cinquantaine,
  • 8:38 - 8:40
    et vous devenez très, très célèbre plus tard.
  • 8:40 - 8:43
    Les scientifiques ont tendance à devenir célèbres quand ils sont plus âgés.
  • 8:43 - 8:45
    Comme par exemple, les biologistes et les physicistes
  • 8:45 - 8:47
    ont tendance à être célèbre autant que les acteurs.
  • 8:47 - 8:50
    Une erreur à ne pas faire est de devenir mathématicien.
  • 8:50 - 8:52
    (Rires)
  • 8:52 - 8:54
    En faisant ça,
  • 8:54 - 8:57
    vous pourriez penser, « Super. Je vais faire mon meilleur travail à vingt ans. »
  • 8:57 - 8:59
    Mais devinez, personne ne s’y intéresse vraiment.
  • 8:59 - 9:02
    (Rires)
  • 9:02 - 9:04
    ELA : Il y a encore des notes qui donnent à penser
  • 9:04 - 9:06
    parmi les n-grammes.
  • 9:06 - 9:08
    Par exemple, voici la trajectoire de Marc Chagall,
  • 9:08 - 9:10
    un artiste né en 1887.
  • 9:10 - 9:13
    Et ça ressemble à une normale trajectoire d’une personne célèbre.
  • 9:13 - 9:17
    Il devient de plus en plus célèbre,
  • 9:17 - 9:19
    sauf si vous regardez l’allemand.
  • 9:19 - 9:21
    Si vous regardez l’allemand, vous voyez quelque chose de bizarre,
  • 9:21 - 9:23
    quelque chose que normalement vous ne voyez pas,
  • 9:23 - 9:25
    qui est qu’il devient extrêmement célèbre
  • 9:25 - 9:27
    et tout à coup il s’effondre,
  • 9:27 - 9:30
    en passant par un nadir entre 1933 et 1945,
  • 9:30 - 9:33
    avant de rebondir tout de suite après.
  • 9:33 - 9:35
    Et bien sur, ce que nous voyons
  • 9:35 - 9:38
    est que Marc Chagall était un artiste juif
  • 9:38 - 9:40
    dans l’Allemagne des Nazis.
  • 9:40 - 9:42
    Ces signaux
  • 9:42 - 9:44
    sont tellement forts
  • 9:44 - 9:47
    que nous n’avons pas besoin de savoir que quelqu’un a été censuré.
  • 9:47 - 9:49
    On peut s’en apercevoir
  • 9:49 - 9:51
    en utilisant un traitement des signaux élémentaires.
  • 9:51 - 9:53
    Voici une manière simple de le faire.
  • 9:53 - 9:55
    Une prévision raisonnable
  • 9:55 - 9:57
    est que la célébrité de quelqu’un sur une période donnée de temps
  • 9:57 - 9:59
    devrait être à peu près la moyenne de sa célébrité avant
  • 9:59 - 10:01
    et de sa célébrité après.
  • 10:01 - 10:03
    Voici à peu près ce à quoi l’on s’attend.
  • 10:03 - 10:06
    Et nous comparons ceci avec la célébrité que nous observons.
  • 10:06 - 10:08
    Et nous divisions l’un par l’autre
  • 10:08 - 10:10
    pour obtenir une chose que nous appelons un index de suppression.
  • 10:10 - 10:13
    Si l’index de suppression est très, très, très petit,
  • 10:13 - 10:15
    alors vous avez très probablement été supprimé.
  • 10:15 - 10:18
    S’il est très grand, vous avez peut-être bénéficié de la propagande.
  • 10:19 - 10:21
    JM : En fait vous pouvez regarder
  • 10:21 - 10:24
    la distribution des index de suppression sur toutes les populations.
  • 10:24 - 10:26
    Donc par exemple, ici --
  • 10:26 - 10:28
    cet index de suppression est de 5000 personnes
  • 10:28 - 10:30
    prises dans des livres anglais où il n’y a pas de suppression --
  • 10:30 - 10:32
    ce serait comme ça, en fait très centré sur une.
  • 10:32 - 10:34
    Ce que vous vous attendez c’est ce que vous voyez.
  • 10:34 - 10:36
    Voila la distribution vue en Allemagne --
  • 10:36 - 10:38
    très différente, déplacée sur la gauche.
  • 10:38 - 10:41
    Les gens en parlaient deux fois moins que ce qu’ils auraient dû.
  • 10:41 - 10:43
    Mais encore plus important, la distribution est plus large.
  • 10:43 - 10:46
    Il y a plus de personnes qui tombent à l’extrême gauche de cette distribution
  • 10:46 - 10:49
    de qui on a parlé 10 fois moins de ce qu’on aurait dû.
  • 10:49 - 10:51
    Mai également beaucoup de personnes à l’extrême droite
  • 10:51 - 10:53
    qui paraissent bénéficier de la propagande.
  • 10:53 - 10:56
    Cette image est la marque de la censure dans les archives des livres.
  • 10:56 - 10:58
    ELA : Donc « culturomique »
  • 10:58 - 11:00
    c’est le mot que nous employons pour définir cette méthode.
  • 11:00 - 11:02
    C’est un peu comme la génomique.
  • 11:02 - 11:04
    Sauf que la génomique est une lentille sur la biologie
  • 11:04 - 11:07
    à travers la fenêtre de la séquence des bases dans le génome humain.
  • 11:07 - 11:09
    La culturomique est similaire.
  • 11:09 - 11:12
    C’est l’application sur grande échelle de l’analyse du recueil de données
  • 11:12 - 11:14
    à l’étude de la culture humaine.
  • 11:14 - 11:16
    Ici, plutôt qu’à travers la lentille d’un génome,
  • 11:16 - 11:19
    à travers la lentille d’un morceau des archives numérisées.
  • 11:19 - 11:21
    Ce qui est génial à propos de la culturomique
  • 11:21 - 11:23
    c’est que tout le monde peut le faire.
  • 11:23 - 11:25
    Pourquoi tout le monde peut le faire ?
  • 11:25 - 11:27
    Tout le monde peut le faire parce que trois gars,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray et Will Brockman de chez Google,
  • 11:30 - 11:32
    ont vu le prototype du Ngram Viewer,
  • 11:32 - 11:34
    et ils ont dit, « C’est marrant.
  • 11:34 - 11:37
    Nous devons le rendre disponible à tout le monde. »
  • 11:37 - 11:39
    En deux semaines – les deux semaines qui ont précédé la sortie de notre article --
  • 11:39 - 11:42
    ils ont codé une version du Ngram Viewer tout public.
  • 11:42 - 11:45
    Donc vous aussi vous pouvez taper n’importe quel mot ou phrase qui vous intéresse
  • 11:45 - 11:47
    et voir son n-grammes immédiatement --
  • 11:47 - 11:49
    vous pouvez aussi feuilleter tous les livres
  • 11:49 - 11:51
    dans lesquelles votre n-gramme apparaît.
  • 11:51 - 11:53
    JM : Il a été utilisé plus d’un million de fois le premier jour,
  • 11:53 - 11:55
    et c’est vraiment la meilleure de toutes les interrogations.
  • 11:55 - 11:58
    Les gens veulent faire de leurs mieux [best], ils mettent leur meilleur [best] pied avant.
  • 11:58 - 12:01
    Mais il s’avère qu’au 18° siècle, les gens ne s’y intéressaient pas du tout.
  • 12:01 - 12:04
    Ils ne voulaient pas faire de leur « best », ils voulaient faire de leur « beft ».
  • 12:04 - 12:07
    Ce qui est arrivé, bien sur, c’est que c’est une erreur.
  • 12:07 - 12:09
    Ils n’étaient pas à la recherche de la médiocrité.
  • 12:09 - 12:12
    c’est que le S s’écrivait différemment, un peu comme un F.
  • 12:12 - 12:15
    Bien sur, Google ne s’en est pas aperçu,
  • 12:15 - 12:18
    nous avons donc rapporté ceci dans l’article scientifique que nous avons écrit.
  • 12:18 - 12:20
    Mais il s’avère que c’est juste un rappel
  • 12:20 - 12:22
    sur le fait que malgré tout ceci soit amusant,
  • 12:22 - 12:24
    en interprétant ces graphes, il faut faire très attention,
  • 12:24 - 12:27
    et il faut adopter les standards de base de la science.
  • 12:27 - 12:30
    ELA : Les gens l’ont utilisé pour toutes sortes de raisons amusantes.
  • 12:30 - 12:37
    (Rires)
  • 12:37 - 12:39
    En fait, nous n'allons pas parler,
  • 12:39 - 12:42
    nous allons juste vous montrer toutes les diapos et nous taire.
  • 12:42 - 12:45
    Cette personne s'est intéressée à l’histoire de la frustration.
  • 12:45 - 12:48
    Il y a différents types de frustration.
  • 12:48 - 12:51
    Si vous vous cognez l’orteil, en voilà une avec 1 A « argh ».
  • 12:51 - 12:53
    Si la terre est anéantie par les Vogons
  • 12:53 - 12:55
    pour faire de la place à un voyageur intergalactique,
  • 12:55 - 12:57
    c’est avec 8 A « aaaaaaaargh ».
  • 12:57 - 12:59
    Cette personne étudie tous les « argh »,
  • 12:59 - 13:01
    de 1 à 8 A.
  • 13:01 - 13:03
    Et il s’avère
  • 13:03 - 13:05
    que les « argh » moins fréquents
  • 13:05 - 13:08
    sont, bien sûr, ceux qui correspondent aux choses les plus frustrantes --
  • 13:08 - 13:11
    sauf, curieusement, au début des années 80.
  • 13:11 - 13:13
    Nous pensons que ça pourrait avoir à faire avec Reagan,
  • 13:13 - 13:15
    (Rires)
  • 13:15 - 13:18
    JM : Il y a plusieurs utilisations de ces données,
  • 13:18 - 13:21
    mais la vérité est que nous sommes en train de numériser les archives historiques.
  • 13:21 - 13:23
    Google a commencé à numériser 15 millions de livres.
  • 13:23 - 13:25
    C’est 12 pour cent de tous les livres qui aient jamais été publiés.
  • 13:25 - 13:28
    C’est un gros morceau de la culture humaine.
  • 13:28 - 13:31
    Il y a beaucoup plus dans la culture : il y a les manuscrits, il y a les journaux,
  • 13:31 - 13:33
    il y a tout ce qui n’est pas texte, comme l’art et les tableaux.
  • 13:33 - 13:35
    Tout ceci est dans nos ordinateurs,
  • 13:35 - 13:37
    dans les ordinateurs du monde entier.
  • 13:37 - 13:40
    Et dans le temps, ça transformera la manière dont
  • 13:40 - 13:42
    nous comprenons notre passé, notre culture humaine du présent.
  • 13:42 - 13:44
    Merci beaucoup.
  • 13:44 - 13:47
    (Applaudissements)
Title:
Ce que nous avons appris de 5 millions de livres.
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Avez-vous joué avec Google Lab’sNgram Viewer ? C’est un outil qui est comme une drogue qui vous permet de chercher des mots et des idées dans une base de données de 5 millions de livres sur plusieurs siècles. Erez Lieberman Aiden et Jean-Baptiste Michel nous montrent comment ça marche, et quelques-unes des choses surprenantes que nous pouvons apprendre de 500 milliards de mots.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Anna Cristiana Minoli added a translation

French subtitles

Revisions