1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden: Tout le monde sait 2 00:00:02,000 --> 00:00:05,000 qu’une image vaut un millier de mots. 3 00:00:07,000 --> 00:00:09,000 Mais à Harvard 4 00:00:09,000 --> 00:00:12,000 nous nous sommes demandé si c’était vrai. 5 00:00:12,000 --> 00:00:14,000 (Rires) 6 00:00:14,000 --> 00:00:18,000 Nous avons donc rassemblé un groupe d’experts, 7 00:00:18,000 --> 00:00:20,000 qui viennent d’Harvard, du MIT, 8 00:00:20,000 --> 00:00:23,000 de The American Heritage Dictionary, The Encyclopedia Britannica 9 00:00:23,000 --> 00:00:25,000 et même notre heureux sponsor, 10 00:00:25,000 --> 00:00:28,000 Google. 11 00:00:28,000 --> 00:00:30,000 Et nous y avons réfléchi 12 00:00:30,000 --> 00:00:32,000 pendant quatre ans. 13 00:00:32,000 --> 00:00:37,000 Et nous sommes arrivés à une conclusion surprenante. 14 00:00:37,000 --> 00:00:40,000 Mesdames et messieurs, une image ne vaut pas un millier de mots. 15 00:00:40,000 --> 00:00:42,000 En fait, nous avons trouvé des images 16 00:00:42,000 --> 00:00:47,000 qui valent 500 milliards de mots. 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel : Comment sommes-nous arrivés à cette conclusion ? 18 00:00:49,000 --> 00:00:51,000 Donc Erez et moi nous étions en train de penser à des moyens 19 00:00:51,000 --> 00:00:53,000 d’avoir une image complète de la culture humaine 20 00:00:53,000 --> 00:00:56,000 et de l‘histoire humaine : les changements dans le temps. 21 00:00:56,000 --> 00:00:58,000 Beaucoup de livres ont été écrits au fil des ans. 22 00:00:58,000 --> 00:01:00,000 Nous avons donc pensé, le meilleur moyen d’apprendre des livres 23 00:01:00,000 --> 00:01:02,000 est de lire tous ces millions de livres. 24 00:01:02,000 --> 00:01:05,000 Bien sur, s’il existe une échelle pour voir à quel point c’est impressionnant, 25 00:01:05,000 --> 00:01:08,000 ça doit être classé très très haut. 26 00:01:08,000 --> 00:01:10,000 Le problème est qu’il y a un axe X pour cela, 27 00:01:10,000 --> 00:01:12,000 qui est l’axe de la praticité. 28 00:01:12,000 --> 00:01:14,000 Ce qui le classe très très bas. 29 00:01:14,000 --> 00:01:17,000 (Applaudissements) 30 00:01:17,000 --> 00:01:20,000 Les gens ont tendance à utiliser une approche alternative, 31 00:01:20,000 --> 00:01:22,000 qui est de prendre quelques sources et les lire très attentivement. 32 00:01:22,000 --> 00:01:24,000 Ce qui est extrêmement pratique, mais pas si impressionnant. 33 00:01:24,000 --> 00:01:27,000 Ce que vous voulez vraiment faire 34 00:01:27,000 --> 00:01:30,000 c’est arriver à l’impressionnant et pratique en même temps de ce côté-là. 35 00:01:30,000 --> 00:01:33,000 Il s’avère qu’il y avait une compagnie au-delà du fleuve qui s’appelle Google 36 00:01:33,000 --> 00:01:35,000 qui avait commencé un projet de numérisation quelques années auparavant 37 00:01:35,000 --> 00:01:37,000 qui aurait pu faciliter cette approche. 38 00:01:37,000 --> 00:01:39,000 Ils ont numérisé des millions de livres. 39 00:01:39,000 --> 00:01:42,000 Cela signifie qu’on peut utiliser des méthodes de calcul 40 00:01:42,000 --> 00:01:44,000 pour lire tous les livres avec un clic. 41 00:01:44,000 --> 00:01:47,000 C’est très pratique et extrêmement impressionnant. 42 00:01:48,000 --> 00:01:50,000 ELA : Laissez-moi vous raconter d’où viennent les livres. 43 00:01:50,000 --> 00:01:53,000 Depuis des temps immémoriaux il y a eu des auteurs. 44 00:01:53,000 --> 00:01:56,000 Ces auteurs se sont efforcé d’écrire des livres. 45 00:01:56,000 --> 00:01:58,000 Et c’est devenu considérablement plus facile 46 00:01:58,000 --> 00:02:00,000 avec le développement de l’imprimerie il y a quelques siècles. 47 00:02:00,000 --> 00:02:03,000 Depuis, les auteurs ont eu 48 00:02:03,000 --> 00:02:05,000 129 millions différentes occasions, 49 00:02:05,000 --> 00:02:07,000 de publier des livres. 50 00:02:07,000 --> 00:02:09,000 Si ces livres ne sont pas perdus dans l’histoire, 51 00:02:09,000 --> 00:02:11,000 alors ils sont quelque part dans une bibliothèque, 52 00:02:11,000 --> 00:02:14,000 et beaucoup de ces livres ont été récupérés des bibliothèques 53 00:02:14,000 --> 00:02:16,000 et numérisés par Google, 54 00:02:16,000 --> 00:02:18,000 qui a scanné 15 millions de livres à ce jour. 55 00:02:18,000 --> 00:02:21,000 Quand Google numérise un livre, il le transforme en un très beau format. 56 00:02:21,000 --> 00:02:23,000 Nous avons maintenant les données, et nous avons les métadonnées. 57 00:02:23,000 --> 00:02:26,000 Nous avons les informations sur des choses comme où il a été publié, 58 00:02:26,000 --> 00:02:28,000 qui était l’auteur, la date de publication. 59 00:02:28,000 --> 00:02:31,000 Ce que nous faisons c’est parcourir tous ces archives 60 00:02:31,000 --> 00:02:35,000 et exclure tout ce qui n’est pas de très haute qualité. 61 00:02:35,000 --> 00:02:37,000 Ce qui nous reste 62 00:02:37,000 --> 00:02:40,000 c’est une collection de cinq millions de livres, 63 00:02:40,000 --> 00:02:43,000 500 milliards de mots, 64 00:02:43,000 --> 00:02:45,000 une série de caractères mille fois plus longs 65 00:02:45,000 --> 00:02:48,000 que le génome humain -- 66 00:02:48,000 --> 00:02:50,000 un texte qui, écrit, 67 00:02:50,000 --> 00:02:52,000 un aller et un retour d'ici jusqu'à la lune 68 00:02:52,000 --> 00:02:54,000 plus de 10 fois -- 69 00:02:54,000 --> 00:02:58,000 un véritable fragment de notre génome culturel. 70 00:02:58,000 --> 00:03:00,000 Bien sur ce que nous avons fait 71 00:03:00,000 --> 00:03:03,000 en faisant face à cette hyperbole outrageuse… 72 00:03:03,000 --> 00:03:05,000 (Rires) 73 00:03:05,000 --> 00:03:08,000 est ce que n’importe quel chercheur respectable 74 00:03:08,000 --> 00:03:11,000 aurait fait. 75 00:03:11,000 --> 00:03:13,000 Nous avons pris une page de XKCD, 76 00:03:13,000 --> 00:03:15,000 et nous avons dit, « Marche arrière. 77 00:03:15,000 --> 00:03:17,000 Nous allons essayer la science. » 78 00:03:17,000 --> 00:03:19,000 (Rires) 79 00:03:19,000 --> 00:03:21,000 JM : Bien sur, nous avons pensé, 80 00:03:21,000 --> 00:03:23,000 commençons par sortir les données 81 00:03:23,000 --> 00:03:25,000 pour que les gens puissent faire de la science. 82 00:03:25,000 --> 00:03:27,000 Nous avons réfléchi, quelles données pouvons-nous sortir? 83 00:03:27,000 --> 00:03:29,000 Bien sûr, on veut prendre les livres 84 00:03:29,000 --> 00:03:31,000 et sortir le texte complet de ces cinq millions de livres. 85 00:03:31,000 --> 00:03:33,000 Google, et en particulier Jon Orwant, 86 00:03:33,000 --> 00:03:35,000 nous a expliqué une équation qu’il nous faudrait apprendre. 87 00:03:35,000 --> 00:03:38,000 Vous avez cinq millions, ce qui représente, cinq millions d’auteurs 88 00:03:38,000 --> 00:03:41,000 et cinq millions de plaintes judiciaires c’est un procès énorme. 89 00:03:41,000 --> 00:03:43,000 Donc, malgré cela puisse être vraiment redoutable, 90 00:03:43,000 --> 00:03:46,000 encore une fois, c’est extrêmement, extrêmement peu pratique. 91 00:03:46,000 --> 00:03:48,000 (Rires) 92 00:03:48,000 --> 00:03:50,000 Encore une fois, nous avons cédé, 93 00:03:50,000 --> 00:03:53,000 et nous avons suivi l’approche pratique, qui était un peu moins redoutable. 94 00:03:53,000 --> 00:03:55,000 On s’est dit, plutôt que de faire sortir le texte complet, 95 00:03:55,000 --> 00:03:57,000 nous allons faire sortir des statistiques sur les livres. 96 00:03:57,000 --> 00:03:59,000 Prenez par exemple, « Une étincelle de bonheur ». 97 00:03:59,000 --> 00:04:01,000 Quatre mots ; on l’appelle quadri-gramme. 98 00:04:01,000 --> 00:04:03,000 Nous allons vous dire combien de fois un quadri-gramme en particulier 99 00:04:03,000 --> 00:04:05,000 est apparu dans les livres en 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 jusqu’à 2008. 101 00:04:07,000 --> 00:04:09,000 Cela nous donne une série temporelle 102 00:04:09,000 --> 00:04:11,000 sur la fréquence avec laquelle cette phrase en particulier a été utilisée dans le temps. 103 00:04:11,000 --> 00:04:14,000 Nous le faisons pour tous les mots et les phrases qui apparaissent dans ces livres, 104 00:04:14,000 --> 00:04:17,000 ce qui nous donne un tableau de deux milliards de lignes 105 00:04:17,000 --> 00:04:19,000 qui nous raconte les changements culturels. 106 00:04:19,000 --> 00:04:21,000 ELA : Donc ces deux milliards de lignes, 107 00:04:21,000 --> 00:04:23,000 nous les appelons les deux milliards d’n-grammes. 108 00:04:23,000 --> 00:04:25,000 Qu’est ce qu’ils nous disent? 109 00:04:25,000 --> 00:04:27,000 L’n-gramme individuel mesure les tendances culturelles. 110 00:04:27,000 --> 00:04:29,000 Prenons un exemple. 111 00:04:29,000 --> 00:04:31,000 Supposez que je sois épanoui, 112 00:04:31,000 --> 00:04:33,000 et demain matin je veux vous raconter comme j’étais bien. 113 00:04:33,000 --> 00:04:36,000 Je pourrai donc dire, « Yesterday, I throve. » [Hier j’étais épanoui] 114 00:04:36,000 --> 00:04:39,000 Sinon, je pourrai dire, « Yesterday, I thrived.» 115 00:04:39,000 --> 00:04:42,000 Laquelle devrais-je utiliser ? 116 00:04:42,000 --> 00:04:44,000 Comment savoir ? 117 00:04:44,000 --> 00:04:46,000 Pour ce qui est d’il y a six mois, 118 00:04:46,000 --> 00:04:48,000 le dernier cri dans le domaine 119 00:04:48,000 --> 00:04:50,000 est que, par exemple, 120 00:04:50,000 --> 00:04:52,000 vous iriez chez le premier psychologue avec une coiffure fabuleuse, 121 00:04:52,000 --> 00:04:54,000 et vous diriez, 122 00:04:54,000 --> 00:04:57,000 « Steve, tu es un expert en verbes irréguliers. 123 00:04:57,000 --> 00:04:59,000 qu’est ce que je devrais faire ? » 124 00:04:59,000 --> 00:05:01,000 Et il dirait, « La plupart des gens disent ‘thrived’, 125 00:05:01,000 --> 00:05:04,000 mais certains disent ‘throve’» 126 00:05:04,000 --> 00:05:06,000 Et vous sauriez également que, 127 00:05:06,000 --> 00:05:09,000 si vous deviez revenir en arrière de 200 ans 128 00:05:09,000 --> 00:05:12,000 et demander la même chose à un homme d’état avec la même coiffure, 129 00:05:12,000 --> 00:05:15,000 (Rires) 130 00:05:15,000 --> 00:05:17,000 « Tom, qu’est que je devrais dire ? » 131 00:05:17,000 --> 00:05:19,000 Il dirait, « De nos jours, beaucoup disent ‘throve’, 132 00:05:19,000 --> 00:05:22,000 certains disent ‘thrived’» 133 00:05:22,000 --> 00:05:24,000 Maintenant ce que je vais vous montrer c’est des données bruts. 134 00:05:24,000 --> 00:05:28,000 Deux lignes de cette tableau de deux milliards d’entrées. 135 00:05:28,000 --> 00:05:30,000 Ce que vous voyez c’est la fréquence année par année 136 00:05:30,000 --> 00:05:33,000 de « thrived » et « throve » dans le temps. 137 00:05:34,000 --> 00:05:36,000 Voici deux 138 00:05:36,000 --> 00:05:39,000 des deux milliards de lignes. 139 00:05:39,000 --> 00:05:41,000 L’entière série de données 140 00:05:41,000 --> 00:05:44,000 est un milliard de fois plus impressionnante que cette diapo. 141 00:05:44,000 --> 00:05:46,000 (Rires) 142 00:05:46,000 --> 00:05:50,000 (Applaudissements) 143 00:05:50,000 --> 00:05:52,000 JM : Il y a plein d’autres photos qui valent 500 milliards de mots. 144 00:05:52,000 --> 00:05:54,000 Une par exemple. 145 00:05:54,000 --> 00:05:56,000 Si vous prenez la grippe, 146 00:05:56,000 --> 00:05:58,000 vous voyez des pics dans les périodes pendant lesquelles vous saviez 147 00:05:58,000 --> 00:06:01,000 que les grandes grippes épidémiques tuaient les gens partout dans le monde. 148 00:06:01,000 --> 00:06:04,000 ELA : si vous n’êtes pas encore convaincu, 149 00:06:04,000 --> 00:06:06,000 le niveau des océans monte, 150 00:06:06,000 --> 00:06:09,000 ainsi que le CO2 et la température globale. 151 00:06:09,000 --> 00:06:12,000 JM : Vous pourriez également jeter un coup d’œil à cet n-gramme, 152 00:06:12,000 --> 00:06:15,000 et c’est pour dire à Nietzche que Dieu n’est pas mort, 153 00:06:15,000 --> 00:06:18,000 bien que vous pourriez convenir qu’il ait besoin d’un meilleur attaché de presse. 154 00:06:18,000 --> 00:06:20,000 (Rires) 155 00:06:20,000 --> 00:06:23,000 ELA : Vous pouvez obtenir des concepts assez abstrait avec ce genre de chose. 156 00:06:23,000 --> 00:06:25,000 Par exemple, je vais vous raconter l’histoire 157 00:06:25,000 --> 00:06:27,000 de l’année 1950. 158 00:06:27,000 --> 00:06:29,000 Pendant la majeure partie de l’histoire, 159 00:06:29,000 --> 00:06:31,000 tout le monde s’est fiché de 1950. 160 00:06:31,000 --> 00:06:33,000 En 1700, en 1800, en 1900, 161 00:06:33,000 --> 00:06:36,000 personne ne s’en intéresse. 162 00:06:37,000 --> 00:06:39,000 Pendant les années 30 et 40, 163 00:06:39,000 --> 00:06:41,000 personne ne s’y intéresse. 164 00:06:41,000 --> 00:06:43,000 Tout à coup, au milieu des années 40, 165 00:06:43,000 --> 00:06:45,000 une agitation débute. 166 00:06:45,000 --> 00:06:47,000 Les gens se rendent compte que 1950 approche, 167 00:06:47,000 --> 00:06:49,000 et ça peut être énorme. 168 00:06:49,000 --> 00:06:52,000 (Rires) 169 00:06:52,000 --> 00:06:55,000 Mais rien n’a intéressé personne à 1950 170 00:06:55,000 --> 00:06:58,000 jusqu’à 1950. 171 00:06:58,000 --> 00:07:01,000 (Rires) 172 00:07:01,000 --> 00:07:03,000 Les gens se promenaient de touts les côtés obsédés. 173 00:07:03,000 --> 00:07:05,000 Ils n’arrêtaient pas de parler 174 00:07:05,000 --> 00:07:08,000 de tout ce qu’ils avaient fait en 1950, 175 00:07:08,000 --> 00:07:11,000 tout ce qu’ils prévoyaient de faire en 1950, 176 00:07:11,000 --> 00:07:16,000 tous les rêves qu’ils voulaient accomplir en 1950. 177 00:07:16,000 --> 00:07:18,000 En fait, 1950 était si fascinant 178 00:07:18,000 --> 00:07:20,000 que dans les années qui ont suivi, 179 00:07:20,000 --> 00:07:23,000 les gens n’arrêtaient pas de parler de toutes les choses extraordinaires qui étaient arrivées 180 00:07:23,000 --> 00:07:25,000 en 51, 52, 53. 181 00:07:25,000 --> 00:07:27,000 Finalement en 1954, 182 00:07:27,000 --> 00:07:29,000 quelqu’un s’est levé et s’est rendu compte 183 00:07:29,000 --> 00:07:33,000 que 1950 en quelque sorte était passé. 184 00:07:33,000 --> 00:07:35,000 (Rires) 185 00:07:35,000 --> 00:07:37,000 Et tout d’un coup, la bulle a éclaté. 186 00:07:37,000 --> 00:07:39,000 (Rires) 187 00:07:39,000 --> 00:07:41,000 Et l’histoire de 1950 188 00:07:41,000 --> 00:07:43,000 est l’histoire de chaque année pour laquelle nous avons un passé, 189 00:07:43,000 --> 00:07:46,000 avec un petit zest, puisque nous avons maintenant ces beaux diagrammes. 190 00:07:46,000 --> 00:07:49,000 Et vu que nous avons ces beaux diagrammes, nous pouvons mesurer les choses. 191 00:07:49,000 --> 00:07:51,000 Nous sommes en mesure de dire, « A quelle vitesse la bulle a éclaté » 192 00:07:51,000 --> 00:07:54,000 Et il s’avère que nous pouvons la mesurer avec précision. 193 00:07:54,000 --> 00:07:57,000 Nous en avons dérivé des équations et des représentations graphiques, 194 00:07:57,000 --> 00:07:59,000 et le résultat final 195 00:07:59,000 --> 00:08:02,000 est que nous découvrons que la bulle a éclaté de plus en plus vite 196 00:08:02,000 --> 00:08:04,000 à chaque année qui passait. 197 00:08:04,000 --> 00:08:09,000 Nous perdons intérêt pour le passé rapidement. 198 00:08:09,000 --> 00:08:11,000 JM : Maintenant un tout petit conseil pour la carrière. 199 00:08:11,000 --> 00:08:13,000 Pour ceux parmi vous qui cherchent à devenir célèbres, 200 00:08:13,000 --> 00:08:15,000 nous pouvons apprendre des 35 personnages politiques les plus célèbres, 201 00:08:15,000 --> 00:08:17,000 écrivains, acteurs et ainsi de suite. 202 00:08:17,000 --> 00:08:20,000 Si vous voulez devenir célèbre très tôt, vous devriez vous faire acteur, 203 00:08:20,000 --> 00:08:22,000 parce que la célébrité commence à monter vers la fin de la vingtaine -- 204 00:08:22,000 --> 00:08:24,000 vous êtes encore jeunes, c’est fabuleux. 205 00:08:24,000 --> 00:08:26,000 Si vous pouvez attendre un peu, vous devriez vous faire écrivain, 206 00:08:26,000 --> 00:08:28,000 parce qu’ensuite vous montez très haut, 207 00:08:28,000 --> 00:08:30,000 comme Mark Twain, par exemple : très célèbre. 208 00:08:30,000 --> 00:08:32,000 Mais si vous voulez atteindre le sommet, 209 00:08:32,000 --> 00:08:34,000 vous devriez retarder la gratification 210 00:08:34,000 --> 00:08:36,000 et, bien sûr, devenir un personnage politique. 211 00:08:36,000 --> 00:08:38,000 Et là vous devenez célèbre à la fin de la cinquantaine, 212 00:08:38,000 --> 00:08:40,000 et vous devenez très, très célèbre plus tard. 213 00:08:40,000 --> 00:08:43,000 Les scientifiques ont tendance à devenir célèbres quand ils sont plus âgés. 214 00:08:43,000 --> 00:08:45,000 Comme par exemple, les biologistes et les physicistes 215 00:08:45,000 --> 00:08:47,000 ont tendance à être célèbre autant que les acteurs. 216 00:08:47,000 --> 00:08:50,000 Une erreur à ne pas faire est de devenir mathématicien. 217 00:08:50,000 --> 00:08:52,000 (Rires) 218 00:08:52,000 --> 00:08:54,000 En faisant ça, 219 00:08:54,000 --> 00:08:57,000 vous pourriez penser, « Super. Je vais faire mon meilleur travail à vingt ans. » 220 00:08:57,000 --> 00:08:59,000 Mais devinez, personne ne s’y intéresse vraiment. 221 00:08:59,000 --> 00:09:02,000 (Rires) 222 00:09:02,000 --> 00:09:04,000 ELA : Il y a encore des notes qui donnent à penser 223 00:09:04,000 --> 00:09:06,000 parmi les n-grammes. 224 00:09:06,000 --> 00:09:08,000 Par exemple, voici la trajectoire de Marc Chagall, 225 00:09:08,000 --> 00:09:10,000 un artiste né en 1887. 226 00:09:10,000 --> 00:09:13,000 Et ça ressemble à une normale trajectoire d’une personne célèbre. 227 00:09:13,000 --> 00:09:17,000 Il devient de plus en plus célèbre, 228 00:09:17,000 --> 00:09:19,000 sauf si vous regardez l’allemand. 229 00:09:19,000 --> 00:09:21,000 Si vous regardez l’allemand, vous voyez quelque chose de bizarre, 230 00:09:21,000 --> 00:09:23,000 quelque chose que normalement vous ne voyez pas, 231 00:09:23,000 --> 00:09:25,000 qui est qu’il devient extrêmement célèbre 232 00:09:25,000 --> 00:09:27,000 et tout à coup il s’effondre, 233 00:09:27,000 --> 00:09:30,000 en passant par un nadir entre 1933 et 1945, 234 00:09:30,000 --> 00:09:33,000 avant de rebondir tout de suite après. 235 00:09:33,000 --> 00:09:35,000 Et bien sur, ce que nous voyons 236 00:09:35,000 --> 00:09:38,000 est que Marc Chagall était un artiste juif 237 00:09:38,000 --> 00:09:40,000 dans l’Allemagne des Nazis. 238 00:09:40,000 --> 00:09:42,000 Ces signaux 239 00:09:42,000 --> 00:09:44,000 sont tellement forts 240 00:09:44,000 --> 00:09:47,000 que nous n’avons pas besoin de savoir que quelqu’un a été censuré. 241 00:09:47,000 --> 00:09:49,000 On peut s’en apercevoir 242 00:09:49,000 --> 00:09:51,000 en utilisant un traitement des signaux élémentaires. 243 00:09:51,000 --> 00:09:53,000 Voici une manière simple de le faire. 244 00:09:53,000 --> 00:09:55,000 Une prévision raisonnable 245 00:09:55,000 --> 00:09:57,000 est que la célébrité de quelqu’un sur une période donnée de temps 246 00:09:57,000 --> 00:09:59,000 devrait être à peu près la moyenne de sa célébrité avant 247 00:09:59,000 --> 00:10:01,000 et de sa célébrité après. 248 00:10:01,000 --> 00:10:03,000 Voici à peu près ce à quoi l’on s’attend. 249 00:10:03,000 --> 00:10:06,000 Et nous comparons ceci avec la célébrité que nous observons. 250 00:10:06,000 --> 00:10:08,000 Et nous divisions l’un par l’autre 251 00:10:08,000 --> 00:10:10,000 pour obtenir une chose que nous appelons un index de suppression. 252 00:10:10,000 --> 00:10:13,000 Si l’index de suppression est très, très, très petit, 253 00:10:13,000 --> 00:10:15,000 alors vous avez très probablement été supprimé. 254 00:10:15,000 --> 00:10:18,000 S’il est très grand, vous avez peut-être bénéficié de la propagande. 255 00:10:19,000 --> 00:10:21,000 JM : En fait vous pouvez regarder 256 00:10:21,000 --> 00:10:24,000 la distribution des index de suppression sur toutes les populations. 257 00:10:24,000 --> 00:10:26,000 Donc par exemple, ici -- 258 00:10:26,000 --> 00:10:28,000 cet index de suppression est de 5000 personnes 259 00:10:28,000 --> 00:10:30,000 prises dans des livres anglais où il n’y a pas de suppression -- 260 00:10:30,000 --> 00:10:32,000 ce serait comme ça, en fait très centré sur une. 261 00:10:32,000 --> 00:10:34,000 Ce que vous vous attendez c’est ce que vous voyez. 262 00:10:34,000 --> 00:10:36,000 Voila la distribution vue en Allemagne -- 263 00:10:36,000 --> 00:10:38,000 très différente, déplacée sur la gauche. 264 00:10:38,000 --> 00:10:41,000 Les gens en parlaient deux fois moins que ce qu’ils auraient dû. 265 00:10:41,000 --> 00:10:43,000 Mais encore plus important, la distribution est plus large. 266 00:10:43,000 --> 00:10:46,000 Il y a plus de personnes qui tombent à l’extrême gauche de cette distribution 267 00:10:46,000 --> 00:10:49,000 de qui on a parlé 10 fois moins de ce qu’on aurait dû. 268 00:10:49,000 --> 00:10:51,000 Mai également beaucoup de personnes à l’extrême droite 269 00:10:51,000 --> 00:10:53,000 qui paraissent bénéficier de la propagande. 270 00:10:53,000 --> 00:10:56,000 Cette image est la marque de la censure dans les archives des livres. 271 00:10:56,000 --> 00:10:58,000 ELA : Donc « culturomique » 272 00:10:58,000 --> 00:11:00,000 c’est le mot que nous employons pour définir cette méthode. 273 00:11:00,000 --> 00:11:02,000 C’est un peu comme la génomique. 274 00:11:02,000 --> 00:11:04,000 Sauf que la génomique est une lentille sur la biologie 275 00:11:04,000 --> 00:11:07,000 à travers la fenêtre de la séquence des bases dans le génome humain. 276 00:11:07,000 --> 00:11:09,000 La culturomique est similaire. 277 00:11:09,000 --> 00:11:12,000 C’est l’application sur grande échelle de l’analyse du recueil de données 278 00:11:12,000 --> 00:11:14,000 à l’étude de la culture humaine. 279 00:11:14,000 --> 00:11:16,000 Ici, plutôt qu’à travers la lentille d’un génome, 280 00:11:16,000 --> 00:11:19,000 à travers la lentille d’un morceau des archives numérisées. 281 00:11:19,000 --> 00:11:21,000 Ce qui est génial à propos de la culturomique 282 00:11:21,000 --> 00:11:23,000 c’est que tout le monde peut le faire. 283 00:11:23,000 --> 00:11:25,000 Pourquoi tout le monde peut le faire ? 284 00:11:25,000 --> 00:11:27,000 Tout le monde peut le faire parce que trois gars, 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray et Will Brockman de chez Google, 286 00:11:30,000 --> 00:11:32,000 ont vu le prototype du Ngram Viewer, 287 00:11:32,000 --> 00:11:34,000 et ils ont dit, « C’est marrant. 288 00:11:34,000 --> 00:11:37,000 Nous devons le rendre disponible à tout le monde. » 289 00:11:37,000 --> 00:11:39,000 En deux semaines – les deux semaines qui ont précédé la sortie de notre article -- 290 00:11:39,000 --> 00:11:42,000 ils ont codé une version du Ngram Viewer tout public. 291 00:11:42,000 --> 00:11:45,000 Donc vous aussi vous pouvez taper n’importe quel mot ou phrase qui vous intéresse 292 00:11:45,000 --> 00:11:47,000 et voir son n-grammes immédiatement -- 293 00:11:47,000 --> 00:11:49,000 vous pouvez aussi feuilleter tous les livres 294 00:11:49,000 --> 00:11:51,000 dans lesquelles votre n-gramme apparaît. 295 00:11:51,000 --> 00:11:53,000 JM : Il a été utilisé plus d’un million de fois le premier jour, 296 00:11:53,000 --> 00:11:55,000 et c’est vraiment la meilleure de toutes les interrogations. 297 00:11:55,000 --> 00:11:58,000 Les gens veulent faire de leurs mieux [best], ils mettent leur meilleur [best] pied avant. 298 00:11:58,000 --> 00:12:01,000 Mais il s’avère qu’au 18° siècle, les gens ne s’y intéressaient pas du tout. 299 00:12:01,000 --> 00:12:04,000 Ils ne voulaient pas faire de leur « best », ils voulaient faire de leur « beft ». 300 00:12:04,000 --> 00:12:07,000 Ce qui est arrivé, bien sur, c’est que c’est une erreur. 301 00:12:07,000 --> 00:12:09,000 Ils n’étaient pas à la recherche de la médiocrité. 302 00:12:09,000 --> 00:12:12,000 c’est que le S s’écrivait différemment, un peu comme un F. 303 00:12:12,000 --> 00:12:15,000 Bien sur, Google ne s’en est pas aperçu, 304 00:12:15,000 --> 00:12:18,000 nous avons donc rapporté ceci dans l’article scientifique que nous avons écrit. 305 00:12:18,000 --> 00:12:20,000 Mais il s’avère que c’est juste un rappel 306 00:12:20,000 --> 00:12:22,000 sur le fait que malgré tout ceci soit amusant, 307 00:12:22,000 --> 00:12:24,000 en interprétant ces graphes, il faut faire très attention, 308 00:12:24,000 --> 00:12:27,000 et il faut adopter les standards de base de la science. 309 00:12:27,000 --> 00:12:30,000 ELA : Les gens l’ont utilisé pour toutes sortes de raisons amusantes. 310 00:12:30,000 --> 00:12:37,000 (Rires) 311 00:12:37,000 --> 00:12:39,000 En fait, nous n'allons pas parler, 312 00:12:39,000 --> 00:12:42,000 nous allons juste vous montrer toutes les diapos et nous taire. 313 00:12:42,000 --> 00:12:45,000 Cette personne s'est intéressée à l’histoire de la frustration. 314 00:12:45,000 --> 00:12:48,000 Il y a différents types de frustration. 315 00:12:48,000 --> 00:12:51,000 Si vous vous cognez l’orteil, en voilà une avec 1 A « argh ». 316 00:12:51,000 --> 00:12:53,000 Si la terre est anéantie par les Vogons 317 00:12:53,000 --> 00:12:55,000 pour faire de la place à un voyageur intergalactique, 318 00:12:55,000 --> 00:12:57,000 c’est avec 8 A « aaaaaaaargh ». 319 00:12:57,000 --> 00:12:59,000 Cette personne étudie tous les « argh », 320 00:12:59,000 --> 00:13:01,000 de 1 à 8 A. 321 00:13:01,000 --> 00:13:03,000 Et il s’avère 322 00:13:03,000 --> 00:13:05,000 que les « argh » moins fréquents 323 00:13:05,000 --> 00:13:08,000 sont, bien sûr, ceux qui correspondent aux choses les plus frustrantes -- 324 00:13:08,000 --> 00:13:11,000 sauf, curieusement, au début des années 80. 325 00:13:11,000 --> 00:13:13,000 Nous pensons que ça pourrait avoir à faire avec Reagan, 326 00:13:13,000 --> 00:13:15,000 (Rires) 327 00:13:15,000 --> 00:13:18,000 JM : Il y a plusieurs utilisations de ces données, 328 00:13:18,000 --> 00:13:21,000 mais la vérité est que nous sommes en train de numériser les archives historiques. 329 00:13:21,000 --> 00:13:23,000 Google a commencé à numériser 15 millions de livres. 330 00:13:23,000 --> 00:13:25,000 C’est 12 pour cent de tous les livres qui aient jamais été publiés. 331 00:13:25,000 --> 00:13:28,000 C’est un gros morceau de la culture humaine. 332 00:13:28,000 --> 00:13:31,000 Il y a beaucoup plus dans la culture : il y a les manuscrits, il y a les journaux, 333 00:13:31,000 --> 00:13:33,000 il y a tout ce qui n’est pas texte, comme l’art et les tableaux. 334 00:13:33,000 --> 00:13:35,000 Tout ceci est dans nos ordinateurs, 335 00:13:35,000 --> 00:13:37,000 dans les ordinateurs du monde entier. 336 00:13:37,000 --> 00:13:40,000 Et dans le temps, ça transformera la manière dont 337 00:13:40,000 --> 00:13:42,000 nous comprenons notre passé, notre culture humaine du présent. 338 00:13:42,000 --> 00:13:44,000 Merci beaucoup. 339 00:13:44,000 --> 00:13:47,000 (Applaudissements)