Erez Lieberman Aiden: Tout le monde sait

qu’une image vaut un millier de mots.

Mais à Harvard

nous nous sommes demandé si c’était vrai.

(Rires)

Nous avons donc rassemblé un groupe d’experts,

qui viennent d’Harvard, du MIT,

de The American Heritage Dictionary, The Encyclopedia Britannica

et même notre heureux sponsor,

Google.

Et nous y avons réfléchi

pendant quatre ans.

Et nous sommes arrivés à une conclusion surprenante.

Mesdames et messieurs, une image ne vaut pas un millier de mots.

En fait, nous avons trouvé des images

qui valent 500 milliards de mots.

Jean-Baptiste Michel : Comment sommes-nous arrivés à cette conclusion ?

Donc Erez et moi nous étions en train de penser à des moyens

d’avoir une image complète de la culture humaine

et de l‘histoire humaine : les changements dans le temps.

Beaucoup de livres ont été écrits au fil des ans.

Nous avons donc pensé, le meilleur moyen d’apprendre des livres

est de lire tous ces millions de livres.

Bien sur, s’il existe une échelle pour voir à quel point c’est impressionnant,

ça doit être classé très très haut.

Le problème est qu’il y a un axe X pour cela,

qui est l’axe de la praticité.

Ce qui le classe très très bas.

(Applaudissements)

Les gens ont tendance à utiliser une approche alternative,

qui est de prendre quelques sources et les lire très attentivement.

Ce qui est extrêmement pratique, mais pas si impressionnant.

Ce que vous voulez vraiment faire

c’est arriver à l’impressionnant et pratique en même temps de ce côté-là.

Il s’avère qu’il y avait une compagnie au-delà du fleuve qui s’appelle Google

qui avait commencé un projet de numérisation quelques années auparavant

qui aurait pu faciliter cette approche.

Ils ont numérisé des millions de livres.

Cela signifie qu’on peut utiliser des méthodes de calcul

pour lire tous les livres avec un clic.

C’est très pratique et extrêmement impressionnant.

ELA : Laissez-moi vous raconter d’où viennent les livres.

Depuis des temps immémoriaux il y a eu des auteurs.

Ces auteurs se sont efforcé d’écrire des livres.

Et c’est devenu considérablement plus facile

avec le développement de l’imprimerie il y a quelques siècles.

Depuis, les auteurs ont eu

129 millions différentes occasions,

de publier des livres.

Si ces livres ne sont pas perdus dans l’histoire,

alors ils sont quelque part dans une bibliothèque,

et beaucoup de ces livres ont été récupérés des bibliothèques

et numérisés par Google,

qui a scanné 15 millions de livres à ce jour.

Quand Google numérise un livre, il le transforme en un très beau format.

Nous avons maintenant les données, et nous avons les métadonnées.

Nous avons les informations sur des choses comme où il a été publié,

qui était l’auteur, la date de publication.

Ce que nous faisons c’est parcourir tous ces archives

et exclure tout ce qui n’est pas de très haute qualité.

Ce qui nous reste

c’est une collection de cinq millions de livres,

500 milliards de mots,

une série de caractères mille fois plus longs

que le génome humain --

un texte qui, écrit,

un aller et un retour d'ici jusqu'à la lune

plus de 10 fois --

un véritable fragment de notre génome culturel.

Bien sur ce que nous avons fait

en faisant face à cette hyperbole outrageuse…

(Rires)

est ce que n’importe quel chercheur respectable

aurait fait.

Nous avons pris une page de XKCD,

et nous avons dit, « Marche arrière.

Nous allons essayer la science. »

(Rires)

JM : Bien sur, nous avons pensé,

commençons par sortir les données

pour que les gens puissent faire de la science.

Nous avons réfléchi, quelles données pouvons-nous sortir?

Bien sûr, on veut prendre les livres

et sortir le texte complet de ces cinq millions de livres.

Google, et en particulier Jon Orwant,

nous a expliqué une équation qu’il nous faudrait apprendre.

Vous avez cinq millions, ce qui représente, cinq millions d’auteurs

et cinq millions de plaintes judiciaires c’est un procès énorme.

Donc, malgré cela puisse être vraiment redoutable,

encore une fois, c’est extrêmement, extrêmement peu pratique.

(Rires)

Encore une fois, nous avons cédé,

et nous avons suivi l’approche pratique, qui était un peu moins redoutable.

On s’est dit, plutôt que de faire sortir le texte complet,

nous allons faire sortir des statistiques sur les livres.

Prenez par exemple, « Une étincelle de bonheur ».

Quatre mots ; on l’appelle quadri-gramme.

Nous allons vous dire combien de fois un quadri-gramme en particulier

est apparu dans les livres en 1801, 1802, 1803,

jusqu’à 2008.

Cela nous donne une série temporelle

sur la fréquence avec laquelle cette phrase en particulier a été utilisée dans le temps.

Nous le faisons pour tous les mots et les phrases qui apparaissent dans ces livres,

ce qui nous donne un tableau de deux milliards de lignes

qui nous raconte les changements culturels.

ELA : Donc ces deux milliards de lignes,

nous les appelons les deux milliards d’n-grammes.

Qu’est ce qu’ils nous disent?

L’n-gramme individuel mesure les tendances culturelles.

Prenons un exemple.

Supposez que je sois épanoui,

et demain matin je veux vous raconter comme j’étais bien.

Je pourrai donc dire, « Yesterday, I throve. » [Hier j’étais épanoui]

Sinon, je pourrai dire, « Yesterday, I thrived.»

Laquelle devrais-je utiliser ?

Comment savoir ?

Pour ce qui est d’il y a six mois,

le dernier cri dans le domaine

est que, par exemple,

vous iriez chez le premier psychologue avec une coiffure fabuleuse,

et vous diriez,

« Steve, tu es un expert en verbes irréguliers.

qu’est ce que je devrais faire ? »

Et il dirait, « La plupart des gens disent ‘thrived’,

mais certains disent ‘throve’»

Et vous sauriez également que,

si vous deviez revenir en arrière de 200 ans

et demander la même chose à un homme d’état avec la même coiffure,

(Rires)

« Tom, qu’est que je devrais dire ? »

Il dirait, « De nos jours, beaucoup disent ‘throve’,

certains disent ‘thrived’»

Maintenant ce que je vais vous montrer c’est des données bruts.

Deux lignes de cette tableau de deux milliards d’entrées.

Ce que vous voyez c’est la fréquence année par année

de « thrived » et « throve » dans le temps.

Voici deux

des deux milliards de lignes.

L’entière série de données

est un milliard de fois plus impressionnante que cette diapo.

(Rires)

(Applaudissements)

JM : Il y a plein d’autres photos qui valent 500 milliards de mots.

Une par exemple.

Si vous prenez la grippe,

vous voyez des pics dans les périodes pendant lesquelles vous saviez

que les grandes grippes épidémiques tuaient les gens partout dans le monde.

ELA : si vous n’êtes pas encore convaincu,

le niveau des océans monte,

ainsi que le CO2 et la température globale.

JM : Vous pourriez également jeter un coup d’œil à cet n-gramme,

et c’est pour dire à Nietzche que Dieu n’est pas mort,

bien que vous pourriez convenir qu’il ait besoin d’un meilleur attaché de presse.

(Rires)

ELA : Vous pouvez obtenir des concepts assez abstrait avec ce genre de chose.

Par exemple, je vais vous raconter l’histoire

de l’année 1950.

Pendant la majeure partie de l’histoire,

tout le monde s’est fiché de 1950.

En 1700, en 1800, en 1900,

personne ne s’en intéresse.

Pendant les années 30 et 40,

personne ne s’y intéresse.

Tout à coup, au milieu des années 40,

une agitation débute.

Les gens se rendent compte que 1950 approche,

et ça peut être énorme.

(Rires)

Mais rien n’a intéressé personne à 1950

jusqu’à 1950.

(Rires)

Les gens se promenaient de touts les côtés obsédés.

Ils n’arrêtaient pas de parler

de tout ce qu’ils avaient fait en 1950,

tout ce qu’ils prévoyaient de faire en 1950,

tous les rêves qu’ils voulaient accomplir en 1950.

En fait, 1950 était si fascinant

que dans les années qui ont suivi,

les gens n’arrêtaient pas de parler de toutes les choses extraordinaires qui étaient arrivées

en 51, 52, 53.

Finalement en 1954,

quelqu’un s’est levé et s’est rendu compte

que 1950 en quelque sorte était passé.

(Rires)

Et tout d’un coup, la bulle a éclaté.

(Rires)

Et l’histoire de 1950

est l’histoire de chaque année pour laquelle nous avons un passé,

avec un petit zest, puisque nous avons maintenant ces beaux diagrammes.

Et vu que nous avons ces beaux diagrammes, nous pouvons mesurer les choses.

Nous sommes en mesure de dire, « A quelle vitesse la bulle a éclaté »

Et il s’avère que nous pouvons la mesurer avec précision.

Nous en avons dérivé des équations et des représentations graphiques,

et le résultat final

est que nous découvrons que la bulle a éclaté de plus en plus vite

à chaque année qui passait.

Nous perdons intérêt pour le passé rapidement.

JM : Maintenant un tout petit conseil pour la carrière.

Pour ceux parmi vous qui cherchent à devenir célèbres,

nous pouvons apprendre des 35 personnages politiques les plus célèbres,

écrivains, acteurs et ainsi de suite.

Si vous voulez devenir célèbre très tôt, vous devriez vous faire acteur,

parce que la célébrité commence à monter vers la fin de la vingtaine --

vous êtes encore jeunes, c’est fabuleux.

Si vous pouvez attendre un peu, vous devriez vous faire écrivain,

parce qu’ensuite vous montez très haut,

comme Mark Twain, par exemple : très célèbre.

Mais si vous voulez atteindre le sommet,

vous devriez retarder la gratification

et, bien sûr, devenir un personnage politique.

Et là vous devenez célèbre à la fin de la cinquantaine,

et vous devenez très, très célèbre plus tard.

Les scientifiques ont tendance à devenir célèbres quand ils sont plus âgés.

Comme par exemple, les biologistes et les physicistes

ont tendance à être célèbre autant que les acteurs.

Une erreur à ne pas faire est de devenir mathématicien.

(Rires)

En faisant ça,

vous pourriez penser, « Super. Je vais faire mon meilleur travail à vingt ans. »

Mais devinez, personne ne s’y intéresse vraiment.

(Rires)

ELA : Il y a encore des notes qui donnent à penser

parmi les n-grammes.

Par exemple, voici la trajectoire de Marc Chagall,

un artiste né en 1887.

Et ça ressemble à une normale trajectoire d’une personne célèbre.

Il devient de plus en plus célèbre,

sauf si vous regardez l’allemand.

Si vous regardez l’allemand, vous voyez quelque chose de bizarre,

quelque chose que normalement vous ne voyez pas,

qui est qu’il devient extrêmement célèbre

et tout à coup il s’effondre,

en passant par un nadir entre 1933 et 1945,

avant de rebondir tout de suite après.

Et bien sur, ce que nous voyons

est que Marc Chagall était un artiste juif

dans l’Allemagne des Nazis.

Ces signaux

sont tellement forts

que nous n’avons pas besoin de savoir que quelqu’un a été censuré.

On peut s’en apercevoir

en utilisant un traitement des signaux élémentaires.

Voici une manière simple de le faire.

Une prévision raisonnable

est que la célébrité de quelqu’un sur une période donnée de temps

devrait être à peu près la moyenne de sa célébrité avant

et de sa célébrité après.

Voici à peu près ce à quoi l’on s’attend.

Et nous comparons ceci avec la célébrité que nous observons.

Et nous divisions l’un par l’autre

pour obtenir une chose que nous appelons un index de suppression.

Si l’index de suppression est très, très, très petit,

alors vous avez très probablement été supprimé.

S’il est très grand, vous avez peut-être bénéficié de la propagande.

JM : En fait vous pouvez regarder

la distribution des index de suppression sur toutes les populations.

Donc par exemple, ici --

cet index de suppression est de 5000 personnes

prises dans des livres anglais où il n’y a pas de suppression --

ce serait comme ça, en fait très centré sur une.

Ce que vous vous attendez c’est ce que vous voyez.

Voila la distribution vue en Allemagne --

très différente, déplacée sur la gauche.

Les gens en parlaient deux fois moins que ce qu’ils auraient dû.

Mais encore plus important, la distribution est plus large.

Il y a plus de personnes qui tombent à l’extrême gauche de cette distribution

de qui on a parlé 10 fois moins de ce qu’on aurait dû.

Mai également beaucoup de personnes à l’extrême droite

qui paraissent bénéficier de la propagande.

Cette image est la marque de la censure dans les archives des livres.

ELA : Donc « culturomique »

c’est le mot que nous employons pour définir cette méthode.

C’est un peu comme la génomique.

Sauf que la génomique est une lentille sur la biologie

à travers la fenêtre de la séquence des bases dans le génome humain.

La culturomique est similaire.

C’est l’application sur grande échelle de l’analyse du recueil de données

à l’étude de la culture humaine.

Ici, plutôt qu’à travers la lentille d’un génome,

à travers la lentille d’un morceau des archives numérisées.

Ce qui est génial à propos de la culturomique

c’est que tout le monde peut le faire.

Pourquoi tout le monde peut le faire ?

Tout le monde peut le faire parce que trois gars,

Jon Orwant, Matt Gray et Will Brockman de chez Google,

ont vu le prototype du Ngram Viewer,

et ils ont dit, « C’est marrant.

Nous devons le rendre disponible à tout le monde. »

En deux semaines – les deux semaines qui ont précédé la sortie de notre article --

ils ont codé une version du Ngram Viewer tout public.

Donc vous aussi vous pouvez taper n’importe quel mot ou phrase qui vous intéresse

et voir son n-grammes immédiatement --

vous pouvez aussi feuilleter tous les livres

dans lesquelles votre n-gramme apparaît.

JM : Il a été utilisé plus d’un million de fois le premier jour,

et c’est vraiment la meilleure de toutes les interrogations.

Les gens veulent faire de leurs mieux [best], ils mettent leur meilleur [best] pied avant.

Mais il s’avère qu’au 18° siècle, les gens ne s’y intéressaient pas du tout.

Ils ne voulaient pas faire de leur « best », ils voulaient faire de leur « beft ».

Ce qui est arrivé, bien sur, c’est que c’est une erreur.

Ils n’étaient pas à la recherche de la médiocrité.

c’est que le S s’écrivait différemment, un peu comme un F.

Bien sur, Google ne s’en est pas aperçu,

nous avons donc rapporté ceci dans l’article scientifique que nous avons écrit.

Mais il s’avère que c’est juste un rappel

sur le fait que malgré tout ceci soit amusant,

en interprétant ces graphes, il faut faire très attention,

et il faut adopter les standards de base de la science.

ELA : Les gens l’ont utilisé pour toutes sortes de raisons amusantes.

(Rires)

En fait, nous n'allons pas parler,

nous allons juste vous montrer toutes les diapos et nous taire.

Cette personne s'est intéressée à l’histoire de la frustration.

Il y a différents types de frustration.

Si vous vous cognez l’orteil, en voilà une avec 1 A « argh ».

Si la terre est anéantie par les Vogons

pour faire de la place à un voyageur intergalactique,

c’est avec 8 A « aaaaaaaargh ».

Cette personne étudie tous les « argh »,

de 1 à 8 A.

Et il s’avère

que les « argh » moins fréquents

sont, bien sûr, ceux qui correspondent aux choses les plus frustrantes --

sauf, curieusement, au début des années 80.

Nous pensons que ça pourrait avoir à faire avec Reagan,

(Rires)

JM : Il y a plusieurs utilisations de ces données,

mais la vérité est que nous sommes en train de numériser les archives historiques.

Google a commencé à numériser 15 millions de livres.

C’est 12 pour cent de tous les livres qui aient jamais été publiés.

C’est un gros morceau de la culture humaine.

Il y a beaucoup plus dans la culture : il y a les manuscrits, il y a les journaux,

il y a tout ce qui n’est pas texte, comme l’art et les tableaux.

Tout ceci est dans nos ordinateurs,

dans les ordinateurs du monde entier.

Et dans le temps, ça transformera la manière dont

nous comprenons notre passé, notre culture humaine du présent.

Merci beaucoup.

(Applaudissements)