WEBVTT 00:00:06.070 --> 00:00:07.120 Bonjour, je m'appelle John. 00:00:07.510 --> 00:00:10.140 Je suis responsable du service recherche et machine learning chez Google. 00:00:12.130 --> 00:00:14.230 C'est incroyable d'imaginer 00:00:14.230 --> 00:00:16.214 que les gens du monde entier 00:00:16.215 --> 00:00:19.160 utilisent les moteurs de recherche pour poser des questions, 00:00:19.160 --> 00:00:20.930 qu'elles soient banales ou importantes. 00:00:20.930 --> 00:00:23.450 C'est aussi une énorme responsabilité de leur donner 00:00:23.450 --> 00:00:24.864 les meilleures réponses possibles. 00:00:26.710 --> 00:00:30.610 Bonjour, je m'appelle Akshaya et je travaille chez Bing. 00:00:30.910 --> 00:00:33.190 Nous commençons à nous intéresser 00:00:33.190 --> 00:00:35.800 à l'intelligence artificielle et à l'apprentissage automatique, 00:00:35.830 --> 00:00:39.010 mais nous devons nous demander comment les utilisateurs vont l'utiliser, 00:00:39.140 --> 00:00:42.390 parce qu'en fait, nous voulons que ça apporte quelque chose à tout le monde 00:00:43.780 --> 00:00:45.400 Posons une question simple. 00:00:45.820 --> 00:00:48.070 Combien de temps faut-il pour se rendre sur Mars ? 00:00:49.330 --> 00:00:50.950 D'où viennent ces résultats? 00:00:51.370 --> 00:00:54.100 et pourquoi celui-ci apparaît avant celui-là ? 00:00:55.700 --> 00:00:58.150 Ok, essayons de comprendre comment le moteur de recherche 00:00:58.150 --> 00:00:59.860 a transformé votre demande en un résultat. 00:01:00.690 --> 00:01:03.360 La première chose à savoir, c'est que lorsque vous faites une recherche, 00:01:03.430 --> 00:01:06.480 le moteur ne cherche pas réellement 00:01:06.480 --> 00:01:08.010 sur l'ensemble d'Internet en temps réel. 00:01:08.140 --> 00:01:11.210 Tout simplement parce qu'il y a plus d'un milliard de sites Web 00:01:11.210 --> 00:01:14.140 sur Internet et des centaines d'autres sont créés chaque minute. 00:01:14.140 --> 00:01:16.210 Donc, si le moteur de recherche devait scruter 00:01:16.240 --> 00:01:18.690 chaque site pour trouver ce que vous voulez, 00:01:18.690 --> 00:01:20.120 cela prendrait une éternité. 00:01:20.500 --> 00:01:21.940 Donc, pour accélérer votre recherche, 00:01:21.970 --> 00:01:24.940 les moteurs de recherche scrutent constamment le web à l'avance 00:01:25.420 --> 00:01:28.560 pour enregistrer les informations qui pourraient vous aider dans vos recherches. 00:01:28.770 --> 00:01:31.510 Ainsi, lorsque vous cherchez à savoir comment voyager sur Mars, 00:01:31.630 --> 00:01:33.700 le moteur de recherche a déjà ce qu'il faut 00:01:33.700 --> 00:01:35.728 pour vous donner une réponse en temps réel. 00:01:36.250 --> 00:01:37.540 Voici comment cela fonctionne. 00:01:37.900 --> 00:01:42.010 L'internet est un réseau de pages reliées entre elles par des hyperliens. 00:01:42.400 --> 00:01:44.680 Les moteurs de recherche exécutent constamment un programme 00:01:44.680 --> 00:01:47.380 appelé "araignée" qui consulte toutes ces pages web 00:01:47.380 --> 00:01:49.040 pour recueillir des informations à leur sujet. 00:01:49.780 --> 00:01:51.550 Chaque fois qu'il trouve un lien hypertexte, 00:01:52.090 --> 00:01:55.000 il le suit jusqu'à ce qu'il ait visité chaque page 00:01:55.030 --> 00:01:57.240 qu'il peut trouver sur l'ensemble du Web. 00:01:57.335 --> 00:01:59.170 À chaque page visitée, 00:01:59.200 --> 00:02:02.320 le programme enregistre les informations qui pourraient être utiles 00:02:02.500 --> 00:02:05.650 et les ajoute à une base de données qu'on appelle "index de recherche". 00:02:07.166 --> 00:02:09.530 Maintenant, revenons à notre recherche 00:02:09.590 --> 00:02:11.990 et essayons de comprendre comment le moteur de recherche 00:02:11.990 --> 00:02:13.333 a trouvé les résultats. 00:02:13.640 --> 00:02:16.460 Lorsque vous demandez "combien de temps faut-il pour aller sur Mars", 00:02:16.640 --> 00:02:18.860 le moteur de recherche cherche chacun de ces mots 00:02:18.920 --> 00:02:21.410 dans l'index de recherche et reçoit immédiatement une liste 00:02:21.410 --> 00:02:24.500 de toutes les pages sur Internet contenant ces mots. 00:02:24.890 --> 00:02:26.870 Mais ces termes 00:02:26.870 --> 00:02:28.760 peuvent renvoyer des millions de pages, 00:02:28.760 --> 00:02:31.110 le moteur a donc besoin de pouvoir déterminer 00:02:31.110 --> 00:02:33.120 quels sites correspondent le mieux pour les afficher en premier. 00:02:33.340 --> 00:02:36.010 C'est là que ça devient délicat, car le moteur 00:02:36.010 --> 00:02:38.040 a besoin de deviner ce que que vous recherchez. 00:02:38.930 --> 00:02:41.360 Chaque moteur de recherche utilise son propre algorithme 00:02:41.360 --> 00:02:44.450 pour classer les pages en fonction de ce qu'il pense que vous voulez. 00:02:44.930 --> 00:02:47.660 Cet algorithme va donc vérifier 00:02:47.990 --> 00:02:50.360 si les termes de votre recherche apparaissent dans le titre de la page, 00:02:50.900 --> 00:02:53.820 si tous ces mots apparaissent les uns à côté des autres, 00:02:54.520 --> 00:02:57.020 ou tout type d'analyse 00:02:57.020 --> 00:02:58.610 qui pourrait l'aider à mieux déterminer 00:02:58.670 --> 00:03:01.740 les pages que vous voulez voir et celles qui ne vous intéressent pas. 00:03:02.960 --> 00:03:04.960 Google a inventé l'algorithme le plus efficace pour choisir 00:03:04.960 --> 00:03:08.530 les résultats les plus pertinents en prenant en compte 00:03:08.560 --> 00:03:11.230 combien d'autres pages Web sont liées à une page donnée. 00:03:11.830 --> 00:03:14.140 L'idée est simple: si de nombreux sites Web pensent 00:03:14.140 --> 00:03:15.660 qu'une page Web est intéressante, 00:03:15.660 --> 00:03:17.940 alors c'est probablement celle que vous recherchez. 00:03:18.190 --> 00:03:20.020 Cet algorithme est appelé "page rank", 00:03:20.590 --> 00:03:22.330 non pas parce qu'il "classe les pages web", 00:03:22.570 --> 00:03:25.210 il porte simplement le nom de son inventeur, Larry Page, 00:03:25.480 --> 00:03:27.333 l'un des fondateurs de Google. 00:03:27.940 --> 00:03:30.800 Parce qu'un site Web fait souvent de l'argent lorsque vous le visitez, 00:03:30.820 --> 00:03:32.950 les spammeurs essayant de trouver un moyen 00:03:32.950 --> 00:03:35.741 de tromper l'algorithme de recherche afin que leurs pages 00:03:35.742 --> 00:03:37.931 soient mieux classées dans les résultats. NOTE Paragraph 00:03:38.080 --> 00:03:40.750 Les moteurs de recherche mettent régulièrement à jour leurs algorithmes 00:03:40.750 --> 00:03:44.296 pour les empêcher d'atteindre le haut de la liste. 00:03:44.680 --> 00:03:47.350 Ensuite, c'est à vous de rester vigilant lorsque vous tomber 00:03:47.500 --> 00:03:49.450 pour ces pages qui ne sont pas dignes de confiance 00:03:49.690 --> 00:03:52.990 en contrôlant l'adresse Internet, en vérifiant si la source est fiable. 00:03:53.680 --> 00:03:55.390 Les programmes de recherche sont en constante évolution 00:03:55.420 --> 00:03:58.420 pour améliorer les algorithmes afin qu'ils donnent de meilleurs résultats, 00:03:58.540 --> 00:04:00.460 des résultats plus rapides que leurs concurrents. 00:04:00.740 --> 00:04:03.100 Les moteurs d'aujourd'hui utilisent même des informations 00:04:03.100 --> 00:04:06.820 que vous n'avez pas explicitement fournies pour affiner vos recherches. 00:04:07.150 --> 00:04:10.120 Par exemple, si vous cherchez un parc pour chien 00:04:10.160 --> 00:04:12.190 de nombreux moteurs de recherche vous indiqueront 00:04:12.190 --> 00:04:13.980 tous les parcs canins des environs, 00:04:14.080 --> 00:04:16.560 même si vous n'avez pas tapez votre localisation. 00:04:17.800 --> 00:04:20.530 Les moteurs de recherche modernes comprennent également mieux 00:04:20.530 --> 00:04:22.060 les mots qui apparaissent sur les pages, 00:04:22.300 --> 00:04:24.970 ils savent ce qu'ils signifient réellement afin de trouver les pages 00:04:24.970 --> 00:04:26.750 qui correspondent à votre recherche. 00:04:27.130 --> 00:04:29.980 Par exemple, si vous recherchez "fast pitcher", 00:04:30.280 --> 00:04:32.300 il saura que vous êtes à la recherche d'un joueur de baseball. 00:04:32.500 --> 00:04:34.450 Mais si vous cherchez "large pitcher", 00:04:34.450 --> 00:04:36.730 il vous proposera des articles de cuisine. 00:04:38.420 --> 00:04:41.910 Pour mieux comprendre les mots, nous utilisons l'apprentissage automatique, 00:04:41.910 --> 00:04:43.985 une sorte d'intelligence artificielle. 00:04:43.985 --> 00:04:46.050 Grâce à elle, les algorithmes ne cherchent 00:04:46.090 --> 00:04:48.400 plus seulement des lettres ou des mots sur les pages, 00:04:48.400 --> 00:04:51.280 ils comprennent le sens des mots. 00:04:53.690 --> 00:04:55.850 Internet connaît une croissance exponentielle, 00:04:56.210 --> 00:04:59.810 mais si les équipes qui conçoivent les moteurs de recherche font bien notre travail, 00:05:00.080 --> 00:05:04.090 les informations que vous cherchez seront toujours plus accessibles.