1 00:00:06,070 --> 00:00:07,120 Bonjour, je m'appelle John. 2 00:00:07,510 --> 00:00:10,140 Je suis responsable du service recherche et machine learning chez Google. 3 00:00:12,130 --> 00:00:14,230 C'est incroyable d'imaginer 4 00:00:14,230 --> 00:00:16,214 que les gens du monde entier 5 00:00:16,215 --> 00:00:19,160 utilisent les moteurs de recherche pour poser des questions, 6 00:00:19,160 --> 00:00:20,930 qu'elles soient banales ou importantes. 7 00:00:20,930 --> 00:00:23,450 C'est aussi une énorme responsabilité de leur donner 8 00:00:23,450 --> 00:00:24,864 les meilleures réponses possibles. 9 00:00:26,710 --> 00:00:30,610 Bonjour, je m'appelle Akshaya et je travaille chez Bing. 10 00:00:30,910 --> 00:00:33,190 Nous commençons à nous intéresser 11 00:00:33,190 --> 00:00:35,800 à l'intelligence artificielle et à l'apprentissage automatique, 12 00:00:35,830 --> 00:00:39,010 mais nous devons nous demander comment les utilisateurs vont l'utiliser, 13 00:00:39,140 --> 00:00:42,390 parce qu'en fait, nous voulons que ça apporte quelque chose à tout le monde 14 00:00:43,780 --> 00:00:45,400 Posons une question simple. 15 00:00:45,820 --> 00:00:48,070 Combien de temps faut-il pour se rendre sur Mars ? 16 00:00:49,330 --> 00:00:50,950 D'où viennent ces résultats? 17 00:00:51,370 --> 00:00:54,100 et pourquoi celui-ci apparaît avant celui-là ? 18 00:00:55,700 --> 00:00:58,150 Ok, essayons de comprendre comment le moteur de recherche 19 00:00:58,150 --> 00:00:59,860 a transformé votre demande en un résultat. 20 00:01:00,690 --> 00:01:03,360 La première chose à savoir, c'est que lorsque vous faites une recherche, 21 00:01:03,430 --> 00:01:06,480 le moteur ne cherche pas réellement 22 00:01:06,480 --> 00:01:08,010 sur l'ensemble d'Internet en temps réel. 23 00:01:08,140 --> 00:01:11,210 Tout simplement parce qu'il y a plus d'un milliard de sites Web 24 00:01:11,210 --> 00:01:14,140 sur Internet et des centaines d'autres sont créés chaque minute. 25 00:01:14,140 --> 00:01:16,210 Donc, si le moteur de recherche devait scruter 26 00:01:16,240 --> 00:01:18,690 chaque site pour trouver ce que vous voulez, 27 00:01:18,690 --> 00:01:20,120 cela prendrait une éternité. 28 00:01:20,500 --> 00:01:21,940 Donc, pour accélérer votre recherche, 29 00:01:21,970 --> 00:01:24,940 les moteurs de recherche scrutent constamment le web à l'avance 30 00:01:25,420 --> 00:01:28,560 pour enregistrer les informations qui pourraient vous aider dans vos recherches. 31 00:01:28,770 --> 00:01:31,510 Ainsi, lorsque vous cherchez à savoir comment voyager sur Mars, 32 00:01:31,630 --> 00:01:33,700 le moteur de recherche a déjà ce qu'il faut 33 00:01:33,700 --> 00:01:35,728 pour vous donner une réponse en temps réel. 34 00:01:36,250 --> 00:01:37,540 Voici comment cela fonctionne. 35 00:01:37,900 --> 00:01:42,010 L'internet est un réseau de pages reliées entre elles par des hyperliens. 36 00:01:42,400 --> 00:01:44,680 Les moteurs de recherche exécutent constamment un programme 37 00:01:44,680 --> 00:01:47,380 appelé "araignée" qui consulte toutes ces pages web 38 00:01:47,380 --> 00:01:49,040 pour recueillir des informations à leur sujet. 39 00:01:49,780 --> 00:01:51,550 Chaque fois qu'il trouve un lien hypertexte, 40 00:01:52,090 --> 00:01:55,000 il le suit jusqu'à ce qu'il ait visité chaque page 41 00:01:55,030 --> 00:01:57,240 qu'il peut trouver sur l'ensemble du Web. 42 00:01:57,335 --> 00:01:59,170 À chaque page visitée, 43 00:01:59,200 --> 00:02:02,320 le programme enregistre les informations qui pourraient être utiles 44 00:02:02,500 --> 00:02:05,650 et les ajoute à une base de données qu'on appelle "index de recherche". 45 00:02:07,166 --> 00:02:09,530 Maintenant, revenons à notre recherche 46 00:02:09,590 --> 00:02:11,990 et essayons de comprendre comment le moteur de recherche 47 00:02:11,990 --> 00:02:13,333 a trouvé les résultats. 48 00:02:13,640 --> 00:02:16,460 Lorsque vous demandez "combien de temps faut-il pour aller sur Mars", 49 00:02:16,640 --> 00:02:18,860 le moteur de recherche cherche chacun de ces mots 50 00:02:18,920 --> 00:02:21,410 dans l'index de recherche et reçoit immédiatement une liste 51 00:02:21,410 --> 00:02:24,500 de toutes les pages sur Internet contenant ces mots. 52 00:02:24,890 --> 00:02:26,870 Mais ces termes 53 00:02:26,870 --> 00:02:28,760 peuvent renvoyer des millions de pages, 54 00:02:28,760 --> 00:02:31,110 le moteur a donc besoin de pouvoir déterminer 55 00:02:31,110 --> 00:02:33,120 quels sites correspondent le mieux pour les afficher en premier. 56 00:02:33,340 --> 00:02:36,010 C'est là que ça devient délicat, car le moteur 57 00:02:36,010 --> 00:02:38,040 a besoin de deviner ce que que vous recherchez. 58 00:02:38,930 --> 00:02:41,360 Chaque moteur de recherche utilise son propre algorithme 59 00:02:41,360 --> 00:02:44,450 pour classer les pages en fonction de ce qu'il pense que vous voulez. 60 00:02:44,930 --> 00:02:47,660 Cet algorithme va donc vérifier 61 00:02:47,990 --> 00:02:50,360 si les termes de votre recherche apparaissent dans le titre de la page, 62 00:02:50,900 --> 00:02:53,820 si tous ces mots apparaissent les uns à côté des autres, 63 00:02:54,520 --> 00:02:57,020 ou tout type d'analyse 64 00:02:57,020 --> 00:02:58,610 qui pourrait l'aider à mieux déterminer 65 00:02:58,670 --> 00:03:01,740 les pages que vous voulez voir et celles qui ne vous intéressent pas. 66 00:03:02,960 --> 00:03:04,960 Google a inventé l'algorithme le plus efficace pour choisir 67 00:03:04,960 --> 00:03:08,530 les résultats les plus pertinents en prenant en compte 68 00:03:08,560 --> 00:03:11,230 combien d'autres pages Web sont liées à une page donnée. 69 00:03:11,830 --> 00:03:14,140 L'idée est simple: si de nombreux sites Web pensent 70 00:03:14,140 --> 00:03:15,660 qu'une page Web est intéressante, 71 00:03:15,660 --> 00:03:17,940 alors c'est probablement celle que vous recherchez. 72 00:03:18,190 --> 00:03:20,020 Cet algorithme est appelé "page rank", 73 00:03:20,590 --> 00:03:22,330 non pas parce qu'il "classe les pages web", 74 00:03:22,570 --> 00:03:25,210 il porte simplement le nom de son inventeur, Larry Page, 75 00:03:25,480 --> 00:03:27,333 l'un des fondateurs de Google. 76 00:03:27,940 --> 00:03:30,800 Parce qu'un site Web fait souvent de l'argent lorsque vous le visitez, 77 00:03:30,820 --> 00:03:32,950 les spammeurs essayant de trouver un moyen 78 00:03:32,950 --> 00:03:35,741 de tromper l'algorithme de recherche afin que leurs pages 79 00:03:35,742 --> 00:03:37,931 soient mieux classées dans les résultats. 80 00:03:38,080 --> 00:03:40,750 Les moteurs de recherche mettent régulièrement à jour leurs algorithmes 81 00:03:40,750 --> 00:03:44,296 pour les empêcher d'atteindre le haut de la liste. 82 00:03:44,680 --> 00:03:47,350 Ensuite, c'est à vous de rester vigilant lorsque vous tomber 83 00:03:47,500 --> 00:03:49,450 pour ces pages qui ne sont pas dignes de confiance 84 00:03:49,690 --> 00:03:52,990 en contrôlant l'adresse Internet, en vérifiant si la source est fiable. 85 00:03:53,680 --> 00:03:55,390 Les programmes de recherche sont en constante évolution 86 00:03:55,420 --> 00:03:58,420 pour améliorer les algorithmes afin qu'ils donnent de meilleurs résultats, 87 00:03:58,540 --> 00:04:00,460 des résultats plus rapides que leurs concurrents. 88 00:04:00,740 --> 00:04:03,100 Les moteurs d'aujourd'hui utilisent même des informations 89 00:04:03,100 --> 00:04:06,820 que vous n'avez pas explicitement fournies pour affiner vos recherches. 90 00:04:07,150 --> 00:04:10,120 Par exemple, si vous cherchez un parc pour chien 91 00:04:10,160 --> 00:04:12,190 de nombreux moteurs de recherche vous indiqueront 92 00:04:12,190 --> 00:04:13,980 tous les parcs canins des environs, 93 00:04:14,080 --> 00:04:16,560 même si vous n'avez pas tapez votre localisation. 94 00:04:17,800 --> 00:04:20,530 Les moteurs de recherche modernes comprennent également mieux 95 00:04:20,530 --> 00:04:22,060 les mots qui apparaissent sur les pages, 96 00:04:22,300 --> 00:04:24,970 ils savent ce qu'ils signifient réellement afin de trouver les pages 97 00:04:24,970 --> 00:04:26,750 qui correspondent à votre recherche. 98 00:04:27,130 --> 00:04:29,980 Par exemple, si vous recherchez "fast pitcher", 99 00:04:30,280 --> 00:04:32,300 il saura que vous êtes à la recherche d'un joueur de baseball. 100 00:04:32,500 --> 00:04:34,450 Mais si vous cherchez "large pitcher", 101 00:04:34,450 --> 00:04:36,730 il vous proposera des articles de cuisine. 102 00:04:38,420 --> 00:04:41,910 Pour mieux comprendre les mots, nous utilisons l'apprentissage automatique, 103 00:04:41,910 --> 00:04:43,985 une sorte d'intelligence artificielle. 104 00:04:43,985 --> 00:04:46,050 Grâce à elle, les algorithmes ne cherchent 105 00:04:46,090 --> 00:04:48,400 plus seulement des lettres ou des mots sur les pages, 106 00:04:48,400 --> 00:04:51,280 ils comprennent le sens des mots. 107 00:04:53,690 --> 00:04:55,850 Internet connaît une croissance exponentielle, 108 00:04:56,210 --> 00:04:59,810 mais si les équipes qui conçoivent les moteurs de recherche font bien notre travail, 109 00:05:00,080 --> 00:05:04,090 les informations que vous cherchez seront toujours plus accessibles.