1 00:00:02,158 --> 00:00:05,067 INTERNET: COME FUNZIONA LA RICERCA 2 00:00:05,933 --> 00:00:07,450 Ciao, mi chiamo John 3 00:00:07,450 --> 00:00:08,915 dirigo i gruppi che si occupano di ricerca 4 00:00:08,915 --> 00:00:12,100 e machine learning in Google. 5 00:00:12,100 --> 00:00:14,340 È incredibilmente stimolante 6 00:00:14,340 --> 00:00:16,570 che le persone da ogni parte del mondo 7 00:00:16,570 --> 00:00:18,210 si rivolgano ai motori di ricerca, 8 00:00:18,210 --> 00:00:19,890 per formulare, dalle domande più banali 9 00:00:19,890 --> 00:00:20,900 a quelle più importanti. 10 00:00:20,900 --> 00:00:23,230 Perciò è una enorme responsabilità fornire loro 11 00:00:23,230 --> 00:00:25,015 le migliori risposte possibili. 12 00:00:26,200 --> 00:00:28,570 Ciao, mi chiamo Akshaya 13 00:00:28,570 --> 00:00:31,280 e lavoro nel gruppo che si occupa della ricerca in Bing. 14 00:00:31,280 --> 00:00:33,560 Per molte questioni presto inizieremo a guardare 15 00:00:33,560 --> 00:00:36,077 all'intelligenza artificiale e al "machine learning" (apprendimento automatico) 16 00:00:36,077 --> 00:00:39,421 ma dovremo preoccuparci di come tutto ciò verrà usato, 17 00:00:39,421 --> 00:00:41,856 perché alla fine vogliamo avere un impatto positivo 18 00:00:41,856 --> 00:00:42,680 sulla società. 19 00:00:43,520 --> 00:00:45,894 Poniamoci una semplice domanda: 20 00:00:45,894 --> 00:00:49,450 "Quanto tempo ci vuole per andare su Marte?" 21 00:00:49,450 --> 00:00:51,510 Da dove arrivano questi risultati? 22 00:00:51,510 --> 00:00:54,920 E perché questo è stato elencato prima di quest'altro? 23 00:00:54,920 --> 00:00:56,880 Bene, approfondiamo il tema 24 00:00:56,880 --> 00:00:58,595 e vediamo come un motore di ricerca 25 00:00:58,595 --> 00:01:00,750 trasforma la tua domanda in un risultato. 26 00:01:00,750 --> 00:01:03,246 La prima cosa da sapere, è che quando fai una ricerca, 27 00:01:03,246 --> 00:01:05,611 il motore di ricerca non sta effettivamente andando 28 00:01:05,611 --> 00:01:06,525 sul World Wide Web 29 00:01:06,525 --> 00:01:08,520 per eseguire la ricerca in tempo reale. 30 00:01:08,520 --> 00:01:11,240 Ci sono più di un miliardo di siti web su Internet 31 00:01:11,240 --> 00:01:14,105 e a centinaia ne vengono creati ogni minuto. 32 00:01:14,105 --> 00:01:15,710 Se un motore di ricerca dovesse davvero 33 00:01:15,710 --> 00:01:17,611 passare in rassegna ogni singolo sito web 34 00:01:17,611 --> 00:01:19,039 per cercare quello che desideri 35 00:01:19,039 --> 00:01:20,194 ci metterebbe un'eternità. 36 00:01:20,194 --> 00:01:21,989 Quindi, per rendere la ricerca più veloce, 37 00:01:21,989 --> 00:01:23,889 i motori di ricerca eseguono preventivamente 38 00:01:23,889 --> 00:01:25,090 una scansione continua del web 39 00:01:25,090 --> 00:01:26,755 in modo da registrare tutte le informazioni 40 00:01:26,755 --> 00:01:28,940 che potrebbero poi rivelarsi utili per la tua ricerca. 41 00:01:28,940 --> 00:01:31,690 In questo modo, quando cerchi "viaggio verso Marte" 42 00:01:31,690 --> 00:01:34,110 il motore di ricerca sa già cosa gli serve 43 00:01:34,110 --> 00:01:35,930 per darti una risposta in tempo reale. 44 00:01:36,340 --> 00:01:37,880 Ecco come funziona: 45 00:01:37,880 --> 00:01:39,868 Internet è una ragnatela di pagine 46 00:01:39,868 --> 00:01:41,155 connesse le une alle altre 47 00:01:41,155 --> 00:01:42,724 tramite collegamenti ipertestuali (link). 48 00:01:42,724 --> 00:01:45,184 I motori di ricerca eseguono in continuazione un programma, 49 00:01:45,184 --> 00:01:46,248 chiamato "spider" 50 00:01:46,248 --> 00:01:48,280 che attraversa tutte queste pagine web 51 00:01:48,280 --> 00:01:49,760 per accumulare dati su di esse. 52 00:01:49,760 --> 00:01:52,020 Ogni volta che trova un link, 53 00:01:52,020 --> 00:01:53,720 lo segue fino a che ha visitato 54 00:01:53,720 --> 00:01:55,189 ogni pagina che sia riuscito 55 00:01:55,189 --> 00:01:57,120 a trovare sull'intera rete Internet. 56 00:01:57,120 --> 00:01:58,940 Per ogni pagina visitata, 57 00:01:58,940 --> 00:02:01,415 lo spider registra tutti i dati che possono essere utili 58 00:02:01,415 --> 00:02:03,070 per rispondere ad una futura ricerca 59 00:02:03,070 --> 00:02:04,860 aggiungendola ad uno speciale database 60 00:02:04,860 --> 00:02:06,930 chiamato "search index" (indice di ricerca). 61 00:02:07,300 --> 00:02:09,600 Torniamo ora alla nostra ricerca iniziale 62 00:02:09,600 --> 00:02:12,210 e vediamo se riusciamo a capire come fa il motore di ricerca 63 00:02:12,210 --> 00:02:13,309 a fornire i risultati. 64 00:02:13,520 --> 00:02:14,455 Quando tu chiedi 65 00:02:14,455 --> 00:02:16,570 "Quanto tempo ci vuole per andare su Marte?" 66 00:02:16,570 --> 00:02:18,949 il motore di ricerca cerca ognuna di queste parole 67 00:02:18,949 --> 00:02:20,220 nel proprio indice 68 00:02:20,220 --> 00:02:21,860 per fornirti immediatamente una lista 69 00:02:21,860 --> 00:02:23,305 di tutte le pagine di Internet 70 00:02:23,305 --> 00:02:24,640 contenenti quelle parole. 71 00:02:24,640 --> 00:02:26,560 Però, limitarsi a cercare quelle parole, 72 00:02:26,560 --> 00:02:28,710 ti restituirebbe milioni di pagine, 73 00:02:28,710 --> 00:02:29,944 perciò il motore di ricerca 74 00:02:29,944 --> 00:02:31,570 deve essere in grado di individuare 75 00:02:31,570 --> 00:02:33,669 quelle più pertinenti da mostrare per prime. 76 00:02:33,669 --> 00:02:35,180 Questa è la fase più complicata, 77 00:02:35,180 --> 00:02:36,350 perché il motore di ricerca 78 00:02:36,350 --> 00:02:38,440 deve capire cosa stai veramente cercando. 79 00:02:38,440 --> 00:02:41,190 Ogni motore di ricerca usa un proprio algoritmo 80 00:02:41,190 --> 00:02:42,720 per classificare le pagine 81 00:02:42,720 --> 00:02:44,640 in base a ciò che prevede possa interessare. 82 00:02:44,640 --> 00:02:47,030 L'algoritmo di classificazione dei risultati 83 00:02:47,030 --> 00:02:48,120 potrebbe verificare 84 00:02:48,120 --> 00:02:49,460 se le parole che hai cercato 85 00:02:49,460 --> 00:02:51,130 compaiano nel titolo della pagina, 86 00:02:51,130 --> 00:02:52,140 potrebbe controllare 87 00:02:52,140 --> 00:02:54,480 se tutte le parole compaiano una di seguito all'altra, 88 00:02:54,480 --> 00:02:57,451 o eseguire una qualunque altra valutazione utile 89 00:02:57,451 --> 00:02:59,050 a determinare in modo migliore 90 00:02:59,050 --> 00:03:02,000 quali pagine web potresti voler vedere e quali no. 91 00:03:02,660 --> 00:03:04,950 Google inventò l'algoritmo più famoso 92 00:03:04,950 --> 00:03:07,430 per selezionare i migliori risultati di una ricerca, 93 00:03:07,430 --> 00:03:08,730 prendendo in considerazione 94 00:03:08,730 --> 00:03:09,840 quante altre pagine web 95 00:03:09,840 --> 00:03:11,990 rimandino con un link a una certa pagina web. 96 00:03:11,990 --> 00:03:14,160 L'idea è che se molti siti web ritengono che 97 00:03:14,160 --> 00:03:15,690 una certa pagina sia interessante, 98 00:03:15,690 --> 00:03:18,070 allora è probabile che sia quella che stai cercando. 99 00:03:18,070 --> 00:03:20,410 Questo algoritmo è chiamato "Page Rank", 100 00:03:20,410 --> 00:03:22,480 non perché classifica le pagine web, 101 00:03:22,480 --> 00:03:24,663 ma perchè prende il nome dal suo inventore: 102 00:03:24,663 --> 00:03:27,220 Larry Page, uno dei fondatori di Google. 103 00:03:27,620 --> 00:03:28,984 Visto che spesso un sito web 104 00:03:28,984 --> 00:03:30,830 guadagna del denaro quando tu lo visiti, 105 00:03:30,830 --> 00:03:32,950 gli spammer sono costantemente alla ricerca di modi 106 00:03:32,950 --> 00:03:34,931 per ingannare gli algoritmi dei motori di ricerca 107 00:03:34,931 --> 00:03:36,880 per far sì che le loro pagine web vengano elencate 108 00:03:36,880 --> 00:03:38,202 più in alto tra i risultati. 109 00:03:38,202 --> 00:03:40,208 I motori di ricerca aggiornano regolarmente 110 00:03:40,208 --> 00:03:41,090 i propri algoritmi 111 00:03:41,090 --> 00:03:43,210 per evitare che siti falsi e inaffidabili 112 00:03:43,210 --> 00:03:44,780 raggiungano le prime posizioni. 113 00:03:44,780 --> 00:03:45,750 In ultima istanza, 114 00:03:45,750 --> 00:03:47,610 tocca però a te stare in guardia 115 00:03:47,610 --> 00:03:49,707 nei confronti di pagine poco raccomandabili 116 00:03:49,707 --> 00:03:51,650 guardando l'indirizzo web delle pagine che visiti 117 00:03:51,650 --> 00:03:53,680 e assicurandoti che si tratti di fonti affidabili. 118 00:03:53,680 --> 00:03:55,930 I programmi di ricerca sono in continua evoluzione 119 00:03:55,930 --> 00:03:57,270 per migliorare gli algoritmi, 120 00:03:57,270 --> 00:03:58,930 così da fornire risultati migliori 121 00:03:58,930 --> 00:04:00,560 e più velocemente dei concorrenti. 122 00:04:00,880 --> 00:04:03,038 Gli odierni motori di ricerca usano addirittura dati 123 00:04:03,038 --> 00:04:04,770 che tu non hai esplicitamente fornito loro 124 00:04:04,770 --> 00:04:07,180 per aiutarti a restringere il campo delle tue ricerche. 125 00:04:07,180 --> 00:04:10,410 Per esempio, se tu hai cercato "parchi per cani" 126 00:04:10,410 --> 00:04:12,546 molti motori di ricerca ti restituiranno risultati 127 00:04:12,546 --> 00:04:14,278 relativi a parchi per cani della tua zona 128 00:04:14,278 --> 00:04:16,632 anche se tu non avevi specificato la tua posizione. 129 00:04:17,651 --> 00:04:20,332 I moderni motori di ricerca riescono anche a comprendere 130 00:04:20,332 --> 00:04:22,727 il reale significato delle parole scritte su una pagina, 131 00:04:22,727 --> 00:04:24,710 al fine di trovare il risultato che abbia 132 00:04:24,710 --> 00:04:27,260 una migliore corrispondenza con ciò che stai cercando. 133 00:04:27,260 --> 00:04:29,710 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 134 00:04:29,710 --> 00:04:31,605 il motore di ricerca capirà che stai cercando 135 00:04:31,605 --> 00:04:32,740 un giocatore di baseball. 136 00:04:32,740 --> 00:04:34,470 Mentre se cerchi "large pitcher" (brocca grande), 137 00:04:34,470 --> 00:04:38,294 capirà che stai cercando un accessorio per la tua cucina. 138 00:04:38,680 --> 00:04:40,135 Per interpretare il significato delle parole, 139 00:04:40,135 --> 00:04:40,927 usiamo una tecnologia chiamata 140 00:04:40,927 --> 00:04:42,000 "machine learning" (apprendimento automatico), 141 00:04:42,000 --> 00:04:43,910 una branca dell'intelligenza artificiale. 142 00:04:43,910 --> 00:04:46,170 Essa permette agli algoritmi di ricerca di cercare, 143 00:04:46,170 --> 00:04:48,640 non solo singole lettere o parole sulla pagina, 144 00:04:48,640 --> 00:04:52,160 ma di comprendere il significato intrinseco delle parole. 145 00:04:53,540 --> 00:04:56,010 Internet sta crescendo in maniera esponenziale, 146 00:04:56,010 --> 00:04:58,938 ma se i gruppi che si occupano di progettare i motori di ricerca 147 00:04:58,938 --> 00:05:00,285 faranno bene il loro lavoro, 148 00:05:00,285 --> 00:05:01,896 le informazioni che desideri 149 00:05:01,896 --> 00:05:04,790 resteranno sempre raggiungibili in pochi click.