1 00:00:02,158 --> 00:00:05,067 INTERNET: COME FUNZIONA LA RICERCA 2 00:00:06,280 --> 00:00:09,190 Ciao, mi chiamo John 3 00:00:09,190 --> 00:00:10,645 dirigo i gruppi che si occupano di ricerca 4 00:00:10,645 --> 00:00:12,100 e machine learning in Google. 5 00:00:12,100 --> 00:00:13,980 È incredibilmente stimolante 6 00:00:13,980 --> 00:00:15,860 che le persone da ogni parte del mondo 7 00:00:15,860 --> 00:00:18,380 si rivolgano ai motori di ricerca, 8 00:00:18,380 --> 00:00:19,640 per formulare, dalle domande più banali 9 00:00:19,640 --> 00:00:20,900 a quelle più importanti. 10 00:00:20,900 --> 00:00:22,710 Perciò è una enorme responsabilità fornire loro 11 00:00:22,710 --> 00:00:24,520 le migliori risposte possibili. 12 00:00:26,200 --> 00:00:28,570 Ciao, mi chiamo Akshaya 13 00:00:28,570 --> 00:00:30,940 e lavoro nel gruppo che si occupa della ricerca in Bing. 14 00:00:30,940 --> 00:00:32,720 Per molte questioni presto inizieremo a guardare 15 00:00:32,720 --> 00:00:34,500 all'intelligenza artificiale e al "machine learning" (apprendimento automatico) 16 00:00:37,040 --> 00:00:39,580 ma dovremo preoccuparci di come tutto ciò verrà usato, 17 00:00:39,580 --> 00:00:41,200 perché alla fine vogliamo avere un impatto positivo 18 00:00:41,200 --> 00:00:42,820 sulla società. 19 00:00:43,520 --> 00:00:46,010 Poniamoci una semplice domanda: 20 00:00:46,010 --> 00:00:48,500 "Quanto tempo ci vuole per andare su Marte?" 21 00:00:48,500 --> 00:00:51,710 Da dove arrivano questi risultati? 22 00:00:51,710 --> 00:00:54,920 E perché questo è stato elencato prima di quest'altro? 23 00:00:54,920 --> 00:00:57,550 Bene, approfondiamo il tema 24 00:00:57,550 --> 00:00:58,865 e vediamo come un motore di ricerca 25 00:00:58,865 --> 00:01:00,180 trasforma la tua domanda in un risultato. 26 00:01:00,580 --> 00:01:03,950 La prima cosa da sapere, è che quando fai una ricerca, 27 00:01:03,950 --> 00:01:04,997 il motore di ricerca non sta effettivamente andando 28 00:01:04,997 --> 00:01:06,045 sul World Wide Web 29 00:01:06,045 --> 00:01:08,140 per eseguire la ricerca in tempo reale. 30 00:01:08,140 --> 00:01:11,240 Ci sono più di un miliardo di siti web su Internet 31 00:01:11,240 --> 00:01:13,445 e a centinaia ne vengono creati ogni minuto. 32 00:01:13,445 --> 00:01:15,650 Se un motore di ricerca dovesse davvero 33 00:01:15,650 --> 00:01:16,632 passare in rassegna ogni singolo sito web 34 00:01:16,632 --> 00:01:17,615 per cercare quello che desideri 35 00:01:17,615 --> 00:01:19,580 ci metterebbe un'eternità. 36 00:01:19,580 --> 00:01:22,035 Quindi, per rendere la ricerca più veloce, 37 00:01:22,035 --> 00:01:23,262 i motori di ricerca eseguono preventivamente 38 00:01:23,262 --> 00:01:24,490 una scansione continua del web 39 00:01:24,490 --> 00:01:26,445 in modo da registrare tutte le informazioni 40 00:01:26,445 --> 00:01:28,400 che potrebbero poi rivelarsi utili per la tua ricerca. 41 00:01:28,600 --> 00:01:31,020 In questo modo, quando cerchi "viaggio verso Marte" 42 00:01:31,020 --> 00:01:33,150 il motore di ricerca sa già cosa gli serve 43 00:01:33,150 --> 00:01:35,280 per darti una risposta in tempo reale. 44 00:01:36,340 --> 00:01:37,880 Ecco come funziona: 45 00:01:37,880 --> 00:01:38,995 Internet è una ragnatela di pagine 46 00:01:38,995 --> 00:01:40,110 connesse le une alle altre 47 00:01:40,110 --> 00:01:42,340 tramite collegamenti ipertestuali (link). 48 00:01:42,340 --> 00:01:44,620 I motori di ricerca eseguono in continuazione un programma, 49 00:01:44,620 --> 00:01:46,900 chiamato "spider" 50 00:01:46,900 --> 00:01:48,280 che attraversa tutte queste pagine web 51 00:01:48,280 --> 00:01:49,660 per accumulare dati su di esse. 52 00:01:49,660 --> 00:01:52,000 Ogni volta che trova un link, 53 00:01:52,000 --> 00:01:53,280 lo segue fino a che ha visitato 54 00:01:53,280 --> 00:01:54,560 ogni pagina che sia riuscito 55 00:01:54,560 --> 00:01:57,120 a trovare sull'intera rete Internet. 56 00:01:57,120 --> 00:01:59,910 Per ogni pagina visitata, 57 00:01:59,910 --> 00:02:01,305 lo spider registra tutti i dati che possono essere utili 58 00:02:01,305 --> 00:02:02,700 per rispondere ad una futura ricerca 59 00:02:02,700 --> 00:02:04,690 aggiungendola ad uno speciale database 60 00:02:04,690 --> 00:02:06,680 chiamato "search index" (indice di ricerca). 61 00:02:07,300 --> 00:02:09,100 Torniamo ora alla nostra ricerca iniziale 62 00:02:09,100 --> 00:02:10,000 e vediamo se riusciamo a capire come fa il motore di ricerca 63 00:02:10,000 --> 00:02:10,900 a fornire i risultati. 64 00:02:13,520 --> 00:02:14,910 Quando tu chiedi 65 00:02:14,910 --> 00:02:16,300 "Quanto tempo ci vuole per andare su Marte?" 66 00:02:16,300 --> 00:02:18,010 il motore di ricerca cerca ognuna delle parole 67 00:02:18,010 --> 00:02:19,720 presenti nella domanda nel proprio indice 68 00:02:19,720 --> 00:02:22,110 per fornirti immediatamente una lista 69 00:02:22,110 --> 00:02:23,305 di tutte le pagine di Internet 70 00:02:23,305 --> 00:02:24,500 contenenti quelle parole. 71 00:02:24,640 --> 00:02:26,560 Però, limitarsi a cercare quelle parole, 72 00:02:26,560 --> 00:02:28,480 ti restituirebbe milioni di pagine, 73 00:02:28,480 --> 00:02:29,650 perciò il motore di ricerca 74 00:02:29,650 --> 00:02:30,820 deve essere in grado di individuare 75 00:02:30,820 --> 00:02:33,160 quelle più pertinenti da mostrare per prime. 76 00:02:33,160 --> 00:02:34,780 Questa è la fase più complicata, 77 00:02:34,780 --> 00:02:36,430 perché il motore di ricerca 78 00:02:36,430 --> 00:02:38,080 deve capire cosa stai veramente cercando. 79 00:02:38,080 --> 00:02:39,630 Ogni motore di ricerca usa un proprio algoritmo 80 00:02:39,630 --> 00:02:41,180 per classificare le pagine 81 00:02:41,180 --> 00:02:44,280 in base a ciò che prevede possa interessare. 82 00:02:44,640 --> 00:02:47,240 L'algoritmo di classificazione dei risultati 83 00:02:47,240 --> 00:02:48,350 potrebbe ad esempio verificare 84 00:02:48,350 --> 00:02:49,460 se le parole che hai cercato 85 00:02:49,460 --> 00:02:51,680 compaiano nel titolo della pagina, 86 00:02:51,680 --> 00:02:53,080 potrebbe controllare 87 00:02:53,080 --> 00:02:54,480 se tutte le parole compaiano una di seguito all'altra, 88 00:02:54,480 --> 00:02:56,190 o eseguire una qualunque altra valutazione utile 89 00:02:56,190 --> 00:02:57,900 a determinare in modo migliore 90 00:02:57,900 --> 00:03:01,800 quali pagine web potresti voler vedere e quali no. 91 00:03:02,660 --> 00:03:04,950 Google inventò l'algoritmo più famoso 92 00:03:04,950 --> 00:03:07,240 per selezionare i migliori risultati di una ricerca, 93 00:03:07,240 --> 00:03:09,300 prendendo in considerazione 94 00:03:09,300 --> 00:03:10,330 quante altre pagine web 95 00:03:10,330 --> 00:03:11,360 rimandino con un link a una certa pagina web. 96 00:03:11,360 --> 00:03:14,160 L'idea è che se molti siti web ritengono che 97 00:03:14,160 --> 00:03:15,990 una certa pagina sia interessante, 98 00:03:15,990 --> 00:03:17,820 allora è probabile che sia quella che stai cercando. 99 00:03:17,820 --> 00:03:20,410 Questo algoritmo è chiamato "Page Rank", 100 00:03:20,410 --> 00:03:23,000 non perché classifica le pagine web, 101 00:03:23,000 --> 00:03:25,110 ma perchè prende il nome dal suo inventore: 102 00:03:25,110 --> 00:03:27,220 Larry Page, uno dei fondatori di Google. 103 00:03:27,620 --> 00:03:29,210 Visto che spesso un sito web 104 00:03:29,210 --> 00:03:30,800 guadagna del denaro quando tu lo visiti, 105 00:03:30,800 --> 00:03:32,500 gli spammer sono costantemente alla ricerca di modi 106 00:03:32,500 --> 00:03:34,200 per ingannare gli algoritmi dei motori di ricerca 107 00:03:34,200 --> 00:03:36,060 per far sì che le loro pagine web vengano elencate 108 00:03:36,060 --> 00:03:37,920 più in alto tra i risultati. 109 00:03:37,920 --> 00:03:39,380 I motori di ricerca aggiornano regolarmente 110 00:03:39,380 --> 00:03:40,840 i propri algoritmi 111 00:03:40,840 --> 00:03:42,660 per evitare che siti falsi e inaffidabili 112 00:03:42,660 --> 00:03:44,480 raggiungano le prime posizioni. 113 00:03:44,480 --> 00:03:47,120 In ultima istanza, 114 00:03:47,120 --> 00:03:48,440 tocca però a te stare in guardia 115 00:03:48,440 --> 00:03:49,760 nei confronti di pagine poco raccomandabili 116 00:03:49,760 --> 00:03:51,550 guardando l'indirizzo web delle pagine che visiti 117 00:03:51,550 --> 00:03:53,340 e assicurandoti che si tratti di fonti affidabili. 118 00:03:53,340 --> 00:03:55,240 I programmi di ricerca sono in continua evoluzione 119 00:03:55,240 --> 00:03:57,140 per migliorare gli algoritmi, 120 00:03:57,140 --> 00:03:58,850 così da fornire risultati migliori 121 00:03:58,850 --> 00:04:00,560 e più velocemente dei concorrenti. 122 00:04:00,880 --> 00:04:02,670 Gli odierni motori di ricerca usano addirittura dati 123 00:04:02,670 --> 00:04:04,460 che tu non hai esplicitamente fornito loro 124 00:04:04,460 --> 00:04:06,560 per aiutarti a restringere il campo delle tue ricerche. 125 00:04:06,660 --> 00:04:10,280 Per esempio, se tu hai cercato "parchi per cani" 126 00:04:10,280 --> 00:04:13,130 molti motori di ricerca ti restituiranno risultati 127 00:04:13,130 --> 00:04:14,555 relativi a parchi per cani della tua zona 128 00:04:14,555 --> 00:04:15,980 anche se tu non avevi specificato la tua posizione. 129 00:04:17,651 --> 00:04:20,685 I moderni motori di ricerca riescono anche a comprendere 130 00:04:20,685 --> 00:04:23,720 il reale significato delle parole scritte su una pagina, 131 00:04:23,720 --> 00:04:25,380 al fine di trovare il risultato che abbia 132 00:04:25,380 --> 00:04:27,040 una migliore corrispondenza con ciò che stai cercando. 133 00:04:27,040 --> 00:04:29,810 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 134 00:04:29,810 --> 00:04:31,195 il motore di ricerca capirà che stai cercando 135 00:04:31,195 --> 00:04:32,580 un giocatore di baseball. 136 00:04:32,580 --> 00:04:34,890 Mentre se cerchi "large pitcher" (brocca grande), 137 00:04:34,890 --> 00:04:37,200 capirà che stai cercando un accessorio per la tua cucina. 138 00:04:38,880 --> 00:04:40,005 Per interpretare il significato delle parole, 139 00:04:40,005 --> 00:04:40,567 usiamo una tecnologia chiamata 140 00:04:40,567 --> 00:04:41,130 "machine learning" (apprendimento automatico), 141 00:04:41,130 --> 00:04:43,380 una branca dell'intelligenza artificiale. 142 00:04:43,380 --> 00:04:45,460 Essa permette agli algoritmi di ricerca di cercare, 143 00:04:45,460 --> 00:04:47,540 non solo singole lettere o parole sulla pagina, 144 00:04:47,540 --> 00:04:51,800 ma di comprendere il significato intrinseco delle parole. 145 00:04:53,540 --> 00:04:56,140 Internet sta crescendo in maniera esponenziale, 146 00:04:56,140 --> 00:04:57,440 ma se i gruppi che si occupano di progettare i motori di ricerca 147 00:04:57,440 --> 00:04:58,740 faranno bene il loro lavoro, 148 00:04:58,740 --> 00:05:01,860 le informazioni che desideri 149 00:05:01,860 --> 00:05:04,980 resteranno sempre raggiungibili in pochi click.