WEBVTT 00:00:02.158 --> 00:00:05.067 INTERNET: COME FUNZIONA LA RICERCA 00:00:06.280 --> 00:00:09.190 Ciao, mi chiamo John 00:00:09.190 --> 00:00:10.645 dirigo i gruppi che si occupano di ricerca 00:00:10.645 --> 00:00:12.100 e machine learning in Google. 00:00:12.100 --> 00:00:13.980 È incredibilmente stimolante 00:00:13.980 --> 00:00:15.860 che le persone da ogni parte del mondo 00:00:15.860 --> 00:00:18.380 si rivolgano ai motori di ricerca, 00:00:18.380 --> 00:00:19.640 per formulare, dalle domande più banali 00:00:19.640 --> 00:00:20.900 a quelle più importanti. 00:00:20.900 --> 00:00:22.710 Perciò è una enorme responsabilità fornire loro 00:00:22.710 --> 00:00:24.520 le migliori risposte possibili. 00:00:26.200 --> 00:00:28.570 Ciao, mi chiamo Akshaya 00:00:28.570 --> 00:00:30.940 e lavoro nel gruppo che si occupa della ricerca in Bing. 00:00:30.940 --> 00:00:32.720 Per molte questioni presto inizieremo a guardare 00:00:32.720 --> 00:00:34.500 all'intelligenza artificiale e al "machine learning" (apprendimento automatico) 00:00:37.040 --> 00:00:39.580 ma dovremo preoccuparci di come tutto ciò verrà usato, 00:00:39.580 --> 00:00:41.200 perché alla fine vogliamo avere un impatto positivo 00:00:41.200 --> 00:00:42.820 sulla società. 00:00:43.520 --> 00:00:46.010 Poniamoci una semplice domanda: 00:00:46.010 --> 00:00:48.500 "Quanto tempo ci vuole per andare su Marte?" 00:00:48.500 --> 00:00:51.710 Da dove arrivano questi risultati? 00:00:51.710 --> 00:00:54.920 E perché questo è stato elencato prima di quest'altro? 00:00:54.920 --> 00:00:57.550 Bene, approfondiamo il tema 00:00:57.550 --> 00:00:58.865 e vediamo come un motore di ricerca 00:00:58.865 --> 00:01:00.180 trasforma la tua domanda in un risultato. 00:01:00.580 --> 00:01:03.950 La prima cosa da sapere, è che quando fai una ricerca, 00:01:03.950 --> 00:01:04.997 il motore di ricerca non sta effettivamente andando 00:01:04.997 --> 00:01:06.045 sul World Wide Web 00:01:06.045 --> 00:01:08.140 per eseguire la ricerca in tempo reale. 00:01:08.140 --> 00:01:11.240 Ci sono più di un miliardo di siti web su Internet 00:01:11.240 --> 00:01:13.445 e a centinaia ne vengono creati ogni minuto. 00:01:13.445 --> 00:01:15.650 Se un motore di ricerca dovesse davvero 00:01:15.650 --> 00:01:16.632 passare in rassegna ogni singolo sito web 00:01:16.632 --> 00:01:17.615 per cercare quello che desideri 00:01:17.615 --> 00:01:19.580 ci metterebbe un'eternità. 00:01:19.580 --> 00:01:22.035 Quindi, per rendere la ricerca più veloce, 00:01:22.035 --> 00:01:23.262 i motori di ricerca eseguono preventivamente 00:01:23.262 --> 00:01:24.490 una scansione continua del web 00:01:24.490 --> 00:01:26.445 in modo da registrare tutte le informazioni 00:01:26.445 --> 00:01:28.400 che potrebbero poi rivelarsi utili per la tua ricerca. 00:01:28.600 --> 00:01:31.020 In questo modo, quando cerchi "viaggio verso Marte" 00:01:31.020 --> 00:01:33.150 il motore di ricerca sa già cosa gli serve 00:01:33.150 --> 00:01:35.280 per darti una risposta in tempo reale. 00:01:36.340 --> 00:01:37.880 Ecco come funziona: 00:01:37.880 --> 00:01:38.995 Internet è una ragnatela di pagine 00:01:38.995 --> 00:01:40.110 connesse le une alle altre 00:01:40.110 --> 00:01:42.340 tramite collegamenti ipertestuali (link). 00:01:42.340 --> 00:01:44.620 I motori di ricerca eseguono in continuazione un programma, 00:01:44.620 --> 00:01:46.900 chiamato "spider" 00:01:46.900 --> 00:01:48.280 che attraversa tutte queste pagine web 00:01:48.280 --> 00:01:49.660 per accumulare dati su di esse. 00:01:49.660 --> 00:01:52.000 Ogni volta che trova un link, 00:01:52.000 --> 00:01:53.280 lo segue fino a che ha visitato 00:01:53.280 --> 00:01:54.560 ogni pagina che sia riuscito 00:01:54.560 --> 00:01:57.120 a trovare sull'intera rete Internet. 00:01:57.120 --> 00:01:59.910 Per ogni pagina visitata, 00:01:59.910 --> 00:02:01.305 lo spider registra tutti i dati che possono essere utili 00:02:01.305 --> 00:02:02.700 per rispondere ad una futura ricerca 00:02:02.700 --> 00:02:04.690 aggiungendola ad uno speciale database 00:02:04.690 --> 00:02:06.680 chiamato "search index" (indice di ricerca). 00:02:07.300 --> 00:02:09.100 Torniamo ora alla nostra ricerca iniziale 00:02:09.100 --> 00:02:10.000 e vediamo se riusciamo a capire come fa il motore di ricerca 00:02:10.000 --> 00:02:10.900 a fornire i risultati. 00:02:13.520 --> 00:02:14.910 Quando tu chiedi 00:02:14.910 --> 00:02:16.300 "Quanto tempo ci vuole per andare su Marte?" 00:02:16.300 --> 00:02:18.010 il motore di ricerca cerca ognuna delle parole 00:02:18.010 --> 00:02:19.720 presenti nella domanda nel proprio indice 00:02:19.720 --> 00:02:22.110 per fornirti immediatamente una lista 00:02:22.110 --> 00:02:23.305 di tutte le pagine di Internet 00:02:23.305 --> 00:02:24.500 contenenti quelle parole. 00:02:24.640 --> 00:02:26.560 Però, limitarsi a cercare quelle parole, 00:02:26.560 --> 00:02:28.480 ti restituirebbe milioni di pagine, 00:02:28.480 --> 00:02:29.650 perciò il motore di ricerca 00:02:29.650 --> 00:02:30.820 deve essere in grado di individuare 00:02:30.820 --> 00:02:33.160 quelle più pertinenti da mostrare per prime. 00:02:33.160 --> 00:02:34.780 Questa è la fase più complicata, 00:02:34.780 --> 00:02:36.430 perché il motore di ricerca 00:02:36.430 --> 00:02:38.080 deve capire cosa stai veramente cercando. 00:02:38.080 --> 00:02:39.630 Ogni motore di ricerca usa un proprio algoritmo 00:02:39.630 --> 00:02:41.180 per classificare le pagine 00:02:41.180 --> 00:02:44.280 in base a ciò che prevede possa interessare. 00:02:44.640 --> 00:02:47.240 L'algoritmo di classificazione dei risultati 00:02:47.240 --> 00:02:48.350 potrebbe ad esempio verificare 00:02:48.350 --> 00:02:49.460 se le parole che hai cercato 00:02:49.460 --> 00:02:51.680 compaiano nel titolo della pagina, 00:02:51.680 --> 00:02:53.080 potrebbe controllare 00:02:53.080 --> 00:02:54.480 se tutte le parole compaiano una di seguito all'altra, 00:02:54.480 --> 00:02:56.190 o eseguire una qualunque altra valutazione utile 00:02:56.190 --> 00:02:57.900 a determinare in modo migliore 00:02:57.900 --> 00:03:01.800 quali pagine web potresti voler vedere e quali no. 00:03:02.660 --> 00:03:04.950 Google inventò l'algoritmo più famoso 00:03:04.950 --> 00:03:07.240 per selezionare i migliori risultati di una ricerca, 00:03:07.240 --> 00:03:09.300 prendendo in considerazione 00:03:09.300 --> 00:03:10.330 quante altre pagine web 00:03:10.330 --> 00:03:11.360 rimandino con un link a una certa pagina web. 00:03:11.360 --> 00:03:14.160 L'idea è che se molti siti web ritengono che 00:03:14.160 --> 00:03:15.990 una certa pagina sia interessante, 00:03:15.990 --> 00:03:17.820 allora è probabile che sia quella che stai cercando. 00:03:17.820 --> 00:03:20.410 Questo algoritmo è chiamato "Page Rank", 00:03:20.410 --> 00:03:23.000 non perché classifica le pagine web, 00:03:23.000 --> 00:03:25.110 ma perchè prende il nome dal suo inventore: 00:03:25.110 --> 00:03:27.220 Larry Page, uno dei fondatori di Google. 00:03:27.620 --> 00:03:29.210 Visto che spesso un sito web 00:03:29.210 --> 00:03:30.800 guadagna del denaro quando tu lo visiti, 00:03:30.800 --> 00:03:32.500 gli spammer sono costantemente alla ricerca di modi 00:03:32.500 --> 00:03:34.200 per ingannare gli algoritmi dei motori di ricerca 00:03:34.200 --> 00:03:36.060 per far sì che le loro pagine web vengano elencate 00:03:36.060 --> 00:03:37.920 più in alto tra i risultati. 00:03:37.920 --> 00:03:39.380 I motori di ricerca aggiornano regolarmente 00:03:39.380 --> 00:03:40.840 i propri algoritmi 00:03:40.840 --> 00:03:42.660 per evitare che siti falsi e inaffidabili 00:03:42.660 --> 00:03:44.480 raggiungano le prime posizioni. 00:03:44.480 --> 00:03:47.120 In ultima istanza, 00:03:47.120 --> 00:03:48.440 tocca però a te stare in guardia 00:03:48.440 --> 00:03:49.760 nei confronti di pagine poco raccomandabili 00:03:49.760 --> 00:03:51.550 guardando l'indirizzo web delle pagine che visiti 00:03:51.550 --> 00:03:53.340 e assicurandoti che si tratti di fonti affidabili. 00:03:53.340 --> 00:03:55.240 I programmi di ricerca sono in continua evoluzione 00:03:55.240 --> 00:03:57.140 per migliorare gli algoritmi, 00:03:57.140 --> 00:03:58.850 così da fornire risultati migliori 00:03:58.850 --> 00:04:00.560 e più velocemente dei concorrenti. 00:04:00.880 --> 00:04:02.670 Gli odierni motori di ricerca usano addirittura dati 00:04:02.670 --> 00:04:04.460 che tu non hai esplicitamente fornito loro 00:04:04.460 --> 00:04:06.560 per aiutarti a restringere il campo delle tue ricerche. 00:04:06.660 --> 00:04:10.280 Per esempio, se tu hai cercato "parchi per cani" 00:04:10.280 --> 00:04:13.130 molti motori di ricerca ti restituiranno risultati 00:04:13.130 --> 00:04:14.555 relativi a parchi per cani della tua zona 00:04:14.555 --> 00:04:15.980 anche se tu non avevi specificato la tua posizione. 00:04:17.651 --> 00:04:20.685 I moderni motori di ricerca riescono anche a comprendere 00:04:20.685 --> 00:04:23.720 il reale significato delle parole scritte su una pagina, 00:04:23.720 --> 00:04:25.380 al fine di trovare il risultato che abbia 00:04:25.380 --> 00:04:27.040 una migliore corrispondenza con ciò che stai cercando. 00:04:27.040 --> 00:04:29.810 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 00:04:29.810 --> 00:04:31.195 il motore di ricerca capirà che stai cercando 00:04:31.195 --> 00:04:32.580 un giocatore di baseball. 00:04:32.580 --> 00:04:34.890 Mentre se cerchi "large pitcher" (brocca grande), 00:04:34.890 --> 00:04:37.200 capirà che stai cercando un accessorio per la tua cucina. 00:04:38.880 --> 00:04:40.005 Per interpretare il significato delle parole, 00:04:40.005 --> 00:04:40.567 usiamo una tecnologia chiamata 00:04:40.567 --> 00:04:41.130 "machine learning" (apprendimento automatico), 00:04:41.130 --> 00:04:43.380 una branca dell'intelligenza artificiale. 00:04:43.380 --> 00:04:45.460 Essa permette agli algoritmi di ricerca di cercare, 00:04:45.460 --> 00:04:47.540 non solo singole lettere o parole sulla pagina, 00:04:47.540 --> 00:04:51.800 ma di comprendere il significato intrinseco delle parole. 00:04:53.540 --> 00:04:56.140 Internet sta crescendo in maniera esponenziale, 00:04:56.140 --> 00:04:57.440 ma se i gruppi che si occupano di progettare i motori di ricerca 00:04:57.440 --> 00:04:58.740 faranno bene il loro lavoro, 00:04:58.740 --> 00:05:01.860 le informazioni che desideri 00:05:01.860 --> 00:05:04.980 resteranno sempre raggiungibili in pochi click.