WEBVTT 00:00:02.158 --> 00:00:05.067 INTERNET: COME FUNZIONA LA RICERCA 00:00:05.933 --> 00:00:07.450 Ciao, mi chiamo John 00:00:07.450 --> 00:00:08.915 dirigo i gruppi che si occupano di ricerca 00:00:08.915 --> 00:00:12.100 e apprendimento automatico in Google. 00:00:12.100 --> 00:00:14.340 È incredibilmente stimolante 00:00:14.340 --> 00:00:16.570 che le persone da ogni parte del mondo 00:00:16.570 --> 00:00:18.210 si rivolgano ai motori di ricerca, 00:00:18.210 --> 00:00:19.740 per formulare domande, dalle più banali 00:00:19.740 --> 00:00:20.930 a quelle più importanti. 00:00:20.930 --> 00:00:23.230 Perciò è un'enorme responsabilità fornire loro 00:00:23.230 --> 00:00:25.015 le migliori risposte possibili. 00:00:26.200 --> 00:00:28.570 Ciao, mi chiamo Akshaya 00:00:28.570 --> 00:00:31.280 e lavoro nel gruppo che si occupa della ricerca in Bing. 00:00:31.280 --> 00:00:33.560 Per molte questioni presto inizieremo a guardare 00:00:33.560 --> 00:00:36.077 all'intelligenza artificiale e all'apprendimento automatico 00:00:36.077 --> 00:00:39.421 ma dovremo preoccuparci di come tutto ciò verrà usato, 00:00:39.421 --> 00:00:41.856 perché alla fine vogliamo avere un impatto positivo 00:00:41.856 --> 00:00:42.680 sulla società. 00:00:43.520 --> 00:00:45.894 Poniamoci una semplice domanda: 00:00:45.894 --> 00:00:49.450 "Quanto tempo ci vuole per andare su Marte?" 00:00:49.450 --> 00:00:51.510 Da dove arrivano questi risultati? 00:00:51.510 --> 00:00:54.920 E perché questo è stato elencato prima di quest'altro? 00:00:54.920 --> 00:00:56.880 Bene, approfondiamo il tema 00:00:56.880 --> 00:00:58.595 e vediamo come un motore di ricerca 00:00:58.595 --> 00:01:00.750 trasforma la tua domanda in un risultato. 00:01:00.750 --> 00:01:03.246 La prima cosa da sapere, è che quando fai una ricerca, 00:01:03.246 --> 00:01:05.611 il motore di ricerca non sta effettivamente andando 00:01:05.611 --> 00:01:06.525 sul World Wide Web 00:01:06.525 --> 00:01:08.520 per eseguire la ricerca in tempo reale. 00:01:08.520 --> 00:01:11.240 Ci sono più di un miliardo di siti web su Internet 00:01:11.240 --> 00:01:14.105 e a centinaia ne vengono creati ogni minuto. 00:01:14.105 --> 00:01:15.710 Se un motore di ricerca dovesse davvero 00:01:15.710 --> 00:01:17.611 passare in rassegna ogni singolo sito web 00:01:17.611 --> 00:01:19.039 per cercare quello che desideri 00:01:19.039 --> 00:01:20.194 ci metterebbe un'eternità. 00:01:20.194 --> 00:01:21.989 Quindi, per rendere la ricerca più veloce, 00:01:21.989 --> 00:01:23.889 i motori di ricerca eseguono preventivamente 00:01:23.889 --> 00:01:25.090 una scansione continua del web 00:01:25.090 --> 00:01:26.755 in modo da registrare tutte le informazioni 00:01:26.755 --> 00:01:28.940 che potrebbero poi rivelarsi utili per la tua ricerca. 00:01:28.940 --> 00:01:31.690 In questo modo, quando cerchi "viaggio verso Marte" 00:01:31.690 --> 00:01:34.110 il motore di ricerca sa già cosa gli serve 00:01:34.110 --> 00:01:35.930 per darti una risposta in tempo reale. 00:01:36.340 --> 00:01:37.880 Ecco come funziona: 00:01:37.880 --> 00:01:39.868 Internet è una ragnatela di pagine 00:01:39.868 --> 00:01:41.155 connesse le une alle altre 00:01:41.155 --> 00:01:42.724 tramite collegamenti ipertestuali (link). 00:01:42.724 --> 00:01:45.184 I motori di ricerca eseguono in continuazione un programma, 00:01:45.184 --> 00:01:46.248 chiamato "spider" 00:01:46.248 --> 00:01:48.280 che attraversa tutte queste pagine web 00:01:48.280 --> 00:01:49.760 per accumulare dati su di esse. 00:01:49.760 --> 00:01:52.020 Ogni volta che trova un link, 00:01:52.020 --> 00:01:53.720 lo segue fino a che ha visitato 00:01:53.720 --> 00:01:55.189 ogni pagina che sia riuscito 00:01:55.189 --> 00:01:57.120 a trovare sull'intera rete Internet. 00:01:57.120 --> 00:01:58.940 Per ogni pagina visitata, 00:01:58.940 --> 00:02:01.415 lo spider registra tutti i dati che possono essere utili 00:02:01.415 --> 00:02:03.070 per rispondere ad una futura ricerca 00:02:03.070 --> 00:02:04.860 aggiungendoli ad uno speciale database 00:02:04.860 --> 00:02:06.930 chiamato "search index" (indice di ricerca). 00:02:07.300 --> 00:02:09.600 Torniamo ora alla nostra ricerca iniziale 00:02:09.600 --> 00:02:12.210 e vediamo se riusciamo a capire come fa il motore di ricerca 00:02:12.210 --> 00:02:13.309 a fornire i risultati. 00:02:13.520 --> 00:02:14.455 Quando tu chiedi 00:02:14.455 --> 00:02:16.570 "Quanto tempo ci vuole per andare su Marte?" 00:02:16.570 --> 00:02:18.949 il motore di ricerca cerca ognuna di queste parole 00:02:18.949 --> 00:02:20.220 nel proprio indice 00:02:20.220 --> 00:02:21.860 per fornirti immediatamente una lista 00:02:21.860 --> 00:02:23.305 di tutte le pagine di Internet 00:02:23.305 --> 00:02:24.640 contenenti quelle parole. 00:02:24.640 --> 00:02:26.560 Però, limitarsi a cercare quelle parole, 00:02:26.560 --> 00:02:28.710 ti restituirebbe milioni di pagine, 00:02:28.710 --> 00:02:29.944 perciò il motore di ricerca 00:02:29.944 --> 00:02:31.570 deve essere in grado di individuare 00:02:31.570 --> 00:02:33.669 quelle più pertinenti da mostrare per prime. 00:02:33.669 --> 00:02:35.180 Questa è la fase più complicata, 00:02:35.180 --> 00:02:36.350 perché il motore di ricerca 00:02:36.350 --> 00:02:38.440 deve capire cosa stai veramente cercando. 00:02:38.440 --> 00:02:41.190 Ogni motore di ricerca usa un proprio algoritmo 00:02:41.190 --> 00:02:42.720 per classificare le pagine 00:02:42.720 --> 00:02:44.640 in base a ciò che prevede possa interessare. 00:02:44.640 --> 00:02:47.030 L'algoritmo di classificazione dei risultati 00:02:47.030 --> 00:02:48.120 potrebbe verificare 00:02:48.120 --> 00:02:49.460 se le parole che hai cercato 00:02:49.460 --> 00:02:51.130 compaiono nel titolo della pagina, 00:02:51.130 --> 00:02:52.140 potrebbe controllare 00:02:52.140 --> 00:02:54.480 se tutte le parole compaiono una di seguito all'altra, 00:02:54.480 --> 00:02:57.451 o eseguire una qualunque altra valutazione utile 00:02:57.451 --> 00:02:59.050 a determinare in modo migliore 00:02:59.050 --> 00:03:02.000 quali pagine web potresti voler vedere e quali no. 00:03:02.660 --> 00:03:04.950 Google inventò l'algoritmo più famoso 00:03:04.950 --> 00:03:07.430 per selezionare i migliori risultati di una ricerca, 00:03:07.430 --> 00:03:08.730 prendendo in considerazione 00:03:08.730 --> 00:03:09.840 quante altre pagine web 00:03:09.840 --> 00:03:11.990 rimandino con un link a una certa pagina web. 00:03:11.990 --> 00:03:14.160 L'idea è che se molti siti web ritengono che 00:03:14.160 --> 00:03:15.690 una certa pagina sia interessante, 00:03:15.690 --> 00:03:18.070 allora è probabile che sia quella che stai cercando. 00:03:18.070 --> 00:03:20.410 Questo algoritmo è chiamato "Page Rank", 00:03:20.410 --> 00:03:22.480 non perché classifica le pagine web, 00:03:22.480 --> 00:03:24.663 ma perchè prende il nome dal suo inventore: 00:03:24.663 --> 00:03:27.220 Larry Page, uno dei fondatori di Google. 00:03:27.620 --> 00:03:28.984 Visto che spesso un sito web 00:03:28.984 --> 00:03:30.830 guadagna del denaro quando tu lo visiti, 00:03:30.830 --> 00:03:32.950 gli spammer sono costantemente alla ricerca di modi 00:03:32.950 --> 00:03:34.931 per ingannare gli algoritmi dei motori di ricerca 00:03:34.931 --> 00:03:36.880 per far sì che le loro pagine web vengano elencate 00:03:36.880 --> 00:03:38.202 più in alto tra i risultati. 00:03:38.202 --> 00:03:40.208 I motori di ricerca aggiornano regolarmente 00:03:40.208 --> 00:03:41.090 i propri algoritmi 00:03:41.090 --> 00:03:43.210 per evitare che siti falsi e inaffidabili 00:03:43.210 --> 00:03:44.780 raggiungano le prime posizioni. 00:03:44.780 --> 00:03:45.750 In ultima istanza, 00:03:45.750 --> 00:03:47.610 tocca però a te stare in guardia 00:03:47.610 --> 00:03:49.707 nei confronti di pagine poco raccomandabili 00:03:49.707 --> 00:03:51.650 guardando l'indirizzo web delle pagine che visiti 00:03:51.650 --> 00:03:53.680 e assicurandoti che si tratti di fonti affidabili. 00:03:53.680 --> 00:03:55.930 I programmi di ricerca sono in continua evoluzione 00:03:55.930 --> 00:03:57.270 per migliorare gli algoritmi, 00:03:57.270 --> 00:03:58.930 così da fornire risultati migliori 00:03:58.930 --> 00:04:00.560 e più velocemente dei concorrenti. 00:04:00.880 --> 00:04:03.038 Gli odierni motori di ricerca usano addirittura dati 00:04:03.038 --> 00:04:04.770 che tu non hai esplicitamente fornito loro 00:04:04.770 --> 00:04:07.180 per aiutarti a restringere il campo delle tue ricerche. 00:04:07.180 --> 00:04:10.410 Per esempio, se tu hai cercato "parchi per cani" 00:04:10.410 --> 00:04:12.546 molti motori di ricerca ti restituiranno risultati 00:04:12.546 --> 00:04:14.278 relativi a parchi per cani della tua zona 00:04:14.278 --> 00:04:16.632 anche se tu non avevi specificato la tua posizione. 00:04:17.651 --> 00:04:20.332 I moderni motori di ricerca riescono anche a comprendere 00:04:20.332 --> 00:04:22.727 il reale significato delle parole scritte su una pagina, 00:04:22.727 --> 00:04:24.710 al fine di trovare il risultato che abbia 00:04:24.710 --> 00:04:27.260 una migliore corrispondenza con ciò che stai cercando. 00:04:27.260 --> 00:04:29.710 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 00:04:29.710 --> 00:04:31.605 il motore di ricerca capirà che stai cercando 00:04:31.605 --> 00:04:32.740 un giocatore di baseball. 00:04:32.740 --> 00:04:34.470 Mentre se cerchi "large pitcher" (brocca grande), 00:04:34.470 --> 00:04:38.294 capirà che stai cercando un accessorio per la tua cucina. 00:04:38.680 --> 00:04:40.135 Per interpretare il significato delle parole, 00:04:40.135 --> 00:04:40.927 usiamo una tecnologia chiamata 00:04:40.927 --> 00:04:42.000 apprendimento automatico, 00:04:42.000 --> 00:04:43.910 una branca dell'intelligenza artificiale. 00:04:43.910 --> 00:04:46.170 Essa permette agli algoritmi di ricerca di cercare, 00:04:46.170 --> 00:04:48.640 non solo singole lettere o parole sulla pagina, 00:04:48.640 --> 00:04:52.160 ma di comprendere il significato intrinseco delle parole. 00:04:53.540 --> 00:04:56.010 Internet sta crescendo in maniera esponenziale, 00:04:56.010 --> 00:04:58.938 ma se i gruppi che si occupano di progettare i motori di ricerca 00:04:58.938 --> 00:05:00.285 faranno bene il loro lavoro, 00:05:00.285 --> 00:05:01.896 le informazioni che desideri 00:05:01.896 --> 00:05:04.790 resteranno sempre raggiungibili in pochi click.