WEBVTT 00:00:02.158 --> 00:00:05.067 INTERNET: COME FUNZIONA LA RICERCA 00:00:06.280 --> 00:00:12.100 Ciao, mi chiamo John e dirigo i gruppi che si occupano di ricerca e machine learning in Google. 00:00:12.100 --> 00:00:13.980 È incredibilmente stimolante 00:00:13.980 --> 00:00:15.860 che le persone da ogni parte del mondo 00:00:15.860 --> 00:00:18.380 si rivolgano ai motori di ricerca, 00:00:18.380 --> 00:00:20.900 per formulare, dalle domande più banali a quelle più importanti. 00:00:20.900 --> 00:00:22.710 Perciò è una enorme responsabilità fornire loro 00:00:22.710 --> 00:00:24.520 le migliori risposte possibili. 00:00:26.200 --> 00:00:30.940 Ciao, mi chiamo Akshaya e lavoro nel gruppo che si occupa della ricerca in Bing. 00:00:30.940 --> 00:00:34.500 Ci sono molte situazioni per le quali presto inizieremo a guardare all'intelligenza artificiale 00:00:34.500 --> 00:00:37.040 e al "machine learning" (apprendimento automatico) per fornire delle risposte, 00:00:37.040 --> 00:00:39.580 ma dovremo preoccuparci di come gli utenti useranno tutto ciò, 00:00:39.580 --> 00:00:42.820 perché alla fine vogliamo avere un impatto positivo sulla società. 00:00:43.520 --> 00:00:46.010 Poniamoci una semplice domanda: 00:00:46.010 --> 00:00:48.500 "Quanto tempo ci vuole per andare su Marte?" 00:00:48.500 --> 00:00:51.710 Da dove arrivano questi risultati 00:00:51.710 --> 00:00:54.920 e perché questo è stato elencato prima di quest'altro? 00:00:54.920 --> 00:00:57.550 Bene, approfondiamo il tema 00:00:57.550 --> 00:01:00.180 e vediamo come un motore di ricerca trasforma la tua domanda in un risultato. 00:01:00.580 --> 00:01:03.950 La prima cosa da sapere, è che quando fai una ricerca, 00:01:03.950 --> 00:01:06.045 il motore di ricerca non sta effettivamente andando sul World Wide Web 00:01:06.045 --> 00:01:08.140 per eseguire la ricerca in tempo reale. 00:01:08.140 --> 00:01:11.240 Ci sono più di un miliardo di siti web su Internet 00:01:11.240 --> 00:01:13.445 e a centinaia ne vengono creati ogni minuto. 00:01:13.445 --> 00:01:15.650 Se un motore di ricerca dovesse davvero 00:01:15.650 --> 00:01:17.615 passare in rassegna ogni singolo sito web per cercare quello che desideri 00:01:17.615 --> 00:01:19.580 ci metterebbe un'eternità. 00:01:19.580 --> 00:01:22.035 Quindi, per rendere la ricerca più veloce, 00:01:22.035 --> 00:01:24.490 i motori di ricerca eseguono preventivamente una scansione continua del web 00:01:24.490 --> 00:01:28.400 in modo da registrare tutte le informazioni che potrebbero poi rivelarsi utili per la tua ricerca. 00:01:28.600 --> 00:01:31.020 In questo modo, quando cerchi "viaggio verso Marte" 00:01:31.020 --> 00:01:33.150 il motore di ricerca sa già cosa gli serve 00:01:33.150 --> 00:01:35.280 per darti una risposta in tempo reale. 00:01:36.340 --> 00:01:37.880 Ecco come funziona: 00:01:37.880 --> 00:01:40.110 Internet è una ragnatela di pagine connesse le une alle altre 00:01:40.110 --> 00:01:42.340 tramite collegamenti ipertestuali (link). 00:01:42.340 --> 00:01:46.900 I motori di ricerca eseguono in continuazione un programma, chiamato "spider" 00:01:46.900 --> 00:01:48.280 che attraversa tutte queste pagine web 00:01:48.280 --> 00:01:49.660 per accumulare dati su di esse. 00:01:49.660 --> 00:01:52.000 Ogni volta che trova un link, lo segue 00:01:52.000 --> 00:01:54.560 fino a che ha visitato ogni pagina che sia riuscito 00:01:54.560 --> 00:01:57.120 a trovare sull'intera rete Internet. 00:01:57.120 --> 00:01:59.910 Per ogni pagina visitata, 00:01:59.910 --> 00:02:02.700 lo spider registra tutti i dati che possono essere utili per rispondere ad una futura ricerca 00:02:02.700 --> 00:02:06.680 aggiungendola ad uno speciale database chiamato "search index" (indice di ricerca). 00:02:07.300 --> 00:02:09.100 Torniamo ora alla nostra ricerca iniziale 00:02:09.100 --> 00:02:10.000 e vediamo se riusciamo a capire come fa il motore di ricerca 00:02:10.000 --> 00:02:10.900 a fornire i risultati. 00:02:13.520 --> 00:02:16.300 Quando tu chiedi "Quanto tempo ci vuole per andare su Marte?" 00:02:16.300 --> 00:02:19.720 il motore di ricerca cerca ognuna delle parole presenti nella domanda nel proprio indice 00:02:19.720 --> 00:02:24.500 per fornirti immediatamente una lista di tutte le pagine di Internet contenenti quelle parole. 00:02:24.640 --> 00:02:26.560 Però, limitarsi a cercare quelle parole, 00:02:26.560 --> 00:02:28.480 ti restituirebbe milioni di pagine, 00:02:28.480 --> 00:02:30.820 perciò il motore di ricerca deve essere in grado di individuare 00:02:30.820 --> 00:02:33.160 quelle più pertinenti da mostrare per prime. 00:02:33.160 --> 00:02:34.780 Questa è la fase più complicata, 00:02:34.780 --> 00:02:38.080 perché il motore di ricerca deve capire cosa stai veramente cercando. 00:02:38.080 --> 00:02:41.180 Ogni motore di ricerca usa un proprio algoritmo per classificare le pagine 00:02:41.180 --> 00:02:44.280 in base a ciò che prevede possa interessare. 00:02:44.640 --> 00:02:47.240 L'algoritmo di classificazione dei risultati 00:02:47.240 --> 00:02:49.460 potrebbe ad esempio verificare se le parole che hai cercato 00:02:49.460 --> 00:02:51.680 compaiano nel titolo della pagina, 00:02:51.680 --> 00:02:54.480 potrebbe controllare se tutte le parole compaiano una di seguito all'altra, 00:02:54.480 --> 00:02:57.900 o eseguire una qualunque altra valutazione utile a determinare 00:02:57.900 --> 00:03:01.800 in modo migliore quali pagine web potresti voler vedere e quali no. 00:03:02.660 --> 00:03:04.950 Google inventò l'algoritmo più famoso 00:03:04.950 --> 00:03:07.240 per selezionare i migliori risultati di una ricerca, 00:03:07.240 --> 00:03:11.360 prendendo in considerazione quante altre pagine web rimandino con un link a una certa pagina web. 00:03:11.360 --> 00:03:14.160 L'idea è che se molti siti web ritengono che 00:03:14.160 --> 00:03:15.990 una certa pagina sia interessante, 00:03:15.990 --> 00:03:17.820 allora è probabile che sia quella che stai cercando. 00:03:17.820 --> 00:03:20.410 Questo algoritmo è chiamato "Page Rank", 00:03:20.410 --> 00:03:23.000 non perché classifica le pagine web, 00:03:23.000 --> 00:03:25.110 ma perchè prende il nome dal suo inventore: 00:03:25.110 --> 00:03:27.220 Larry Page, uno dei fondatori di Google. 00:03:27.620 --> 00:03:30.800 Visto che spesso un sito web guadagna del denaro quando tu lo visiti, 00:03:30.800 --> 00:03:32.500 gli spammer sono costantemente alla ricerca di modi 00:03:32.500 --> 00:03:34.200 per ingannare gli algoritmi dei motori di ricerca 00:03:34.200 --> 00:03:36.060 per far sì che le loro pagine web vengano elencate 00:03:36.060 --> 00:03:37.920 più in alto tra i risultati. 00:03:37.920 --> 00:03:40.840 I motori di ricerca aggiornano regolarmente i propri algoritmi 00:03:40.840 --> 00:03:44.480 per evitare che siti falsi e inaffidabili raggiungano le prime posizioni. 00:03:44.480 --> 00:03:49.760 In ultima istanza, tocca però a te stare in guardia nei confronti di pagine poco raccomandabili 00:03:49.760 --> 00:03:53.340 guardando l'indirizzo web delle pagine che visiti e assicurandoti che si tratti di fonti affidabili. 00:03:53.340 --> 00:03:57.140 I programmi di ricerca sono in continua evoluzione per migliorare gli algoritmi, 00:03:57.140 --> 00:04:00.560 così da fornire risultati migliori e più velocemente dei concorrenti. 00:04:00.880 --> 00:04:02.670 Gli odierni motori di ricerca usano addirittura dati 00:04:02.670 --> 00:04:04.460 che tu non hai esplicitamente fornito loro 00:04:04.460 --> 00:04:06.560 per aiutarti a restringere il campo delle tue ricerche. 00:04:06.660 --> 00:04:10.280 Per esempio, se tu hai cercato "parchi per cani" 00:04:10.280 --> 00:04:13.130 molti motori di ricerca ti restituiranno risultati 00:04:13.130 --> 00:04:14.555 relativi a parchi per cani della tua zona 00:04:14.555 --> 00:04:15.980 anche se tu non avevi specificato la tua posizione. 00:04:17.651 --> 00:04:20.685 I moderni motori di ricerca riescono a comprendere 00:04:20.685 --> 00:04:23.720 il reale significato delle parole scritte su una pagina, 00:04:23.720 --> 00:04:25.380 al fine di trovare il risultato che abbia 00:04:25.380 --> 00:04:27.040 una migliore corrispondenza con ciò che stai cercando. 00:04:27.040 --> 00:04:29.810 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 00:04:29.810 --> 00:04:32.580 il motore di ricerca capirà che stai cercando un giocatore di baseball. 00:04:32.580 --> 00:04:34.890 Mentre se cerchi "large pitcher" (brocca grande), 00:04:34.890 --> 00:04:37.200 capirà che stai cercando un accessorio per la tua cucina. 00:04:38.880 --> 00:04:41.130 Per interpretare il significato delle parole, usiamo una tecnologia chiamata "machine learning" (apprendimento automatico), 00:04:41.130 --> 00:04:43.380 una branca dell'intelligenza artificiale. 00:04:43.380 --> 00:04:45.460 Essa permette agli algoritmi di ricerca di cercare 00:04:45.460 --> 00:04:47.540 solo singole lettere o parole sulla pagina, 00:04:47.540 --> 00:04:51.800 ma di comprendere il significato intrinseco delle parole. 00:04:53.540 --> 00:04:56.140 Internet sta crescendo in maniera esponenziale, 00:04:56.140 --> 00:04:58.740 ma se i gruppi che si occupano di progettare i motori di ricerca faranno bene il loro lavoro, 00:04:58.740 --> 00:05:04.980 le informazioni che desideri resteranno sempre raggiungibili in pochi click.