WEBVTT 00:00:02.158 --> 00:00:05.067 INTERNET: COME FUNZIONA LA RICERCA 00:00:06.280 --> 00:00:12.100 Ciao, mi chiamo John e dirigo i gruppi che si occupano di ricerca e machine learning in Google. 00:00:12.100 --> 00:00:13.980 Penso che sia incredibilmente stimolante 00:00:13.980 --> 00:00:15.860 che le persone da ogni parte del mondo 00:00:15.860 --> 00:00:18.380 si rivolgano ai motori di ricerca, 00:00:18.380 --> 00:00:20.900 per formulare dalle domande più banali a quelle più importanti. 00:00:20.900 --> 00:00:22.710 Perciò è una enorme responsabilità fornire loro 00:00:22.710 --> 00:00:24.520 le migliori risposte possibili. 00:00:26.200 --> 00:00:30.940 Ciao, mi chiamo Akshaya e lavoro nel gruppo che si occupa della ricerca in Bing. 00:00:30.940 --> 00:00:34.500 Ci sono molte situazioni per le quali presto inizieremo a guardare all'intelligenza artificiale 00:00:34.500 --> 00:00:37.040 e all'apprendimento automatico (machine learning) per fornire delle risposte, 00:00:37.040 --> 00:00:39.580 ma dovremo preoccuparci di come gli utenti useranno tutto ciò 00:00:39.580 --> 00:00:42.820 perché alla fine vogliamo avere un impatto positivo sulla società. 00:00:43.520 --> 00:00:46.010 Poniamoci una semplice domanda: 00:00:46.010 --> 00:00:48.500 "Quanto tempo ci vuole per viaggiare fino a Marte?" 00:00:48.500 --> 00:00:51.710 Da dove arrivano questi risultati 00:00:51.710 --> 00:00:54.920 e perché questo è stato elencato prima di quest'altro? 00:00:54.920 --> 00:00:57.550 Bene, andiamo in profondità 00:00:57.550 --> 00:01:00.180 e vediamo come un motore di ricerca trasforma la tua domanda in un risultato. 00:01:00.580 --> 00:01:03.950 La prima cosa da sapere, è che quando fai una ricerca, 00:01:03.950 --> 00:01:06.045 il motore di ricerca non sta effettivamente andando sul World Wide Web 00:01:06.045 --> 00:01:08.140 per eseguire la ricerca in tempo reale. 00:01:08.140 --> 00:01:11.240 Ci sono più di un miliardo di siti web su Internet 00:01:11.240 --> 00:01:13.445 e a centinaia ne vengono creati ogni minuto. 00:01:13.445 --> 00:01:15.650 Se un motore di ricerca dovesse davvero 00:01:15.650 --> 00:01:17.615 passare in rassegna ogni singolo sito web per cercare quello che desideri 00:01:17.615 --> 00:01:19.580 ci metterebbe un'infinità di tempo. 00:01:19.580 --> 00:01:24.490 Perciò, per rendere la ricerca più veloce, i motori di ricerca eseguono continuamente una scansione anticipata del web 00:01:24.490 --> 00:01:28.400 per registrare le informazioni che potrebbero essere utili alla tua ricerca successivamente. 00:01:28.600 --> 00:01:31.020 In tal modo quando tu cerchi "viaggio per Marte" 00:01:31.020 --> 00:01:35.280 il motore di ricerca ha già in archivio ciò che gli serve per restituirti una risposta in tempo reale. 00:01:36.340 --> 00:01:37.880 Ecco come funziona: 00:01:37.880 --> 00:01:42.340 Internet è una ragnatela di pagine connesse le une alle altre tramite collegamenti ipertestuali (link). 00:01:42.340 --> 00:01:46.900 I motori di ricerca eseguono continuativamente un programma chiamato "spider" (o "crawler") 00:01:46.900 --> 00:01:49.660 che viaggia lungo le pagine web per accumulare informazioni su di esse. 00:01:49.660 --> 00:01:52.000 Ogni volta che trova un link lo segue 00:01:52.000 --> 00:01:57.120 fino a che abbia visitato ogni pagina che sia riuscito a trovare sull'intera rete Internet. 00:01:57.120 --> 00:02:02.700 Per ciascuna pagina visitata, lo spider registra ogni informazione che potrebbe essere necessaria per rispondere a una futura ricerca 00:02:02.700 --> 00:02:06.680 aggiungendola a uno speciale database chiamato "search index" ("indice di ricerca"). 00:02:07.300 --> 00:02:10.900 Torniamo ora alla nostra ricerca iniziale e vediamo se riusciamo a capire 00:02:10.900 --> 00:02:13.520 come fa il motore di ricerca a fornire i risultati. 00:02:13.520 --> 00:02:16.300 Quando tu chiedi "Quanto tempo ci vuole per viaggiare fino a Marte?" 00:02:16.300 --> 00:02:19.720 il motore di ricerca cerca ognuna delle parole della domanda nel proprio search index 00:02:19.720 --> 00:02:24.500 per fornirti immediatamente una lista di tutte le pagine della rete Internet contenenti quelle parole. 00:02:24.640 --> 00:02:28.480 Cercare semplicemente quelle parole, però, potrebbe restituirti milioni di pagine, 00:02:28.480 --> 00:02:33.160 perciò il motore di ricerca ha bisogno di riuscire a determinare quelle più pertinenti per mostrartele per prime. 00:02:33.160 --> 00:02:34.780 Questa è la fase in cui le cose si fanno più difficili 00:02:34.780 --> 00:02:38.080 perché il motore di ricerca potrebbe aver bisogno di fare una stima di ciò che ti serve realmente. 00:02:38.080 --> 00:02:44.280 Ogni motore di ricerca usa propri specifici algoritmi per ordinare le pagine sulla base di ciò che stima tu potresti volere. 00:02:44.640 --> 00:02:47.240 L'algoritmo di ordinamento dei risultati usato da un motore di ricerca 00:02:47.240 --> 00:02:51.680 potrebbe ad esempio controllare se i tuoi temini di ricerca compaiano nel titolo di una pagina, 00:02:51.680 --> 00:02:54.480 potrebbe controllare se tutte le parole compaiano una di seguito all'altra, 00:02:54.480 --> 00:02:57.900 o eseguire una qualunque altra valutazione utile a determinare 00:02:57.900 --> 00:03:01.800 in maniera migliore quali pagine web tu potresti voler vedere e quali no. 00:03:02.660 --> 00:03:07.240 Google inventò l'algoritmo più famoso per scegliere i risultati più rilevanti relativamente a una data ricerca, 00:03:07.240 --> 00:03:11.360 prendendo in considerazione quante altre pagine web rimandino con un link a una certa pagina web. 00:03:11.360 --> 00:03:14.160 L'idea è che se molti siti web ritengono che 00:03:14.160 --> 00:03:17.820 una certa pagina sia interessante allora è probabile che sia quella che stai cercando. 00:03:17.820 --> 00:03:23.000 Questo algoritmo fu chiamato "Page Rank", non (solo) perché fa una graduatoria delle pagine web, 00:03:23.000 --> 00:03:27.220 ma per dargli il nome del suo inventore, Larry Page, uno dei fondatori di Google. 00:03:27.620 --> 00:03:30.800 Siccome un sito web spesso guadagna del denaro quando tu lo visiti, 00:03:30.800 --> 00:03:34.200 gli spammer sono costantemente alla ricerca di modi per ingannare gli algoritmi dei motori di ricerca 00:03:34.200 --> 00:03:37.920 in maniera che le proprie pagine web vengano elencate più in alto tra i risultati. 00:03:37.920 --> 00:03:40.840 I motori di ricerca, d'altro canto, aggiornano regolarmente i propri algoritmi 00:03:40.840 --> 00:03:44.480 per evitare che siti inattendibili e truffaldini raggiungano le prime posizioni. 00:03:44.480 --> 00:03:49.760 In ultima istanza, tocca però a te stare in guardia contro le pagine inattendibili 00:03:49.760 --> 00:03:53.340 guardando l'indirizzo web delle pagine che visiti e assicurandoti che si tratti di fonti affidabili. 00:03:53.340 --> 00:03:57.140 I programmi che effettuano le ricerche sono in continua evoluzione per migliorare gli algoritmi, 00:03:57.140 --> 00:04:00.560 così da fornire risultati migliori e più velocemente dei propri concorrenti. 00:04:00.880 --> 00:04:04.460 Gli odierni motori di ricerca usano addirittura informazioni che tu non hai esplicitamente fornito loro 00:04:04.460 --> 00:04:06.560 per aiutarti a restringere il campo delle tue ricerche. 00:04:06.660 --> 00:04:10.280 Per esempio, se tu hai fatto una ricerca inerente ai parchi per cani 00:04:10.280 --> 00:04:15.980 molti motori di ricerca ti restituiranno risultati relativi ai parchi per cani nelle tue vicinanze anche se tu non avevi digitato la tua posizione. 00:04:17.260 --> 00:04:23.720 I moderni motori di ricerca capiscono inoltre non solo le parole scritte su una pagina ma anche che cosa esse significano, 00:04:23.720 --> 00:04:27.040 al fine di trovare il risultato che abbia una migliore corrispondenza con ciò che stai cercando. 00:04:27.040 --> 00:04:32.580 Per esempio, se tu cerchi "fast pitcher" "lanciatore veloce") il motore di ricerca capirà che la tua ricerca si riferisce a un giocatore di baseball, 00:04:32.580 --> 00:04:37.200 mentre se cerchi "large pitcher" ("brocca grande") capirà che stai cercando un accessorio per la tua cucina. 00:04:38.880 --> 00:04:43.380 Per interpretare le parole in maniera migliore, usiamo una tecnologia chiamata "machine learning", un tipo di intelligenza artificiale. 00:04:43.380 --> 00:04:47.540 Essa permette agli algoritmi di ricerca di cercare non solo singole lettere o parole 00:04:47.540 --> 00:04:51.800 sulla pagina, ma di comprendere il significato ad esse sottostante. 00:04:53.540 --> 00:04:58.740 Internet sta crescendo in maniera esponenziale, ma se i team che si occupano di progettare i motori di ricerca 00:04:58.740 --> 00:05:04.980 faranno bene il proprio lavoro le informazioni che desideri dovrebbero continuare a essere sempre raggiungibili in pochi click.