1 00:00:02,158 --> 00:00:05,067 INTERNET: COME FUNZIONA LA RICERCA 2 00:00:06,280 --> 00:00:12,100 Ciao, mi chiamo John e dirigo i gruppi che si occupano di ricerca e machine learning in Google. 3 00:00:12,100 --> 00:00:13,980 È incredibilmente stimolante 4 00:00:13,980 --> 00:00:15,860 che le persone da ogni parte del mondo 5 00:00:15,860 --> 00:00:18,380 si rivolgano ai motori di ricerca, 6 00:00:18,380 --> 00:00:20,900 per formulare, dalle domande più banali a quelle più importanti. 7 00:00:20,900 --> 00:00:22,710 Perciò è una enorme responsabilità fornire loro 8 00:00:22,710 --> 00:00:24,520 le migliori risposte possibili. 9 00:00:26,200 --> 00:00:30,940 Ciao, mi chiamo Akshaya e lavoro nel gruppo che si occupa della ricerca in Bing. 10 00:00:30,940 --> 00:00:34,500 Ci sono molte situazioni per le quali presto inizieremo a guardare all'intelligenza artificiale 11 00:00:34,500 --> 00:00:37,040 e al "machine learning" (apprendimento automatico) per fornire delle risposte, 12 00:00:37,040 --> 00:00:39,580 ma dovremo preoccuparci di come gli utenti useranno tutto ciò, 13 00:00:39,580 --> 00:00:42,820 perché alla fine vogliamo avere un impatto positivo sulla società. 14 00:00:43,520 --> 00:00:46,010 Poniamoci una semplice domanda: 15 00:00:46,010 --> 00:00:48,500 "Quanto tempo ci vuole per andare su Marte?" 16 00:00:48,500 --> 00:00:51,710 Da dove arrivano questi risultati 17 00:00:51,710 --> 00:00:54,920 e perché questo è stato elencato prima di quest'altro? 18 00:00:54,920 --> 00:00:57,550 Bene, approfondiamo il tema 19 00:00:57,550 --> 00:01:00,180 e vediamo come un motore di ricerca trasforma la tua domanda in un risultato. 20 00:01:00,580 --> 00:01:03,950 La prima cosa da sapere, è che quando fai una ricerca, 21 00:01:03,950 --> 00:01:06,045 il motore di ricerca non sta effettivamente andando sul World Wide Web 22 00:01:06,045 --> 00:01:08,140 per eseguire la ricerca in tempo reale. 23 00:01:08,140 --> 00:01:11,240 Ci sono più di un miliardo di siti web su Internet 24 00:01:11,240 --> 00:01:13,445 e a centinaia ne vengono creati ogni minuto. 25 00:01:13,445 --> 00:01:15,650 Se un motore di ricerca dovesse davvero 26 00:01:15,650 --> 00:01:17,615 passare in rassegna ogni singolo sito web per cercare quello che desideri 27 00:01:17,615 --> 00:01:19,580 ci metterebbe un'eternità. 28 00:01:19,580 --> 00:01:22,035 Quindi, per rendere la ricerca più veloce, 29 00:01:22,035 --> 00:01:24,490 i motori di ricerca eseguono preventivamente una scansione continua del web 30 00:01:24,490 --> 00:01:28,400 in modo da registrare tutte le informazioni che potrebbero poi rivelarsi utili per la tua ricerca. 31 00:01:28,600 --> 00:01:31,020 In questo modo, quando cerchi "viaggio verso Marte" 32 00:01:31,020 --> 00:01:33,150 il motore di ricerca sa già cosa gli serve 33 00:01:33,150 --> 00:01:35,280 per darti una risposta in tempo reale. 34 00:01:36,340 --> 00:01:37,880 Ecco come funziona: 35 00:01:37,880 --> 00:01:40,110 Internet è una ragnatela di pagine connesse le une alle altre 36 00:01:40,110 --> 00:01:42,340 tramite collegamenti ipertestuali (link). 37 00:01:42,340 --> 00:01:46,900 I motori di ricerca eseguono in continuazione un programma, chiamato "spider" 38 00:01:46,900 --> 00:01:48,280 che attraversa tutte queste pagine web 39 00:01:48,280 --> 00:01:49,660 per accumulare dati su di esse. 40 00:01:49,660 --> 00:01:52,000 Ogni volta che trova un link, lo segue 41 00:01:52,000 --> 00:01:54,560 fino a che ha visitato ogni pagina che sia riuscito 42 00:01:54,560 --> 00:01:57,120 a trovare sull'intera rete Internet. 43 00:01:57,120 --> 00:01:59,910 Per ogni pagina visitata, 44 00:01:59,910 --> 00:02:02,700 lo spider registra tutti i dati che possono essere utili per rispondere ad una futura ricerca 45 00:02:02,700 --> 00:02:06,680 aggiungendola ad uno speciale database chiamato "search index" (indice di ricerca). 46 00:02:07,300 --> 00:02:09,100 Torniamo ora alla nostra ricerca iniziale 47 00:02:09,100 --> 00:02:10,000 e vediamo se riusciamo a capire come fa il motore di ricerca 48 00:02:10,000 --> 00:02:10,900 a fornire i risultati. 49 00:02:13,520 --> 00:02:16,300 Quando tu chiedi "Quanto tempo ci vuole per andare su Marte?" 50 00:02:16,300 --> 00:02:19,720 il motore di ricerca cerca ognuna delle parole presenti nella domanda nel proprio indice 51 00:02:19,720 --> 00:02:24,500 per fornirti immediatamente una lista di tutte le pagine di Internet contenenti quelle parole. 52 00:02:24,640 --> 00:02:26,560 Però, limitarsi a cercare quelle parole, 53 00:02:26,560 --> 00:02:28,480 ti restituirebbe milioni di pagine, 54 00:02:28,480 --> 00:02:30,820 perciò il motore di ricerca deve essere in grado di individuare 55 00:02:30,820 --> 00:02:33,160 quelle più pertinenti da mostrare per prime. 56 00:02:33,160 --> 00:02:34,780 Questa è la fase più complicata, 57 00:02:34,780 --> 00:02:38,080 perché il motore di ricerca deve capire cosa stai veramente cercando. 58 00:02:38,080 --> 00:02:41,180 Ogni motore di ricerca usa un proprio algoritmo per classificare le pagine 59 00:02:41,180 --> 00:02:44,280 in base a ciò che prevede possa interessare. 60 00:02:44,640 --> 00:02:47,240 L'algoritmo di classificazione dei risultati 61 00:02:47,240 --> 00:02:49,460 potrebbe ad esempio verificare se le parole che hai cercato 62 00:02:49,460 --> 00:02:51,680 compaiano nel titolo della pagina, 63 00:02:51,680 --> 00:02:54,480 potrebbe controllare se tutte le parole compaiano una di seguito all'altra, 64 00:02:54,480 --> 00:02:57,900 o eseguire una qualunque altra valutazione utile a determinare 65 00:02:57,900 --> 00:03:01,800 in modo migliore quali pagine web potresti voler vedere e quali no. 66 00:03:02,660 --> 00:03:04,950 Google inventò l'algoritmo più famoso 67 00:03:04,950 --> 00:03:07,240 per selezionare i migliori risultati di una ricerca, 68 00:03:07,240 --> 00:03:11,360 prendendo in considerazione quante altre pagine web rimandino con un link a una certa pagina web. 69 00:03:11,360 --> 00:03:14,160 L'idea è che se molti siti web ritengono che 70 00:03:14,160 --> 00:03:15,990 una certa pagina sia interessante, 71 00:03:15,990 --> 00:03:17,820 allora è probabile che sia quella che stai cercando. 72 00:03:17,820 --> 00:03:20,410 Questo algoritmo è chiamato "Page Rank", 73 00:03:20,410 --> 00:03:23,000 non perché classifica le pagine web, 74 00:03:23,000 --> 00:03:25,110 ma perchè prende il nome dal suo inventore: 75 00:03:25,110 --> 00:03:27,220 Larry Page, uno dei fondatori di Google. 76 00:03:27,620 --> 00:03:30,800 Visto che spesso un sito web guadagna del denaro quando tu lo visiti, 77 00:03:30,800 --> 00:03:32,500 gli spammer sono costantemente alla ricerca di modi 78 00:03:32,500 --> 00:03:34,200 per ingannare gli algoritmi dei motori di ricerca 79 00:03:34,200 --> 00:03:36,060 per far sì che le loro pagine web vengano elencate 80 00:03:36,060 --> 00:03:37,920 più in alto tra i risultati. 81 00:03:37,920 --> 00:03:40,840 I motori di ricerca aggiornano regolarmente i propri algoritmi 82 00:03:40,840 --> 00:03:44,480 per evitare che siti falsi e inaffidabili raggiungano le prime posizioni. 83 00:03:44,480 --> 00:03:49,760 In ultima istanza, tocca però a te stare in guardia nei confronti di pagine poco raccomandabili 84 00:03:49,760 --> 00:03:53,340 guardando l'indirizzo web delle pagine che visiti e assicurandoti che si tratti di fonti affidabili. 85 00:03:53,340 --> 00:03:57,140 I programmi di ricerca sono in continua evoluzione per migliorare gli algoritmi, 86 00:03:57,140 --> 00:04:00,560 così da fornire risultati migliori e più velocemente dei concorrenti. 87 00:04:00,880 --> 00:04:02,670 Gli odierni motori di ricerca usano addirittura dati 88 00:04:02,670 --> 00:04:04,460 che tu non hai esplicitamente fornito loro 89 00:04:04,460 --> 00:04:06,560 per aiutarti a restringere il campo delle tue ricerche. 90 00:04:06,660 --> 00:04:10,280 Per esempio, se tu hai cercato "parchi per cani" 91 00:04:10,280 --> 00:04:13,130 molti motori di ricerca ti restituiranno risultati 92 00:04:13,130 --> 00:04:14,555 relativi a parchi per cani della tua zona 93 00:04:14,555 --> 00:04:15,980 anche se tu non avevi specificato la tua posizione. 94 00:04:17,651 --> 00:04:20,685 I moderni motori di ricerca riescono a comprendere 95 00:04:20,685 --> 00:04:23,720 il reale significato delle parole scritte su una pagina, 96 00:04:23,720 --> 00:04:25,380 al fine di trovare il risultato che abbia 97 00:04:25,380 --> 00:04:27,040 una migliore corrispondenza con ciò che stai cercando. 98 00:04:27,040 --> 00:04:29,810 Per esempio, se tu cerchi "fast pitcher" (lanciatore veloce), 99 00:04:29,810 --> 00:04:32,580 il motore di ricerca capirà che stai cercando un giocatore di baseball. 100 00:04:32,580 --> 00:04:34,890 Mentre se cerchi "large pitcher" (brocca grande), 101 00:04:34,890 --> 00:04:37,200 capirà che stai cercando un accessorio per la tua cucina. 102 00:04:38,880 --> 00:04:41,130 Per interpretare il significato delle parole, usiamo una tecnologia chiamata "machine learning" (apprendimento automatico), 103 00:04:41,130 --> 00:04:43,380 una branca dell'intelligenza artificiale. 104 00:04:43,380 --> 00:04:45,460 Essa permette agli algoritmi di ricerca di cercare 105 00:04:45,460 --> 00:04:47,540 solo singole lettere o parole sulla pagina, 106 00:04:47,540 --> 00:04:51,800 ma di comprendere il significato intrinseco delle parole. 107 00:04:53,540 --> 00:04:56,140 Internet sta crescendo in maniera esponenziale, 108 00:04:56,140 --> 00:04:58,740 ma se i gruppi che si occupano di progettare i motori di ricerca faranno bene il loro lavoro, 109 00:04:58,740 --> 00:05:04,980 le informazioni che desideri resteranno sempre raggiungibili in pochi click.