1 00:00:02,158 --> 00:00:05,067 INTERNET: COME FUNZIONA LA RICERCA 2 00:00:06,280 --> 00:00:12,100 Ciao, mi chiamo John e dirigo i gruppi che si occupano di ricerca e machine learning in Google. 3 00:00:12,100 --> 00:00:13,980 Penso che sia incredibilmente stimolante 4 00:00:13,980 --> 00:00:15,860 che le persone da ogni parte del mondo 5 00:00:15,860 --> 00:00:18,380 si rivolgano ai motori di ricerca, 6 00:00:18,380 --> 00:00:20,900 per formulare dalle domande più banali a quelle più importanti. 7 00:00:20,900 --> 00:00:22,710 Perciò è una enorme responsabilità fornire loro 8 00:00:22,710 --> 00:00:24,520 le migliori risposte possibili. 9 00:00:26,200 --> 00:00:30,940 Ciao, mi chiamo Akshaya e lavoro nel gruppo che si occupa della ricerca in Bing. 10 00:00:30,940 --> 00:00:34,500 Ci sono molte situazioni per le quali presto inizieremo a guardare all'intelligenza artificiale 11 00:00:34,500 --> 00:00:37,040 e all'apprendimento automatico (machine learning) per fornire delle risposte, 12 00:00:37,040 --> 00:00:39,580 ma dovremo preoccuparci di come gli utenti useranno tutto ciò 13 00:00:39,580 --> 00:00:42,820 perché alla fine vogliamo avere un impatto positivo sulla società. 14 00:00:43,520 --> 00:00:46,010 Poniamoci una semplice domanda: 15 00:00:46,010 --> 00:00:48,500 "Quanto tempo ci vuole per viaggiare fino a Marte?" 16 00:00:48,500 --> 00:00:51,710 Da dove arrivano questi risultati 17 00:00:51,710 --> 00:00:54,920 e perché questo è stato elencato prima di quest'altro? 18 00:00:54,920 --> 00:00:57,550 Bene, andiamo in profondità 19 00:00:57,550 --> 00:01:00,180 e vediamo come un motore di ricerca trasforma la tua domanda in un risultato. 20 00:01:00,580 --> 00:01:03,950 La prima cosa da sapere, è che quando fai una ricerca, 21 00:01:03,950 --> 00:01:06,045 il motore di ricerca non sta effettivamente andando sul World Wide Web 22 00:01:06,045 --> 00:01:08,140 per eseguire la ricerca in tempo reale. 23 00:01:08,140 --> 00:01:11,240 Ci sono più di un miliardo di siti web su Internet 24 00:01:11,240 --> 00:01:13,445 e a centinaia ne vengono creati ogni minuto. 25 00:01:13,445 --> 00:01:15,650 Se un motore di ricerca dovesse davvero 26 00:01:15,650 --> 00:01:17,615 passare in rassegna ogni singolo sito web per cercare quello che desideri 27 00:01:17,615 --> 00:01:19,580 ci metterebbe un'infinità di tempo. 28 00:01:19,580 --> 00:01:22,035 Quindi, per rendere la ricerca più veloce, 29 00:01:22,035 --> 00:01:24,490 i motori di ricerca eseguono preventivamente una scansione continua del web 30 00:01:24,490 --> 00:01:28,400 in modo da registrare tutte le informazioni che potrebbero poi rivelarsi essere utili per la tua ricerca. 31 00:01:28,600 --> 00:01:31,020 In questo modo, quando cerchi "viaggio verso Marte" 32 00:01:31,020 --> 00:01:33,150 il motore di ricerca sa già cosa gli serve 33 00:01:33,150 --> 00:01:35,280 per darti una risposta in tempo reale. 34 00:01:36,340 --> 00:01:37,880 Ecco come funziona: 35 00:01:37,880 --> 00:01:40,110 Internet è una ragnatela di pagine connesse le une alle altre 36 00:01:40,110 --> 00:01:42,340 tramite collegamenti ipertestuali (link). 37 00:01:42,340 --> 00:01:46,900 I motori di ricerca eseguono in continuazione un programma, chiamato "spider" 38 00:01:46,900 --> 00:01:48,280 che attraversa tutte queste pagine web 39 00:01:48,280 --> 00:01:49,660 per accumulare dati su di esse. 40 00:01:49,660 --> 00:01:52,000 Ogni volta che trova un link, lo segue 41 00:01:52,000 --> 00:01:54,560 fino a che ha visitato ogni pagina che sia riuscito 42 00:01:54,560 --> 00:01:57,120 a trovare sull'intera rete Internet. 43 00:01:57,120 --> 00:01:59,910 Per ogni pagina visitata, 44 00:01:59,910 --> 00:02:02,700 lo spider registra tutti i dati che possono essere utili per rispondere ad una futura ricerca 45 00:02:02,700 --> 00:02:06,680 aggiungendola ad uno speciale database chiamato "search index" (indice di ricerca). 46 00:02:07,300 --> 00:02:09,100 Torniamo ora alla nostra ricerca iniziale 47 00:02:09,100 --> 00:02:10,000 e vediamo se riusciamo a capire come fa il motore di ricerca 48 00:02:10,000 --> 00:02:10,900 a fornire i risultati. 49 00:02:13,520 --> 00:02:16,300 Quando tu chiedi "Quanto tempo ci vuole per viaggiare fino a Marte?" 50 00:02:16,300 --> 00:02:19,720 il motore di ricerca cerca ognuna delle parole presenti nella domanda nel proprio indice 51 00:02:19,720 --> 00:02:24,500 per fornirti immediatamente una lista di tutte le pagine di Internet contenenti quelle parole. 52 00:02:24,640 --> 00:02:26,560 Però, limitarsi a cercare quelle parole, 53 00:02:26,560 --> 00:02:28,480 ti restituirebbe milioni di pagine, 54 00:02:28,480 --> 00:02:30,820 perciò il motore di ricerca deve essere in grado di individuare 55 00:02:30,820 --> 00:02:33,160 quelle più pertinenti da mostrare per prime. 56 00:02:33,160 --> 00:02:34,780 Questa è la fase in cui le cose si fanno più difficili 57 00:02:34,780 --> 00:02:38,080 perché il motore di ricerca potrebbe aver bisogno di fare una stima di ciò che ti serve realmente. 58 00:02:38,080 --> 00:02:44,280 Ogni motore di ricerca usa propri specifici algoritmi per ordinare le pagine sulla base di ciò che stima tu potresti volere. 59 00:02:44,640 --> 00:02:47,240 L'algoritmo di ordinamento dei risultati usato da un motore di ricerca 60 00:02:47,240 --> 00:02:51,680 potrebbe ad esempio controllare se i tuoi temini di ricerca compaiano nel titolo di una pagina, 61 00:02:51,680 --> 00:02:54,480 potrebbe controllare se tutte le parole compaiano una di seguito all'altra, 62 00:02:54,480 --> 00:02:57,900 o eseguire una qualunque altra valutazione utile a determinare 63 00:02:57,900 --> 00:03:01,800 in maniera migliore quali pagine web tu potresti voler vedere e quali no. 64 00:03:02,660 --> 00:03:07,240 Google inventò l'algoritmo più famoso per scegliere i risultati più rilevanti relativamente a una data ricerca, 65 00:03:07,240 --> 00:03:11,360 prendendo in considerazione quante altre pagine web rimandino con un link a una certa pagina web. 66 00:03:11,360 --> 00:03:14,160 L'idea è che se molti siti web ritengono che 67 00:03:14,160 --> 00:03:17,820 una certa pagina sia interessante allora è probabile che sia quella che stai cercando. 68 00:03:17,820 --> 00:03:23,000 Questo algoritmo fu chiamato "Page Rank", non (solo) perché fa una graduatoria delle pagine web, 69 00:03:23,000 --> 00:03:27,220 ma per dargli il nome del suo inventore, Larry Page, uno dei fondatori di Google. 70 00:03:27,620 --> 00:03:30,800 Siccome un sito web spesso guadagna del denaro quando tu lo visiti, 71 00:03:30,800 --> 00:03:34,200 gli spammer sono costantemente alla ricerca di modi per ingannare gli algoritmi dei motori di ricerca 72 00:03:34,200 --> 00:03:37,920 in maniera che le proprie pagine web vengano elencate più in alto tra i risultati. 73 00:03:37,920 --> 00:03:40,840 I motori di ricerca, d'altro canto, aggiornano regolarmente i propri algoritmi 74 00:03:40,840 --> 00:03:44,480 per evitare che siti inattendibili e truffaldini raggiungano le prime posizioni. 75 00:03:44,480 --> 00:03:49,760 In ultima istanza, tocca però a te stare in guardia contro le pagine inattendibili 76 00:03:49,760 --> 00:03:53,340 guardando l'indirizzo web delle pagine che visiti e assicurandoti che si tratti di fonti affidabili. 77 00:03:53,340 --> 00:03:57,140 I programmi che effettuano le ricerche sono in continua evoluzione per migliorare gli algoritmi, 78 00:03:57,140 --> 00:04:00,560 così da fornire risultati migliori e più velocemente dei propri concorrenti. 79 00:04:00,880 --> 00:04:04,460 Gli odierni motori di ricerca usano addirittura informazioni che tu non hai esplicitamente fornito loro 80 00:04:04,460 --> 00:04:06,560 per aiutarti a restringere il campo delle tue ricerche. 81 00:04:06,660 --> 00:04:10,280 Per esempio, se tu hai fatto una ricerca inerente ai parchi per cani 82 00:04:10,280 --> 00:04:15,980 molti motori di ricerca ti restituiranno risultati relativi ai parchi per cani nelle tue vicinanze anche se tu non avevi digitato la tua posizione. 83 00:04:17,260 --> 00:04:23,720 I moderni motori di ricerca capiscono inoltre non solo le parole scritte su una pagina ma anche che cosa esse significano, 84 00:04:23,720 --> 00:04:27,040 al fine di trovare il risultato che abbia una migliore corrispondenza con ciò che stai cercando. 85 00:04:27,040 --> 00:04:32,580 Per esempio, se tu cerchi "fast pitcher" "lanciatore veloce") il motore di ricerca capirà che la tua ricerca si riferisce a un giocatore di baseball, 86 00:04:32,580 --> 00:04:37,200 mentre se cerchi "large pitcher" ("brocca grande") capirà che stai cercando un accessorio per la tua cucina. 87 00:04:38,880 --> 00:04:43,380 Per interpretare le parole in maniera migliore, usiamo una tecnologia chiamata "machine learning", un tipo di intelligenza artificiale. 88 00:04:43,380 --> 00:04:47,540 Essa permette agli algoritmi di ricerca di cercare non solo singole lettere o parole 89 00:04:47,540 --> 00:04:51,800 sulla pagina, ma di comprendere il significato ad esse sottostante. 90 00:04:53,540 --> 00:04:58,740 Internet sta crescendo in maniera esponenziale, ma se i team che si occupano di progettare i motori di ricerca 91 00:04:58,740 --> 00:05:04,980 faranno bene il proprio lavoro le informazioni che desideri dovrebbero continuare a essere sempre raggiungibili in pochi click.