1 00:00:02,535 --> 00:00:04,962 A Internet: Como funciona a pesquisa 2 00:00:06,070 --> 00:00:07,272 Olá, o meu nome é John. 3 00:00:07,510 --> 00:00:10,421 Lidero as equipas de pesquisa e machine learning na Google. 4 00:00:12,130 --> 00:00:16,215 Penso que é incrivelmente inspirador que as pessoas em todo o mundo 5 00:00:16,215 --> 00:00:20,930 recorram aos motores de busca para fazer perguntas triviais e perguntas incrivelmente importantes. 6 00:00:20,930 --> 00:00:24,830 Por isso, é uma enorme responsabilidade dar-lhes as melhores respostas que podemos. 7 00:00:26,710 --> 00:00:30,610 Olá, o meu nome é Akshaya e trabalho na equipa de pesquisa do Bing. 8 00:00:30,910 --> 00:00:33,190 Há muitas vezes onde vamos começar a procurar 9 00:00:33,190 --> 00:00:35,800 em inteligência artificial e aprendizagem mecânica, 10 00:00:35,830 --> 00:00:39,010 mas temos de abordar como é que os utilizadores vão utilizar isto, 11 00:00:39,140 --> 00:00:42,390 porque no final do dia, queremos ter impacto na sociedade. 12 00:00:43,780 --> 00:00:45,400 Vamos fazer uma pergunta simples. 13 00:00:45,820 --> 00:00:48,070 Quanto tempo demora a viagem a Marte? 14 00:00:49,330 --> 00:00:50,950 De onde vieram estes resultados 15 00:00:51,370 --> 00:00:54,100 e porque é que este foi listado antes do outro? 16 00:00:55,700 --> 00:00:58,591 Bem, vamos descobrir como é que o motor de busca transformou 17 00:00:58,591 --> 00:01:00,070 o teu pedido num resultado. 18 00:01:00,450 --> 00:01:03,360 A primeira coisa que precisas de saber é que quando fazes uma pesquisa, 19 00:01:03,430 --> 00:01:07,990 o motor de pesquisa não está na realidade a ir à World Wide Web fazer a tua pesquisa em tempo real. 20 00:01:08,140 --> 00:01:14,013 Isto porque há mais de um bilião de páginas web na internet, com novas páginas a ser criadas a cada minuto. 21 00:01:14,140 --> 00:01:18,611 Então, se o motor de busca tivesse de procurar em cada site para encontrar o que querias, 22 00:01:18,611 --> 00:01:20,056 isso demoraria uma eternidade. 23 00:01:20,500 --> 00:01:23,568 Para tornar a tua pesquisa mais rápida, os motores de busca estão sempre 24 00:01:23,568 --> 00:01:28,442 a vasculhar a web para registar as informações que os possam ajudar em pesquisas posteriores. 25 00:01:28,930 --> 00:01:31,480 Dessa forma, quando se pesquisa sobre viagens a Marte, 26 00:01:31,480 --> 00:01:33,700 o motor de busca já tem o que precisa 27 00:01:33,700 --> 00:01:35,728 para te dar uma resposta em tempo real. 28 00:01:36,250 --> 00:01:37,540 Funciona assim… 29 00:01:37,900 --> 00:01:42,010 A Internet é uma teia de páginas ligadas entre si através de hiperligações. 30 00:01:42,400 --> 00:01:45,671 Os motores de busca estão sempre a correr um programa — chamado Spider 31 00:01:45,671 --> 00:01:49,050 que vai passando nestas páginas web para recolher informações sobre elas. 32 00:01:49,780 --> 00:01:51,561 Sempre que encontra uma hiperligação, 33 00:01:52,090 --> 00:01:57,027 segue-a até ter visitado todas as páginas que é possível encontrar em toda a internet. 34 00:01:57,335 --> 00:02:02,428 A cada página a aranha visita são registadas todas as informações que possam ser precisas para pesquisa, 35 00:02:02,500 --> 00:02:05,790 adicionando-as a uma base de dados especial chamada índice de pesquisa. 36 00:02:07,166 --> 00:02:09,530 Agora, voltemos a essa pesquisa de há pouco 37 00:02:09,590 --> 00:02:11,990 e ver se conseguimos descobrir como o motor de busca 38 00:02:11,990 --> 00:02:13,333 obteve os resultados. 39 00:02:13,640 --> 00:02:16,460 Quando se pergunta quanto tempo leva a viajar para Marte, 40 00:02:16,640 --> 00:02:18,860 o motor de pesquisa procura procura em cada uma dessas palavras 41 00:02:18,920 --> 00:02:21,410 no índice de pesquisa para obter imediatamente uma lista 42 00:02:21,410 --> 00:02:24,500 de todas as páginas da internet que contêm essas palavras. 43 00:02:24,690 --> 00:02:28,731 Mas procurar apenas por estes termos de pesquisa poderia resultar em milhões de páginas devolvidas, 44 00:02:28,760 --> 00:02:31,110 por isso o motor de busca precisa de conseguir determinar as melhores 45 00:02:31,110 --> 00:02:33,290 correspondências para mostrar primeiro. 46 00:02:33,340 --> 00:02:36,010 É aqui que se torna complicado, porque o motor de busca 47 00:02:36,010 --> 00:02:38,040 pode precisar de adivinhar o que procuras. 48 00:02:38,930 --> 00:02:41,360 Cada motor de busca usa o seu próprio algoritmo 49 00:02:41,360 --> 00:02:44,550 para classificar as páginas com base no que ele pensa que tu queres. 50 00:02:44,930 --> 00:02:47,660 O algoritmo de ranking do motor de busca pode ver 51 00:02:47,990 --> 00:02:50,503 se o teu termo de pesquisa aparece no título da página, 52 00:02:50,900 --> 00:02:53,820 pode verificar se todas as palavras de aparecem umas ao lado das outras, 53 00:02:54,520 --> 00:02:57,020 ou qualquer número de outros cálculos 54 00:02:57,020 --> 00:02:58,610 que a ajudam a determinar melhor 55 00:02:58,670 --> 00:03:01,420 que páginas quererás ou não ver. 56 00:03:02,960 --> 00:03:04,960 O Google inventou o mais famoso algoritmo 57 00:03:04,960 --> 00:03:07,144 para escolher os resultados mais relevantes de uma pesquisa, 58 00:03:07,144 --> 00:03:11,286 considerando o número de outras páginas web que se ligam a uma determinada página. 59 00:03:11,830 --> 00:03:15,340 A ideia é que se muitos websites pensarem que uma página web é interessante, 60 00:03:15,340 --> 00:03:17,243 então é provavelmente a que tu procuras. 61 00:03:18,190 --> 00:03:20,020 A este algoritmo chama-se 'page rank', 62 00:03:20,590 --> 00:03:22,330 não porque classifica as páginas web, 63 00:03:22,570 --> 00:03:25,304 mas porque recebeu o nome do seu inventor, Larry Page, 64 00:03:25,480 --> 00:03:27,103 que é um dos fundadores do Google. 65 00:03:27,820 --> 00:03:30,680 Uma vez que é comum um site ganhar dinheiro quando o visitas, 66 00:03:30,820 --> 00:03:32,950 os spammers estão constantemente a a tentar encontrar formas 67 00:03:32,950 --> 00:03:35,741 para jogar o algoritmo de pesquisa para que as suas páginas 68 00:03:35,742 --> 00:03:37,931 estão listados mais acima nos resultados. 69 00:03:38,260 --> 00:03:40,750 Os motores de pesquisa atualizam regularmente os seus algoritmos 70 00:03:40,750 --> 00:03:44,296 para evitar que sites falsos ou não fidedignos cheguem ao topo. 71 00:03:44,680 --> 00:03:47,350 Em última análise, cabe-te a ti ficar atento 72 00:03:47,500 --> 00:03:49,450 a estas páginas que não são dignas de confiança, 73 00:03:49,690 --> 00:03:52,990 consultando o endereço web e certificando-te de que é uma fonte fiável. 74 00:03:53,680 --> 00:03:55,390 Os programas de pesquisa estão sempre a evoluir 75 00:03:55,420 --> 00:03:58,420 para melhorar os algoritmos e estes devolverem melhores resultados, 76 00:03:58,540 --> 00:04:00,460 mais rápido do que os dos seus concorrentes. 77 00:04:01,000 --> 00:04:03,100 Os motores de pesquisa actuais utilizam até informação 78 00:04:03,100 --> 00:04:06,820 que não tenhas fornecido explicitamente para te ajudar a reduzir a tua pesquisa. 79 00:04:07,150 --> 00:04:10,120 Por exemplo, se fizeste uma pesquisa sobre parques para cães, 80 00:04:10,120 --> 00:04:14,080 muitos motores de busca dar-te-iam resultados sobre todos os parques de cães nas redondezas, 81 00:04:14,080 --> 00:04:16,260 apesar de não teres inserido a tua localização. 82 00:04:17,800 --> 00:04:20,530 Os motores de pesquisa modernos também compreendem mais 83 00:04:20,530 --> 00:04:22,060 do que apenas as palavras de uma página, 84 00:04:22,300 --> 00:04:26,870 mas também o que elas realmente significam para encontrar o melhor resultado para o que procuras. 85 00:04:27,130 --> 00:04:29,980 Por exemplo, se procurares por corredor rápido, 86 00:04:30,280 --> 00:04:32,300 saberá que estás à procura de um atleta. 87 00:04:32,500 --> 00:04:34,450 Mas se procurares um corredor grande, 88 00:04:34,450 --> 00:04:36,936 encontrarás opções relacionadas com a tua casa. 89 00:04:38,420 --> 00:04:41,910 Para compreender melhor as palavras, utilizamos algo chamado aprendizagem mecânica, 90 00:04:41,910 --> 00:04:43,985 um tipo de inteligência artificial. 91 00:04:43,985 --> 00:04:46,050 Permite pesquisar em algoritmos para pesquisar 92 00:04:46,090 --> 00:04:48,400 não apenas letras ou palavras separadas na página, 93 00:04:48,400 --> 00:04:51,280 mas também compreender o significado subjacente das palavras. 94 00:04:53,690 --> 00:04:55,850 A Internet está a crescer exponencialmente, 95 00:04:56,210 --> 00:04:59,810 mas se nas equipas que concebem os motores de busca fizermos bem o nosso trabalho, 96 00:05:00,080 --> 00:05:04,740 a informação que queres deve estar sempre a apenas algumas teclas de distância.