WEBVTT 00:00:06.070 --> 00:00:07.120 Olá, o meu nome é John. 00:00:07.510 --> 00:00:10.140 Lidero a pesquisa e a máquina equipas de aprendizagem no Google. 00:00:12.130 --> 00:00:14.230 Penso que é incrivelmente inspirador 00:00:14.230 --> 00:00:16.214 que as pessoas em todo o mundo 00:00:16.215 --> 00:00:19.160 recorrer aos motores de busca para fazer perguntas triviais 00:00:19.160 --> 00:00:20.930 e perguntas incrivelmente importantes. 00:00:20.930 --> 00:00:23.450 Por isso, é uma enorme responsabilidade dar-lhes 00:00:23.450 --> 00:00:24.864 as melhores respostas que pudermos. 00:00:26.710 --> 00:00:30.610 Olá, o meu nome é Akshaya e trabalho na equipa de pesquisa do Bing. 00:00:30.910 --> 00:00:33.190 Há muitas vezes onde vamos começar a procurar 00:00:33.190 --> 00:00:35.800 em inteligência artificial e aprendizagem mecânica, 00:00:35.830 --> 00:00:39.010 mas temos de abordar como é que os utilizadores vão utilizar isto, 00:00:39.140 --> 00:00:42.390 porque no final do dia, queremos ter impacto na sociedade. 00:00:43.780 --> 00:00:45.400 Vamos fazer uma pergunta simples. 00:00:45.820 --> 00:00:48.070 Quanto tempo demora a viagem a Marte? 00:00:49.330 --> 00:00:50.950 De onde vieram estes resultados 00:00:51.370 --> 00:00:54.100 e porque é que este foi listado antes do outro? 00:00:55.700 --> 00:00:58.150 Muito bem, vamos mergulhar e ver como o motor de busca 00:00:58.150 --> 00:00:59.860 transformou o seu pedido num resultado. 00:01:00.690 --> 00:01:03.360 A primeira coisa que precisa de saber é quando faz uma pesquisa, 00:01:03.430 --> 00:01:06.480 o motor de pesquisa não está na realidade a sair para a World Wide Web 00:01:06.480 --> 00:01:08.010 para realizar a sua pesquisa em tempo real. 00:01:08.140 --> 00:01:10.610 E isso porque há mais de um bilião de sítios Web 00:01:10.610 --> 00:01:14.140 na Internet e centenas mais estão a ser criadas a cada minuto . 00:01:14.140 --> 00:01:16.210 Assim, se o motor de busca tivesse de procurar através 00:01:16.240 --> 00:01:18.690 cada sítio para encontrar aquele que desejava, 00:01:18.690 --> 00:01:20.120 demoraria apenas uma eternidade. 00:01:20.500 --> 00:01:21.940 Por isso, para tornar a sua pesquisa mais rápida, 00:01:21.970 --> 00:01:24.940 os motores de busca estão constantemente a a digitalizar a web com antecedência 00:01:25.420 --> 00:01:28.560 para registar as informações que possam ajudar na sua pesquisa posterior em . 00:01:28.930 --> 00:01:31.270 Dessa forma, quando se pesquisa sobre viagens a Marte, 00:01:31.630 --> 00:01:33.700 o motor de busca já tem o que precisa 00:01:33.700 --> 00:01:35.728 para lhe dar uma resposta em tempo real. 00:01:36.250 --> 00:01:37.540 Aqui está como funciona. 00:01:37.900 --> 00:01:42.010 A Internet é uma teia de páginas ligadas entre si através de hiperligações. 00:01:42.400 --> 00:01:44.680 Os motores de busca são constantemente a correr um programa 00:01:44.680 --> 00:01:47.380 chamada Aranha que atravessa através destas páginas web 00:01:47.380 --> 00:01:49.040 para recolher informações sobre eles. 00:01:49.780 --> 00:01:51.550 Cada vez que encontra um hyperlink, 00:01:52.090 --> 00:01:55.000 segue-o até que tenha visitado todas as páginas 00:01:55.030 --> 00:01:57.240 que pode encontrar em toda a internet . 00:01:57.335 --> 00:01:59.170 Para cada página a aranha visita, 00:01:59.200 --> 00:02:02.320 regista qualquer informação que possa necessitar para uma pesquisa 00:02:02.500 --> 00:02:05.650 adicionando-a a uma base de dados especial chamada índice de pesquisa. 00:02:07.166 --> 00:02:09.530 Agora, voltemos a essa pesquisa de há pouco 00:02:09.590 --> 00:02:11.990 e ver se conseguimos descobrir como o motor de busca 00:02:11.990 --> 00:02:13.333 obteve os resultados. 00:02:13.640 --> 00:02:16.460 Quando se pergunta quanto tempo leva a viajar para Marte, 00:02:16.640 --> 00:02:18.860 o motor de pesquisa procura procura em cada uma dessas palavras 00:02:18.920 --> 00:02:21.410 no índice de pesquisa para obter imediatamente uma lista 00:02:21.410 --> 00:02:24.500 de todas as páginas da internet que contêm essas palavras. 00:02:24.890 --> 00:02:26.870 Mas basta procurar por estes termos de pesquisa 00:02:26.870 --> 00:02:28.760 poderia devolver milhões de páginas, 00:02:28.760 --> 00:02:31.110 por isso o motor de busca precisa de para poder determinar 00:02:31.110 --> 00:02:33.120 os melhores jogos para lhe mostrar primeiro. 00:02:33.340 --> 00:02:36.010 É aqui que se torna complicado porque o motor de busca 00:02:36.010 --> 00:02:38.040 pode precisar de adivinhar o que procura em . 00:02:38.930 --> 00:02:41.360 Cada motor de busca usa o seu próprio algoritmo 00:02:41.360 --> 00:02:44.230 para classificar as páginas com base em o que pensa que quer. 00:02:44.930 --> 00:02:47.660 O ranking do motor de busca algoritmo pode verificar 00:02:47.990 --> 00:02:50.360 se o seu termo de pesquisa aparecer no título da página, 00:02:50.900 --> 00:02:53.820 pode verificar se todas as palavras de aparecem umas ao lado das outras, 00:02:54.520 --> 00:02:57.020 ou qualquer número de outros cálculos 00:02:57.020 --> 00:02:58.610 que a ajudam a determinar melhor 00:02:58.670 --> 00:03:01.420 que páginas quererá ver em e quais não verá. 00:03:02.960 --> 00:03:04.960 O Google inventou o mais famoso algoritmo 00:03:04.960 --> 00:03:08.530 para escolher os resultados mais relevantes para uma pesquisa, tendo em conta 00:03:08.560 --> 00:03:11.230 quantas outras páginas Web ligaram a uma dada página. 00:03:11.830 --> 00:03:14.140 A ideia é que se muitos websites pensarem 00:03:14.140 --> 00:03:15.660 que uma página web é interessante, 00:03:15.660 --> 00:03:17.940 então é provavelmente aquele que procura. 00:03:18.190 --> 00:03:20.020 A este algoritmo chama-se page rank, 00:03:20.590 --> 00:03:22.330 não porque classifica as páginas web, 00:03:22.570 --> 00:03:25.210 mas porque recebeu o nome de , o seu inventor, Larry Page, 00:03:25.480 --> 00:03:27.333 que é um dos fundadores do Google. 00:03:27.940 --> 00:03:30.520 Porque um sítio web ganha muitas vezes dinheiro quando o visita , 00:03:30.820 --> 00:03:32.950 os spammers estão constantemente a a tentar encontrar formas 00:03:32.950 --> 00:03:35.741 para jogar o algoritmo de pesquisa para que as suas páginas 00:03:35.742 --> 00:03:37.931 estão listados mais acima nos resultados. 00:03:38.260 --> 00:03:40.750 Motores de pesquisa regularmente actualizam os seus algoritmos 00:03:40.750 --> 00:03:44.296 para evitar que sites falsos ou não fidedignos cheguem ao topo. 00:03:44.680 --> 00:03:47.350 Em última análise, cabe-lhe a si ficar de olho 00:03:47.500 --> 00:03:49.450 para estas páginas que não são dignas de confiança 00:03:49.690 --> 00:03:52.990 consultando o endereço web e certificando-se de que é uma fonte fiável. 00:03:53.680 --> 00:03:55.390 Os programas de pesquisa estão sempre a evoluir 00:03:55.420 --> 00:03:58.420 para melhorar os algoritmos a fim de que estes retornem melhores resultados, 00:03:58.540 --> 00:04:00.460 resultados mais rápidos do que os dos seus concorrentes. 00:04:01.000 --> 00:04:03.100 Os motores de pesquisa actuais utilizam até informação 00:04:03.100 --> 00:04:06.820 que não tenha fornecido explicitamente para o ajudar a reduzir a sua pesquisa. 00:04:07.150 --> 00:04:10.120 Assim, por exemplo, se fez uma pesquisa de parques para cães, 00:04:10.240 --> 00:04:12.190 muitos motores de busca dar-lhe-iam resultados 00:04:12.190 --> 00:04:13.840 para todos os parques caninos próximos, 00:04:14.080 --> 00:04:16.260 apesar de não ter digitado na sua localização. 00:04:17.800 --> 00:04:20.530 Os motores de pesquisa modernos também compreendem mais 00:04:20.530 --> 00:04:22.060 do que apenas as palavras de uma página, 00:04:22.300 --> 00:04:24.970 mas o que eles realmente significam para encontrar o melhor 00:04:24.970 --> 00:04:26.750 que corresponda ao que se procura. 00:04:27.130 --> 00:04:29.980 Por exemplo, se procurar em um lançador rápido, 00:04:30.280 --> 00:04:32.300 saberá que está à procura de um atleta. 00:04:32.500 --> 00:04:34.450 Mas se procurar um jarro grande, 00:04:34.450 --> 00:04:36.730 encontrará opções para a sua cozinha. 00:04:38.420 --> 00:04:41.910 Para compreender melhor as palavras, utilizamos algo chamado aprendizagem mecânica, 00:04:41.910 --> 00:04:43.985 um tipo de inteligência artificial. 00:04:43.985 --> 00:04:46.050 Permite pesquisar em algoritmos para pesquisar 00:04:46.090 --> 00:04:48.400 não apenas cartas individuais ou palavras na página, 00:04:48.400 --> 00:04:51.280 mas compreender o significado subjacente das palavras . 00:04:53.690 --> 00:04:55.850 A Internet está a crescer exponencialmente, 00:04:56.210 --> 00:04:59.810 mas se as equipas que concebem os motores de busca fizerem bem o nosso trabalho, 00:05:00.080 --> 00:05:04.090 a informação que deseja deve estar sempre a apenas alguns toques de tecla de .