0:00:02.535,0:00:04.962
A Internet: Como funciona a pesquisa
0:00:06.070,0:00:07.272
Olá, o meu nome é John.
0:00:07.510,0:00:10.421
Lidero as equipas de pesquisa e[br]machine learning na Google.
0:00:12.130,0:00:16.215
Penso que é incrivelmente inspirador[br]que as pessoas em todo o mundo
0:00:16.215,0:00:20.930
recorram aos motores de busca para fazer[br]perguntas triviais e perguntas incrivelmente importantes.
0:00:20.930,0:00:24.830
Por isso, é uma enorme responsabilidade[br]dar-lhes as melhores respostas que podemos.
0:00:26.710,0:00:30.610
Olá, o meu nome é Akshaya e [br]trabalho na equipa de pesquisa do Bing.
0:00:30.910,0:00:33.190
Há muitas vezes onde[br]vamos começar a procurar
0:00:33.190,0:00:35.800
em inteligência artificial[br]e aprendizagem mecânica,
0:00:35.830,0:00:39.010
mas temos de abordar como é que[br]os utilizadores vão utilizar isto,
0:00:39.140,0:00:42.390
porque no final do dia,[br]queremos ter impacto na sociedade.
0:00:43.780,0:00:45.400
Vamos fazer uma pergunta simples.
0:00:45.820,0:00:48.070
Quanto tempo demora a viagem a Marte?
0:00:49.330,0:00:50.950
De onde vieram estes resultados
0:00:51.370,0:00:54.100
e porque é que este foi listado[br]antes do outro?
0:00:55.700,0:00:58.591
Bem, vamos descobrir como[br]é que o motor de busca transformou
0:00:58.591,0:01:00.070
o teu pedido num resultado.
0:01:00.450,0:01:03.360
A primeira coisa que precisas de saber[br]é que quando fazes uma pesquisa,
0:01:03.430,0:01:07.990
o motor de pesquisa não está na realidade a ir à[br]World Wide Web fazer a tua pesquisa em tempo real.
0:01:08.140,0:01:14.013
Isto porque há mais de um bilião de páginas web[br]na internet, com novas páginas a ser criadas a cada minuto.
0:01:14.140,0:01:18.611
Então, se o motor de busca tivesse de procurar[br]em cada site para encontrar o que querias,
0:01:18.611,0:01:20.056
isso demoraria uma eternidade.
0:01:20.500,0:01:23.568
Para tornar a tua pesquisa mais rápida,[br]os motores de busca estão sempre
0:01:23.568,0:01:28.442
a vasculhar a web para registar as informações[br]que os possam ajudar em pesquisas posteriores.
0:01:28.930,0:01:31.480
Dessa forma, quando se pesquisa[br]sobre viagens a Marte,
0:01:31.480,0:01:33.700
o motor de busca[br]já tem o que precisa
0:01:33.700,0:01:35.728
para te dar uma resposta em tempo real.
0:01:36.250,0:01:37.540
Funciona assim…
0:01:37.900,0:01:42.010
A Internet é uma teia de páginas[br]ligadas entre si através de hiperligações.
0:01:42.400,0:01:45.671
Os motores de busca estão sempre[br]a correr um programa — chamado Spider
0:01:45.671,0:01:49.050
que vai passando nestas páginas web[br]para recolher informações sobre elas.
0:01:49.780,0:01:51.561
Sempre que encontra uma hiperligação,
0:01:52.090,0:01:57.027
segue-a até ter visitado todas as páginas[br]que é possível encontrar em toda a internet.
0:01:57.335,0:02:02.428
A cada página a aranha visita são registadas[br]todas as informações que possam ser precisas para pesquisa,
0:02:02.500,0:02:05.790
adicionando-as a uma base de dados especial[br]chamada índice de pesquisa.
0:02:07.166,0:02:09.530
Agora, voltemos a[br]essa pesquisa de há pouco
0:02:09.590,0:02:11.990
e ver se conseguimos descobrir[br]como o motor de busca
0:02:11.990,0:02:13.333
obteve os resultados.
0:02:13.640,0:02:16.460
Quando se pergunta quanto tempo leva[br]a viajar para Marte,
0:02:16.640,0:02:18.860
o motor de pesquisa procura procura[br]em cada uma dessas palavras
0:02:18.920,0:02:21.410
no índice de pesquisa para[br]obter imediatamente uma lista
0:02:21.410,0:02:24.500
de todas as páginas da internet[br]que contêm essas palavras.
0:02:24.690,0:02:28.731
Mas procurar apenas por estes termos de pesquisa[br]poderia resultar em milhões de páginas devolvidas,
0:02:28.760,0:02:31.110
por isso o motor de busca precisa de[br]conseguir determinar as melhores
0:02:31.110,0:02:33.290
correspondências para mostrar primeiro.
0:02:33.340,0:02:36.010
É aqui que se torna complicado,[br]porque o motor de busca
0:02:36.010,0:02:38.040
pode precisar de adivinhar o que procuras.
0:02:38.930,0:02:41.360
Cada motor de busca[br]usa o seu próprio algoritmo
0:02:41.360,0:02:44.550
para classificar as páginas com base[br]no que ele pensa que tu queres.
0:02:44.930,0:02:47.660
O algoritmo de ranking do[br]motor de busca pode ver
0:02:47.990,0:02:50.503
se o teu termo de pesquisa aparece[br]no título da página,
0:02:50.900,0:02:53.820
pode verificar se todas as palavras de[br]aparecem umas ao lado das outras,
0:02:54.520,0:02:57.020
ou qualquer número de outros cálculos
0:02:57.020,0:02:58.610
que a ajudam a determinar melhor
0:02:58.670,0:03:01.420
que páginas quererás ou não ver.
0:03:02.960,0:03:04.960
O Google inventou o mais famoso algoritmo
0:03:04.960,0:03:07.144
para escolher os resultados[br]mais relevantes de uma pesquisa,
0:03:07.144,0:03:11.286
considerando o número de outras páginas web[br]que se ligam a uma determinada página.
0:03:11.830,0:03:15.340
A ideia é que se muitos websites pensarem[br]que uma página web é interessante,
0:03:15.340,0:03:17.243
então é provavelmente a que tu procuras.
0:03:18.190,0:03:20.020
A este algoritmo chama-se 'page rank',
0:03:20.590,0:03:22.330
não porque classifica as páginas web,
0:03:22.570,0:03:25.304
mas porque recebeu o nome[br]do seu inventor, Larry Page,
0:03:25.480,0:03:27.103
que é um dos fundadores do Google.
0:03:27.820,0:03:30.680
Uma vez que é comum um site[br]ganhar dinheiro quando o visitas,
0:03:30.820,0:03:32.950
os spammers estão constantemente a[br]a tentar encontrar formas
0:03:32.950,0:03:35.741
para jogar o algoritmo de pesquisa [br]para que as suas páginas
0:03:35.742,0:03:37.931
estão listados mais acima nos resultados.
0:03:38.260,0:03:40.750
Os motores de pesquisa atualizam[br]regularmente os seus algoritmos
0:03:40.750,0:03:44.296
para evitar que sites falsos ou não fidedignos[br]cheguem ao topo.
0:03:44.680,0:03:47.350
Em última análise, cabe-te a ti [br]ficar atento
0:03:47.500,0:03:49.450
a estas páginas que não são dignas de confiança,
0:03:49.690,0:03:52.990
consultando o endereço web e[br]certificando-te de que é uma fonte fiável.
0:03:53.680,0:03:55.390
Os programas de pesquisa estão sempre a evoluir
0:03:55.420,0:03:58.420
para melhorar os algoritmos [br]e estes devolverem melhores resultados,
0:03:58.540,0:04:00.460
mais rápido do que os dos seus concorrentes.
0:04:01.000,0:04:03.100
Os motores de pesquisa actuais[br]utilizam até informação
0:04:03.100,0:04:06.820
que não tenhas fornecido explicitamente[br]para te ajudar a reduzir a tua pesquisa.
0:04:07.150,0:04:10.120
Por exemplo, se fizeste uma pesquisa[br]sobre parques para cães,
0:04:10.120,0:04:14.080
muitos motores de busca dar-te-iam resultados[br]sobre todos os parques de cães nas redondezas,
0:04:14.080,0:04:16.260
apesar de não teres inserido[br]a tua localização.
0:04:17.800,0:04:20.530
Os motores de pesquisa modernos[br]também compreendem mais
0:04:20.530,0:04:22.060
do que apenas as palavras de uma página,
0:04:22.300,0:04:26.870
mas também o que elas realmente significam[br]para encontrar o melhor resultado para o que procuras.
0:04:27.130,0:04:29.980
Por exemplo, se procurares por [br]corredor rápido,
0:04:30.280,0:04:32.300
saberá que estás[br]à procura de um atleta.
0:04:32.500,0:04:34.450
Mas se procurares um corredor grande,
0:04:34.450,0:04:36.936
encontrarás opções[br]relacionadas com a tua casa.
0:04:38.420,0:04:41.910
Para compreender melhor as palavras, [br]utilizamos algo chamado aprendizagem mecânica,
0:04:41.910,0:04:43.985
um tipo de inteligência artificial.
0:04:43.985,0:04:46.050
Permite pesquisar em[br]algoritmos para pesquisar
0:04:46.090,0:04:48.400
não apenas letras ou palavras[br]separadas na página,
0:04:48.400,0:04:51.280
mas também compreender[br]o significado subjacente das palavras.
0:04:53.690,0:04:55.850
A Internet está a crescer exponencialmente,
0:04:56.210,0:04:59.810
mas se nas equipas que concebem os motores de busca[br]fizermos bem o nosso trabalho,
0:05:00.080,0:05:04.740
a informação que queres deve estar[br]sempre a apenas algumas teclas de distância.