WEBVTT
00:00:02.535 --> 00:00:04.962
A Internet: Como funciona a pesquisa
00:00:06.070 --> 00:00:07.272
Olá, o meu nome é John.
00:00:07.510 --> 00:00:10.421
Lidero as equipas de pesquisa e
machine learning na Google.
00:00:12.130 --> 00:00:16.215
Penso que é incrivelmente inspirador
que as pessoas em todo o mundo
00:00:16.215 --> 00:00:20.930
recorram aos motores de busca para fazer
perguntas triviais e perguntas incrivelmente importantes.
00:00:20.930 --> 00:00:24.830
Por isso, é uma enorme responsabilidade
dar-lhes as melhores respostas que podemos.
00:00:26.710 --> 00:00:30.610
Olá, o meu nome é Akshaya e
trabalho na equipa de pesquisa do Bing.
00:00:30.910 --> 00:00:33.190
Há muitas vezes onde
vamos começar a procurar
00:00:33.190 --> 00:00:35.800
em inteligência artificial
e aprendizagem mecânica,
00:00:35.830 --> 00:00:39.010
mas temos de abordar como é que
os utilizadores vão utilizar isto,
00:00:39.140 --> 00:00:42.390
porque no final do dia,
queremos ter impacto na sociedade.
00:00:43.780 --> 00:00:45.400
Vamos fazer uma pergunta simples.
00:00:45.820 --> 00:00:48.070
Quanto tempo demora a viagem a Marte?
00:00:49.330 --> 00:00:50.950
De onde vieram estes resultados
00:00:51.370 --> 00:00:54.100
e porque é que este foi listado
antes do outro?
00:00:55.700 --> 00:00:58.591
Bem, vamos descobrir como
é que o motor de busca transformou
00:00:58.591 --> 00:01:00.070
o teu pedido num resultado.
00:01:00.450 --> 00:01:03.360
A primeira coisa que precisas de saber
é que quando fazes uma pesquisa,
00:01:03.430 --> 00:01:07.990
o motor de pesquisa não está na realidade a ir à
World Wide Web fazer a tua pesquisa em tempo real.
00:01:08.140 --> 00:01:14.013
Isto porque há mais de um bilião de páginas web
na internet, com novas páginas a ser criadas a cada minuto.
00:01:14.140 --> 00:01:18.611
Então, se o motor de busca tivesse de procurar
em cada site para encontrar o que querias,
00:01:18.611 --> 00:01:20.056
isso demoraria uma eternidade.
00:01:20.500 --> 00:01:23.568
Para tornar a tua pesquisa mais rápida,
os motores de busca estão sempre
00:01:23.568 --> 00:01:28.442
a vasculhar a web para registar as informações
que os possam ajudar em pesquisas posteriores.
00:01:28.930 --> 00:01:31.480
Dessa forma, quando se pesquisa
sobre viagens a Marte,
00:01:31.480 --> 00:01:33.700
o motor de busca
já tem o que precisa
00:01:33.700 --> 00:01:35.728
para te dar uma resposta em tempo real.
00:01:36.250 --> 00:01:37.540
Funciona assim…
00:01:37.900 --> 00:01:42.010
A Internet é uma teia de páginas
ligadas entre si através de hiperligações.
00:01:42.400 --> 00:01:45.671
Os motores de busca estão sempre
a correr um programa — chamado Spider
00:01:45.671 --> 00:01:49.050
que vai passando nestas páginas web
para recolher informações sobre elas.
00:01:49.780 --> 00:01:51.561
Sempre que encontra uma hiperligação,
00:01:52.090 --> 00:01:57.027
segue-a até ter visitado todas as páginas
que é possível encontrar em toda a internet.
00:01:57.335 --> 00:02:02.428
A cada página a aranha visita são registadas
todas as informações que possam ser precisas para pesquisa,
00:02:02.500 --> 00:02:05.790
adicionando-as a uma base de dados especial
chamada índice de pesquisa.
00:02:07.166 --> 00:02:09.530
Agora, voltemos a
essa pesquisa de há pouco
00:02:09.590 --> 00:02:11.990
e ver se conseguimos descobrir
como o motor de busca
00:02:11.990 --> 00:02:13.333
obteve os resultados.
00:02:13.640 --> 00:02:16.460
Quando se pergunta quanto tempo leva
a viajar para Marte,
00:02:16.640 --> 00:02:18.860
o motor de pesquisa procura procura
em cada uma dessas palavras
00:02:18.920 --> 00:02:21.410
no índice de pesquisa para
obter imediatamente uma lista
00:02:21.410 --> 00:02:24.500
de todas as páginas da internet
que contêm essas palavras.
00:02:24.690 --> 00:02:28.731
Mas procurar apenas por estes termos de pesquisa
poderia resultar em milhões de páginas devolvidas,
00:02:28.760 --> 00:02:31.110
por isso o motor de busca precisa de
conseguir determinar as melhores
00:02:31.110 --> 00:02:33.290
correspondências para mostrar primeiro.
00:02:33.340 --> 00:02:36.010
É aqui que se torna complicado,
porque o motor de busca
00:02:36.010 --> 00:02:38.040
pode precisar de adivinhar o que procuras.
00:02:38.930 --> 00:02:41.360
Cada motor de busca
usa o seu próprio algoritmo
00:02:41.360 --> 00:02:44.550
para classificar as páginas com base
no que ele pensa que tu queres.
00:02:44.930 --> 00:02:47.660
O algoritmo de ranking do
motor de busca pode ver
00:02:47.990 --> 00:02:50.503
se o teu termo de pesquisa aparece
no título da página,
00:02:50.900 --> 00:02:53.820
pode verificar se todas as palavras de
aparecem umas ao lado das outras,
00:02:54.520 --> 00:02:57.020
ou qualquer número de outros cálculos
00:02:57.020 --> 00:02:58.610
que a ajudam a determinar melhor
00:02:58.670 --> 00:03:01.420
que páginas quererás ou não ver.
00:03:02.960 --> 00:03:04.960
O Google inventou o mais famoso algoritmo
00:03:04.960 --> 00:03:07.144
para escolher os resultados
mais relevantes de uma pesquisa,
00:03:07.144 --> 00:03:11.286
considerando o número de outras páginas web
que se ligam a uma determinada página.
00:03:11.830 --> 00:03:15.340
A ideia é que se muitos websites pensarem
que uma página web é interessante,
00:03:15.340 --> 00:03:17.243
então é provavelmente a que tu procuras.
00:03:18.190 --> 00:03:20.020
A este algoritmo chama-se 'page rank',
00:03:20.590 --> 00:03:22.330
não porque classifica as páginas web,
00:03:22.570 --> 00:03:25.304
mas porque recebeu o nome
do seu inventor, Larry Page,
00:03:25.480 --> 00:03:27.103
que é um dos fundadores do Google.
00:03:27.820 --> 00:03:30.680
Uma vez que é comum um site
ganhar dinheiro quando o visitas,
00:03:30.820 --> 00:03:32.950
os spammers estão constantemente a
a tentar encontrar formas
00:03:32.950 --> 00:03:35.741
para jogar o algoritmo de pesquisa
para que as suas páginas
00:03:35.742 --> 00:03:37.931
estão listados mais acima nos resultados.
00:03:38.260 --> 00:03:40.750
Os motores de pesquisa atualizam
regularmente os seus algoritmos
00:03:40.750 --> 00:03:44.296
para evitar que sites falsos ou não fidedignos
cheguem ao topo.
00:03:44.680 --> 00:03:47.350
Em última análise, cabe-te a ti
ficar atento
00:03:47.500 --> 00:03:49.450
a estas páginas que não são dignas de confiança,
00:03:49.690 --> 00:03:52.990
consultando o endereço web e
certificando-te de que é uma fonte fiável.
00:03:53.680 --> 00:03:55.390
Os programas de pesquisa estão sempre a evoluir
00:03:55.420 --> 00:03:58.420
para melhorar os algoritmos
e estes devolverem melhores resultados,
00:03:58.540 --> 00:04:00.460
mais rápido do que os dos seus concorrentes.
00:04:01.000 --> 00:04:03.100
Os motores de pesquisa actuais
utilizam até informação
00:04:03.100 --> 00:04:06.820
que não tenhas fornecido explicitamente
para te ajudar a reduzir a tua pesquisa.
00:04:07.150 --> 00:04:10.120
Por exemplo, se fizeste uma pesquisa
sobre parques para cães,
00:04:10.120 --> 00:04:14.080
muitos motores de busca dar-te-iam resultados
sobre todos os parques de cães nas redondezas,
00:04:14.080 --> 00:04:16.260
apesar de não teres inserido
a tua localização.
00:04:17.800 --> 00:04:20.530
Os motores de pesquisa modernos
também compreendem mais
00:04:20.530 --> 00:04:22.060
do que apenas as palavras de uma página,
00:04:22.300 --> 00:04:26.870
mas também o que elas realmente significam
para encontrar o melhor resultado para o que procuras.
00:04:27.130 --> 00:04:29.980
Por exemplo, se procurares por
corredor rápido,
00:04:30.280 --> 00:04:32.300
saberá que estás
à procura de um atleta.
00:04:32.500 --> 00:04:34.450
Mas se procurares um corredor grande,
00:04:34.450 --> 00:04:36.936
encontrarás opções
relacionadas com a tua casa.
00:04:38.420 --> 00:04:41.910
Para compreender melhor as palavras,
utilizamos algo chamado aprendizagem mecânica,
00:04:41.910 --> 00:04:43.985
um tipo de inteligência artificial.
00:04:43.985 --> 00:04:46.050
Permite pesquisar em
algoritmos para pesquisar
00:04:46.090 --> 00:04:48.400
não apenas letras ou palavras
separadas na página,
00:04:48.400 --> 00:04:51.280
mas também compreender
o significado subjacente das palavras.
00:04:53.690 --> 00:04:55.850
A Internet está a crescer exponencialmente,
00:04:56.210 --> 00:04:59.810
mas se nas equipas que concebem os motores de busca
fizermos bem o nosso trabalho,
00:05:00.080 --> 00:05:04.740
a informação que queres deve estar
sempre a apenas algumas teclas de distância.