1
00:00:02,535 --> 00:00:04,962
A Internet: Como funciona a pesquisa
2
00:00:06,070 --> 00:00:07,272
Olá, o meu nome é John.
3
00:00:07,510 --> 00:00:10,421
Lidero as equipas de pesquisa e
machine learning na Google.
4
00:00:12,130 --> 00:00:16,215
Penso que é incrivelmente inspirador
que as pessoas em todo o mundo
5
00:00:16,215 --> 00:00:20,930
recorram aos motores de busca para fazer
perguntas triviais e perguntas incrivelmente importantes.
6
00:00:20,930 --> 00:00:24,830
Por isso, é uma enorme responsabilidade
dar-lhes as melhores respostas que podemos.
7
00:00:26,710 --> 00:00:30,610
Olá, o meu nome é Akshaya e
trabalho na equipa de pesquisa do Bing.
8
00:00:30,910 --> 00:00:33,190
Há muitas vezes onde
vamos começar a procurar
9
00:00:33,190 --> 00:00:35,800
em inteligência artificial
e aprendizagem mecânica,
10
00:00:35,830 --> 00:00:39,010
mas temos de abordar como é que
os utilizadores vão utilizar isto,
11
00:00:39,140 --> 00:00:42,390
porque no final do dia,
queremos ter impacto na sociedade.
12
00:00:43,780 --> 00:00:45,400
Vamos fazer uma pergunta simples.
13
00:00:45,820 --> 00:00:48,070
Quanto tempo demora a viagem a Marte?
14
00:00:49,330 --> 00:00:50,950
De onde vieram estes resultados
15
00:00:51,370 --> 00:00:54,100
e porque é que este foi listado
antes do outro?
16
00:00:55,700 --> 00:00:58,591
Bem, vamos descobrir como
é que o motor de busca transformou
17
00:00:58,591 --> 00:01:00,070
o teu pedido num resultado.
18
00:01:00,450 --> 00:01:03,360
A primeira coisa que precisas de saber
é que quando fazes uma pesquisa,
19
00:01:03,430 --> 00:01:07,990
o motor de pesquisa não está na realidade a ir à
World Wide Web fazer a tua pesquisa em tempo real.
20
00:01:08,140 --> 00:01:14,013
Isto porque há mais de um bilião de páginas web
na internet, com novas páginas a ser criadas a cada minuto.
21
00:01:14,140 --> 00:01:18,611
Então, se o motor de busca tivesse de procurar
em cada site para encontrar o que querias,
22
00:01:18,611 --> 00:01:20,056
isso demoraria uma eternidade.
23
00:01:20,500 --> 00:01:23,568
Para tornar a tua pesquisa mais rápida,
os motores de busca estão sempre
24
00:01:23,568 --> 00:01:28,442
a vasculhar a web para registar as informações
que os possam ajudar em pesquisas posteriores.
25
00:01:28,930 --> 00:01:31,480
Dessa forma, quando se pesquisa
sobre viagens a Marte,
26
00:01:31,480 --> 00:01:33,700
o motor de busca
já tem o que precisa
27
00:01:33,700 --> 00:01:35,728
para te dar uma resposta em tempo real.
28
00:01:36,250 --> 00:01:37,540
Funciona assim…
29
00:01:37,900 --> 00:01:42,010
A Internet é uma teia de páginas
ligadas entre si através de hiperligações.
30
00:01:42,400 --> 00:01:45,671
Os motores de busca estão sempre
a correr um programa — chamado Spider
31
00:01:45,671 --> 00:01:49,050
que vai passando nestas páginas web
para recolher informações sobre elas.
32
00:01:49,780 --> 00:01:51,561
Sempre que encontra uma hiperligação,
33
00:01:52,090 --> 00:01:57,027
segue-a até ter visitado todas as páginas
que é possível encontrar em toda a internet.
34
00:01:57,335 --> 00:02:02,428
A cada página a aranha visita são registadas
todas as informações que possam ser precisas para pesquisa,
35
00:02:02,500 --> 00:02:05,790
adicionando-as a uma base de dados especial
chamada índice de pesquisa.
36
00:02:07,166 --> 00:02:09,530
Agora, voltemos a
essa pesquisa de há pouco
37
00:02:09,590 --> 00:02:11,990
e ver se conseguimos descobrir
como o motor de busca
38
00:02:11,990 --> 00:02:13,333
obteve os resultados.
39
00:02:13,640 --> 00:02:16,460
Quando se pergunta quanto tempo leva
a viajar para Marte,
40
00:02:16,640 --> 00:02:18,860
o motor de pesquisa procura procura
em cada uma dessas palavras
41
00:02:18,920 --> 00:02:21,410
no índice de pesquisa para
obter imediatamente uma lista
42
00:02:21,410 --> 00:02:24,500
de todas as páginas da internet
que contêm essas palavras.
43
00:02:24,690 --> 00:02:28,731
Mas procurar apenas por estes termos de pesquisa
poderia resultar em milhões de páginas devolvidas,
44
00:02:28,760 --> 00:02:31,110
por isso o motor de busca precisa de
conseguir determinar as melhores
45
00:02:31,110 --> 00:02:33,290
correspondências para mostrar primeiro.
46
00:02:33,340 --> 00:02:36,010
É aqui que se torna complicado,
porque o motor de busca
47
00:02:36,010 --> 00:02:38,040
pode precisar de adivinhar o que procuras.
48
00:02:38,930 --> 00:02:41,360
Cada motor de busca
usa o seu próprio algoritmo
49
00:02:41,360 --> 00:02:44,550
para classificar as páginas com base
no que ele pensa que tu queres.
50
00:02:44,930 --> 00:02:47,660
O algoritmo de ranking do
motor de busca pode ver
51
00:02:47,990 --> 00:02:50,503
se o teu termo de pesquisa aparece
no título da página,
52
00:02:50,900 --> 00:02:53,820
pode verificar se todas as palavras de
aparecem umas ao lado das outras,
53
00:02:54,520 --> 00:02:57,020
ou qualquer número de outros cálculos
54
00:02:57,020 --> 00:02:58,610
que a ajudam a determinar melhor
55
00:02:58,670 --> 00:03:01,420
que páginas quererás ou não ver.
56
00:03:02,960 --> 00:03:04,960
O Google inventou o mais famoso algoritmo
57
00:03:04,960 --> 00:03:07,144
para escolher os resultados
mais relevantes de uma pesquisa,
58
00:03:07,144 --> 00:03:11,286
considerando o número de outras páginas web
que se ligam a uma determinada página.
59
00:03:11,830 --> 00:03:15,340
A ideia é que se muitos websites pensarem
que uma página web é interessante,
60
00:03:15,340 --> 00:03:17,243
então é provavelmente a que tu procuras.
61
00:03:18,190 --> 00:03:20,020
A este algoritmo chama-se 'page rank',
62
00:03:20,590 --> 00:03:22,330
não porque classifica as páginas web,
63
00:03:22,570 --> 00:03:25,304
mas porque recebeu o nome
do seu inventor, Larry Page,
64
00:03:25,480 --> 00:03:27,103
que é um dos fundadores do Google.
65
00:03:27,820 --> 00:03:30,680
Uma vez que é comum um site
ganhar dinheiro quando o visitas,
66
00:03:30,820 --> 00:03:32,950
os spammers estão constantemente a
a tentar encontrar formas
67
00:03:32,950 --> 00:03:35,741
para jogar o algoritmo de pesquisa
para que as suas páginas
68
00:03:35,742 --> 00:03:37,931
estão listados mais acima nos resultados.
69
00:03:38,260 --> 00:03:40,750
Os motores de pesquisa atualizam
regularmente os seus algoritmos
70
00:03:40,750 --> 00:03:44,296
para evitar que sites falsos ou não fidedignos
cheguem ao topo.
71
00:03:44,680 --> 00:03:47,350
Em última análise, cabe-te a ti
ficar atento
72
00:03:47,500 --> 00:03:49,450
a estas páginas que não são dignas de confiança,
73
00:03:49,690 --> 00:03:52,990
consultando o endereço web e
certificando-te de que é uma fonte fiável.
74
00:03:53,680 --> 00:03:55,390
Os programas de pesquisa estão sempre a evoluir
75
00:03:55,420 --> 00:03:58,420
para melhorar os algoritmos
e estes devolverem melhores resultados,
76
00:03:58,540 --> 00:04:00,460
mais rápido do que os dos seus concorrentes.
77
00:04:01,000 --> 00:04:03,100
Os motores de pesquisa actuais
utilizam até informação
78
00:04:03,100 --> 00:04:06,820
que não tenhas fornecido explicitamente
para te ajudar a reduzir a tua pesquisa.
79
00:04:07,150 --> 00:04:10,120
Por exemplo, se fizeste uma pesquisa
sobre parques para cães,
80
00:04:10,120 --> 00:04:14,080
muitos motores de busca dar-te-iam resultados
sobre todos os parques de cães nas redondezas,
81
00:04:14,080 --> 00:04:16,260
apesar de não teres inserido
a tua localização.
82
00:04:17,800 --> 00:04:20,530
Os motores de pesquisa modernos
também compreendem mais
83
00:04:20,530 --> 00:04:22,060
do que apenas as palavras de uma página,
84
00:04:22,300 --> 00:04:26,870
mas também o que elas realmente significam
para encontrar o melhor resultado para o que procuras.
85
00:04:27,130 --> 00:04:29,980
Por exemplo, se procurares por
corredor rápido,
86
00:04:30,280 --> 00:04:32,300
saberá que estás
à procura de um atleta.
87
00:04:32,500 --> 00:04:34,450
Mas se procurares um corredor grande,
88
00:04:34,450 --> 00:04:36,936
encontrarás opções
relacionadas com a tua casa.
89
00:04:38,420 --> 00:04:41,910
Para compreender melhor as palavras,
utilizamos algo chamado aprendizagem mecânica,
90
00:04:41,910 --> 00:04:43,985
um tipo de inteligência artificial.
91
00:04:43,985 --> 00:04:46,050
Permite pesquisar em
algoritmos para pesquisar
92
00:04:46,090 --> 00:04:48,400
não apenas letras ou palavras
separadas na página,
93
00:04:48,400 --> 00:04:51,280
mas também compreender
o significado subjacente das palavras.
94
00:04:53,690 --> 00:04:55,850
A Internet está a crescer exponencialmente,
95
00:04:56,210 --> 00:04:59,810
mas se nas equipas que concebem os motores de busca
fizermos bem o nosso trabalho,
96
00:05:00,080 --> 00:05:04,740
a informação que queres deve estar
sempre a apenas algumas teclas de distância.