WEBVTT

00:00:06.070 --> 00:00:07.120
안녕하세요. 저는 John입니다.

00:00:07.510 --> 00:00:10.140
저는 구글에서 검색 및 
머신 러닝팀을 이끌고 있습니다.

00:00:12.130 --> 00:00:15.160
저는 전세계의 모든 사람들이

00:00:15.160 --> 00:00:17.944
소소한 질문부터

00:00:17.944 --> 00:00:20.480
매우 중요한 문제까지 
답을 찾기 위해 검색 엔진을 켜는 것이

00:00:20.480 --> 00:00:22.630
놀랍도록 고무적인 일이라 생각합니다.

00:00:22.630 --> 00:00:24.620
그래서 우리는 큰 책임감을 갖고

00:00:24.620 --> 00:00:26.694
가능한 한 최선의 답을 제공하고자 합니다.

00:00:26.710 --> 00:00:30.610
안녕하세요. 제 이름은 Akshaya이고 
Bing 검색팀에서 일하고 있습니다.

00:00:30.910 --> 00:00:33.190
우리는 수 차례에 걸쳐
인공지능과 머신러닝

00:00:33.190 --> 00:00:35.800
조사를 시작할 수 있었지만

00:00:35.830 --> 00:00:39.010
결국 가장 중요한 것은 
우리가 사회에 영향을 주길 원했기 때문에

00:00:39.140 --> 00:00:42.390
사용자가 이를 어떻게 이용할지에 관해
답을 찾아야 합니다.

00:00:43.780 --> 00:00:45.400
간단한 질문을 하나를 해보죠.

00:00:45.820 --> 00:00:48.070
화성까지 가는 데 얼마나 걸릴까요?

00:00:49.330 --> 00:00:50.950
검색결과가 어디에서 나왔으며,

00:00:51.370 --> 00:00:54.100
다른 결과 보다 이것들이 
먼저 나열된 이유가 무엇일까요?

00:00:55.700 --> 00:00:58.150
좋아요, 검색 엔진이
요청을 결과로 어떻게 바꿔놓는지

00:00:58.150 --> 00:00:59.860
한번 살펴볼까요.

00:01:00.690 --> 00:01:03.360
먼저 알아야 할 것은
검색을 언제 하는가 입니다.

00:01:03.430 --> 00:01:06.480
사실 검색엔진은 실시간 
검색을 위해

00:01:06.480 --> 00:01:08.010
월드와이드웹으로 나가지 않습니다.

00:01:08.140 --> 00:01:10.610
인터넷에는 수 십억개 이상의
웹사이트가 있고

00:01:10.610 --> 00:01:14.140
매 일분마다 수 백개 이상이
새로 만들어지기 때문입니다.

00:01:14.140 --> 00:01:16.210
그래서 검색엔진이 
사용자가 원하는 것을 찾고자

00:01:16.240 --> 00:01:18.690
각 사이트 하나 하나를
조사하는 일이 어려우면,

00:01:18.690 --> 00:01:20.120
그냥 한없이 시간을 끌게 될 것입니다.

00:01:20.500 --> 00:01:21.940
그래서 더 빠르게 검색하기 위해,

00:01:21.970 --> 00:01:24.940
검색엔진은 미리 웹을
계속해서 스캐닝하여

00:01:25.420 --> 00:01:28.560
나중의 검색에 도움이 될만한
정보를 기록합니다.

00:01:28.930 --> 00:01:31.270
이런 식으로, 화성까지의 
여행에 관한 검색을 할 때,

00:01:31.630 --> 00:01:33.700
검색엔진은 이미 실시간
으로 답을 주기위해 필요한

00:01:33.700 --> 00:01:35.728
내용을 갖게 됩니다.

00:01:36.250 --> 00:01:37.540
어떤식으로 이루어지는지 볼까요.

00:01:37.900 --> 00:01:42.010
인터넷은 하이퍼링크에 의해
서로 연결된 페이지들의 웹(거미줄)입니다.

00:01:42.400 --> 00:01:44.680
검색엔진은 이러한 웹 페이지를
서로 이어주는

00:01:44.680 --> 00:01:47.380
스파이더라고 불리는 프로그램을
계속해서 실행하여

00:01:47.380 --> 00:01:49.040
그것들에 관한 정보를 수집합니다.

00:01:49.780 --> 00:01:51.550
하이퍼링크를 찾을 때마다

00:01:52.090 --> 00:01:55.000
전체 인터넷 상에서
그것이 찾을 수 있는

00:01:55.030 --> 00:01:57.240
모든 페이지를 방문할 때까지
그것을 따라갑니다.

00:01:57.335 --> 00:01:59.170
스파이더가 방문하는 각 페이지마다

00:01:59.200 --> 00:02:02.320
검색 인덱스라고 부르는 특수
데이터베이스를 추가함으로써

00:02:02.500 --> 00:02:05.650
검색에 필요한
정보를 기록합니다.

00:02:07.166 --> 00:02:09.530
이제, 더 이전의 검색으로
되돌아 가서

00:02:09.590 --> 00:02:11.990
검색엔진이 검색결과를
어떻게 생성하는지

00:02:11.990 --> 00:02:13.333
살펴보도록 할까요.

00:02:13.640 --> 00:02:16.460
화성까지 가는데 어느 정도
걸리는지 물어볼 때,

00:02:16.640 --> 00:02:18.860
검색엔진은 검색인덱스에
타이핑된 단어 하나 하나를

00:02:18.920 --> 00:02:21.410
보고 그 단어가 들어 있는 
인터넷 상의 모든 페이지

00:02:21.410 --> 00:02:24.500
목록을 즉시
가져옵니다.

00:02:24.890 --> 00:02:26.870
하지만 검색 용어만을 기준으로 하면

00:02:26.870 --> 00:02:28.760
수 백만개의 페이지가 나열될 수 있습니다.

00:02:28.760 --> 00:02:31.110
그래서, 검색엔진은 맨 처음 표시할
요청에 가장 잘 일치하는 결과를

00:02:31.110 --> 00:02:33.120
결정할 수 있어야 합니다.

00:02:33.340 --> 00:02:36.010
이러한 결정은 검색엔진이
사용자가 무엇을 찾고 있는지

00:02:36.010 --> 00:02:38.040
추축해야 하기 때문에
힘들 수 있습니다.

00:02:38.930 --> 00:02:41.360
각 검색엔진은 각자
자체 알고리즘을 사용하여

00:02:41.360 --> 00:02:44.230
사용자가 원한다고 생각하는 바에
기초하여 페이지 순위를 정합니다.

00:02:44.930 --> 00:02:47.660
검색엔진의 순위 알고리즘은
사용자의 검색용어가

00:02:47.990 --> 00:02:50.360
페이지 타이틀에 들어 있는지
확인할 것입니다.

00:02:50.900 --> 00:02:53.820
검색엔진은 단어 모두가 옆에 나란히
표시되어 있는지 확인하거나

00:02:54.520 --> 00:02:57.020
또는 사용자가 보길 원하는 페이지와 그렇지 않을

00:02:57.020 --> 00:02:58.610
페이지를 결정하는데 더 도움이 될

00:02:58.670 --> 00:03:01.420
다른 계산을 
확인할 것입니다.

00:03:02.960 --> 00:03:04.960
구글은 어느 한 주어진 페이지에
몇 개의 다른 웹 페이지가

00:03:04.960 --> 00:03:08.530
연결되었는지를 고려함으로써
검색과의 관련성이 가장 큰

00:03:08.560 --> 00:03:11.230
결과를 선택하기 위한 가장 유명한
알고리즘을 발명했습니다.

00:03:11.830 --> 00:03:14.140
이 알고리즘은 많은
웹사이트가 어느 한 웹페이지가

00:03:14.140 --> 00:03:15.660
흥미롭다고 생각하면,

00:03:15.660 --> 00:03:17.940
그 웹페이지가 사용자가 찾고 있는
것이라는 생각에 바탕을 둡니다.

00:03:18.190 --> 00:03:20.020
이 알고리즘을 페이지 랭크라고 부르는데

00:03:20.590 --> 00:03:22.330
이것은 웹 페이지를 평가한다는 의미가 아니라

00:03:22.570 --> 00:03:25.210
이 알고리즘의 발명자이자 구글 창립자 중 한명인
래리 페이지의 이름을 따서

00:03:25.480 --> 00:03:27.333
페이지 랭크라 부르는 것입니다.

00:03:27.940 --> 00:03:30.520
웹사이트는 사용자가 그 사이트를
방문할 때 수익을 창출하기 때문에

00:03:30.820 --> 00:03:32.950
스패머는 검색 알고리즘을
교란하여

00:03:32.950 --> 00:03:35.741
그들 페이지가 결과 목록에서 
상위에 표시되게 하는 방법을

00:03:35.742 --> 00:03:37.931
계속해서 찾고 있습니다.

00:03:38.260 --> 00:03:40.750
검색엔진은 정기적으로
알고리즘을 업데이트하여

00:03:40.750 --> 00:03:44.296
가짜 또는 신뢰할 수 없는 사이트가
상위에 표시되는 걸 방지합니다.

00:03:44.680 --> 00:03:47.350
궁극적으로, 웹 주소를 잘 살피고
신뢰할 수 있는 출처인지

00:03:47.500 --> 00:03:49.450
확인함으로써 신뢰할 수 없는 페이지를

00:03:49.690 --> 00:03:52.990
계속해서 분별해 내는 일은
사용자의 능력에 의해 좌우됩니다.

00:03:53.680 --> 00:03:55.390
검색 프로그램은 항상 진화하여

00:03:55.420 --> 00:03:58.420
경쟁자보다 더 나은 결과를 
더 빠르게 보여주도록

00:03:58.540 --> 00:04:00.460
알고리즘을 개선합니다.

00:04:01.000 --> 00:04:03.100
오늘날의 검색엔진은
심지어 명쾌하게 제공되지 않은

00:04:03.100 --> 00:04:06.820
정보를 사용하여 검색 범위를 
좁혀나갈 수 있게 합니다.

00:04:07.150 --> 00:04:10.120
그래서, 예를 들어,
강아지 공원을 검색한다면,

00:04:10.240 --> 00:04:12.190
현재 위치를 입력하지 않아도
많은 검색 엔진이

00:04:12.190 --> 00:04:13.840
근처에 있는

00:04:14.080 --> 00:04:16.260
모든 강아지 공원에 관한 검색 결과를 
제공할 것입니다.

00:04:17.800 --> 00:04:20.530
현대 검색엔진 역시
사용자가 찾고 있는 것과

00:04:20.530 --> 00:04:22.060
가장 잘 일치하는 결과를 찾기 위해

00:04:22.300 --> 00:04:24.970
페이지 상의 단어만이 아닌
그것이 실제로 의미하는 바를

00:04:24.970 --> 00:04:26.750
이해합니다.

00:04:27.130 --> 00:04:29.980
예를 들어, 사용자가
빠른 투수를 검색하면

00:04:30.280 --> 00:04:32.300
검색엔진은 사용자가 운동선수를 
찾고 있음을 알것입니다.

00:04:32.500 --> 00:04:34.450
하지만, 큰 피처를 검색하면

00:04:34.450 --> 00:04:36.730
검색엔진은 주방용품을
찾을 것입니다.

00:04:38.420 --> 00:04:41.910
단어를 더 잘 이해하기 위해,
우리는 인공지능의 한 유형인

00:04:41.910 --> 00:04:43.985
머신 러닝이라 부르는 것을 사용합니다.

00:04:43.985 --> 00:04:46.050
이것은 검색 
알고리즘에게

00:04:46.090 --> 00:04:48.400
단순히 페이지 상의 개별 문자
또는 단어만이 아닌

00:04:48.400 --> 00:04:51.280
그러한 단어에 숨겨진 의미를 
찾아내게 합니다.

00:04:53.690 --> 00:04:55.850
인터넷은 기하급수적으로 성장하고 있습니다.

00:04:56.210 --> 00:04:59.810
하지만 검색엔진을 설계하는 팀이 
우리의 일을 제대로 잘하면,

00:05:00.080 --> 00:05:04.090
사용자는 항상 원하는 정보를 단지 
몇 번의 키보드 입력으로 얻을 수 있어야 합니다.