1 00:00:06,070 --> 00:00:06,595 안녕하세요. 저는 John입니다. 2 00:00:06,595 --> 00:00:06,660 저는 구글에서 검색 및 머신 러닝팀을 이끌고 있습니다. 3 00:00:06,660 --> 00:00:06,693 저는 전세계의 모든 사람들이 4 00:00:06,693 --> 00:00:06,709 소소한 질문부터 5 00:00:06,709 --> 00:00:06,726 매우 중요한 문제까지 답을 찾기 위해 검색 엔진을 켜는 것이 6 00:00:06,726 --> 00:00:06,791 놀랍도록 고무적인 일이라 생각합니다. 7 00:00:06,791 --> 00:00:06,857 그래서 우리는 큰 책임감을 갖고 8 00:00:06,857 --> 00:00:07,120 가능한 한 최선의 답을 제공하고자 합니다. 9 00:00:07,510 --> 00:00:08,825 안녕하세요. 제 이름은 Akshaya이고 Bing 검색팀에서 일하고 있습니다. 10 00:00:08,825 --> 00:00:09,482 우리는 수 차례에 걸쳐 인공지능과 머신러닝 11 00:00:09,482 --> 00:00:10,140 조사를 시작할 수 있었지만 12 00:00:12,130 --> 00:00:14,230 결국 가장 중요한 것은 우리가 사회에 영향을 주길 원했기 때문에 13 00:00:14,230 --> 00:00:15,222 사용자가 이를 어떻게 이용할지에 관해 답을 찾아야 합니다. 14 00:00:15,222 --> 00:00:15,718 간단한 질문을 하나를 해보죠. 15 00:00:15,718 --> 00:00:15,842 화성까지 가는 데 얼마나 걸릴까요? 16 00:00:15,842 --> 00:00:15,904 검색결과가 어디에서 나왔으며, 17 00:00:15,904 --> 00:00:15,919 다른 결과 보다 이것들이 먼저 나열된 이유가 무엇일까요? 18 00:00:15,919 --> 00:00:15,923 좋아요, 검색 엔진이 요청을 결과로 어떻게 바꿔놓는지 19 00:00:15,923 --> 00:00:15,925 한번 살펴볼까요. 20 00:00:15,925 --> 00:00:15,926 먼저 알아야 할 것은 검색을 언제 하는가 입니다. 21 00:00:15,926 --> 00:00:15,926 사실 검색엔진은 실시간 검색을 위해 22 00:00:15,926 --> 00:00:15,926 월드와이드웹으로 나가지 않습니다. 23 00:00:15,926 --> 00:00:15,926 인터넷에는 수 십억개 이상의 웹사이트가 있고 24 00:00:15,926 --> 00:00:15,926 매 일분마다 수 백개 이상이 새로 만들어지기 때문입니다. 25 00:00:15,926 --> 00:00:15,926 그래서 검색엔진이 사용자가 원하는 것을 찾고자 26 00:00:15,926 --> 00:00:15,926 각 사이트 하나 하나를 조사하는 일이 어려우면, 27 00:00:15,926 --> 00:00:15,927 그냥 한없이 시간을 끌게 될 것입니다. 28 00:00:15,927 --> 00:00:15,931 그래서 더 빠르게 검색하기 위해, 29 00:00:15,931 --> 00:00:15,935 검색엔진은 미리 웹을 계속해서 스캐닝하여 30 00:00:15,935 --> 00:00:15,950 나중의 검색에 도움이 될만한 정보를 기록합니다. 31 00:00:15,950 --> 00:00:15,966 이런 식으로, 화성까지의 여행에 관한 검색을 할 때, 32 00:00:15,966 --> 00:00:16,214 검색엔진은 이미 실시간 으로 답을 주기위해 필요한 33 00:00:16,215 --> 00:00:19,160 내용을 갖게 됩니다. 34 00:00:19,160 --> 00:00:20,930 어떤식으로 이루어지는지 볼까요. 35 00:00:20,930 --> 00:00:23,450 인터넷은 하이퍼링크에 의해 서로 연결된 페이지들의 웹(거미줄)입니다. 36 00:00:23,450 --> 00:00:24,864 검색엔진은 이러한 웹 페이지를 서로 이어주는 37 00:00:26,710 --> 00:00:30,610 스파이더라고 불리는 프로그램을 계속해서 실행하여 38 00:00:30,910 --> 00:00:33,190 그것들에 관한 정보를 수집합니다. 39 00:00:33,190 --> 00:00:35,800 하이퍼링크를 찾을 때마다 40 00:00:35,830 --> 00:00:39,010 전체 인터넷 상에서 그것이 찾을 수 있는 41 00:00:39,140 --> 00:00:42,390 모든 페이지를 방문할 때까지 그것을 따라갑니다. 42 00:00:43,780 --> 00:00:45,400 스파이더가 방문하는 각 페이지마다 43 00:00:45,820 --> 00:00:48,070 검색 인덱스라고 부르는 특수 데이터베이스를 추가함으로써 44 00:00:49,330 --> 00:00:50,950 검색에 필요한 정보를 기록합니다. 45 00:00:51,370 --> 00:00:54,100 이제, 더 이전의 검색으로 되돌아 가서 46 00:00:55,700 --> 00:00:58,150 검색엔진이 검색결과를 어떻게 생성하는지 47 00:00:58,150 --> 00:00:59,860 살펴보도록 할까요. 48 00:01:00,690 --> 00:01:03,360 화성까지 가는데 어느 정도 걸리는지 물어볼 때, 49 00:01:03,430 --> 00:01:06,480 검색엔진은 검색인덱스에 타이핑된 단어 하나 하나를 50 00:01:06,480 --> 00:01:08,010 보고 그 단어가 들어 있는 인터넷 상의 모든 페이지 51 00:01:08,140 --> 00:01:10,610 목록을 즉시 가져옵니다. 52 00:01:10,610 --> 00:01:14,140 하지만 검색 용어만을 기준으로 하면 53 00:01:14,140 --> 00:01:16,210 수 백개의 페이지가 나열될 수 있습니다. 54 00:01:16,240 --> 00:01:18,690 그래서, 검색엔진은 맨 처음 표시할 요청에 가장 잘 일치하는 결과를 55 00:01:18,690 --> 00:01:20,120 결정할 수 있어야 합니다. 56 00:01:20,500 --> 00:01:21,940 이러한 결정은 검색엔진이 사용자가 무엇을 찾고 있는지 57 00:01:21,970 --> 00:01:24,940 추축해야 하기 때문에 힘들 수 있습니다. 58 00:01:25,420 --> 00:01:28,560 각 검색엔진은 각자 자체 알고리듬을 사용하여 59 00:01:28,930 --> 00:01:31,270 사용자가 원한다고 생각하는 바에 기초하여 페이지 순위를 정합니다. 60 00:01:31,630 --> 00:01:33,700 검색엔진의 순위 알고리즘은 사용자의 검색용어가 61 00:01:33,700 --> 00:01:35,728 페이지 타이틀에 들어 있는지 확인할 것입니다. 62 00:01:36,250 --> 00:01:37,540 검색엔진은 단어 모두가 옆에 나란히 나와 있는지 확인하거나 63 00:01:37,900 --> 00:01:42,010 또는 사용자가 보길 원하는 페이지와 그렇지 않을 64 00:01:42,400 --> 00:01:44,680 페이지를 결정하는데 더 도움이 65 00:01:44,680 --> 00:01:47,380 많은 수의 계산식을 확인할 것입니다. 66 00:01:47,380 --> 00:01:49,040 구글은 어느 한 주어진 페이지에 몇 개의 다른 웹 페이지가 67 00:01:49,780 --> 00:01:51,550 연결되었는지를 고려함으로써 검색과의 관련성이 가장 큰 68 00:01:52,090 --> 00:01:55,000 결과를 선택하기 위한 가장 유명한 알고리즘을 발명했습니다. 69 00:01:55,030 --> 00:01:57,240 이 알고리즘은 많은 웹사이트가 어느 한 웹페이지가 70 00:01:57,335 --> 00:01:59,170 흥미롭다고 생각하면, 71 00:01:59,200 --> 00:02:00,760 그 웹페이지가 사용자가 찾고 있는 것이라는 생각에 바탕을 둡니다. 72 00:02:00,760 --> 00:02:02,320 이 알고리즘은 웹페이지를 73 00:02:02,500 --> 00:02:05,650 평가하기 때문이 아니라 이 알고리즘의 74 00:02:07,166 --> 00:02:09,530 발명자이자 구글 창립자 중 한명인 Larry Page 이름을 따서 75 00:02:09,590 --> 00:02:11,990 페이지 랭크라 부릅니다. 76 00:02:11,990 --> 00:02:13,333 웹사이트는 사용자가 그 사이트를 방문할 때 수익을 창출하기 때문에 77 00:02:13,640 --> 00:02:15,050 스패머는 검색 알고리즘을 교란하여 78 00:02:15,050 --> 00:02:16,460 그들 페이지가 결과 목록에서 상위에 표시되게 하는 방법을 79 00:02:16,640 --> 00:02:18,860 계속해서 찾고 있습니다. 80 00:02:18,920 --> 00:02:21,410 검색엔진은 정기적으로 알고리즘을 업데이트하여 81 00:02:21,410 --> 00:02:24,500 가짜 또는 신뢰할 수 없는 사이트가 상위에 표시되는 걸 방지합니다. 82 00:02:24,890 --> 00:02:26,870 궁극적으로, 웹 주소를 잘 살피고 신뢰할 수 있는 출처인지 83 00:02:26,870 --> 00:02:28,760 확인함으로써 신뢰할 수 없는 페이지를 84 00:02:28,760 --> 00:02:31,110 계속해서 분별해 내는 일은 사용자의 능력에 의해 좌우됩니다. 85 00:02:31,110 --> 00:02:33,120 검색 프로그램은 항상 진화하여 86 00:02:33,340 --> 00:02:34,675 경쟁자보다 더 나은 결과를 더 빠르게 가져오는 알고리즘 87 00:02:34,675 --> 00:02:36,010 으로 개선됩니다. 88 00:02:36,010 --> 00:02:38,040 오늘날의 검색엔진은 심지어 명쾌하게 제공되지 않은 89 00:02:38,930 --> 00:02:41,360 정보를 사용하여 검색 범위를 좁혀나갈 수 있게 합니다. 90 00:02:41,360 --> 00:02:44,230 그래서, 예를 들어, 강아지 공원을 검색한다면, 91 00:02:44,930 --> 00:02:46,295 현재 위치를 입력하지 않아도 많은 검색 엔진이 92 00:02:46,295 --> 00:02:47,660 근처에 있는 모든 강아지 공원 93 00:02:47,990 --> 00:02:50,360 애 관한 검색 결과를 제공할 것입니다. 94 00:02:50,900 --> 00:02:53,820 현대 검색엔진 역시 사용자가 찾고 있는 것과 95 00:02:54,520 --> 00:02:57,020 가장 잘 일치하는 결과를 찾기 위해 96 00:02:57,020 --> 00:02:57,815 페이지 상의 단어만이 아닌 그것이 실제로 의미하는 바를 97 00:02:57,815 --> 00:02:58,610 이해합니다. 98 00:02:58,670 --> 00:03:00,045 예를 들어, 사용자가 빠른 투수를 검색하면 99 00:03:00,045 --> 00:03:01,420 검색엔진은 사용자가 운동선수를 찾고 있음을 알것입니다. 100 00:03:02,960 --> 00:03:04,960 하지만, 큰 피처를 검색하면 101 00:03:04,960 --> 00:03:08,530 검색엔진은 부엌용품을 찾을 것입니다. 102 00:03:08,560 --> 00:03:11,230 단어를 더 잘 이해하기 위해, 우리는 인공지능의 한 유형인 103 00:03:11,830 --> 00:03:14,140 머신 러닝이라 부르는 것을 사용합니다. 104 00:03:14,140 --> 00:03:15,660 이것은 검색 알고리즘에게 105 00:03:15,660 --> 00:03:17,940 단순히 페이지 상의 개별 문자 또는 단어만이 아닌 106 00:03:18,190 --> 00:03:20,020 그러한 단어 밑에 있는 의미를 찾아내게 합니다. 107 00:03:20,590 --> 00:03:22,330 인터넷은 기하급수적으로 성장하고 있습니다. 108 00:03:22,570 --> 00:03:25,210 하지만 검색엔진을 설계하는 팀이 우리의 일을 제대로 잘하면, 109 00:03:25,480 --> 00:03:27,333 사용자는 항상 원하는 정보를 단지 몇 번의 키보드 입력으로 얻을 수 있어야 합니다. 110 00:03:27,940 --> 00:03:30,520 111 00:03:30,820 --> 00:03:32,950 112 00:03:32,950 --> 00:03:35,741 113 00:03:35,742 --> 00:03:37,931 114 00:03:38,260 --> 00:03:40,750 115 00:03:40,750 --> 00:03:44,296 116 00:03:44,680 --> 00:03:47,350 117 00:03:47,500 --> 00:03:49,450 118 00:03:49,690 --> 00:03:52,990 119 00:03:53,680 --> 00:03:55,390 120 00:03:55,420 --> 00:03:58,420 121 00:03:58,540 --> 00:04:00,460 122 00:04:01,000 --> 00:04:03,100 123 00:04:03,100 --> 00:04:06,820 124 00:04:07,150 --> 00:04:10,120 125 00:04:10,240 --> 00:04:12,190 126 00:04:12,190 --> 00:04:13,840 127 00:04:14,080 --> 00:04:16,260 128 00:04:17,800 --> 00:04:20,530 129 00:04:20,530 --> 00:04:22,060 130 00:04:22,300 --> 00:04:24,970 131 00:04:24,970 --> 00:04:26,750 132 00:04:27,130 --> 00:04:29,980 133 00:04:30,280 --> 00:04:32,300 134 00:04:32,500 --> 00:04:34,450 135 00:04:34,450 --> 00:04:36,730 136 00:04:38,420 --> 00:04:41,910 137 00:04:41,910 --> 00:04:43,985 138 00:04:43,985 --> 00:04:46,050 139 00:04:46,090 --> 00:04:48,400 140 00:04:48,400 --> 00:04:51,280 141 00:04:53,690 --> 00:04:55,850 142 00:04:56,210 --> 00:04:59,810 143 00:05:00,080 --> 00:05:04,090