1
00:00:00,800 --> 00:00:03,924
저는 구글에서 기계지능팀을
이끌고 있습니다.

2
00:00:03,948 --> 00:00:08,598
다르게 표현하면, 컴퓨터와 장치를
공학적으로 훈련시켜

3
00:00:08,622 --> 00:00:11,041
뇌가 하는 일을 할 수 있게 합니다.

4
00:00:11,439 --> 00:00:14,538
그리고 이 일을 하면서
저희는 실제 뇌와 신경과학에

5
00:00:14,562 --> 00:00:15,851
관심을 두게 되었습니다.

6
00:00:15,875 --> 00:00:20,047
특히 관심 있는 부분은
우리의 뇌가 하는 일 중에

7
00:00:20,071 --> 00:00:24,113
아직 컴퓨터보다 훨씬 뛰어난
부분에 대한 것입니다.

8
00:00:25,209 --> 00:00:28,818
역사적으로 이런 부분 중에 하나로
인식이 언급돼 왔습니다.

9
00:00:28,842 --> 00:00:31,881
세상에 존재하는

10
00:00:31,905 --> 00:00:33,489
소리나 이미지를 과정을 통해

11
00:00:33,513 --> 00:00:35,691
마음속에 개념화시키는 것입니다.

12
00:00:36,235 --> 00:00:38,752
이것은 우리 뇌에 필수적인 기능이고

13
00:00:38,776 --> 00:00:41,240
컴퓨터에도 꽤 유용합니다.

14
00:00:41,636 --> 00:00:44,986
기계 인식 알고리즘의 예로
저희 팀에서 한 일은

15
00:00:45,010 --> 00:00:48,884
구글 포토스에 올린 사진을
뭐가 찍혔냐에 따라

16
00:00:48,908 --> 00:00:50,305
검색이 가능하게 한 것이죠.

17
00:00:51,594 --> 00:00:55,087
인식의 반대말은 창의성입니다.

18
00:00:55,111 --> 00:00:58,149
개념을 세상에 존재하는 것으로
바꾸는 것입니다.

19
00:00:58,173 --> 00:01:01,728
지난 몇 년 동안 기계 인식에 대해
저희가 해온 일들은

20
00:01:01,752 --> 00:01:06,611
뜻밖에도 기계의 창의력과 기계 예술을

21
00:01:06,635 --> 00:01:07,795
연결했습니다.

22
00:01:08,556 --> 00:01:11,840
저는 미켈란젤로가
인식과 창의성 간의

23
00:01:11,864 --> 00:01:15,520
이중 관계를 꿰뚫어 
보았다고 생각합니다.

24
00:01:16,023 --> 00:01:18,029
이것은 그의 유명한 인용구입니다.

25
00:01:18,053 --> 00:01:21,376
"모든 돌덩이는 그 안에 
조각상을 가지고 있고

26
00:01:22,036 --> 00:01:25,038
그것을 발견하는 것이 
조각가의 과업이다."

27
00:01:26,029 --> 00:01:29,245
그래서 저는 미켈란젤로의 생각은

28
00:01:29,269 --> 00:01:32,449
우리는 인식하는 것으로 창조하고

29
00:01:32,473 --> 00:01:35,496
그 인식 자체가 상상하는 행위이며

30
00:01:35,520 --> 00:01:37,981
창의성이라 여깁니다.

31
00:01:38,691 --> 00:01:42,616
생각하고 인식하고 상상하는 기관은

32
00:01:42,640 --> 00:01:44,228
물론 뇌입니다.

33
00:01:45,089 --> 00:01:47,634
그리고 저는 간략하게 
뇌에 대한 연구의

34
00:01:47,658 --> 00:01:49,960
역사에 대해서 이야기하고 싶습니다.

35
00:01:50,496 --> 00:01:52,942
왜냐하면 심장이나 장과 달리

36
00:01:52,966 --> 00:01:56,110
보기만 해선 뇌에 대해
이야기할 게 없기 때문입니다.

37
00:01:56,134 --> 00:01:57,546
겉으로 보기에 말이죠.

38
00:01:57,983 --> 00:02:00,399
초기 해부학자들은 뇌를 보고

39
00:02:00,423 --> 00:02:04,230
표면상의 구조에 온갖 기발한 
이름을 붙였습니다.

40
00:02:04,254 --> 00:02:06,687
해마같이 말이죠,
뜻은 "작은 새우"입니다.

41
00:02:06,711 --> 00:02:09,475
하지만 물론 이런 이름들이 
실제로 무슨일을 하는지

42
00:02:09,499 --> 00:02:11,817
말해 주지는 않습니다.

43
00:02:12,780 --> 00:02:16,393
제 생각에 최초로 뇌에서 
무슨 일이 일어나는지에 대해

44
00:02:16,417 --> 00:02:18,347
큰 공헌을 한 사람은

45
00:02:18,371 --> 00:02:22,291
스페인의 위대한 신경 해부학자인
산티아고 라몬 이 카할입니다.

46
00:02:22,315 --> 00:02:23,859
19세기에

47
00:02:23,883 --> 00:02:27,638
현미경 관찰과 특수한 착색을 이용해

48
00:02:27,662 --> 00:02:31,832
선택적으로 각각의 뇌세포를 채우거나

49
00:02:31,856 --> 00:02:33,864
높은 대비를 만들어 내

50
00:02:33,888 --> 00:02:37,042
형태학적인 이해를 
할 수 있게 한 사람입니다.

51
00:02:37,972 --> 00:02:40,863
이것들은 그가 신경 세포로 
만든 그림들입니다.

52
00:02:40,887 --> 00:02:42,096
19세기에 말이죠.

53
00:02:42,120 --> 00:02:44,004
이것은 새의 뇌 그림입니다.

54
00:02:44,028 --> 00:02:47,085
그리고 굉장히 다양한 
세포를 볼 수 있습니다.

55
00:02:47,109 --> 00:02:50,544
심지어 세포이론도 알려진 지 
얼마 안 된 때였습니다.

56
00:02:50,568 --> 00:02:51,846
그리고 이 구조는

57
00:02:51,870 --> 00:02:54,129
수지상부를 가지고 있는 세포들의

58
00:02:54,153 --> 00:02:56,761
가지는 아주 멀리까지 
뻗을 수 있는데

59
00:02:56,785 --> 00:02:58,401
당시 매우 새로웠습니다.

60
00:02:58,779 --> 00:03:01,682
이 구조는 전선을 연상시킵니다.

61
00:03:01,706 --> 00:03:05,163
전선과 전기의 혁명이 일어나던 
19세기 사람들은

62
00:03:05,187 --> 00:03:09,501
당연히 그렇게 볼 수 있었을 것입니다.

63
00:03:09,964 --> 00:03:11,142
하지만 여러 가지 면에서

64
00:03:11,166 --> 00:03:14,479
이런 라몬 이 카할의 조직학적 그림은

65
00:03:14,503 --> 00:03:16,835
오늘날에도 최고로 여겨집니다.

66
00:03:16,859 --> 00:03:18,713
우리는 지난 한 세기 동안

67
00:03:18,737 --> 00:03:21,562
라몬 이 카할이 시작한 일을
끝내려고 노력하고 있습니다.

68
00:03:21,586 --> 00:03:24,720
이것들은 막스플랑크 신경과학 연구소

69
00:03:24,744 --> 00:03:27,625
협력자들의 기초 데이타입니다.

70
00:03:27,649 --> 00:03:29,439
그리고 저희 협력자들이 한 것은

71
00:03:29,463 --> 00:03:34,464
뇌세포의 작은 부분을 
조명한 것 입니다.

72
00:03:34,488 --> 00:03:37,814
이 샘플의 전체 크기는 
대략 1 입방 밀리미터이고

73
00:03:37,838 --> 00:03:40,459
결과물의 아주 작은 부분을
보고 계신 것입니다.

74
00:03:40,483 --> 00:03:42,829
왼쪽에 있는 바는 1미크론 입니다.

75
00:03:42,853 --> 00:03:45,262
보고 계신 구조는 미토콘드리아입니다.

76
00:03:45,286 --> 00:03:47,330
이는 박테리아만큼 작습니다.

77
00:03:47,354 --> 00:03:48,905
이것은 아주 작은 조직으로

78
00:03:48,929 --> 00:03:52,077
자른 연속적인 단면입니다.

79
00:03:52,101 --> 00:03:54,504
비교를 하자면

80
00:03:54,528 --> 00:03:58,320
머리카락의 평균 지름은
100 미크론입니다.

81
00:03:58,344 --> 00:04:00,618
저희가 보고 있는 것은 
머리카락 한 가닥보다

82
00:04:00,642 --> 00:04:02,040
훨씬 작은 것입니다.

83
00:04:02,064 --> 00:04:06,095
그리고 이런 전자현미경으로 
나눈 일련의 조각들로

84
00:04:06,119 --> 00:04:11,127
신경세포를 3D로 
이렇게 복원할 수 있습니다.

85
00:04:11,151 --> 00:04:14,308
이것은 라몬 이 카할의 방식과 
어느 정도 같습니다.

86
00:04:14,332 --> 00:04:15,824
일부 신경세포만 비추었죠.

87
00:04:15,848 --> 00:04:18,629
그렇지 않으면 아무것도 
구분할 수 없을 것입니다.

88
00:04:18,653 --> 00:04:19,965
사진 가득히

89
00:04:19,989 --> 00:04:21,319
신경세포끼리 서로 연결된

90
00:04:21,343 --> 00:04:24,067
구조만 보일 것입니다.

91
00:04:25,293 --> 00:04:28,097
라몬 이 카할은 시대를 앞서나갔고

92
00:04:28,121 --> 00:04:30,676
그후 수십 년 동안 
뇌의 이해에 대한 연구는

93
00:04:30,700 --> 00:04:32,971
서서히 발전했습니다.

94
00:04:33,455 --> 00:04:36,308
그러나 우리는 신경세포가
전기를 이용하는 것을 알아냈고

95
00:04:36,332 --> 00:04:39,268
제2차 세계대전 때 발전한 기술로

96
00:04:39,292 --> 00:04:42,098
실제로 신경세포에 전기 실험을 
할 수 있게 되고

97
00:04:42,122 --> 00:04:44,228
신경세포를 더 이해할 수 있었습니다.

98
00:04:44,631 --> 00:04:48,987
컴퓨터가 발명된 것도 
바로 이때인데

99
00:04:49,011 --> 00:04:52,111
뇌를 모델로 한 아이디어였죠.

100
00:04:52,135 --> 00:04:55,220
앨런 튜링은 "지능형 기계"
라고 불렀습니다.

101
00:04:55,244 --> 00:04:57,235
컴퓨터 공학의 아버지 중에 한 명이죠.

102
00:04:57,923 --> 00:05:02,555
워렌 맥컬로흐와 월터 피츠는 
어느날 라몬 이 카할의

103
00:05:02,579 --> 00:05:03,896
시각 피질 그림을 보았습니다.

104
00:05:03,920 --> 00:05:05,482
지금 보고 계신 그림말이죠.

105
00:05:05,506 --> 00:05:09,948
이것은 눈을 통해 들어온 이미지를 
처리하는 피질입니다.

106
00:05:10,424 --> 00:05:13,932
그리고 그들에겐 이 그림은 
마치 회로도처럼 보였습니다.

107
00:05:14,353 --> 00:05:18,188
맥컬로흐와 피츠의 회로도에는 
많은 세부사항이 있지만

108
00:05:18,212 --> 00:05:19,564
정확하지는 않습니다.

109
00:05:19,588 --> 00:05:20,823
하지만 기본 아이디어인

110
00:05:20,847 --> 00:05:24,839
시각 피질의 원리가 
일련의 계산 요소를

111
00:05:24,863 --> 00:05:27,609
연속적으로 하나에서 다음으로 
정보를 넘긴다는 것은

112
00:05:27,633 --> 00:05:29,235
근본적으로 맞습니다.

113
00:05:29,259 --> 00:05:31,609
조금 더 이야기해 보겠습니다.

114
00:05:31,633 --> 00:05:35,665
시각 정보를 처리하는 모델이 
해야 하는 일에 대해서 말이죠.

115
00:05:36,228 --> 00:05:38,969
인식이 기본적으로 하는 일은

116
00:05:38,993 --> 00:05:43,187
이런 이미지를 보고 
이렇게 말하는 것 입니다.

117
00:05:43,211 --> 00:05:44,387
"이것은 새입니다"

118
00:05:44,411 --> 00:05:47,285
우리에게는 매우 쉬운 일입니다.

119
00:05:47,309 --> 00:05:50,730
하지만 여러분 모두가 
아셔야 하는 것이

120
00:05:50,754 --> 00:05:53,841
몇 년 전까지 컴퓨터로는 
이런 것이 불가능했습니다.

121
00:05:53,865 --> 00:05:55,781
고전적인 컴퓨팅 패러다임은

122
00:05:55,805 --> 00:05:58,312
이런 일을 쉽게 할 수 
있는 것이 아닙니다.

123
00:05:59,366 --> 00:06:01,918
그래서 픽셀들 간의 관계와

124
00:06:01,942 --> 00:06:05,970
만들어진 이미지와 
"새"라는 단어의 관계는

125
00:06:05,994 --> 00:06:08,808
근본적으로 신경세포들이 서로 연결되어

126
00:06:08,832 --> 00:06:09,987
신경망을 구축하고 있는 것입니다.

127
00:06:10,011 --> 00:06:11,234
제가 그린 도표처럼요.

128
00:06:11,258 --> 00:06:14,530
이 신경망은 시각피질 내부의 
생물학적인 것이나

129
00:06:14,554 --> 00:06:16,716
오늘날에는 우리의 기술로

130
00:06:16,740 --> 00:06:19,194
컴퓨터를 통해 신경망을 
그릴 수 있습니다.

131
00:06:19,834 --> 00:06:22,187
그리고 이것이 실제 모델입니다.

132
00:06:22,211 --> 00:06:25,627
픽셀이 신경세포의 첫 번째 층입니다.

133
00:06:25,651 --> 00:06:27,890
그리고 이것은 실제로 
눈으로 보는 과정으로 보면

134
00:06:27,914 --> 00:06:29,577
픽셀이 망막인 것입니다.

135
00:06:29,601 --> 00:06:31,101
그리고 이 자극을

136
00:06:31,125 --> 00:06:34,528
신경세포의 한 층에서 
다음 층으로 전달합니다.

137
00:06:34,552 --> 00:06:37,585
이는 각각 다른 농도의
시냅스로 모두 연결되어있습니다.

138
00:06:37,609 --> 00:06:38,944
이 네트워크의 동작은

139
00:06:38,968 --> 00:06:42,252
모든 시냅스의 강도에 의해 구분됩니다.

140
00:06:42,276 --> 00:06:45,564
이것으로 네트워크 내에서 
계산되는 것을 특징짓습니다.

141
00:06:45,588 --> 00:06:47,058
그리고 마지막에

142
00:06:47,082 --> 00:06:49,529
신경 세포 하나 또는 한 무리가

143
00:06:49,553 --> 00:06:51,200
반짝이며 "새"라고 말합니다.

144
00:06:51,824 --> 00:06:54,956
이제 제가 이 세가지를

145
00:06:54,980 --> 00:06:59,676
입력된 픽셀, 신경망의 시넵스

146
00:06:59,700 --> 00:07:01,285
그리고 결과물인 새를

147
00:07:01,309 --> 00:07:04,366
세 변수 x, w, y라고 하겠습니다.

148
00:07:04,853 --> 00:07:06,664
픽셀이 백만 개는 있을테니 x는

149
00:07:06,688 --> 00:07:08,641
이미지의 백만 개의 픽셀입니다.

150
00:07:08,665 --> 00:07:11,111
그리고 w는 수십억
혹은 수조 개가 있습니다.

151
00:07:11,135 --> 00:07:14,556
이는 신경망의 모든 시냅스의 
농도를 말합니다.

152
00:07:14,580 --> 00:07:16,455
그리고 적은 수의 y가 있습니다.

153
00:07:16,479 --> 00:07:18,337
신경망의 결과물로써 말이죠.

154
00:07:18,361 --> 00:07:20,110
"Bird"는 네 글자뿐이잖아요.

155
00:07:21,088 --> 00:07:24,514
그러면 이것을 간단한 
공식이라고 해봅시다.

156
00:07:24,538 --> 00:07:26,701
x "x" w = y.

157
00:07:26,725 --> 00:07:28,761
저는 곱하기를 큰따옴표
안에 넣었습니다.

158
00:07:28,785 --> 00:07:31,065
실제로 저기서 일어나는 일은

159
00:07:31,089 --> 00:07:34,135
매우 복잡한 일련의 
수학적인 과정이기 때문입니다.

160
00:07:35,172 --> 00:07:36,393
이것은 한 공식입니다.

161
00:07:36,417 --> 00:07:38,089
세 개의 변수가 있습니다.

162
00:07:38,113 --> 00:07:40,839
그리고 우리가 알고 있는 것이
한 공식에서

163
00:07:40,863 --> 00:07:44,505
두 개의 변수를 알면 남은 한 개를 
알 수 있다는 것입니다.

164
00:07:45,158 --> 00:07:48,538
그래서 추론해야 하는

165
00:07:48,562 --> 00:07:51,435
새의 사진을 보고 
새를 구분하는 공식은

166
00:07:51,459 --> 00:07:52,733
바로 이것입니다.

167
00:07:52,757 --> 00:07:56,216
이 경우는 y는 알려지지 않고
w와 x는 알려진 경우이죠

168
00:07:56,240 --> 00:07:58,699
신경망과 픽셀이 
무엇인지는 알고 있습니다.

169
00:07:58,723 --> 00:08:02,050
보시다시피 사실 상대적으로 
간단한 문제입니다

170
00:08:02,074 --> 00:08:04,260
2 곱하기 3을 하면 끝나는 거죠

171
00:08:04,862 --> 00:08:06,985
여러분께 최근에 만든 인공 신경망이

172
00:08:07,009 --> 00:08:09,305
정확히 이것을 하는 것을 
보여드리겠습니다

173
00:08:09,634 --> 00:08:12,494
이것은 휴대전화에서 
실시간으로 돌아가는 것입니다.

174
00:08:12,518 --> 00:08:15,831
그리고 물론 휴대전화에서

175
00:08:15,855 --> 00:08:19,323
초당 수십억 수조 개의 동작을 
한다는 것 자체만으로도

176
00:08:19,347 --> 00:08:20,595
놀라운 일입니다

177
00:08:20,619 --> 00:08:22,234
여러분이 보고 있는 것은

178
00:08:22,258 --> 00:08:25,805
휴대전화가 다른 새 사진을 보고

179
00:08:25,829 --> 00:08:28,544
“네, 이것은 새입니다.” 하고
끝나는 것이 아니라

180
00:08:28,568 --> 00:08:31,979
네트워크 정보로 
종까지 분류하는 모습입니다.

181
00:08:32,890 --> 00:08:34,716
사진을 보면

182
00:08:34,740 --> 00:08:38,542
x와 w는 밝혀져 있고 
y는 밝혀지지 않았습니다.

183
00:08:38,566 --> 00:08:41,074
지금 몹시 어려운 부분을 
얼버무리고 지나가고 있는데

184
00:08:41,098 --> 00:08:44,959
그것은 우리가 어떻게 w를 밝혀냈으며

185
00:08:44,983 --> 00:08:47,170
뇌가 어떻게 그런 일을 하며

186
00:08:47,194 --> 00:08:49,028
어떻게 이런 모델을 배울까입니다.

187
00:08:49,418 --> 00:08:52,651
w를 배우고 해결하는 과정을

188
00:08:52,675 --> 00:08:55,322
간단한 공식으로 만들어 


189
00:08:55,346 --> 00:08:57,346
숫자를 대입해보면

190
00:08:57,370 --> 00:09:00,057
정확히 알 수 있습니다.
6=2 x w라고 하면

191
00:09:00,081 --> 00:09:03,393
양변을 2로 나누면 끝납니다.

192
00:09:04,001 --> 00:09:06,221
문제점은 이 연산에서

193
00:09:06,823 --> 00:09:07,974
나눗셈을

194
00:09:07,998 --> 00:09:11,119
우리가 나눗셈을 썼는데
곱셈을 역으로 계산한 것입니다.

195
00:09:11,143 --> 00:09:12,583
하지만 방금 말한 대로

196
00:09:12,607 --> 00:09:15,056
실제 연산은 곱하기가 아닙니다.

197
00:09:15,080 --> 00:09:18,406
이것은 매우 매우 복잡한
비선형 연산이고

198
00:09:18,430 --> 00:09:20,134
역으로 계산할 수 없습니다.

199
00:09:20,158 --> 00:09:23,308
그래서 우리는 이 공식을 
나누지 않고 해결할 방법을

200
00:09:23,332 --> 00:09:25,356
찾아야 합니다.

201
00:09:25,380 --> 00:09:27,723
그리고 그 방법은 매우 간단합니다.

202
00:09:27,747 --> 00:09:30,418
대수학을 조금 이용해

203
00:09:30,442 --> 00:09:33,348
6을 공식의 우변으로 옮기겠습니다.

204
00:09:33,372 --> 00:09:35,198
이러면 곱하기만 사용할 수 있습니다.

205
00:09:35,675 --> 00:09:39,255
그리고 0은 오류라고 생각합시다.

206
00:09:39,279 --> 00:09:41,794
다시 말해, 우리가 w를 해결해서 
정답이 나오면

207
00:09:41,818 --> 00:09:43,474
오류가 0이 될 것이고

208
00:09:43,498 --> 00:09:45,436
우리가 잘못된 값을 구했다면

209
00:09:45,460 --> 00:09:47,209
오류가 0보다 커질 것입니다.

210
00:09:47,233 --> 00:09:50,599
이제 우리가 추측해서 
오류를 최소화할 수 있습니다.

211
00:09:50,623 --> 00:09:53,310
그리고 이런 것은 
컴퓨터가 아주 잘하는 일이죠.

212
00:09:53,334 --> 00:09:54,927
그래서 최초의 추측으로

213
00:09:54,951 --> 00:09:56,107
w가 0이라면

214
00:09:56,131 --> 00:09:57,371
오류는 6입니다.

215
00:09:57,395 --> 00:09:58,841
w가 1이면 오류는 4입니다.

216
00:09:58,865 --> 00:10:01,232
컴퓨터가 계속 
마르코 폴로같이 여행하면

217
00:10:01,256 --> 00:10:03,623
오류가 0에 가까워질 것입니다.

218
00:10:03,647 --> 00:10:07,021
그러면서 컴퓨터가 성공적으로 w 값의 
근사치를 얻어가는 것입니다.

219
00:10:07,045 --> 00:10:10,701
전형적으로 정확한 값을 얻진 못하지만 
수십 단계가 지나면

220
00:10:10,725 --> 00:10:15,349
w는 2.999를 얻게 되고 
이는 충분히 근접한 값입니다.

221
00:10:16,302 --> 00:10:18,116
그리고 이것이 학습 과정입니다.

222
00:10:18,140 --> 00:10:20,870
지금까지 이야기한 것은

223
00:10:20,894 --> 00:10:25,272
수많은 x와 y 값을 알고 있고

224
00:10:25,296 --> 00:10:28,750
가운데 w 값을 추론 과정에서 
알아내고 있습니다.

225
00:10:28,774 --> 00:10:32,330
이는 우리의 뇌가 학습하는 
과정과 같습니다.

226
00:10:32,354 --> 00:10:34,584
우리는 어릴 적 수많은 이미지를 접하고

227
00:10:34,608 --> 00:10:37,241
"이것은 새다, 이것은 새가 아니다"
라고 듣습니다.

228
00:10:37,714 --> 00:10:39,812
그리고 시간이 흘러 반복하면서

229
00:10:39,836 --> 00:10:42,764
w를 알아내죠.
신경 연결을 해결하는 것입니다.

230
00:10:43,460 --> 00:10:47,546
이제 우리는 고정된 x와 w값으로
y를 구합니다.

231
00:10:47,570 --> 00:10:49,417
이것은 매일 우리가 하는 인식입니다.

232
00:10:49,441 --> 00:10:51,204
w 값을 구하는 과정은

233
00:10:51,228 --> 00:10:53,131
학습이고 더 어렵습니다.

234
00:10:53,155 --> 00:10:55,140
왜냐면 많은 훈련 예시를 통해

235
00:10:55,164 --> 00:10:56,851
오류를 최소화 해야 하기 때문이죠.

236
00:10:56,875 --> 00:11:00,062
약 1년 전에 저희 팀의
알렉스 모드빈츠세프는

237
00:11:00,086 --> 00:11:03,636
우리가 x를 구하면 어떻게 되는지 
실험하기로 했습니다.

238
00:11:03,660 --> 00:11:05,697
w와 y 값을 알고 있다는 
조건에서 말이죠.

239
00:11:06,124 --> 00:11:07,275
다시 말하자면

240
00:11:07,299 --> 00:11:08,651
새라는 것을 알고

241
00:11:08,675 --> 00:11:11,978
새라는 것을 인식할 수 있는 
신경망이 구축된 상태에서

242
00:11:12,002 --> 00:11:14,346
새의 모습을 알아내는 것입니다.

243
00:11:15,034 --> 00:11:20,058
똑같은 오류 최소화 과정을 거쳐

244
00:11:20,082 --> 00:11:23,512
컴퓨터가 새를 인식할 수 있는 
네트워크를 통해

245
00:11:23,536 --> 00:11:26,924
만들어낸 결과는

246
00:11:30,400 --> 00:11:31,705
새의 그림입니다.

247
00:11:32,814 --> 00:11:36,551
이 그림은 전적으로 
새를 인식할 수 있는

248
00:11:36,575 --> 00:11:38,401
신경 네트워크를 통해

249
00:11:38,425 --> 00:11:41,963
y 값을 구하는 대신 x 값을

250
00:11:41,987 --> 00:11:43,275
추론하여 구현됬습니다.

251
00:11:43,732 --> 00:11:45,579
다른 재미있는 예를 보여드리면

252
00:11:45,603 --> 00:11:49,040
이것은 저희 그룹의 
마이크 티카의 작품입니다.

253
00:11:49,064 --> 00:11:51,372
이 작품의 제목은
"동물 행진"입니다.

254
00:11:51,396 --> 00:11:54,272
이것을 보고 윌리엄 켄트리지의 
작품이 떠올랐습니다.

255
00:11:54,296 --> 00:11:56,785
그는 스케치를 그렸다가 지우고

256
00:11:56,809 --> 00:11:58,269
그렸다가 지워가며

257
00:11:58,293 --> 00:11:59,691
이런 식으로 영상을 만들죠.

258
00:11:59,715 --> 00:12:00,866
이 경우에는

259
00:12:00,890 --> 00:12:04,167
마이크가 한 것은 변수 y를 
다양한 동물들로 설정했습니다.

260
00:12:04,191 --> 00:12:06,573
서로 다른 동물들을 구분할 수 있도록

261
00:12:06,597 --> 00:12:08,407
설계된 네트워크 안에서 말이죠.

262
00:12:08,431 --> 00:12:12,182
그렇게 이런 희안한 에셔 풍의 
동물들이 변하는 그림이 나옵니다.

263
00:12:14,221 --> 00:12:18,835
여기서 마이크와 알렉스는

264
00:12:18,859 --> 00:12:21,618
y 값을 줄여 2차원 평면에 
표현했습니다.

265
00:12:21,642 --> 00:12:25,080
그렇게 이 네트워크가 인식할 수 있는

266
00:12:25,104 --> 00:12:26,823
모든 종류를 나타내는 
지도를 만들었습니다.

267
00:12:26,847 --> 00:12:28,870
이런 종류의 이미지 통합

268
00:12:28,894 --> 00:12:31,276
혹은 생성은 표면 전반에 걸쳐

269
00:12:31,300 --> 00:12:34,146
y를 다르게 해서
이런 지도를 만듭니다.

270
00:12:34,170 --> 00:12:37,311
네트워크가 인식하는 
모든 것의 시각적 지도입니다.

271
00:12:37,335 --> 00:12:40,200
모든 동물이 있습니다.
저기 "아르마딜로"가 있습니다.

272
00:12:40,919 --> 00:12:43,398
이것을 다른 네트워크로
할 수 있습니다.

273
00:12:43,422 --> 00:12:46,296
이 네트워크는 얼굴을 
인식하도록 설계됬습니다.

274
00:12:46,320 --> 00:12:48,320
서로 다른 얼굴을 구분하도록 말이죠.

275
00:12:48,344 --> 00:12:51,593
여기서 저희가 y에 
"저"를 넣었습니다.

276
00:12:51,617 --> 00:12:53,192
제 얼굴을 변수로 말이죠.

277
00:12:53,216 --> 00:12:54,922
그리고 이것이 x를 구하면

278
00:12:54,946 --> 00:12:57,564
이런 상당히 정신없고

279
00:12:57,588 --> 00:13:02,016
약간은 입체파, 초현실주의,
사이키델릭한 제 사진을 만듭니다.

280
00:13:02,040 --> 00:13:03,846
여러 모습을 한 번에 보여주면서요.

281
00:13:03,870 --> 00:13:06,604
여러 모습을 한 번에 보여주는 이유는

282
00:13:06,628 --> 00:13:10,315
네트워크의 설계에서 얼굴의
한 모습에서 다른 모습으로

283
00:13:10,339 --> 00:13:12,815
넘어가는 모호한 과정이 
제거되었기 때문입니다.

284
00:13:12,839 --> 00:13:16,215
특정 각도의 얼굴을 보는 것입니다.

285
00:13:16,239 --> 00:13:18,324
그래서 이것을 재구성할 때

286
00:13:18,348 --> 00:13:20,652
가이드 이미지나 통계를

287
00:13:20,676 --> 00:13:21,887
사용하지 않으면

288
00:13:21,911 --> 00:13:25,676
이런 혼란스러운 시점들이 나옵니다.

289
00:13:25,700 --> 00:13:27,068
모호하기 떄문이죠.

290
00:13:27,786 --> 00:13:32,009
이것은 알렉스가 본인 얼굴을 
가이드로 이용해

291
00:13:32,033 --> 00:13:35,354
최적화 과정을 거쳐 
제 얼굴을 만든 것입니다.

292
00:13:36,284 --> 00:13:38,612
보시다시피 완벽하진 않습니다.

293
00:13:38,636 --> 00:13:40,510
어떻게 최적화를 해야 할지

294
00:13:40,534 --> 00:13:42,987
아직도 갈 길이 멉니다.

295
00:13:43,011 --> 00:13:45,838
하지만 제 얼굴을 가이드로 쓰면

296
00:13:45,862 --> 00:13:47,876
더 일관된 얼굴을 구할 수 있습니다.

297
00:13:48,892 --> 00:13:51,393
굳이 빈 캔버스로 
시작하지 않아도 됩니다.

298
00:13:51,417 --> 00:13:52,573
혹은 백색 잡음으로요.

299
00:13:52,597 --> 00:13:53,901
x를 구할 때

300
00:13:53,925 --> 00:13:57,814
이미 그려진 그림 위에 
x를 구해도 됩니다.

301
00:13:57,838 --> 00:14:00,394
이것이 바로 그 예입니다.

302
00:14:00,418 --> 00:14:04,540
이 네트워크는 온갖 물체를 구분하도록

303
00:14:04,564 --> 00:14:07,683
설계되었습니다. 
인조물이나 동물 등을 말이죠.

304
00:14:07,707 --> 00:14:10,300
여기서 저희는 
구름 사진을 이용했습니다.

305
00:14:10,324 --> 00:14:11,995
그리고 저희가 최적화를 하면

306
00:14:12,019 --> 00:14:16,505
기본적으로 이 네트워크는 구름에서 
무엇이 보이는지 구분합니다.

307
00:14:16,931 --> 00:14:19,251
그리고 이것을 더 자세히 보시면

308
00:14:19,275 --> 00:14:22,028
구름에서 더 다양한 것을 
볼 수 있습니다.

309
00:14:23,004 --> 00:14:26,379
여기서 얼굴을 인식하는 
네트워크로 환각을 만들면

310
00:14:26,403 --> 00:14:28,215
꽤나 정신없는 그림이 나옵니다.

311
00:14:28,239 --> 00:14:29,389
(웃음)

312
00:14:30,401 --> 00:14:33,145
혹은 마이크가 다른 시도를 했습니다.

313
00:14:33,169 --> 00:14:37,074
바로 구름 그림을 이용해

314
00:14:37,098 --> 00:14:40,605
환각을 만들고 확대하고 
환각을 만들고 확대했습니다.

315
00:14:40,629 --> 00:14:41,780
그리고 이렇게

316
00:14:41,804 --> 00:14:45,479
방황하는 것처럼 보이는 네트워크나

317
00:14:45,503 --> 00:14:49,183
자유 연상의 일종으로

318
00:14:49,207 --> 00:14:51,434
네트워크가 스스로 꼬리를 물게 됩니다.

319
00:14:51,458 --> 00:14:54,879
그래서 모든 이미지의 
기본은 이렇습니다.

320
00:14:54,903 --> 00:14:56,324
"다음에는 무엇이 보이지?

321
00:14:56,348 --> 00:14:59,151
다음에는 무엇이 보이지?
다음에는 무엇이 보이지?"

322
00:14:59,487 --> 00:15:02,423
이것을 최초로 공개한 곳은

323
00:15:02,447 --> 00:15:07,884
시애틀의 "고등 교육"그룹의
강연에서였습니다.

324
00:15:07,908 --> 00:15:10,345
마리화나가 합법화 된 직후에 말이죠.

325
00:15:10,369 --> 00:15:12,784
(웃음)

326
00:15:14,627 --> 00:15:16,731
그래서 정리를 짧게 하겠습니다.

327
00:15:16,755 --> 00:15:21,010
이 기술에 제약이 없다는 것을 
말하면서 말이죠.

328
00:15:21,034 --> 00:15:24,699
순전히 시각자료를 보여드린 이유는
흥미를 유발하기 위해서 입니다.

329
00:15:24,723 --> 00:15:27,174
이것은 순전히 시각 기술만은 아닙니다.

330
00:15:27,198 --> 00:15:29,191
저희와 함께 일하는 
아티스트 로스 굿윈은

331
00:15:29,215 --> 00:15:32,886
실험을 했습니다.
사진을 찍는 사진기와

332
00:15:32,910 --> 00:15:37,144
등에 매고 있는 컴퓨터로 
신경 네트워크를 이용해 시를 썼습니다.

333
00:15:37,168 --> 00:15:39,112
사진에 찍힌 내용을 보고 말이죠.

334
00:15:39,136 --> 00:15:42,083
그리고 시인 신경 네트워크는

335
00:15:42,107 --> 00:15:44,341
20세기 시의 집대성으로 훈련됬습니다.

336
00:15:44,365 --> 00:15:45,864
그리고 결과로 나온 시는 말이죠

337
00:15:45,888 --> 00:15:47,802
사실 제 생각엔 나쁘지 않아 보입니다.

338
00:15:47,826 --> 00:15:49,210
(웃음)

339
00:15:49,234 --> 00:15:50,393
마지막으로

340
00:15:50,417 --> 00:15:52,549
저는 미켈란젤로의 생각이

341
00:15:52,573 --> 00:15:53,807
옳았다고 생각합니다.

342
00:15:53,831 --> 00:15:57,267
인식과 창의성은 매우 밀접하게 
연결되어 있습니다.

343
00:15:57,611 --> 00:16:00,245
지금까지 보신 것은
신경 네트워크 입니다.

344
00:16:00,269 --> 00:16:02,572
전적으로 훈련이 되어 구분하거나

345
00:16:02,596 --> 00:16:04,838
혹은 다른 것들을 인식하거나

346
00:16:04,862 --> 00:16:08,023
반대로 적용하여 
만들어 낼 수 있습니다.

347
00:16:08,047 --> 00:16:09,830
이것을 보고 느낀 점 중에 하나는

348
00:16:09,854 --> 00:16:12,252
미켈란젤로가 정말로 본 것은

349
00:16:12,276 --> 00:16:14,728
돌덩이 안에 있는 조각상뿐만 아니라

350
00:16:14,752 --> 00:16:18,390
어떤 생물, 생명 심지어 외계인도

351
00:16:18,414 --> 00:16:22,071
인식행위를 할 수 있으면

352
00:16:22,095 --> 00:16:23,470
창조할 수 있다는 것 입니다.

353
00:16:23,494 --> 00:16:26,718
두 경우 모두 같은 조작과정을
사용하기 때문이죠.

354
00:16:26,742 --> 00:16:31,274
또한 저는 인식과 창의성은 
결코 인간에 국한되지 않는다고

355
00:16:31,298 --> 00:16:32,508
생각합니다.

356
00:16:32,532 --> 00:16:36,240
저희는 똑같은 일을 할 수 있는 
컴퓨터 모델을 만들었고

357
00:16:36,264 --> 00:16:39,592
그리고 그 뇌가 컴퓨터로 만들어
졌다는 것은 놀랄 일도 아닙니다.

358
00:16:39,616 --> 00:16:41,273
그리고 마지막으로

359
00:16:41,297 --> 00:16:45,965
컴퓨터는 지능적 기계를 
설계하면서 시작되었습니다.

360
00:16:45,989 --> 00:16:48,451
이것은 이런 생각을 따라 만들어졌습니다.

361
00:16:48,475 --> 00:16:51,488
어떻게 하면 우리가 기계를 
똑똑하게 만들지 말이죠.

362
00:16:51,512 --> 00:16:53,674
그리고 이제 선구자들과 한

363
00:16:53,698 --> 00:16:56,104
약속 중에 일부를 이뤄가고 있습니다.

364
00:16:56,128 --> 00:16:57,841
튜링, 폰 노이만

365
00:16:57,865 --> 00:17:00,130
매컬로크 그리고 피트에게 말이죠.

366
00:17:00,154 --> 00:17:04,252
그리고 저는 컴퓨터는 회계나 
게임 할 때만 쓰는 것이

367
00:17:04,276 --> 00:17:06,423
아니라고 생각합니다.

368
00:17:06,447 --> 00:17:09,025
시작부터 인간을 본따 컴퓨터를 만들었고

369
00:17:09,049 --> 00:17:12,318
그리고 그 과정에서 
인간의 마음을 더 잘 이해하고

370
00:17:12,342 --> 00:17:13,871
더 넓히게 되었습니다.

371
00:17:14,627 --> 00:17:15,794
감사합니다.

372
00:17:15,818 --> 00:17:21,757
(박수)