5백만권의 책을 통해 우리가 배운 것들

Edit subtitles

0:00 - 0:02

이레즈: 누구나 아는
0:02 - 0:05

'백문이 불여일견'이라는 말이 있습니다.
0:07 - 0:09

하지만 하버드에서 우리는
0:09 - 0:12

저 말이 참인지 거짓인지를 논하곤 했죠.
0:12 - 0:14

(웃음)
0:14 - 0:18

그래서 우리는 하버트와 MIT에 걸쳐
0:18 - 0:20

전문가들을 모집하고
0:20 - 0:23

아메리칸 헤리티지 사전, 브리태니커 백과사전
0:23 - 0:25

그리고 심지어 우리의 자랑스런 후원,
0:25 - 0:28

구글까지 포괄하는 팀을 구성했습니다.
0:28 - 0:30

그리고 우리는 이것에 대해
0:30 - 0:32

약 4년 동안 깊이있게 연구했죠.
0:32 - 0:37

우리는 놀라운 결론에 도달했습니다.
0:37 - 0:40

신사 숙녀 여러분, 한 그림은 천 단어의 가치가 없습니다. [역: '일견'이 백문의 가치가 되지 않습니다.]
0:40 - 0:42

사실, 우리는 몇 가지 사진들의 경우
0:42 - 0:47

5천억 단어 정도의 가치가 있음을 발견했죠.
0:47 - 0:49

미셸 : 어떻게 우리가 이 결론에 도달했을까요?
0:49 - 0:51

이레즈와 전, 연구 방법에 대해 생각하고 있었습니다.
0:51 - 0:53

어떻게 하면 인간 문화와 역사의 큰 그림을
0:53 - 0:56

얻을 수 있을까: 시간에 따라 변화되는 것을 포함해서
0:56 - 0:58

실제로 수 많은 책들은 지난 수년 동안 기록되었습니다.
0:58 - 1:00

그래서 우리가 그들로 부터 배울 수 있는 가장 좋은 방법은
1:00 - 1:02

이 수천 수만권의 책들을 다 읽는거라 생각했습니다.
1:02 - 1:05

물론, 저 일이 얼마나 멋진 일인지 측정할 수 있다면
1:05 - 1:08

저것은 매우, 아주 높은 순위가 매겨질 것입니다.
1:08 - 1:10

문제는, 그곳에 x축이 있다는 거죠.
1:10 - 1:12

실용성을 나타내는 축이죠.
1:12 - 1:14

이 축에서의 점수는 매우 낮습니다.
1:14 - 1:17

(박수)
1:17 - 1:20

현재, 사람들은 대안으로 몇 가지 소스들을
1:20 - 1:22

선택해서 그것들을 주의깊게 읽어나가죠.
1:22 - 1:24

이 방식은 매우 실용적이지만 아주 멋지지는 않습니다.
1:24 - 1:27

당신이 정말하고 원하는 것은
1:27 - 1:30

아주 멋진 일을 아주 실용적으로 하는 거죠.
1:30 - 1:33

그래서 보니 강 건너에 구글이라 불리는 회사가 있더군요.
1:33 - 1:35

몇 년 전에 디지털화 프로젝트를 시작했었던 회사죠.
1:35 - 1:37

그것이 우리의 접근방식을 가능케 할수도 있겠더군요.
1:37 - 1:39

그들은 수백만권의 책을 디지털화 했습니다.
1:39 - 1:42

그것이 무슨 뜻인고 하니, 누군가 원하면 단 하나의 클릭으로
1:42 - 1:44

책을 한권을 훑어볼 수 있다는 뜻이죠.
1:44 - 1:47

아주 실용적이이며 극도로 멋진 일이죠.
1:48 - 1:50

이레즈: 제가 책들이 어디서 왔는지 설명을 좀 하죠.
1:50 - 1:53

태고적부터, 작가는 늘 존재해 왔습니다.
1:53 - 1:56

이 저자들은 책을 쓰기 위해 분투해왔죠.
1:56 - 1:58

그 일은 점점 쉬워졋습니다.
1:58 - 2:00

몇 세기전의 인쇄기 발달과 함께말이죠.
2:00 - 2:03

그 이후로 부터는 저자들의 승리였죠.
2:03 - 2:05

뚜렷이 1억2천9백만번 동안
2:05 - 2:07

책을 출판했으니까요
2:07 - 2:09

역사 속에 분실되지 않았다면 해당 도서는
2:09 - 2:11

지금 어느 도서관 어딘가에 있는 것입니다.
2:11 - 2:14

그 도서의 대부분이 도서관에서 회수되어져
2:14 - 2:16

구글에 의해 디지털화 되고 있습니다.
2:16 - 2:18

현재까지 천오백만권의 도서를 스캔했습니다.
2:18 - 2:21

지금 구글이 책을 디지털화하면, 좋은 포맷으로 바꿔두죠.
2:21 - 2:23

이제 우리는 데이터가 있고 그에 관한 속성 정보까지 있죠.
2:23 - 2:26

우리에겐 그것이 어디서 출판되었고 누가 썼으며
2:26 - 2:28

언제 발행되었는지에 관한 정보도 있습니다.
2:28 - 2:31

해서, 우리가 가진 모든 자료들을 훑어서
2:31 - 2:35

상태가 좋지않은 데이터는 전부 제하여
2:35 - 2:37

추려서 남은 것이
2:37 - 2:40

오백만권의 책 입니다.
2:40 - 2:43

5천억개의 단어들,
2:43 - 2:45

일렬로 나열했을 경우
2:45 - 2:48

우리 유전자의 총체, 인간 게놈보다 천배 이상 긴 겁니다.
2:48 - 2:50

이 텍스트들을 모두 모아서
2:50 - 2:52

한 줄로 쓰면 여기서 달까지
2:52 - 2:54

10번 왔다갔다 할 만큼 나오죠.
2:54 - 2:58

진정 우리 문화 게놈의 한 조각이라 할 수 있죠.
2:58 - 3:00

물론 이런 말도 안되는 과장에 직면하게 되면
3:00 - 3:03

우리가 할 수 있는 일이라곤
3:03 - 3:05

(웃음)
3:05 - 3:08

자존감있는 연구원이라면
3:08 - 3:11

누구나 했을 법한 일이죠.
3:11 - 3:13

XKCD의 한 페이지를 꺼내 들고
3:13 - 3:15

외치는 거죠. "뒤로 물러나.
3:15 - 3:17

우리는 이제 과학을 시도 할 것이야."
3:17 - 3:19

(웃음) [역: XKCD.com 미국의 유명 웹툰. 웹사이트에서 해당 문구의 티셔츠를 판매하고 있음]
3:19 - 3:21

JM은 : 지금은 물론, 우리는 생각하고 있었죠,
3:21 - 3:23

물론 그냥 먼저 밖으로 데이터를 넣어 봅시다
3:23 - 3:25

그것을 할 과학을 하는 사람들을 위해서말이죠.
3:25 - 3:27

지금 우리가 생각하고, 우리는 어떤 데이터를 공개할 수 있습니까?
3:27 - 3:29

그럼요, 당신은 책을 취해서
3:29 - 3:31

이러한 오백만 도서의 전체 텍스트를 놓고 싶어합니다.
3:31 - 3:33

특히 이제 Google과 존 Orwant,
3:33 - 3:35

우리가 배워야할 방정식이 조금있다고 말했습니다.
3:35 - 3:38

그래서 5 백만 작가, 즉, 5 백만 달러를 가지고
3:38 - 3:41

그리고 5 백만 원고측은 대규모의 소송이다.
3:41 - 3:43

그럼, 그건 정말 굉장한 것이긴 하지만
3:43 - 3:46

다시말해, 그건 극히, 극히 비실용적입니다.
3:46 - 3:48

(웃음)
3:48 - 3:50

이제 다시, 우리는 굴복한것처럼 되어서,
3:50 - 3:53

그리고 약간 덜 굉장하지만, 아주 실용적인 접근을 하게 되었습니다.
3:53 - 3:55

우리가 말하길, "글쎄, 전체 텍스트를 발표하는 대신
3:55 - 3:57

우리는 도서에 대한 통계를 공개할거야.
3:57 - 3:59

예를 들어, '행복의 광채"를 봅시다.
3:59 - 4:01

그것은 네 단어입니다; 우리는 4 그램이라고 부릅니다.
4:01 - 4:03

우리는 특정 4 그램이 1801, 1802, 1803,
4:03 - 4:05

2008년까지 죽 올라가서 책에
4:05 - 4:07

몇번이나 나타나는지 여러분께 말할겁니다.
4:07 - 4:09

그것은 우리에게 이 특정 문장은 시간이 지남에 따라 얼마나 자주 사용되었는지
4:09 - 4:11

시간 시리즈를 제공합니다.
4:11 - 4:14

우리가 그 도서에 나타나는 모든 단어와 구문에 대해 그렇게 하면,
4:14 - 4:17

그것은 우리에게 이십억 줄의 큰 테이블을 제공하는데
4:17 - 4:19

그것은 방식 문화가 변경되는 방법에 관해서 우리에게 알려줍니다.
4:19 - 4:21

ELA : 그럼 그 이십억 라인,
4:21 - 4:23

우리는 그들 이십억 N -그램.
4:23 - 4:25

그들이 우리에게 뭐라고 할까요?
4:25 - 4:27

그럼 각각의 N - 그램은 문화동향을 측정합니다.
4:27 - 4:29

한가지 예를 들어 드리겠습니다.
4:29 - 4:31

내가 번성하고 있다고 가정해 봅시다
4:31 - 4:33

그러면 내일은 내가 얼마나 잘했는지 말해주고 싶어요.
4:33 - 4:36

그래서 난 "어제 내가 번성했어요(throve)."말할지도 모릅니다.
4:36 - 4:39

또 저는 "어제, 내가 번창했어요 (thrived)." 라고 할 수 도 있습니다.
4:39 - 4:42

글쎄, 어떤것을 사용해야 할까요?
4:42 - 4:44

어떻게 압니까?
4:44 - 4:46

약 6 개월 전의 시기에,
4:46 - 4:48

이 분야에서 예술의 상태는
4:48 - 4:50

예를 들어, 당신이,
4:50 - 4:52

멋진 머리를 가진 심리학자를 따라 올라가,
4:52 - 4:54

당신이 말하길,
4:54 - 4:57

"스티브, 당신은 불규칙 동사에 관한 전문가입니다.
4:57 - 4:59

제가 어떻게 해야 할까요? "
4:59 - 5:01

그거면 그는, "글쎄요, 대부분의 사람들이 말하길 번성했다(thrive) 고 했지만,
5:01 - 5:04

몇몇 사람은 번창했다(throve) 라고 했어요."
5:04 - 5:06

그래서 여러분은 당신은 또한 다소는
5:06 - 5:09

만일 이백년전 이전으로 거슬러 올라가서
5:09 - 5:12

그리고, 똑같이 멋진 머리를 가진 다음의 정치가에게 묻는다면,
5:12 - 5:15

(웃음)
5:15 - 5:17

"톰, 내가 무슨 말을해야합니까?"
5:17 - 5:19

그는 "글쎄, 나의 세대는 대부분의 사람들이 번성했다 (throve) 라고 말했지만
5:19 - 5:22

몇몇사람은 번창했다 (thrive)라고 말했어요." 할겁니다.
5:22 - 5:24

그래서 제가 여러분에게 그냥 보여드리려고 하는것은 원래의 데이터입니다.
5:24 - 5:28

이십억 항목의 이 테이블에서 두 줄입니다.
5:28 - 5:30

여러분이 지금보고 계시는 것은 번성했다(throve)와 번창했다(thrive)의
5:30 - 5:33

오랜시간에 걸친 각 년도의 빈도입니다.
5:34 - 5:36

이제 이십억 행에서
5:36 - 5:39

이 두 개만 있습니다
5:39 - 5:41

따라서 전체 데이터 세트는
5:41 - 5:44

이 슬라이드보다 억 배 이상 굉장한 것입니다.
5:44 - 5:46

(웃음)
5:46 - 5:50

(박수)
5:50 - 5:52

JM : 지금 5 백조개단어의 가치가 있는 많은 다른 그림이 있습니다.
5:52 - 5:54

예를 들어,이것을 보세요.
5:54 - 5:56

여러분이 독감을 취할경우,
5:56 - 5:58

여러분은 큰 독감 전염병이 전세계의 사람을 죽이고 있었던것을
5:58 - 6:01

알았던 지점의 가장 최고점 시간을 볼 수 있습니다.
6:01 - 6:04

ELA : 여러분이 아직도 납득되지 않으셨다면,
6:04 - 6:06

해수면이 상승하고 있으며,
6:06 - 6:09

그래서 대기 CO2와 지구의 온도도 상승하고 있습니다.
6:09 - 6:12

JM : 당신은 또한,이 특정 N - 그램을 보고싶어할지도 모르고,
6:12 - 6:15

그것은 니체에게 하나님이 죽은것이 아니라고 말하는 것입니다,
6:15 - 6:18

여러분은 니체가 더 나은 홍보가가 필요하다는데 동의할 지 모르지만요.
6:18 - 6:20

(웃음)
6:20 - 6:23

ELA : 당신은 이런 비슷한것들로 꽤 추상적인 개념을 얻을 수 있습니다.
6:23 - 6:25

예를 들어, 내가 여러분에게 1950년도의 역사를
6:25 - 6:27

알려드리겠습니다.
6:27 - 6:29

역사의 대부분에 대해서
6:29 - 6:31

그 누구도 1950에 대해 주의를 기울이지 않았습니다
6:31 - 6:33

1700 년, 1800 년, 1900 년에,
6:33 - 6:36

그 누구도 신경 쓰지 않았어요.
6:37 - 6:39

30년대와 40년대를 통과하며,
6:39 - 6:41

그 누구도 신경 쓰지 않았어요.
6:41 - 6:43

갑자기 40 년대 중반에
6:43 - 6:45

얘깃거리가 생기기 시작했습니다.
6:45 - 6:47

사람들은 1950 년이 일어날 것이라는것과
6:47 - 6:49

그게 큰일일 것이라는 것을 깨닫게 되었지요.
6:49 - 6:52

(웃음)
6:52 - 6:55

그러나 아무것도 1950 년과 같이
6:55 - 6:58

1950년에 사람들에게 관심이있는것은 없었습니다.
6:58 - 7:01

(웃음)
7:01 - 7:03

사람들은 집착해서 돌아나녔습니다
7:03 - 7:05

그들은 그들이 1950 년 한 모든 것에 대해,
7:05 - 7:08

말을 멈출수 없었습니다,
7:08 - 7:11

그들이 1950년에 할 준비를 하고있던 모든것들,
7:11 - 7:16

그들이 1950 년에 달성하고 싶어했던 모든 꿈에 대해.
7:16 - 7:18

사실 1950 년 정말 매혹적이어서
7:18 - 7:20

그 이후 년 동안
7:20 - 7:23

사람들은 51년, 52년, 53년에
7:23 - 7:25

일어난 모든 놀라운 일들에 대해 얘기를 계속했습니다.
7:25 - 7:27

결국 1954년에,
7:27 - 7:29

누군가가 잠에 깨어 일어나서는
7:29 - 7:33

1950은 다소 지나갔다는것을 깨달았습니다.
7:33 - 7:35

(웃음)
7:35 - 7:37

그리고 그냥 그렇게, 그 거품이 터졌지요.
7:37 - 7:39

(웃음)
7:39 - 7:41

그리고 1950 년 이야기는
7:41 - 7:43

우리가 기록을 보유하고 있는 매년의 이야기가
7:43 - 7:46

지금은 이 좋은 차트를 가지고 있기 때문에 약간 꼬여 있어요.
7:46 - 7:49

그리고 우리가이 멋진 차트를 가지고 있기 때문에, 우리는 물건을 측정할 수 있습니다.
7:49 - 7:51

우리는 "글쎄 얼마나 빨리 거품이 터질까?" 라고 말할 수도 있습니다.
7:51 - 7:54

그리고 그것은 우리가 매우 정확하게 측정할 수있다는 게 밝혀졌습니다.
7:54 - 7:57

방정식이 도출되었고, 그래프가 만들어졌고,
7:57 - 7:59

그리고 그 실제 결과는
7:59 - 8:02

우리가 그 거품이 터지는것이 각 지나가는 해와 더불어
8:02 - 8:04

점점 더 빨라지는것을 발견했다는 것입니다.
8:04 - 8:09

우리는 더 빨리 과거에 흥미를 잃어 가고있습니다.
8:09 - 8:11

JM : 지금 경력 조언의 작은 조각.
8:11 - 8:13

그래서 유명한 사람이 되기를 추구하는 여러분들을 위해,
8:13 - 8:15

우리는 25에서 가장 유명한 정치적 인물들에게서,
8:15 - 8:17

저자, 배우 등등에게서 배울 수 있습니다.
8:17 - 8:20

당신이 빨리 유명해지고 싶다면, 당신은 배우가 되어야합니다
8:20 - 8:22

그리고 명성이 20대의 마지막에 상승하기 시작하기 때문에 -
8:22 - 8:24

여러분이 아직 어리다면, 정말 좋아요.
8:24 - 8:26

당신은 조금 기다릴 수있다면, 이제 당신은 저자되어야합니다
8:26 - 8:28

다음 아주 좋은 높이로 상승하기 때문인데,
8:28 - 8:30

극히 유명한 사람과 같이 말이죠.
8:30 - 8:32

하지만 당신이 맨 상위에 도달하려는 경우,
8:32 - 8:34

당신은 만족을 지연해야하고
8:34 - 8:36

그리고, 물론, 정치가가 되야 합니다.
8:36 - 8:38

그럼 여기서 당신은 당신의 50 대 말까지 유명 될 것입니다
8:38 - 8:40

그리고 그 이후에는 아주 유명하게 됩니다.
8:40 - 8:43

그래서 과학자들은 또한 훨씬 나이들었을 때 유명해지는 경향이 있습니다.
8:43 - 8:45

예를 들어, 생물학 및 물리학에 대한 마찬가지로
8:45 - 8:47

배우만큼이나 유명해지는 경향이 있습니다.
8:47 - 8:50

당신이 범하지 말아야 할 한가지 실수는 수학자가 되는 것입니다.
8:50 - 8:52

(웃음)
8:52 - 8:54

만약 당신이 그렇게한다면,
8:54 - 8:57

당신은 "좋아. 아 내가 내가 20대에 있을 때 내 최고의 작업을 할거야."라고 생각할 수도 있지만
8:57 - 8:59

그러나 짐작해보세요, 아무도 상관하지 않습니다.
8:59 - 9:02

(웃음)
9:02 - 9:04

ELA: N-그램사이에
9:04 - 9:06

보다 냉정한 노트가 있습니다.
9:06 - 9:08

예를 들어, 여기, 1887년에 태어난
9:08 - 9:10

마크 샤갈의 탄도가 있습니다.
9:10 - 9:13

그리고 이것은 유명한 사람의 정상적인 궤도 같습니다.
9:13 - 9:17

그는 점점 더 유명해집니다,
9:17 - 9:19

독일어로 여러분이 보는 경우를 제외하고는요.
9:19 - 9:21

당신이 독일어로 보면, 당신은 완전히 이상한 무언가를 봅니다,
9:21 - 9:23

당신은 거의 못 볼 것을말이죠,
9:23 - 9:25

그것은 그가 극도로 유명하게되고
9:25 - 9:27

그리고 갑자기 곤두박질을 하는것입니다,
9:27 - 9:30

1933과 1945년 사이의 최하점을 겪으면서,
9:30 - 9:33

그 이후 복귀하기 전에요.
9:33 - 9:35

그리고 물론, 우리가 보는것은
9:35 - 9:38

사실 마크 샤갈은 나치 독일에서의
9:38 - 9:40

유대인 예술가였다는 사실입니다.
9:40 - 9:42

지금 이러한 신호들은
9:42 - 9:44

실제로 대단히 강해서
9:44 - 9:47

우리는 누군가가 검열 받았는지 알 필요가 없습니다.
9:47 - 9:49

우리는 실제로 기본적인 신호 처리를 사용해서
9:49 - 9:51

실제로 그것을 알아낼 수 있습니다.
9:51 - 9:53

여기 그것을하는 간단한 방법이 있습니다.
9:53 - 9:55

음, 합리적인 기대는
9:55 - 9:57

주어진 시간안에 누군가의 명성은
9:57 - 9:59

대략 그들의 명성의 이전과 이후의 평균으로
9:59 - 10:01

되어야 합니다.
10:01 - 10:03

그래서 그것은 우리가 기대하는 어떤것입니다.
10:03 - 10:06

그리고 우리는 우리가 관찰하는 명성에 그것을 비교합니다.
10:06 - 10:08

그리고 우리는 다른 것을 1로 나누어서
10:08 - 10:10

우리가 억제 지수라고 부르는 무언가를 생산합니다.
10:10 - 10:13

만일 그 억제 지수가 매우, 매우, 매우 작으면,
10:13 - 10:15

그다음에 당신은 잘 억압될 수도 있습니다.
10:15 - 10:18

만일 그것이 매우 크면, 아마 당신이 선전에서 혜택을 받는것일겁니다.
10:19 - 10:21

JM이 : 이제 여러분은
10:21 - 10:24

전체 인구에 대한 억제 지수의 분포를 실제로 볼 수 있습니다.
10:24 - 10:26

따라서 예를 들어, 여기에 -
10:26 - 10:28

이 억제 지수는 알려진 억압이 없는 곳에서
10:28 - 10:30

영어로 쓰여진 도서를 고른 5,000 명에 대한 것인데-
10:30 - 10:32

그것은 기본적으로 긴밀하게 하나를 중심으로 한 이것과 같은 것입니다.
10:32 - 10:34

예상할 수 있는것은 기본적으로 여러분이 관찰하는 것입니다.
10:34 - 10:36

독일에서 보여진것과 같이 이 배포는 -
10:36 - 10:38

매우 다릅니다, 그것은 왼쪽으로 이동되어 있지요.
10:38 - 10:41

사람들은 그것이 해 졌어야만 할 것보다 두 번 이하로 얘기했습니다.
10:41 - 10:43

그러나 더 중요하게, 그 배포는 훨씬 더 넓다는 것입니다.
10:43 - 10:46

이 배포판에서 맨 왼쪽에 결국 많은 사람들은
10:46 - 10:49

그들이 있었어야 할 것보다 10 배 이하로 얘기한 사람들입니다.
10:49 - 10:51

하지만 그다음에는 선전의 혜택을 받은것처럼 보이는
10:51 - 10:53

맨 오른쪽에도 많은 사람들이있습니다.
10:53 - 10:56

이 사진은 책에 기록에 검열의 특징이다.
10:56 - 10:58

ELA : 그래서 우리는 이 방법을
10:58 - 11:00

컬쳐로믹스라고 부릅니다.
11:00 - 11:02

그것은 같은 게놈의 일종 이죠.
11:02 - 11:04

게노믹스가 인간 게놈에있는 기반의 순서의 창문을 통한
11:04 - 11:07

생물학에서는 렌즈라는것을 제외하고는 말입니다.
11:07 - 11:09

컬쳐로믹스는 비슷합니다.
11:09 - 11:12

그것은 인간 문화의 연구에
11:12 - 11:14

거대한 규모의 데이터 수집 분석 응용 프로그램입니다.
11:14 - 11:16

여기에서는, 게놈의 렌즈를 통하는것을 대신해서,
11:16 - 11:19

역사 기록의 디지털화된 조각의 렌즈를 통합니다.
11:19 - 11:21

컬쳐로믹스에 대한 굉장한 점은
11:21 - 11:23

모든 사람이 그것을 할 수 있다는 것 입니다.
11:23 - 11:25

왜 다들 그것을 할 수 있을까요?
11:25 - 11:27

누구나 할 수 있기 때문에 세 남자,
11:27 - 11:30

존 오르완트, 매트 그레이와 윌 브록만이 구글에서
11:30 - 11:32

N 그램의 뷰어의 프로토 타입을 보고,
11:32 - 11:34

그리고 그들이 말하기를, "이건 정말 재미있네.
11:34 - 11:37

우리는 사람들이 이걸 사용할 수 있도록해야하겠는걸 "이라고 말했습니다.
11:37 - 11:39

그래서 2 주를 쫙 깔아서-- 우리 신문이 나온 두 주 전에 ---
11:39 - 11:42

그들은 일반 대중을 위한 N그램 뷰어의 버전을 코드화 했습니다 .
11:42 - 11:45

그래서 당신도 당신이 관심이 있는 어떤 단어 또는 구절이든지 타이프칠 수 있고
11:45 - 11:47

그 즉시 N 그램을 볼 수 있고 -
11:47 - 11:49

또한 여러분의 N그램에 나타나는
11:49 - 11:51

다양한 도서의 사례를 탐색할 수 있습니다.
11:51 - 11:53

JM : 이제 이것은 첫날에 백만 번 이상 사용되었고,
11:53 - 11:55

이것은 정말 모든 질문중 최고입니다.
11:55 - 11:58

그래서 사람들은 앞으로 최선의 발차취로 그 자신들의 최고가 되고 싶어합니다.
11:58 - 12:01

하지만 18 세기에 밝혀졌듯이, 사람들은 전혀 신경 쓰지 않았습니다.
12:01 - 12:04

그들은 그들의 최고가 되고 싶지 않아했습니다, 그들은 그들의 방어인들이 되고 싶어했어요.
12:04 - 12:07

그래서 무슨 일이 일어났는가 하면, 이건 실수입니다.
12:07 - 12:09

이것은, 평범을위한 투지가 아니에요
12:09 - 12:12

그것은 S가 F 비슷하게 다르게 쓰여지곤 했다는 것입니다.
12:12 - 12:15

지금은 물론, 구글은 당시에 이것을 알아차리지 못했습니다,
12:15 - 12:18

그래서 우리는 우리가 쓴 과학 기사에서 이것을 보도했습니다.
12:18 - 12:20

그러나 그것은 이것이 단지 이것이 아주 재미있지만,
12:20 - 12:22

여러분이 이 그래프를 해석할 때,
12:22 - 12:24

여러분이 매우 신중해야 한다는 것을,
12:24 - 12:27

그리고 과학에서 기본 표준을 채택해야만 한다는 것을 상기시켜주는 것입니다.
12:27 - 12:30

ELA : 사람들은 재미 목적인 종류에 이것을 사용하고 있습니다.
12:30 - 12:37

(웃음)
12:37 - 12:39

사실, 우리는 얘기를 할 수 없어야만 하는 않을 것입니다,
12:39 - 12:42

우리는 당신에게 모든 슬라이드를 보여하고 조용히 있을겁니다.
12:42 - 12:45

이 사람은 좌절의 역사에 관심이 있었습니다.
12:45 - 12:48

다양한 종류의 좌절이 있었습니다.
12:48 - 12:51

만일 여러분이 여러분의 발가락을 찌른다면, 그것은 하나의 A "argh."입니다.
12:51 - 12:53

만일 지구가 성간 우회를 위한 공간을 마련하기 위한,
12:53 - 12:55

보곤에 의해 전멸당하게 되면,
12:55 - 12:57

그것은 여덟개의 A "argh" 입니다.
12:57 - 12:59

이 사람은 모든 "argh" 를
12:59 - 13:01

하나에서부터 8 A를 통해서 공부합니다.
13:01 - 13:03

그리고 그것은
13:03 - 13:05

그 "arghs" 가 덜 빈번하게 나올때,
13:05 - 13:08

물론, 이것들에 해당하는 것들은 더 어렵게됩니다--
13:08 - 13:11

이상하게도 초기 80 년대에서를 제외하고는요.
13:11 - 13:13

우리는 레이건과 뭔가 관련이 있을지 모른다고 생각합니다.£
13:13 - 13:15

(웃음)
13:15 - 13:18

JM :이 데이터의 여러 용도가 있습니다,
13:18 - 13:21

하지만 요점은 역사적 기록이 디지털화 되고 있다는 점입니다.
13:21 - 13:23

Google은 천오백만권의 책을 디지털화하기 시작했습니다.
13:23 - 13:25

그것은 사상 출판된 모든 책들의 12 % 입니다.
13:25 - 13:28

그것은 인간 문화의 상당한 부분입니다.
13:28 - 13:31

문화에는 훨씬 더 있습니다: 거기에는 원고, 신문이 있고,
13:31 - 13:33

예술과 그림과 같은, 텍스트가 아닌 것들이 있습니다.
13:33 - 13:35

이것들은 모두 우리의 컴퓨터위에서 일어났습니다,
13:35 - 13:37

전세계에 걸쳐 컴퓨터위에서.
13:37 - 13:40

그리고 그것이 일어나는 때면, 우리가 우리의 과거, 현재, 그리고 미래를 이해하는
13:40 - 13:42

우리의 과거, 현재 우리의 인간 문화를 이해합니다.
13:42 - 13:44

정말 감사합니다.
13:44 - 13:47

(박수)

Title:: 5백만권의 책을 통해 우리가 배운 것들
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: 구글 실험실의 'Ngram 뷰어' 를 이용해본 적이 있나요? 그것은 사용자가 여러 세기에서 걸친약 5백만권의 데이터베이스에서 단어와 아이디어들을 검색할 수 있게 해주는 중독성있는 도구입니다. 이레즈 리버맨 에이든과 (Erez Lieberman) 장 뱊티스트 미쉘이 (Jean-Baptiste MIchael)이 그것이 어떻게 작동하는지 보여주고 또 5천억이 넘는 단어들을 통해 우리가 배울 수 있는 몇가지 놀라운 점들 알려줍니다.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Poram Lee added a translation

Korean subtitles

Revisions

Revision 1

Ji-Hyuk Park

5백만권의 책을 통해 우리가 배운 것들

Revisions

Our website uses cookies

Operating cookies (Required)