5백만권의 책을 통해 우리가 배운 것들
-
0:00 - 0:02이레즈: 누구나 아는
-
0:02 - 0:05'백문이 불여일견'이라는 말이 있습니다.
-
0:07 - 0:09하지만 하버드에서 우리는
-
0:09 - 0:12저 말이 참인지 거짓인지를 논하곤 했죠.
-
0:12 - 0:14(웃음)
-
0:14 - 0:18그래서 우리는 하버트와 MIT에 걸쳐
-
0:18 - 0:20전문가들을 모집하고
-
0:20 - 0:23아메리칸 헤리티지 사전, 브리태니커 백과사전
-
0:23 - 0:25그리고 심지어 우리의 자랑스런 후원,
-
0:25 - 0:28구글까지 포괄하는 팀을 구성했습니다.
-
0:28 - 0:30그리고 우리는 이것에 대해
-
0:30 - 0:32약 4년 동안 깊이있게 연구했죠.
-
0:32 - 0:37우리는 놀라운 결론에 도달했습니다.
-
0:37 - 0:40신사 숙녀 여러분, 한 그림은 천 단어의 가치가 없습니다. [역: '일견'이 백문의 가치가 되지 않습니다.]
-
0:40 - 0:42사실, 우리는 몇 가지 사진들의 경우
-
0:42 - 0:475천억 단어 정도의 가치가 있음을 발견했죠.
-
0:47 - 0:49미셸 : 어떻게 우리가 이 결론에 도달했을까요?
-
0:49 - 0:51이레즈와 전, 연구 방법에 대해 생각하고 있었습니다.
-
0:51 - 0:53어떻게 하면 인간 문화와 역사의 큰 그림을
-
0:53 - 0:56얻을 수 있을까: 시간에 따라 변화되는 것을 포함해서
-
0:56 - 0:58실제로 수 많은 책들은 지난 수년 동안 기록되었습니다.
-
0:58 - 1:00그래서 우리가 그들로 부터 배울 수 있는 가장 좋은 방법은
-
1:00 - 1:02이 수천 수만권의 책들을 다 읽는거라 생각했습니다.
-
1:02 - 1:05물론, 저 일이 얼마나 멋진 일인지 측정할 수 있다면
-
1:05 - 1:08저것은 매우, 아주 높은 순위가 매겨질 것입니다.
-
1:08 - 1:10문제는, 그곳에 x축이 있다는 거죠.
-
1:10 - 1:12실용성을 나타내는 축이죠.
-
1:12 - 1:14이 축에서의 점수는 매우 낮습니다.
-
1:14 - 1:17(박수)
-
1:17 - 1:20현재, 사람들은 대안으로 몇 가지 소스들을
-
1:20 - 1:22선택해서 그것들을 주의깊게 읽어나가죠.
-
1:22 - 1:24이 방식은 매우 실용적이지만 아주 멋지지는 않습니다.
-
1:24 - 1:27당신이 정말하고 원하는 것은
-
1:27 - 1:30아주 멋진 일을 아주 실용적으로 하는 거죠.
-
1:30 - 1:33그래서 보니 강 건너에 구글이라 불리는 회사가 있더군요.
-
1:33 - 1:35몇 년 전에 디지털화 프로젝트를 시작했었던 회사죠.
-
1:35 - 1:37그것이 우리의 접근방식을 가능케 할수도 있겠더군요.
-
1:37 - 1:39그들은 수백만권의 책을 디지털화 했습니다.
-
1:39 - 1:42그것이 무슨 뜻인고 하니, 누군가 원하면 단 하나의 클릭으로
-
1:42 - 1:44책을 한권을 훑어볼 수 있다는 뜻이죠.
-
1:44 - 1:47아주 실용적이이며 극도로 멋진 일이죠.
-
1:48 - 1:50이레즈: 제가 책들이 어디서 왔는지 설명을 좀 하죠.
-
1:50 - 1:53태고적부터, 작가는 늘 존재해 왔습니다.
-
1:53 - 1:56이 저자들은 책을 쓰기 위해 분투해왔죠.
-
1:56 - 1:58그 일은 점점 쉬워졋습니다.
-
1:58 - 2:00몇 세기전의 인쇄기 발달과 함께말이죠.
-
2:00 - 2:03그 이후로 부터는 저자들의 승리였죠.
-
2:03 - 2:05뚜렷이 1억2천9백만번 동안
-
2:05 - 2:07책을 출판했으니까요
-
2:07 - 2:09역사 속에 분실되지 않았다면 해당 도서는
-
2:09 - 2:11지금 어느 도서관 어딘가에 있는 것입니다.
-
2:11 - 2:14그 도서의 대부분이 도서관에서 회수되어져
-
2:14 - 2:16구글에 의해 디지털화 되고 있습니다.
-
2:16 - 2:18현재까지 천오백만권의 도서를 스캔했습니다.
-
2:18 - 2:21지금 구글이 책을 디지털화하면, 좋은 포맷으로 바꿔두죠.
-
2:21 - 2:23이제 우리는 데이터가 있고 그에 관한 속성 정보까지 있죠.
-
2:23 - 2:26우리에겐 그것이 어디서 출판되었고 누가 썼으며
-
2:26 - 2:28언제 발행되었는지에 관한 정보도 있습니다.
-
2:28 - 2:31해서, 우리가 가진 모든 자료들을 훑어서
-
2:31 - 2:35상태가 좋지않은 데이터는 전부 제하여
-
2:35 - 2:37추려서 남은 것이
-
2:37 - 2:40오백만권의 책 입니다.
-
2:40 - 2:435천억개의 단어들,
-
2:43 - 2:45일렬로 나열했을 경우
-
2:45 - 2:48우리 유전자의 총체, 인간 게놈보다 천배 이상 긴 겁니다.
-
2:48 - 2:50이 텍스트들을 모두 모아서
-
2:50 - 2:52한 줄로 쓰면 여기서 달까지
-
2:52 - 2:5410번 왔다갔다 할 만큼 나오죠.
-
2:54 - 2:58진정 우리 문화 게놈의 한 조각이라 할 수 있죠.
-
2:58 - 3:00물론 이런 말도 안되는 과장에 직면하게 되면
-
3:00 - 3:03우리가 할 수 있는 일이라곤
-
3:03 - 3:05(웃음)
-
3:05 - 3:08자존감있는 연구원이라면
-
3:08 - 3:11누구나 했을 법한 일이죠.
-
3:11 - 3:13XKCD의 한 페이지를 꺼내 들고
-
3:13 - 3:15외치는 거죠. "뒤로 물러나.
-
3:15 - 3:17우리는 이제 과학을 시도 할 것이야."
-
3:17 - 3:19(웃음) [역: XKCD.com 미국의 유명 웹툰. 웹사이트에서 해당 문구의 티셔츠를 판매하고 있음]
-
3:19 - 3:21JM은 : 지금은 물론, 우리는 생각하고 있었죠,
-
3:21 - 3:23물론 그냥 먼저 밖으로 데이터를 넣어 봅시다
-
3:23 - 3:25그것을 할 과학을 하는 사람들을 위해서말이죠.
-
3:25 - 3:27지금 우리가 생각하고, 우리는 어떤 데이터를 공개할 수 있습니까?
-
3:27 - 3:29그럼요, 당신은 책을 취해서
-
3:29 - 3:31이러한 오백만 도서의 전체 텍스트를 놓고 싶어합니다.
-
3:31 - 3:33특히 이제 Google과 존 Orwant,
-
3:33 - 3:35우리가 배워야할 방정식이 조금있다고 말했습니다.
-
3:35 - 3:38그래서 5 백만 작가, 즉, 5 백만 달러를 가지고
-
3:38 - 3:41그리고 5 백만 원고측은 대규모의 소송이다.
-
3:41 - 3:43그럼, 그건 정말 굉장한 것이긴 하지만
-
3:43 - 3:46다시말해, 그건 극히, 극히 비실용적입니다.
-
3:46 - 3:48(웃음)
-
3:48 - 3:50이제 다시, 우리는 굴복한것처럼 되어서,
-
3:50 - 3:53그리고 약간 덜 굉장하지만, 아주 실용적인 접근을 하게 되었습니다.
-
3:53 - 3:55우리가 말하길, "글쎄, 전체 텍스트를 발표하는 대신
-
3:55 - 3:57우리는 도서에 대한 통계를 공개할거야.
-
3:57 - 3:59예를 들어, '행복의 광채"를 봅시다.
-
3:59 - 4:01그것은 네 단어입니다; 우리는 4 그램이라고 부릅니다.
-
4:01 - 4:03우리는 특정 4 그램이 1801, 1802, 1803,
-
4:03 - 4:052008년까지 죽 올라가서 책에
-
4:05 - 4:07몇번이나 나타나는지 여러분께 말할겁니다.
-
4:07 - 4:09그것은 우리에게 이 특정 문장은 시간이 지남에 따라 얼마나 자주 사용되었는지
-
4:09 - 4:11시간 시리즈를 제공합니다.
-
4:11 - 4:14우리가 그 도서에 나타나는 모든 단어와 구문에 대해 그렇게 하면,
-
4:14 - 4:17그것은 우리에게 이십억 줄의 큰 테이블을 제공하는데
-
4:17 - 4:19그것은 방식 문화가 변경되는 방법에 관해서 우리에게 알려줍니다.
-
4:19 - 4:21ELA : 그럼 그 이십억 라인,
-
4:21 - 4:23우리는 그들 이십억 N -그램.
-
4:23 - 4:25그들이 우리에게 뭐라고 할까요?
-
4:25 - 4:27그럼 각각의 N - 그램은 문화동향을 측정합니다.
-
4:27 - 4:29한가지 예를 들어 드리겠습니다.
-
4:29 - 4:31내가 번성하고 있다고 가정해 봅시다
-
4:31 - 4:33그러면 내일은 내가 얼마나 잘했는지 말해주고 싶어요.
-
4:33 - 4:36그래서 난 "어제 내가 번성했어요(throve)."말할지도 모릅니다.
-
4:36 - 4:39또 저는 "어제, 내가 번창했어요 (thrived)." 라고 할 수 도 있습니다.
-
4:39 - 4:42글쎄, 어떤것을 사용해야 할까요?
-
4:42 - 4:44어떻게 압니까?
-
4:44 - 4:46약 6 개월 전의 시기에,
-
4:46 - 4:48이 분야에서 예술의 상태는
-
4:48 - 4:50예를 들어, 당신이,
-
4:50 - 4:52멋진 머리를 가진 심리학자를 따라 올라가,
-
4:52 - 4:54당신이 말하길,
-
4:54 - 4:57"스티브, 당신은 불규칙 동사에 관한 전문가입니다.
-
4:57 - 4:59제가 어떻게 해야 할까요? "
-
4:59 - 5:01그거면 그는, "글쎄요, 대부분의 사람들이 말하길 번성했다(thrive) 고 했지만,
-
5:01 - 5:04몇몇 사람은 번창했다(throve) 라고 했어요."
-
5:04 - 5:06그래서 여러분은 당신은 또한 다소는
-
5:06 - 5:09만일 이백년전 이전으로 거슬러 올라가서
-
5:09 - 5:12그리고, 똑같이 멋진 머리를 가진 다음의 정치가에게 묻는다면,
-
5:12 - 5:15(웃음)
-
5:15 - 5:17"톰, 내가 무슨 말을해야합니까?"
-
5:17 - 5:19그는 "글쎄, 나의 세대는 대부분의 사람들이 번성했다 (throve) 라고 말했지만
-
5:19 - 5:22몇몇사람은 번창했다 (thrive)라고 말했어요." 할겁니다.
-
5:22 - 5:24그래서 제가 여러분에게 그냥 보여드리려고 하는것은 원래의 데이터입니다.
-
5:24 - 5:28이십억 항목의 이 테이블에서 두 줄입니다.
-
5:28 - 5:30여러분이 지금보고 계시는 것은 번성했다(throve)와 번창했다(thrive)의
-
5:30 - 5:33오랜시간에 걸친 각 년도의 빈도입니다.
-
5:34 - 5:36이제 이십억 행에서
-
5:36 - 5:39이 두 개만 있습니다
-
5:39 - 5:41따라서 전체 데이터 세트는
-
5:41 - 5:44이 슬라이드보다 억 배 이상 굉장한 것입니다.
-
5:44 - 5:46(웃음)
-
5:46 - 5:50(박수)
-
5:50 - 5:52JM : 지금 5 백조개단어의 가치가 있는 많은 다른 그림이 있습니다.
-
5:52 - 5:54예를 들어,이것을 보세요.
-
5:54 - 5:56여러분이 독감을 취할경우,
-
5:56 - 5:58여러분은 큰 독감 전염병이 전세계의 사람을 죽이고 있었던것을
-
5:58 - 6:01알았던 지점의 가장 최고점 시간을 볼 수 있습니다.
-
6:01 - 6:04ELA : 여러분이 아직도 납득되지 않으셨다면,
-
6:04 - 6:06해수면이 상승하고 있으며,
-
6:06 - 6:09그래서 대기 CO2와 지구의 온도도 상승하고 있습니다.
-
6:09 - 6:12JM : 당신은 또한,이 특정 N - 그램을 보고싶어할지도 모르고,
-
6:12 - 6:15그것은 니체에게 하나님이 죽은것이 아니라고 말하는 것입니다,
-
6:15 - 6:18여러분은 니체가 더 나은 홍보가가 필요하다는데 동의할 지 모르지만요.
-
6:18 - 6:20(웃음)
-
6:20 - 6:23ELA : 당신은 이런 비슷한것들로 꽤 추상적인 개념을 얻을 수 있습니다.
-
6:23 - 6:25예를 들어, 내가 여러분에게 1950년도의 역사를
-
6:25 - 6:27알려드리겠습니다.
-
6:27 - 6:29역사의 대부분에 대해서
-
6:29 - 6:31그 누구도 1950에 대해 주의를 기울이지 않았습니다
-
6:31 - 6:331700 년, 1800 년, 1900 년에,
-
6:33 - 6:36그 누구도 신경 쓰지 않았어요.
-
6:37 - 6:3930년대와 40년대를 통과하며,
-
6:39 - 6:41그 누구도 신경 쓰지 않았어요.
-
6:41 - 6:43갑자기 40 년대 중반에
-
6:43 - 6:45얘깃거리가 생기기 시작했습니다.
-
6:45 - 6:47사람들은 1950 년이 일어날 것이라는것과
-
6:47 - 6:49그게 큰일일 것이라는 것을 깨닫게 되었지요.
-
6:49 - 6:52(웃음)
-
6:52 - 6:55그러나 아무것도 1950 년과 같이
-
6:55 - 6:581950년에 사람들에게 관심이있는것은 없었습니다.
-
6:58 - 7:01(웃음)
-
7:01 - 7:03사람들은 집착해서 돌아나녔습니다
-
7:03 - 7:05그들은 그들이 1950 년 한 모든 것에 대해,
-
7:05 - 7:08말을 멈출수 없었습니다,
-
7:08 - 7:11그들이 1950년에 할 준비를 하고있던 모든것들,
-
7:11 - 7:16그들이 1950 년에 달성하고 싶어했던 모든 꿈에 대해.
-
7:16 - 7:18사실 1950 년 정말 매혹적이어서
-
7:18 - 7:20그 이후 년 동안
-
7:20 - 7:23사람들은 51년, 52년, 53년에
-
7:23 - 7:25일어난 모든 놀라운 일들에 대해 얘기를 계속했습니다.
-
7:25 - 7:27결국 1954년에,
-
7:27 - 7:29누군가가 잠에 깨어 일어나서는
-
7:29 - 7:331950은 다소 지나갔다는것을 깨달았습니다.
-
7:33 - 7:35(웃음)
-
7:35 - 7:37그리고 그냥 그렇게, 그 거품이 터졌지요.
-
7:37 - 7:39(웃음)
-
7:39 - 7:41그리고 1950 년 이야기는
-
7:41 - 7:43우리가 기록을 보유하고 있는 매년의 이야기가
-
7:43 - 7:46지금은 이 좋은 차트를 가지고 있기 때문에 약간 꼬여 있어요.
-
7:46 - 7:49그리고 우리가이 멋진 차트를 가지고 있기 때문에, 우리는 물건을 측정할 수 있습니다.
-
7:49 - 7:51우리는 "글쎄 얼마나 빨리 거품이 터질까?" 라고 말할 수도 있습니다.
-
7:51 - 7:54그리고 그것은 우리가 매우 정확하게 측정할 수있다는 게 밝혀졌습니다.
-
7:54 - 7:57방정식이 도출되었고, 그래프가 만들어졌고,
-
7:57 - 7:59그리고 그 실제 결과는
-
7:59 - 8:02우리가 그 거품이 터지는것이 각 지나가는 해와 더불어
-
8:02 - 8:04점점 더 빨라지는것을 발견했다는 것입니다.
-
8:04 - 8:09우리는 더 빨리 과거에 흥미를 잃어 가고있습니다.
-
8:09 - 8:11JM : 지금 경력 조언의 작은 조각.
-
8:11 - 8:13그래서 유명한 사람이 되기를 추구하는 여러분들을 위해,
-
8:13 - 8:15우리는 25에서 가장 유명한 정치적 인물들에게서,
-
8:15 - 8:17저자, 배우 등등에게서 배울 수 있습니다.
-
8:17 - 8:20당신이 빨리 유명해지고 싶다면, 당신은 배우가 되어야합니다
-
8:20 - 8:22그리고 명성이 20대의 마지막에 상승하기 시작하기 때문에 -
-
8:22 - 8:24여러분이 아직 어리다면, 정말 좋아요.
-
8:24 - 8:26당신은 조금 기다릴 수있다면, 이제 당신은 저자되어야합니다
-
8:26 - 8:28다음 아주 좋은 높이로 상승하기 때문인데,
-
8:28 - 8:30극히 유명한 사람과 같이 말이죠.
-
8:30 - 8:32하지만 당신이 맨 상위에 도달하려는 경우,
-
8:32 - 8:34당신은 만족을 지연해야하고
-
8:34 - 8:36그리고, 물론, 정치가가 되야 합니다.
-
8:36 - 8:38그럼 여기서 당신은 당신의 50 대 말까지 유명 될 것입니다
-
8:38 - 8:40그리고 그 이후에는 아주 유명하게 됩니다.
-
8:40 - 8:43그래서 과학자들은 또한 훨씬 나이들었을 때 유명해지는 경향이 있습니다.
-
8:43 - 8:45예를 들어, 생물학 및 물리학에 대한 마찬가지로
-
8:45 - 8:47배우만큼이나 유명해지는 경향이 있습니다.
-
8:47 - 8:50당신이 범하지 말아야 할 한가지 실수는 수학자가 되는 것입니다.
-
8:50 - 8:52(웃음)
-
8:52 - 8:54만약 당신이 그렇게한다면,
-
8:54 - 8:57당신은 "좋아. 아 내가 내가 20대에 있을 때 내 최고의 작업을 할거야."라고 생각할 수도 있지만
-
8:57 - 8:59그러나 짐작해보세요, 아무도 상관하지 않습니다.
-
8:59 - 9:02(웃음)
-
9:02 - 9:04ELA: N-그램사이에
-
9:04 - 9:06보다 냉정한 노트가 있습니다.
-
9:06 - 9:08예를 들어, 여기, 1887년에 태어난
-
9:08 - 9:10마크 샤갈의 탄도가 있습니다.
-
9:10 - 9:13그리고 이것은 유명한 사람의 정상적인 궤도 같습니다.
-
9:13 - 9:17그는 점점 더 유명해집니다,
-
9:17 - 9:19독일어로 여러분이 보는 경우를 제외하고는요.
-
9:19 - 9:21당신이 독일어로 보면, 당신은 완전히 이상한 무언가를 봅니다,
-
9:21 - 9:23당신은 거의 못 볼 것을말이죠,
-
9:23 - 9:25그것은 그가 극도로 유명하게되고
-
9:25 - 9:27그리고 갑자기 곤두박질을 하는것입니다,
-
9:27 - 9:301933과 1945년 사이의 최하점을 겪으면서,
-
9:30 - 9:33그 이후 복귀하기 전에요.
-
9:33 - 9:35그리고 물론, 우리가 보는것은
-
9:35 - 9:38사실 마크 샤갈은 나치 독일에서의
-
9:38 - 9:40유대인 예술가였다는 사실입니다.
-
9:40 - 9:42지금 이러한 신호들은
-
9:42 - 9:44실제로 대단히 강해서
-
9:44 - 9:47우리는 누군가가 검열 받았는지 알 필요가 없습니다.
-
9:47 - 9:49우리는 실제로 기본적인 신호 처리를 사용해서
-
9:49 - 9:51실제로 그것을 알아낼 수 있습니다.
-
9:51 - 9:53여기 그것을하는 간단한 방법이 있습니다.
-
9:53 - 9:55음, 합리적인 기대는
-
9:55 - 9:57주어진 시간안에 누군가의 명성은
-
9:57 - 9:59대략 그들의 명성의 이전과 이후의 평균으로
-
9:59 - 10:01되어야 합니다.
-
10:01 - 10:03그래서 그것은 우리가 기대하는 어떤것입니다.
-
10:03 - 10:06그리고 우리는 우리가 관찰하는 명성에 그것을 비교합니다.
-
10:06 - 10:08그리고 우리는 다른 것을 1로 나누어서
-
10:08 - 10:10우리가 억제 지수라고 부르는 무언가를 생산합니다.
-
10:10 - 10:13만일 그 억제 지수가 매우, 매우, 매우 작으면,
-
10:13 - 10:15그다음에 당신은 잘 억압될 수도 있습니다.
-
10:15 - 10:18만일 그것이 매우 크면, 아마 당신이 선전에서 혜택을 받는것일겁니다.
-
10:19 - 10:21JM이 : 이제 여러분은
-
10:21 - 10:24전체 인구에 대한 억제 지수의 분포를 실제로 볼 수 있습니다.
-
10:24 - 10:26따라서 예를 들어, 여기에 -
-
10:26 - 10:28이 억제 지수는 알려진 억압이 없는 곳에서
-
10:28 - 10:30영어로 쓰여진 도서를 고른 5,000 명에 대한 것인데-
-
10:30 - 10:32그것은 기본적으로 긴밀하게 하나를 중심으로 한 이것과 같은 것입니다.
-
10:32 - 10:34예상할 수 있는것은 기본적으로 여러분이 관찰하는 것입니다.
-
10:34 - 10:36독일에서 보여진것과 같이 이 배포는 -
-
10:36 - 10:38매우 다릅니다, 그것은 왼쪽으로 이동되어 있지요.
-
10:38 - 10:41사람들은 그것이 해 졌어야만 할 것보다 두 번 이하로 얘기했습니다.
-
10:41 - 10:43그러나 더 중요하게, 그 배포는 훨씬 더 넓다는 것입니다.
-
10:43 - 10:46이 배포판에서 맨 왼쪽에 결국 많은 사람들은
-
10:46 - 10:49그들이 있었어야 할 것보다 10 배 이하로 얘기한 사람들입니다.
-
10:49 - 10:51하지만 그다음에는 선전의 혜택을 받은것처럼 보이는
-
10:51 - 10:53맨 오른쪽에도 많은 사람들이있습니다.
-
10:53 - 10:56이 사진은 책에 기록에 검열의 특징이다.
-
10:56 - 10:58ELA : 그래서 우리는 이 방법을
-
10:58 - 11:00컬쳐로믹스라고 부릅니다.
-
11:00 - 11:02그것은 같은 게놈의 일종 이죠.
-
11:02 - 11:04게노믹스가 인간 게놈에있는 기반의 순서의 창문을 통한
-
11:04 - 11:07생물학에서는 렌즈라는것을 제외하고는 말입니다.
-
11:07 - 11:09컬쳐로믹스는 비슷합니다.
-
11:09 - 11:12그것은 인간 문화의 연구에
-
11:12 - 11:14거대한 규모의 데이터 수집 분석 응용 프로그램입니다.
-
11:14 - 11:16여기에서는, 게놈의 렌즈를 통하는것을 대신해서,
-
11:16 - 11:19역사 기록의 디지털화된 조각의 렌즈를 통합니다.
-
11:19 - 11:21컬쳐로믹스에 대한 굉장한 점은
-
11:21 - 11:23모든 사람이 그것을 할 수 있다는 것 입니다.
-
11:23 - 11:25왜 다들 그것을 할 수 있을까요?
-
11:25 - 11:27누구나 할 수 있기 때문에 세 남자,
-
11:27 - 11:30존 오르완트, 매트 그레이와 윌 브록만이 구글에서
-
11:30 - 11:32N 그램의 뷰어의 프로토 타입을 보고,
-
11:32 - 11:34그리고 그들이 말하기를, "이건 정말 재미있네.
-
11:34 - 11:37우리는 사람들이 이걸 사용할 수 있도록해야하겠는걸 "이라고 말했습니다.
-
11:37 - 11:39그래서 2 주를 쫙 깔아서-- 우리 신문이 나온 두 주 전에 ---
-
11:39 - 11:42그들은 일반 대중을 위한 N그램 뷰어의 버전을 코드화 했습니다 .
-
11:42 - 11:45그래서 당신도 당신이 관심이 있는 어떤 단어 또는 구절이든지 타이프칠 수 있고
-
11:45 - 11:47그 즉시 N 그램을 볼 수 있고 -
-
11:47 - 11:49또한 여러분의 N그램에 나타나는
-
11:49 - 11:51다양한 도서의 사례를 탐색할 수 있습니다.
-
11:51 - 11:53JM : 이제 이것은 첫날에 백만 번 이상 사용되었고,
-
11:53 - 11:55이것은 정말 모든 질문중 최고입니다.
-
11:55 - 11:58그래서 사람들은 앞으로 최선의 발차취로 그 자신들의 최고가 되고 싶어합니다.
-
11:58 - 12:01하지만 18 세기에 밝혀졌듯이, 사람들은 전혀 신경 쓰지 않았습니다.
-
12:01 - 12:04그들은 그들의 최고가 되고 싶지 않아했습니다, 그들은 그들의 방어인들이 되고 싶어했어요.
-
12:04 - 12:07그래서 무슨 일이 일어났는가 하면, 이건 실수입니다.
-
12:07 - 12:09이것은, 평범을위한 투지가 아니에요
-
12:09 - 12:12그것은 S가 F 비슷하게 다르게 쓰여지곤 했다는 것입니다.
-
12:12 - 12:15지금은 물론, 구글은 당시에 이것을 알아차리지 못했습니다,
-
12:15 - 12:18그래서 우리는 우리가 쓴 과학 기사에서 이것을 보도했습니다.
-
12:18 - 12:20그러나 그것은 이것이 단지 이것이 아주 재미있지만,
-
12:20 - 12:22여러분이 이 그래프를 해석할 때,
-
12:22 - 12:24여러분이 매우 신중해야 한다는 것을,
-
12:24 - 12:27그리고 과학에서 기본 표준을 채택해야만 한다는 것을 상기시켜주는 것입니다.
-
12:27 - 12:30ELA : 사람들은 재미 목적인 종류에 이것을 사용하고 있습니다.
-
12:30 - 12:37(웃음)
-
12:37 - 12:39사실, 우리는 얘기를 할 수 없어야만 하는 않을 것입니다,
-
12:39 - 12:42우리는 당신에게 모든 슬라이드를 보여하고 조용히 있을겁니다.
-
12:42 - 12:45이 사람은 좌절의 역사에 관심이 있었습니다.
-
12:45 - 12:48다양한 종류의 좌절이 있었습니다.
-
12:48 - 12:51만일 여러분이 여러분의 발가락을 찌른다면, 그것은 하나의 A "argh."입니다.
-
12:51 - 12:53만일 지구가 성간 우회를 위한 공간을 마련하기 위한,
-
12:53 - 12:55보곤에 의해 전멸당하게 되면,
-
12:55 - 12:57그것은 여덟개의 A "argh" 입니다.
-
12:57 - 12:59이 사람은 모든 "argh" 를
-
12:59 - 13:01하나에서부터 8 A를 통해서 공부합니다.
-
13:01 - 13:03그리고 그것은
-
13:03 - 13:05그 "arghs" 가 덜 빈번하게 나올때,
-
13:05 - 13:08물론, 이것들에 해당하는 것들은 더 어렵게됩니다--
-
13:08 - 13:11이상하게도 초기 80 년대에서를 제외하고는요.
-
13:11 - 13:13우리는 레이건과 뭔가 관련이 있을지 모른다고 생각합니다.£
-
13:13 - 13:15(웃음)
-
13:15 - 13:18JM :이 데이터의 여러 용도가 있습니다,
-
13:18 - 13:21하지만 요점은 역사적 기록이 디지털화 되고 있다는 점입니다.
-
13:21 - 13:23Google은 천오백만권의 책을 디지털화하기 시작했습니다.
-
13:23 - 13:25그것은 사상 출판된 모든 책들의 12 % 입니다.
-
13:25 - 13:28그것은 인간 문화의 상당한 부분입니다.
-
13:28 - 13:31문화에는 훨씬 더 있습니다: 거기에는 원고, 신문이 있고,
-
13:31 - 13:33예술과 그림과 같은, 텍스트가 아닌 것들이 있습니다.
-
13:33 - 13:35이것들은 모두 우리의 컴퓨터위에서 일어났습니다,
-
13:35 - 13:37전세계에 걸쳐 컴퓨터위에서.
-
13:37 - 13:40그리고 그것이 일어나는 때면, 우리가 우리의 과거, 현재, 그리고 미래를 이해하는
-
13:40 - 13:42우리의 과거, 현재 우리의 인간 문화를 이해합니다.
-
13:42 - 13:44정말 감사합니다.
-
13:44 - 13:47(박수)
- Title:
- 5백만권의 책을 통해 우리가 배운 것들
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
more » « less
구글 실험실의 'Ngram 뷰어' 를 이용해본 적이 있나요? 그것은 사용자가 여러 세기에서 걸친약 5백만권의 데이터베이스에서 단어와 아이디어들을 검색할 수 있게 해주는 중독성있는 도구입니다. 이레즈 리버맨 에이든과 (Erez Lieberman) 장 뱊티스트 미쉘이 (Jean-Baptiste MIchael)이 그것이 어떻게 작동하는지 보여주고 또 5천억이 넘는 단어들을 통해 우리가 배울 수 있는 몇가지 놀라운 점들 알려줍니다.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48