< Return to Video

5백만권의 책을 통해 우리가 배운 것들

  • 0:00 - 0:02
    이레즈: 누구나 아는
  • 0:02 - 0:05
    '백문이 불여일견'이라는 말이 있습니다.
  • 0:07 - 0:09
    하지만 하버드에서 우리는
  • 0:09 - 0:12
    저 말이 참인지 거짓인지를 논하곤 했죠.
  • 0:12 - 0:14
    (웃음)
  • 0:14 - 0:18
    그래서 우리는 하버트와 MIT에 걸쳐
  • 0:18 - 0:20
    전문가들을 모집하고
  • 0:20 - 0:23
    아메리칸 헤리티지 사전, 브리태니커 백과사전
  • 0:23 - 0:25
    그리고 심지어 우리의 자랑스런 후원,
  • 0:25 - 0:28
    구글까지 포괄하는 팀을 구성했습니다.
  • 0:28 - 0:30
    그리고 우리는 이것에 대해
  • 0:30 - 0:32
    약 4년 동안 깊이있게 연구했죠.
  • 0:32 - 0:37
    우리는 놀라운 결론에 도달했습니다.
  • 0:37 - 0:40
    신사 숙녀 여러분, 한 그림은 천 단어의 가치가 없습니다. [역: '일견'이 백문의 가치가 되지 않습니다.]
  • 0:40 - 0:42
    사실, 우리는 몇 가지 사진들의 경우
  • 0:42 - 0:47
    5천억 단어 정도의 가치가 있음을 발견했죠.
  • 0:47 - 0:49
    미셸 : 어떻게 우리가 이 결론에 도달했을까요?
  • 0:49 - 0:51
    이레즈와 전, 연구 방법에 대해 생각하고 있었습니다.
  • 0:51 - 0:53
    어떻게 하면 인간 문화와 역사의 큰 그림을
  • 0:53 - 0:56
    얻을 수 있을까: 시간에 따라 변화되는 것을 포함해서
  • 0:56 - 0:58
    실제로 수 많은 책들은 지난 수년 동안 기록되었습니다.
  • 0:58 - 1:00
    그래서 우리가 그들로 부터 배울 수 있는 가장 좋은 방법은
  • 1:00 - 1:02
    이 수천 수만권의 책들을 다 읽는거라 생각했습니다.
  • 1:02 - 1:05
    물론, 저 일이 얼마나 멋진 일인지 측정할 수 있다면
  • 1:05 - 1:08
    저것은 매우, 아주 높은 순위가 매겨질 것입니다.
  • 1:08 - 1:10
    문제는, 그곳에 x축이 있다는 거죠.
  • 1:10 - 1:12
    실용성을 나타내는 축이죠.
  • 1:12 - 1:14
    이 축에서의 점수는 매우 낮습니다.
  • 1:14 - 1:17
    (박수)
  • 1:17 - 1:20
    현재, 사람들은 대안으로 몇 가지 소스들을
  • 1:20 - 1:22
    선택해서 그것들을 주의깊게 읽어나가죠.
  • 1:22 - 1:24
    이 방식은 매우 실용적이지만 아주 멋지지는 않습니다.
  • 1:24 - 1:27
    당신이 정말하고 원하는 것은
  • 1:27 - 1:30
    아주 멋진 일을 아주 실용적으로 하는 거죠.
  • 1:30 - 1:33
    그래서 보니 강 건너에 구글이라 불리는 회사가 있더군요.
  • 1:33 - 1:35
    몇 년 전에 디지털화 프로젝트를 시작했었던 회사죠.
  • 1:35 - 1:37
    그것이 우리의 접근방식을 가능케 할수도 있겠더군요.
  • 1:37 - 1:39
    그들은 수백만권의 책을 디지털화 했습니다.
  • 1:39 - 1:42
    그것이 무슨 뜻인고 하니, 누군가 원하면 단 하나의 클릭으로
  • 1:42 - 1:44
    책을 한권을 훑어볼 수 있다는 뜻이죠.
  • 1:44 - 1:47
    아주 실용적이이며 극도로 멋진 일이죠.
  • 1:48 - 1:50
    이레즈: 제가 책들이 어디서 왔는지 설명을 좀 하죠.
  • 1:50 - 1:53
    태고적부터, 작가는 늘 존재해 왔습니다.
  • 1:53 - 1:56
    이 저자들은 책을 쓰기 위해 분투해왔죠.
  • 1:56 - 1:58
    그 일은 점점 쉬워졋습니다.
  • 1:58 - 2:00
    몇 세기전의 인쇄기 발달과 함께말이죠.
  • 2:00 - 2:03
    그 이후로 부터는 저자들의 승리였죠.
  • 2:03 - 2:05
    뚜렷이 1억2천9백만번 동안
  • 2:05 - 2:07
    책을 출판했으니까요
  • 2:07 - 2:09
    역사 속에 분실되지 않았다면 해당 도서는
  • 2:09 - 2:11
    지금 어느 도서관 어딘가에 있는 것입니다.
  • 2:11 - 2:14
    그 도서의 대부분이 도서관에서 회수되어져
  • 2:14 - 2:16
    구글에 의해 디지털화 되고 있습니다.
  • 2:16 - 2:18
    현재까지 천오백만권의 도서를 스캔했습니다.
  • 2:18 - 2:21
    지금 구글이 책을 디지털화하면, 좋은 포맷으로 바꿔두죠.
  • 2:21 - 2:23
    이제 우리는 데이터가 있고 그에 관한 속성 정보까지 있죠.
  • 2:23 - 2:26
    우리에겐 그것이 어디서 출판되었고 누가 썼으며
  • 2:26 - 2:28
    언제 발행되었는지에 관한 정보도 있습니다.
  • 2:28 - 2:31
    해서, 우리가 가진 모든 자료들을 훑어서
  • 2:31 - 2:35
    상태가 좋지않은 데이터는 전부 제하여
  • 2:35 - 2:37
    추려서 남은 것이
  • 2:37 - 2:40
    오백만권의 책 입니다.
  • 2:40 - 2:43
    5천억개의 단어들,
  • 2:43 - 2:45
    일렬로 나열했을 경우
  • 2:45 - 2:48
    우리 유전자의 총체, 인간 게놈보다 천배 이상 긴 겁니다.
  • 2:48 - 2:50
    이 텍스트들을 모두 모아서
  • 2:50 - 2:52
    한 줄로 쓰면 여기서 달까지
  • 2:52 - 2:54
    10번 왔다갔다 할 만큼 나오죠.
  • 2:54 - 2:58
    진정 우리 문화 게놈의 한 조각이라 할 수 있죠.
  • 2:58 - 3:00
    물론 이런 말도 안되는 과장에 직면하게 되면
  • 3:00 - 3:03
    우리가 할 수 있는 일이라곤
  • 3:03 - 3:05
    (웃음)
  • 3:05 - 3:08
    자존감있는 연구원이라면
  • 3:08 - 3:11
    누구나 했을 법한 일이죠.
  • 3:11 - 3:13
    XKCD의 한 페이지를 꺼내 들고
  • 3:13 - 3:15
    외치는 거죠. "뒤로 물러나.
  • 3:15 - 3:17
    우리는 이제 과학을 시도 할 것이야."
  • 3:17 - 3:19
    (웃음) [역: XKCD.com 미국의 유명 웹툰. 웹사이트에서 해당 문구의 티셔츠를 판매하고 있음]
  • 3:19 - 3:21
    JM은 : 지금은 물론, 우리는 생각하고 있었죠,
  • 3:21 - 3:23
    물론 그냥 먼저 밖으로 데이터를 넣어 봅시다
  • 3:23 - 3:25
    그것을 할 과학을 하는 사람들을 위해서말이죠.
  • 3:25 - 3:27
    지금 우리가 생각하고, 우리는 어떤 데이터를 공개할 수 있습니까?
  • 3:27 - 3:29
    그럼요, 당신은 책을 취해서
  • 3:29 - 3:31
    이러한 오백만 도서의 전체 텍스트를 놓고 싶어합니다.
  • 3:31 - 3:33
    특히 이제 Google과 존 Orwant,
  • 3:33 - 3:35
    우리가 배워야할 방정식이 조금있다고 말했습니다.
  • 3:35 - 3:38
    그래서 5 백만 작가, 즉, 5 백만 달러를 가지고
  • 3:38 - 3:41
    그리고 5 백만 원고측은 대규모의 소송이다.
  • 3:41 - 3:43
    그럼, 그건 정말 굉장한 것이긴 하지만
  • 3:43 - 3:46
    다시말해, 그건 극히, 극히 비실용적입니다.
  • 3:46 - 3:48
    (웃음)
  • 3:48 - 3:50
    이제 다시, 우리는 굴복한것처럼 되어서,
  • 3:50 - 3:53
    그리고 약간 덜 굉장하지만, 아주 실용적인 접근을 하게 되었습니다.
  • 3:53 - 3:55
    우리가 말하길, "글쎄, 전체 텍스트를 발표하는 대신
  • 3:55 - 3:57
    우리는 도서에 대한 통계를 공개할거야.
  • 3:57 - 3:59
    예를 들어, '행복의 광채"를 봅시다.
  • 3:59 - 4:01
    그것은 네 단어입니다; 우리는 4 그램이라고 부릅니다.
  • 4:01 - 4:03
    우리는 특정 4 그램이 1801, 1802, 1803,
  • 4:03 - 4:05
    2008년까지 죽 올라가서 책에
  • 4:05 - 4:07
    몇번이나 나타나는지 여러분께 말할겁니다.
  • 4:07 - 4:09
    그것은 우리에게 이 특정 문장은 시간이 지남에 따라 얼마나 자주 사용되었는지
  • 4:09 - 4:11
    시간 시리즈를 제공합니다.
  • 4:11 - 4:14
    우리가 그 도서에 나타나는 모든 단어와 구문에 대해 그렇게 하면,
  • 4:14 - 4:17
    그것은 우리에게 이십억 줄의 큰 테이블을 제공하는데
  • 4:17 - 4:19
    그것은 방식 문화가 변경되는 방법에 관해서 우리에게 알려줍니다.
  • 4:19 - 4:21
    ELA : 그럼 그 이십억 라인,
  • 4:21 - 4:23
    우리는 그들 이십억 N -그램.
  • 4:23 - 4:25
    그들이 우리에게 뭐라고 할까요?
  • 4:25 - 4:27
    그럼 각각의 N - 그램은 문화동향을 측정합니다.
  • 4:27 - 4:29
    한가지 예를 들어 드리겠습니다.
  • 4:29 - 4:31
    내가 번성하고 있다고 가정해 봅시다
  • 4:31 - 4:33
    그러면 내일은 내가 얼마나 잘했는지 말해주고 싶어요.
  • 4:33 - 4:36
    그래서 난 "어제 내가 번성했어요(throve)."말할지도 모릅니다.
  • 4:36 - 4:39
    또 저는 "어제, 내가 번창했어요 (thrived)." 라고 할 수 도 있습니다.
  • 4:39 - 4:42
    글쎄, 어떤것을 사용해야 할까요?
  • 4:42 - 4:44
    어떻게 압니까?
  • 4:44 - 4:46
    약 6 개월 전의 시기에,
  • 4:46 - 4:48
    이 분야에서 예술의 상태는
  • 4:48 - 4:50
    예를 들어, 당신이,
  • 4:50 - 4:52
    멋진 머리를 가진 심리학자를 따라 올라가,
  • 4:52 - 4:54
    당신이 말하길,
  • 4:54 - 4:57
    "스티브, 당신은 불규칙 동사에 관한 전문가입니다.
  • 4:57 - 4:59
    제가 어떻게 해야 할까요? "
  • 4:59 - 5:01
    그거면 그는, "글쎄요, 대부분의 사람들이 말하길 번성했다(thrive) 고 했지만,
  • 5:01 - 5:04
    몇몇 사람은 번창했다(throve) 라고 했어요."
  • 5:04 - 5:06
    그래서 여러분은 당신은 또한 다소는
  • 5:06 - 5:09
    만일 이백년전 이전으로 거슬러 올라가서
  • 5:09 - 5:12
    그리고, 똑같이 멋진 머리를 가진 다음의 정치가에게 묻는다면,
  • 5:12 - 5:15
    (웃음)
  • 5:15 - 5:17
    "톰, 내가 무슨 말을해야합니까?"
  • 5:17 - 5:19
    그는 "글쎄, 나의 세대는 대부분의 사람들이 번성했다 (throve) 라고 말했지만
  • 5:19 - 5:22
    몇몇사람은 번창했다 (thrive)라고 말했어요." 할겁니다.
  • 5:22 - 5:24
    그래서 제가 여러분에게 그냥 보여드리려고 하는것은 원래의 데이터입니다.
  • 5:24 - 5:28
    이십억 항목의 이 테이블에서 두 줄입니다.
  • 5:28 - 5:30
    여러분이 지금보고 계시는 것은 번성했다(throve)와 번창했다(thrive)의
  • 5:30 - 5:33
    오랜시간에 걸친 각 년도의 빈도입니다.
  • 5:34 - 5:36
    이제 이십억 행에서
  • 5:36 - 5:39
    이 두 개만 있습니다
  • 5:39 - 5:41
    따라서 전체 데이터 세트는
  • 5:41 - 5:44
    이 슬라이드보다 억 배 이상 굉장한 것입니다.
  • 5:44 - 5:46
    (웃음)
  • 5:46 - 5:50
    (박수)
  • 5:50 - 5:52
    JM : 지금 5 백조개단어의 가치가 있는 많은 다른 그림이 있습니다.
  • 5:52 - 5:54
    예를 들어,이것을 보세요.
  • 5:54 - 5:56
    여러분이 독감을 취할경우,
  • 5:56 - 5:58
    여러분은 큰 독감 전염병이 전세계의 사람을 죽이고 있었던것을
  • 5:58 - 6:01
    알았던 지점의 가장 최고점 시간을 볼 수 있습니다.
  • 6:01 - 6:04
    ELA : 여러분이 아직도 납득되지 않으셨다면,
  • 6:04 - 6:06
    해수면이 상승하고 있으며,
  • 6:06 - 6:09
    그래서 대기 CO2와 지구의 온도도 상승하고 있습니다.
  • 6:09 - 6:12
    JM : 당신은 또한,이 특정 N - 그램을 보고싶어할지도 모르고,
  • 6:12 - 6:15
    그것은 니체에게 하나님이 죽은것이 아니라고 말하는 것입니다,
  • 6:15 - 6:18
    여러분은 니체가 더 나은 홍보가가 필요하다는데 동의할 지 모르지만요.
  • 6:18 - 6:20
    (웃음)
  • 6:20 - 6:23
    ELA : 당신은 이런 비슷한것들로 꽤 추상적인 개념을 얻을 수 있습니다.
  • 6:23 - 6:25
    예를 들어, 내가 여러분에게 1950년도의 역사를
  • 6:25 - 6:27
    알려드리겠습니다.
  • 6:27 - 6:29
    역사의 대부분에 대해서
  • 6:29 - 6:31
    그 누구도 1950에 대해 주의를 기울이지 않았습니다
  • 6:31 - 6:33
    1700 년, 1800 년, 1900 년에,
  • 6:33 - 6:36
    그 누구도 신경 쓰지 않았어요.
  • 6:37 - 6:39
    30년대와 40년대를 통과하며,
  • 6:39 - 6:41
    그 누구도 신경 쓰지 않았어요.
  • 6:41 - 6:43
    갑자기 40 년대 중반에
  • 6:43 - 6:45
    얘깃거리가 생기기 시작했습니다.
  • 6:45 - 6:47
    사람들은 1950 년이 일어날 것이라는것과
  • 6:47 - 6:49
    그게 큰일일 것이라는 것을 깨닫게 되었지요.
  • 6:49 - 6:52
    (웃음)
  • 6:52 - 6:55
    그러나 아무것도 1950 년과 같이
  • 6:55 - 6:58
    1950년에 사람들에게 관심이있는것은 없었습니다.
  • 6:58 - 7:01
    (웃음)
  • 7:01 - 7:03
    사람들은 집착해서 돌아나녔습니다
  • 7:03 - 7:05
    그들은 그들이 1950 년 한 모든 것에 대해,
  • 7:05 - 7:08
    말을 멈출수 없었습니다,
  • 7:08 - 7:11
    그들이 1950년에 할 준비를 하고있던 모든것들,
  • 7:11 - 7:16
    그들이 1950 년에 달성하고 싶어했던 모든 꿈에 대해.
  • 7:16 - 7:18
    사실 1950 년 정말 매혹적이어서
  • 7:18 - 7:20
    그 이후 년 동안
  • 7:20 - 7:23
    사람들은 51년, 52년, 53년에
  • 7:23 - 7:25
    일어난 모든 놀라운 일들에 대해 얘기를 계속했습니다.
  • 7:25 - 7:27
    결국 1954년에,
  • 7:27 - 7:29
    누군가가 잠에 깨어 일어나서는
  • 7:29 - 7:33
    1950은 다소 지나갔다는것을 깨달았습니다.
  • 7:33 - 7:35
    (웃음)
  • 7:35 - 7:37
    그리고 그냥 그렇게, 그 거품이 터졌지요.
  • 7:37 - 7:39
    (웃음)
  • 7:39 - 7:41
    그리고 1950 년 이야기는
  • 7:41 - 7:43
    우리가 기록을 보유하고 있는 매년의 이야기가
  • 7:43 - 7:46
    지금은 이 좋은 차트를 가지고 있기 때문에 약간 꼬여 있어요.
  • 7:46 - 7:49
    그리고 우리가이 멋진 차트를 가지고 있기 때문에, 우리는 물건을 측정할 수 있습니다.
  • 7:49 - 7:51
    우리는 "글쎄 얼마나 빨리 거품이 터질까?" 라고 말할 수도 있습니다.
  • 7:51 - 7:54
    그리고 그것은 우리가 매우 정확하게 측정할 수있다는 게 밝혀졌습니다.
  • 7:54 - 7:57
    방정식이 도출되었고, 그래프가 만들어졌고,
  • 7:57 - 7:59
    그리고 그 실제 결과는
  • 7:59 - 8:02
    우리가 그 거품이 터지는것이 각 지나가는 해와 더불어
  • 8:02 - 8:04
    점점 더 빨라지는것을 발견했다는 것입니다.
  • 8:04 - 8:09
    우리는 더 빨리 과거에 흥미를 잃어 가고있습니다.
  • 8:09 - 8:11
    JM : 지금 경력 조언의 작은 조각.
  • 8:11 - 8:13
    그래서 유명한 사람이 되기를 추구하는 여러분들을 위해,
  • 8:13 - 8:15
    우리는 25에서 가장 유명한 정치적 인물들에게서,
  • 8:15 - 8:17
    저자, 배우 등등에게서 배울 수 있습니다.
  • 8:17 - 8:20
    당신이 빨리 유명해지고 싶다면, 당신은 배우가 되어야합니다
  • 8:20 - 8:22
    그리고 명성이 20대의 마지막에 상승하기 시작하기 때문에 -
  • 8:22 - 8:24
    여러분이 아직 어리다면, 정말 좋아요.
  • 8:24 - 8:26
    당신은 조금 기다릴 수있다면, 이제 당신은 저자되어야합니다
  • 8:26 - 8:28
    다음 아주 좋은 높이로 상승하기 때문인데,
  • 8:28 - 8:30
    극히 유명한 사람과 같이 말이죠.
  • 8:30 - 8:32
    하지만 당신이 맨 상위에 도달하려는 경우,
  • 8:32 - 8:34
    당신은 만족을 지연해야하고
  • 8:34 - 8:36
    그리고, 물론, 정치가가 되야 합니다.
  • 8:36 - 8:38
    그럼 여기서 당신은 당신의 50 대 말까지 유명 될 것입니다
  • 8:38 - 8:40
    그리고 그 이후에는 아주 유명하게 됩니다.
  • 8:40 - 8:43
    그래서 과학자들은 또한 훨씬 나이들었을 때 유명해지는 경향이 있습니다.
  • 8:43 - 8:45
    예를 들어, 생물학 및 물리학에 대한 마찬가지로
  • 8:45 - 8:47
    배우만큼이나 유명해지는 경향이 있습니다.
  • 8:47 - 8:50
    당신이 범하지 말아야 할 한가지 실수는 수학자가 되는 것입니다.
  • 8:50 - 8:52
    (웃음)
  • 8:52 - 8:54
    만약 당신이 그렇게한다면,
  • 8:54 - 8:57
    당신은 "좋아. 아 내가 내가 20대에 있을 때 내 최고의 작업을 할거야."라고 생각할 수도 있지만
  • 8:57 - 8:59
    그러나 짐작해보세요, 아무도 상관하지 않습니다.
  • 8:59 - 9:02
    (웃음)
  • 9:02 - 9:04
    ELA: N-그램사이에
  • 9:04 - 9:06
    보다 냉정한 노트가 있습니다.
  • 9:06 - 9:08
    예를 들어, 여기, 1887년에 태어난
  • 9:08 - 9:10
    마크 샤갈의 탄도가 있습니다.
  • 9:10 - 9:13
    그리고 이것은 유명한 사람의 정상적인 궤도 같습니다.
  • 9:13 - 9:17
    그는 점점 더 유명해집니다,
  • 9:17 - 9:19
    독일어로 여러분이 보는 경우를 제외하고는요.
  • 9:19 - 9:21
    당신이 독일어로 보면, 당신은 완전히 이상한 무언가를 봅니다,
  • 9:21 - 9:23
    당신은 거의 못 볼 것을말이죠,
  • 9:23 - 9:25
    그것은 그가 극도로 유명하게되고
  • 9:25 - 9:27
    그리고 갑자기 곤두박질을 하는것입니다,
  • 9:27 - 9:30
    1933과 1945년 사이의 최하점을 겪으면서,
  • 9:30 - 9:33
    그 이후 복귀하기 전에요.
  • 9:33 - 9:35
    그리고 물론, 우리가 보는것은
  • 9:35 - 9:38
    사실 마크 샤갈은 나치 독일에서의
  • 9:38 - 9:40
    유대인 예술가였다는 사실입니다.
  • 9:40 - 9:42
    지금 이러한 신호들은
  • 9:42 - 9:44
    실제로 대단히 강해서
  • 9:44 - 9:47
    우리는 누군가가 검열 받았는지 알 필요가 없습니다.
  • 9:47 - 9:49
    우리는 실제로 기본적인 신호 처리를 사용해서
  • 9:49 - 9:51
    실제로 그것을 알아낼 수 있습니다.
  • 9:51 - 9:53
    여기 그것을하는 간단한 방법이 있습니다.
  • 9:53 - 9:55
    음, 합리적인 기대는
  • 9:55 - 9:57
    주어진 시간안에 누군가의 명성은
  • 9:57 - 9:59
    대략 그들의 명성의 이전과 이후의 평균으로
  • 9:59 - 10:01
    되어야 합니다.
  • 10:01 - 10:03
    그래서 그것은 우리가 기대하는 어떤것입니다.
  • 10:03 - 10:06
    그리고 우리는 우리가 관찰하는 명성에 그것을 비교합니다.
  • 10:06 - 10:08
    그리고 우리는 다른 것을 1로 나누어서
  • 10:08 - 10:10
    우리가 억제 지수라고 부르는 무언가를 생산합니다.
  • 10:10 - 10:13
    만일 그 억제 지수가 매우, 매우, 매우 작으면,
  • 10:13 - 10:15
    그다음에 당신은 잘 억압될 수도 있습니다.
  • 10:15 - 10:18
    만일 그것이 매우 크면, 아마 당신이 선전에서 혜택을 받는것일겁니다.
  • 10:19 - 10:21
    JM이 : 이제 여러분은
  • 10:21 - 10:24
    전체 인구에 대한 억제 지수의 분포를 실제로 볼 수 있습니다.
  • 10:24 - 10:26
    따라서 예를 들어, 여기에 -
  • 10:26 - 10:28
    이 억제 지수는 알려진 억압이 없는 곳에서
  • 10:28 - 10:30
    영어로 쓰여진 도서를 고른 5,000 명에 대한 것인데-
  • 10:30 - 10:32
    그것은 기본적으로 긴밀하게 하나를 중심으로 한 이것과 같은 것입니다.
  • 10:32 - 10:34
    예상할 수 있는것은 기본적으로 여러분이 관찰하는 것입니다.
  • 10:34 - 10:36
    독일에서 보여진것과 같이 이 배포는 -
  • 10:36 - 10:38
    매우 다릅니다, 그것은 왼쪽으로 이동되어 있지요.
  • 10:38 - 10:41
    사람들은 그것이 해 졌어야만 할 것보다 두 번 이하로 얘기했습니다.
  • 10:41 - 10:43
    그러나 더 중요하게, 그 배포는 훨씬 더 넓다는 것입니다.
  • 10:43 - 10:46
    이 배포판에서 맨 왼쪽에 결국 많은 사람들은
  • 10:46 - 10:49
    그들이 있었어야 할 것보다 10 배 이하로 얘기한 사람들입니다.
  • 10:49 - 10:51
    하지만 그다음에는 선전의 혜택을 받은것처럼 보이는
  • 10:51 - 10:53
    맨 오른쪽에도 많은 사람들이있습니다.
  • 10:53 - 10:56
    이 사진은 책에 기록에 검열의 특징이다.
  • 10:56 - 10:58
    ELA : 그래서 우리는 이 방법을
  • 10:58 - 11:00
    컬쳐로믹스라고 부릅니다.
  • 11:00 - 11:02
    그것은 같은 게놈의 일종 이죠.
  • 11:02 - 11:04
    게노믹스가 인간 게놈에있는 기반의 순서의 창문을 통한
  • 11:04 - 11:07
    생물학에서는 렌즈라는것을 제외하고는 말입니다.
  • 11:07 - 11:09
    컬쳐로믹스는 비슷합니다.
  • 11:09 - 11:12
    그것은 인간 문화의 연구에
  • 11:12 - 11:14
    거대한 규모의 데이터 수집 분석 응용 프로그램입니다.
  • 11:14 - 11:16
    여기에서는, 게놈의 렌즈를 통하는것을 대신해서,
  • 11:16 - 11:19
    역사 기록의 디지털화된 조각의 렌즈를 통합니다.
  • 11:19 - 11:21
    컬쳐로믹스에 대한 굉장한 점은
  • 11:21 - 11:23
    모든 사람이 그것을 할 수 있다는 것 입니다.
  • 11:23 - 11:25
    왜 다들 그것을 할 수 있을까요?
  • 11:25 - 11:27
    누구나 할 수 있기 때문에 세 남자,
  • 11:27 - 11:30
    존 오르완트, 매트 그레이와 윌 브록만이 구글에서
  • 11:30 - 11:32
    N 그램의 뷰어의 프로토 타입을 보고,
  • 11:32 - 11:34
    그리고 그들이 말하기를, "이건 정말 재미있네.
  • 11:34 - 11:37
    우리는 사람들이 이걸 사용할 수 있도록해야하겠는걸 "이라고 말했습니다.
  • 11:37 - 11:39
    그래서 2 주를 쫙 깔아서-- 우리 신문이 나온 두 주 전에 ---
  • 11:39 - 11:42
    그들은 일반 대중을 위한 N그램 뷰어의 버전을 코드화 했습니다 .
  • 11:42 - 11:45
    그래서 당신도 당신이 관심이 있는 어떤 단어 또는 구절이든지 타이프칠 수 있고
  • 11:45 - 11:47
    그 즉시 N 그램을 볼 수 있고 -
  • 11:47 - 11:49
    또한 여러분의 N그램에 나타나는
  • 11:49 - 11:51
    다양한 도서의 사례를 탐색할 수 있습니다.
  • 11:51 - 11:53
    JM : 이제 이것은 첫날에 백만 번 이상 사용되었고,
  • 11:53 - 11:55
    이것은 정말 모든 질문중 최고입니다.
  • 11:55 - 11:58
    그래서 사람들은 앞으로 최선의 발차취로 그 자신들의 최고가 되고 싶어합니다.
  • 11:58 - 12:01
    하지만 18 세기에 밝혀졌듯이, 사람들은 전혀 신경 쓰지 않았습니다.
  • 12:01 - 12:04
    그들은 그들의 최고가 되고 싶지 않아했습니다, 그들은 그들의 방어인들이 되고 싶어했어요.
  • 12:04 - 12:07
    그래서 무슨 일이 일어났는가 하면, 이건 실수입니다.
  • 12:07 - 12:09
    이것은, 평범을위한 투지가 아니에요
  • 12:09 - 12:12
    그것은 S가 F 비슷하게 다르게 쓰여지곤 했다는 것입니다.
  • 12:12 - 12:15
    지금은 물론, 구글은 당시에 이것을 알아차리지 못했습니다,
  • 12:15 - 12:18
    그래서 우리는 우리가 쓴 과학 기사에서 이것을 보도했습니다.
  • 12:18 - 12:20
    그러나 그것은 이것이 단지 이것이 아주 재미있지만,
  • 12:20 - 12:22
    여러분이 이 그래프를 해석할 때,
  • 12:22 - 12:24
    여러분이 매우 신중해야 한다는 것을,
  • 12:24 - 12:27
    그리고 과학에서 기본 표준을 채택해야만 한다는 것을 상기시켜주는 것입니다.
  • 12:27 - 12:30
    ELA : 사람들은 재미 목적인 종류에 이것을 사용하고 있습니다.
  • 12:30 - 12:37
    (웃음)
  • 12:37 - 12:39
    사실, 우리는 얘기를 할 수 없어야만 하는 않을 것입니다,
  • 12:39 - 12:42
    우리는 당신에게 모든 슬라이드를 보여하고 조용히 있을겁니다.
  • 12:42 - 12:45
    이 사람은 좌절의 역사에 관심이 있었습니다.
  • 12:45 - 12:48
    다양한 종류의 좌절이 있었습니다.
  • 12:48 - 12:51
    만일 여러분이 여러분의 발가락을 찌른다면, 그것은 하나의 A "argh."입니다.
  • 12:51 - 12:53
    만일 지구가 성간 우회를 위한 공간을 마련하기 위한,
  • 12:53 - 12:55
    보곤에 의해 전멸당하게 되면,
  • 12:55 - 12:57
    그것은 여덟개의 A "argh" 입니다.
  • 12:57 - 12:59
    이 사람은 모든 "argh" 를
  • 12:59 - 13:01
    하나에서부터 8 A를 통해서 공부합니다.
  • 13:01 - 13:03
    그리고 그것은
  • 13:03 - 13:05
    그 "arghs" 가 덜 빈번하게 나올때,
  • 13:05 - 13:08
    물론, 이것들에 해당하는 것들은 더 어렵게됩니다--
  • 13:08 - 13:11
    이상하게도 초기 80 년대에서를 제외하고는요.
  • 13:11 - 13:13
    우리는 레이건과 뭔가 관련이 있을지 모른다고 생각합니다.£
  • 13:13 - 13:15
    (웃음)
  • 13:15 - 13:18
    JM :이 데이터의 여러 용도가 있습니다,
  • 13:18 - 13:21
    하지만 요점은 역사적 기록이 디지털화 되고 있다는 점입니다.
  • 13:21 - 13:23
    Google은 천오백만권의 책을 디지털화하기 시작했습니다.
  • 13:23 - 13:25
    그것은 사상 출판된 모든 책들의 12 % 입니다.
  • 13:25 - 13:28
    그것은 인간 문화의 상당한 부분입니다.
  • 13:28 - 13:31
    문화에는 훨씬 더 있습니다: 거기에는 원고, 신문이 있고,
  • 13:31 - 13:33
    예술과 그림과 같은, 텍스트가 아닌 것들이 있습니다.
  • 13:33 - 13:35
    이것들은 모두 우리의 컴퓨터위에서 일어났습니다,
  • 13:35 - 13:37
    전세계에 걸쳐 컴퓨터위에서.
  • 13:37 - 13:40
    그리고 그것이 일어나는 때면, 우리가 우리의 과거, 현재, 그리고 미래를 이해하는
  • 13:40 - 13:42
    우리의 과거, 현재 우리의 인간 문화를 이해합니다.
  • 13:42 - 13:44
    정말 감사합니다.
  • 13:44 - 13:47
    (박수)
Title:
5백만권의 책을 통해 우리가 배운 것들
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

구글 실험실의 'Ngram 뷰어' 를 이용해본 적이 있나요? 그것은 사용자가 여러 세기에서 걸친약 5백만권의 데이터베이스에서 단어와 아이디어들을 검색할 수 있게 해주는 중독성있는 도구입니다. 이레즈 리버맨 에이든과 (Erez Lieberman) 장 뱊티스트 미쉘이 (Jean-Baptiste MIchael)이 그것이 어떻게 작동하는지 보여주고 또 5천억이 넘는 단어들을 통해 우리가 배울 수 있는 몇가지 놀라운 점들 알려줍니다.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Poram Lee added a translation

Korean subtitles

Revisions