기술은 우리에게 많은 것을 가져다 주었습니다. 그 중엔 달 착륙, 인터넷 인간 게놈의 배열을 밝힐 수 있는 능력 등이 있죠. 또한 이것은 우리의 깊은 두려움속으로 다가가게 되었죠. 약 30 년 전, 문화 평론가인 네일 포스만은 "죽도록 즐기기"라는 책을 썼습니다. 여기 데이터 시대에 대한 현상을 정말 잘 드러내고 있습니다. 그는 조지 오엘과 올더스 헉슬리의 반이상향적 시각을 비교하며 한 말이 있는데, 그가 말하길, 조지 오엘은 우리가 억압된 문명이 되는 것을 두려워했고, 헉슬리는 우리가 하찮은 문명이 되는것을 두려워 했다고 했죠. 오엘은 진실이 우리로 부터 숨겨지는 것을 두려워했고, 헉슬리는 우리가 무관성의 바다에서 익사하게 될 것을 두려워했다고 말했습니다. 간단히 말해서, 이것은 당신이 독재자에게 감시를 당하느냐, 아니면 당신이 독재자를 감시하느냐의 선택이라는 거죠. (웃음) 하지만 꼭 이런 방향일 필요는 없어요. 우리는 데이터와 기술의 수동적 소비자가 아니니까요. 우리가 그것이 우리의 삶에서 영향을 미치는 역할과 우리가 그 부여하는 의미의 방식을 형성시킵니다. 하지만 그렇게 하려면, 우리가 그것으 코드를 쓸 때만큼 우리가 생각하는 방법에 대해 주의를 기울여야 합니다. 우리는 계속해서 질문을 던져야합니다. 어려운 질문들을요. 그 데이터의 숫자를 계산하는 단계에서 나아가 그것들을 이해하기 위해서 말이죠. 세계에 얼마나 많은 양의 데이터가 있는지에 대해 끊임없이 쏟아지는 이야기들로 둘러 쌓여있습니다. 그러나 빅 데이터와, 그것을 해석하는 난관의 경우에는, 규모는 전부가 아닙니다. 거기엔 또한 데이터가 움직이는 속도가 있고 데이터들 종류의 다양성도 문제가 되는 것이죠. 여기 그 예가 몇개 있습니다. 이미지, 문자, 영상, 음성등이 그것들이죠. 이러한 이질적인 종류의 데이터들을 통합시키는 것은 그것들이 사람들에 의해 창조되었고 그것들에는 맥락이 필수적으로 필요하다는 것이죠. 자, 일리노이주-시카고 대학 출신의 데이터 과학자 집단이 있는데, 그 그룹은, "건강 매체 공동 연구단" 이라고 불립니다. 그들은 질병 억제 센터 (Centers for Disease Control)와 함께 일하며 사람들이 금연에 대해 이야기하는 방법과 전자담배에 대해 이야기 하는 방법, 그리고 그들이 금연하는 것을 돕기 위해 집단적으로 할 수 있는것들에 대해 더 잘 이해하기 위해 함께 연구해오고 있습니다. 흥미있는 것은, 사람들이 흡연에 대해 이야기하는 방법을 이해하기 원한다면 먼저 그들이 "흡연"에 관해 이야기할 때, 그들이, "흡연"이라고 하는 게 무엇을 의미하는지 이해해야 하죠. 그래서, 트위터에는 4개의 주요 범주가 있는데요: 첫째, 담배 피우기 두번째, 마리화나 피우기 세번째, 갈비 훈제하기 그리고 네번째, 매력적인 여자 꼬시기 (웃음) 자, 그 다음, 사람들이 전자담배에 대해 어떻게 이야기하는지 생각해봐야 하겠죠? 사람들이 이것에 대해 이야기하는 데 매우 다른 방식들이 있어요. 여기 슬라이드에서 보실 수 있습니다. 이건 매우 복잡한 종류의 질의어입니다. 이것은 언어는 인간이 만든 것이라는 것을 우리에게 상기시켜 주죠. 우리는 너저분하고 복잡합니다. 우리는 은유법을 사용하며, 은어와 특수용어를 씁니다. 우리는 정말 많은 언어들로 항상 이렇게 힙니다. 그리고 우리는 이것을 이해하자 마자 변경하죠. CDC에 방송한 이 광고들은 목에 구멍이 있는 여성이 출현하고 매우 충격적인 이미지이며, 마음을 매우 고란시키죠. 이 광고가 사람들이 금연하는데 영향을 주었을까요? 건강 매체 공동 연구단은 데이터의 한계를 준수하였지만, 그럼에도, 그들은 이 연구를 결론 지을 수 있었는데, 그 광고들은-- 아마 여러분도 보았을지 모릅니다. 그 광고들은 충격받은 사람들의 생각이 미래의 행동에 영향을 미칠지도 모르는 사고과정으로 이어지는 효과를 가져왔다고 결론지었죠. 그 사실에서 벗어나서 제가 이 프로젝트에 대해 감탄하고 감사하게 여기는 것은 그것이 인간 필수 욕구에 기반을 둔다는 그 점을 포함해서, 무관성이라는 바다에서 용기에 관한 훌륭한 사례라는 것입니다. 또한 이것은 해석을 요구하는 빅 데이터에 대한 것만이 아닙니다. 직면해 보면, 인류는 어떠한 양의 얼마나 작건간에 데이터를 수용해서 망쳐버린 굉장히 풍부한 역사를 가지고 있습니다. 수 년전에, 여러분은 대통령 로널드 레이건이 바보같은 사실을 설명한것에 대하여 매우 비난받았던것을 기억하실 거예요. 그리고 이건 말 실수였죠. 공평해져 봅시다. 사실은, 그는 보스톤 마사크르 재판에서 존 아담스의 영국군 변론을 인용해 사실들은 끈질기게 완강하다고 말 하려는 의도였습니다. 저는 그가 이야기했던 것 속엔 사실 우연한 지혜가 깃들였었다고 생각합니다. 실상이란 끈질기게 완강하지만 바보같기도 하기때문이죠. 여러분께 왜 빅 데이터가 저에게 큰 문제인지에 대한 개인적인 이야기를 하고싶습니다. 한 숨 돌려야겠네요. 제 아들 Isaac은 2 살 이였을때 자폐증 진단을 받았습니다. 행복하고, 명랑하며 다정하고, 애정어린 조그만 아이였어요. 그러나 그의 발달 평가의 척도는 의사소통 행동을 최소한의 시선맞춤 등으로 어떤 현상을 그저 낱말 수 로 보는것이죠. 그때 당시에는 전혀 보지 못했죠-- 그래서, 그당시 그의 발달 단계는 9개월이 된 아기의 수준이었습니다. 그 진단은 눈에 보이는 것으로만 측정된 옳은 것이었지만 그게 모든 것을 말하는 것은 아니였어요. 1년 반정도가 지났을 무렵 그가 거의 4살이었을때 어느 날, 제 아들이 컴퓨터 앞에 있을 것을 보았어요. 구글에서 여자 사진을 찾고 있었죠. 철자를 w-i-m-e-n 이라고 썼습니다. 어떤 집착어린 부모가 할 것을 제가 했어요. 곧 장 "뒤로가기"버튼을 쳐대기 시작했죠. 제 아들이 어떤 다른 것을 찾았는지 보기 위해서요. 그 것들은, 순서대로 남자 학교, 버스, 그리고 컴퓨터였습니다. 저는 매우 충격을 받았어요. 우리는 그가 철자를 읽고 쓸 줄 안다는 것을 몰랐기 때문입니다. 그래서 저는 제 아들에게 물었어요. "Isaac 이걸 어떻게 했니?" 그는 저를 매우 진지하게 쳐다보며 말했죠. "박스 안에 입력했어요." 그가 스스로 소통하는 법을 배우는 동안 우리는 엉뚱한 곳을 바라보고 있었던겁니다. 평가와 분석들이 하나의 척도에 지나친 가지를 두고있을 때 그런 일이 일어나는 겁니다. 이 경우에서는, 음성 소통이겠죠. 그리고 창의적 문제 해결과 같은 다른 것들을 과소평가하는 것입니다. Issac은 의사소통을 힘들어했고 그래서 그는 차선책을 찾아냈죠. 그건 그가 무엇을 알아야하는지 이해하는 것이었어요. 여러분도 이것이 일리가 있다고 여기실겁니다. 왜냐하면 질문을 만드는 것은 굉장히 복잡한 절차이기 때문이죠. 그러나 그는 여러가지 방법으로 검색창에 글자를 입력하면서 스스로 나아갔습니다. 그리고 이 짧은 순간이 저와 제 가족들에게 정말 깊은 영향을 주었습니다. 그 사건은 우리가 그에게 일어나는 일에 대해 참고할 수 있는 것에 대한 생각을 바꾸게 해주었고, 덜 걱정할 수 있게 해주었으며, 그의 문제 해결 능력에 대해 더욱 감사하게 해주었습니다. 사실이라는 것은 바보같은 것들 입니다. 그것들은 오용되기에 취약합니다. 고의적이거나 아니면 다르게요. 제게는 에밀리 윌링햄이라는 과학자 친구가있습니다. 얼마전 그녀는 Forbes 잡지에 기사 한편을 기재했습니다. "절대 자폐증과 연관성이 없는 10가지 이상한 것들 " 이라는 제목이었어요. 상당히 많은 목록이에요. 인터넷은, 모든것의 원인으로 비난 받습니다, 그렇죠? 그리고 다음은, 물론 엄마입니다. 사실 여기에 "엄마" 라는 범주에는 한 다발이 들어가니까요. 보다시피, 꽤 풍부하고 흥미로운 목록이 있죠. 개인적으로 "고속도로 가까이에서 임신하기"가 가장 마음에 드는군요. 마지막 것은 굉장히 흥미로운데요. 그것은 "냉장고 엄마"라는 용어는 자폐증을 야기시키는 것에 대한 초기의 가설이었고 그 용어의 의미는 차갑고 애정이없는 사람을 의미했죠. 이 지점에서, 아마도 여러분은 생각하실지도 모르겠네요, "좋아, 수잔, 알겠어. 데이터를 취해서, 그걸 어떤 의미로든 만들 수 있다는 거지. 그건 사실입니다, 그건 명백한 사실이에요. 하지만 곤란한 점은 우리에게는 우리 스스로 그것에 의미를 부여할 수 있는 기회가 있다는 겁니다. 왜냐면, 솔직히, 데이터는 의미를 부여하지 않죠. 우리가 합니다. 사업가, 고객, 환자, 시민으로서, 전 우리가 비판적 사고능력에 집중하여 상당한 시간을 소비해야 할 책임이 있다고 생각합니다. 왜냐구요? 우리는 우리 역사의 이 점에서, 우리가 여러번 들어왔듯이 우리는 많은 거대 용량의 데이터를 빛의 속도로 가공할 수 있고, 더욱 빠르고 효과적으로 그리고 우리가 과거에 미쳤던 것보다 더 큰 영향력을 미치면서 나쁜 결정을 할 수 있는 잠재성이 있기 때문이죠. 훌륭하네요, 그렇죠? 그래서 우리가 대신에 해야하는 것은 아주 조금 더 많은 시간을 인류학이나 사회학, 그리고 사회과학 수사학, 철학, 도덕 같은 것들에 투자하는 것입니다. 왜냐하면 그것들이 우리에게 빅 데이터에 관한 매우 중요한 앞뒤 맥락을 제시해주기 때문입니다. 그리고 우리가 비판적으로 생각하는 사람들이 되도록 도와줍니다. 왜냐하면, 결국, 제가 논쟁에 있어 한 문제를 발견할 수 있다면, 그것이 단어이든 숫자이든 어떻게 표현되었는지는 그다지 중요하지 않기 때문이죠. 그리고 그게 의미하는 것은 우리가 이런 확증 편향이나 잘못된 연관성을 발견하고, 그리고 30야드 떨어진 가까운 곳의 드러난 감정의 호소를 포착할 수 있도록 가르치는 것이죠. 왜냐하면 어떤 일 이후에 벌어지는 일이 필수적으로 그 일 때문에 일어났다는 의미는 아니기 때문입니다. 잠깐 괴짜같은 이야기를 하도록 허락해 주신다면, 로마인들은 이렇게 말합니다, "post hoc ergo propter hoc" "따라서 그 때문에" 라는 뜻입니다. 이건 인구통계와 같은 원리에 질문을 던지는 것을 의미해요. 왜냐구요? 우리의 성, 나이, 우리가 사는곳에 대한 가설에 기반을 두고있고, 우리가 실제 생각하고 하는일에 반대되기 때문입니다. 그리고 우리가 이런 데이터들을 가지고 있기 때문에, 우리는 적절한 개인 정보 보호 통제와 소비자 사전동의 등을 고려하여 이것을 다루어야 합니다. 그리고 그것을 넘어서서, 우리는 우리의 가설과, 우리가 사용하는 방법론, 그리고 그 결과에 대한 우리의 확신에 대해서명확해야 합니다. 저의 고등학교 대수학 선생님은 말씀하시곤 했던 것처럼, "네 수학을 보여주렴" "만약 네가 어떤 단계를 거쳤는지 내가 모른다면, 나는 네가 어떤 질문을 했는지 모를 것이고, 네가 어떤 질문을 했는지 모른다면, 나는 네가 어떤 질문을 하지 않았는지 모를테니까." 그건 실제로는, 우리 스스로에게 묻는 것이 가장 어려운 질문이라는 것이죠. 데이타가 이것을 우리에게 보여주었나요? 아니면 그 결과물들은 우리가 성취감과 편한함을 더 많이 느끼도록 해주었나요? 건강 매체 공동 연구단은 그들의 프로젝트가 끝날 무렵 그들이 찾을 수 있었던 것은 87%의 트윗이 매우 입체적이고 충격적인 흡연 반대 광고에 대해 두려움을 나타냈지만 그러나, 그 연구단은 그 광고가 사람들이 금연하도록 돕는다고 결론 지었을까요? 아닙니다. 그건 마술이 아니라 과학입니다. 우리가 데이터의 힘을 방면한다면, 조지 오엘의 미래의 전체주의국가에 대한 견해와 헉슬리의 하찮은 것들에 관한 견해에 맹목적으로 매달리지 않아도 되고 또는 두가지를 섞은 끔찍한 조합도 할 필요가 없죠. 우리가 해야만 하는 일은 비판적 사고를 존중해서 대하고 건강 매체 연구단이 했던 실험과 같은 사례에서 영감을 얻고 그리고 슈퍼히어로 영화에서 그들이 말하는 것처럼 우리의 힘을 선을 위해 사용합시다. 감사합니다. (박수)