WEBVTT 00:00:01.354 --> 00:00:04.489 科技极大程度上改变了世界: 00:00:04.489 --> 00:00:09.138 登月计划,互联网,基因组测序。 00:00:09.138 --> 00:00:12.857 但随之而来的是我们内心深处的忧虑, 00:00:12.857 --> 00:00:14.713 大约30年前, 00:00:14.713 --> 00:00:17.266 文学评论家尼尔•波兹曼出了一本书, 00:00:17.266 --> 00:00:19.381 名为《娱乐至死》, 00:00:19.381 --> 00:00:22.140 将这个问题展现得淋漓尽致。 00:00:22.140 --> 00:00:23.790 他这样写道, 00:00:23.790 --> 00:00:26.893 将乔治•奥威尔和阿道司•赫胥黎 00:00:26.893 --> 00:00:29.626 两人的反乌托邦观点做比较, 00:00:29.626 --> 00:00:35.012 奥威尔害怕我们的文化成为「受制文化」。 00:00:35.012 --> 00:00:38.752 赫胥黎担心的是我们的文化成为「琐碎文化」 00:00:38.752 --> 00:00:42.847 奥威尔害怕的是真理被隐瞒, 00:00:42.847 --> 00:00:45.010 赫胥黎担心的是我们被淹没在 00:00:45.010 --> 00:00:47.703 无聊烦琐的世事中。 00:00:47.703 --> 00:00:52.483 简言之,这是「老大哥」看你 00:00:52.483 --> 00:00:54.969 还是你看「老大哥」的选择。 (译者注:「老大哥」典出奥威尔名著《1984》) 00:00:54.969 --> 00:00:56.900 (笑声) NOTE Paragraph 00:00:56.900 --> 00:00:58.634 但事实不尽然, 00:00:58.634 --> 00:01:01.970 我们不是只能被动地接受数据和科技。 00:01:01.970 --> 00:01:04.373 我们能改变科技在我们生活中扮演的角色, 00:01:04.373 --> 00:01:06.503 也能改变享受数据带来的恩惠的方式, 00:01:06.503 --> 00:01:08.106 但要实现这一目的, 00:01:08.106 --> 00:01:11.619 思考方式固然重要, 我们也要对如何解读数据 00:01:11.619 --> 00:01:13.649 投以同样高的关注度。 00:01:13.649 --> 00:01:16.747 我们需要问问题,要问深刻的问题, 00:01:16.747 --> 00:01:18.616 不再单纯地统计数据, 00:01:18.616 --> 00:01:21.218 而是要进一步理解数据。 00:01:21.218 --> 00:01:23.664 我们身边充斥着那些 00:01:23.664 --> 00:01:26.140 讲述世界上有海量数据的故事, 00:01:26.140 --> 00:01:27.720 但当我们面临大数据, 00:01:27.720 --> 00:01:30.316 面临理解大数据所的挑战, 00:01:30.316 --> 00:01:32.404 数据量的大小不代表一切。 00:01:32.404 --> 00:01:35.307 还有数据传播的速度, 00:01:35.307 --> 00:01:37.003 数据的类型, 00:01:37.003 --> 00:01:39.501 举几个例子: 00:01:39.501 --> 00:01:41.699 图像, 00:01:41.699 --> 00:01:45.706 文字, 00:01:45.706 --> 00:01:47.801 视频, 00:01:47.801 --> 00:01:49.631 音频。 00:01:49.631 --> 00:01:52.673 不同类型的数据能有机地结合在一起, 00:01:52.673 --> 00:01:54.894 因为正是人类创造了这些数据, 00:01:54.894 --> 00:01:57.669 而且要在一定背景前提下理解特定数据。 NOTE Paragraph 00:01:57.669 --> 00:02:02.444 目前,一个来自伊利诺大学 芝加哥分校的数据科学家团队, 00:02:02.444 --> 00:02:04.973 自称「健康媒体合作实验室」, 00:02:04.973 --> 00:02:07.560 正与疾控中心合作, 00:02:07.560 --> 00:02:09.065 试图进一步了解 00:02:09.065 --> 00:02:11.913 人们谈论戒烟的方式, 00:02:11.913 --> 00:02:14.593 谈论电子烟的方式, 00:02:14.593 --> 00:02:16.578 以及他们如何协作 00:02:16.578 --> 00:02:18.562 来帮助人们戒烟。 00:02:18.562 --> 00:02:20.575 有趣的是,如果你想了解 00:02:20.575 --> 00:02:22.791 人们谈论吸烟的方式, 00:02:22.791 --> 00:02:24.692 首先需要了解 00:02:24.692 --> 00:02:27.257 「烟」在他们口中的含义。 00:02:27.257 --> 00:02:31.183 在Twitter上,「烟」的含义通常有四类: 00:02:31.183 --> 00:02:34.180 第一,吸烟; 00:02:34.180 --> 00:02:36.987 第二,抽大麻; 00:02:36.987 --> 00:02:39.630 第三,烟熏肋排; 00:02:39.630 --> 00:02:43.183 第四,闻香识女。 00:02:43.183 --> 00:02:46.176 (笑声) NOTE Paragraph 00:02:46.176 --> 00:02:48.602 然后你就会想, 00:02:48.602 --> 00:02:50.742 人们是如何谈论电子烟的呢? 00:02:50.742 --> 00:02:52.767 人们谈论电子烟的方式非常多, 00:02:52.767 --> 00:02:57.986 从屏幕上你们可以看到谈论的方式是如此繁多。 00:02:57.986 --> 00:03:01.200 这就让我们想到, 00:03:01.200 --> 00:03:03.611 语言是人类创造的, 00:03:03.611 --> 00:03:05.951 人类的语言是复杂混乱的, 00:03:05.951 --> 00:03:12.018 我们用各种语言,无时无刻不在讲着比喻, 说着俚语和术语, 00:03:12.018 --> 00:03:15.221 好不容易弄清了,立马就又变掉了。 NOTE Paragraph 00:03:15.221 --> 00:03:20.339 那么,疾控中心投放的广告, 00:03:20.339 --> 00:03:22.769 以及电视上那种看起来让人非常不安的 00:03:22.769 --> 00:03:26.700 形象地画了一个喉咙烧出来洞的女性的广告, 00:03:26.700 --> 00:03:31.289 这些广告会影响人们戒烟吗? 00:03:31.289 --> 00:03:34.557 健康媒体合作实验室承认其数据的有限性, 00:03:34.557 --> 00:03:36.562 但他们还是做了这样的结论, 00:03:36.562 --> 00:03:39.874 那些广告——或许你们都见到过—— 00:03:39.874 --> 00:03:42.465 确实会震颤人的内心, 00:03:42.465 --> 00:03:44.287 让他们有所思考, 00:03:44.287 --> 00:03:47.954 这样或许会影响他们未来的行为。 00:03:47.954 --> 00:03:51.845 这个项目让我尊重和欣赏的地方, 00:03:51.845 --> 00:03:57.414 不仅在于该项目基于人们的真实需求, 00:03:57.414 --> 00:04:01.897 还在于它充分诠释了面对「无聊烦琐的世事」 00:04:01.897 --> 00:04:04.680 展现出来的勇气。 NOTE Paragraph 00:04:04.680 --> 00:04:09.185 因此,并不只是大数据在挑战我们对事物的理解, 00:04:09.185 --> 00:04:10.586 让我们直面这一事实吧, 00:04:10.586 --> 00:04:13.180 不管处理多少数据,哪怕再少的数据, 00:04:13.180 --> 00:04:15.873 人们也能把它搞得一团糟, 00:04:15.873 --> 00:04:17.490 「见多不怪」了。 00:04:17.490 --> 00:04:21.227 你或许会记得,几年前, 00:04:21.227 --> 00:04:23.500 前总统罗纳德•里根 00:04:23.500 --> 00:04:25.491 在声称「事实是愚蠢的」后 00:04:25.491 --> 00:04:28.501 被严厉指责。 00:04:28.501 --> 00:04:31.295 平心而论,这是一个口误。 00:04:31.295 --> 00:04:33.725 他原本是想引用约翰•亚当斯 00:04:33.725 --> 00:04:36.476 在波士顿惨案审判为英军士兵的辩言 00:04:36.476 --> 00:04:39.626 「事实是顽固不化的。」 00:04:39.626 --> 00:04:42.250 但事实上,我认为 00:04:42.250 --> 00:04:45.668 里根总统那句话蕴含着些许智慧, 00:04:45.668 --> 00:04:48.444 事实固然顽固不化, 00:04:48.444 --> 00:04:51.367 有时确实是愚蠢的。 NOTE Paragraph 00:04:51.367 --> 00:04:53.255 这对我意义深远, 00:04:53.255 --> 00:04:56.803 我讲一个私人故事来告诉你们为什么。 00:04:56.803 --> 00:04:59.240 我要深吸一口气。 00:04:59.240 --> 00:05:01.994 我的儿子艾萨克,在他两岁的时候, 00:05:01.994 --> 00:05:04.411 被诊断出患有自闭症, 00:05:04.411 --> 00:05:06.572 在我们眼里,他是个幸福、欢快、 00:05:06.572 --> 00:05:08.607 充满爱意、惹人喜欢的小孩, 00:05:08.607 --> 00:05:11.509 但该发展水平评估 00:05:11.509 --> 00:05:13.579 关注的指标是诸如言多言寡—— 00:05:13.579 --> 00:05:17.236 当时,是零—— 00:05:17.236 --> 00:05:21.176 互动性姿势和最少目光接触, 00:05:21.176 --> 00:05:23.179 根据这套评估标准的结果, 00:05:23.179 --> 00:05:27.140 他的发展水平相当于9月大的婴儿。 00:05:27.140 --> 00:05:30.100 按照这套标准,结果无可厚非, 00:05:30.100 --> 00:05:33.309 但这不是全部。 00:05:33.309 --> 00:05:34.710 一年半之后, 00:05:34.710 --> 00:05:36.812 在他快要四岁的时候, 00:05:36.812 --> 00:05:39.175 有一天我发现他坐在电脑前, 00:05:39.175 --> 00:05:44.628 在Google图片搜索中搜索「women」 00:05:44.628 --> 00:05:48.244 拼成了「wimen」 00:05:48.244 --> 00:05:50.984 接下来我做了任何有心的父母都会做的事, 00:05:50.984 --> 00:05:52.885 我立马就按了后退按钮, 00:05:52.885 --> 00:05:56.248 看看他还搜索了什么。 00:05:56.248 --> 00:05:58.419 查到了,按顺序来:男人, 00:05:58.419 --> 00:06:05.686 学校,汽车和电脑。 00:06:05.686 --> 00:06:07.756 我目瞪口呆, 00:06:07.756 --> 00:06:09.758 因为我们还不知道他会拼单词, 00:06:09.758 --> 00:06:11.524 更别说读写了,因此我问他, 00:06:11.524 --> 00:06:13.717 「艾萨克,你是如何做到的?」 00:06:13.717 --> 00:06:16.395 他很严肃地看着我说, 00:06:16.395 --> 00:06:19.747 「在搜索框里输入。」 NOTE Paragraph 00:06:19.747 --> 00:06:23.481 他一直在自我学习如何去沟通, 00:06:23.481 --> 00:06:26.485 但我们将注意力投在了别处, 00:06:26.485 --> 00:06:28.780 很显然,那些发展水平评估 00:06:28.780 --> 00:06:31.176 过分注重了一个指标—— 00:06:31.176 --> 00:06:33.785 言语沟通—— 00:06:33.785 --> 00:06:39.488 而忽视了其他指标,如问题解决能力。 00:06:39.488 --> 00:06:41.795 沟通对于艾萨克而言很难, 00:06:41.795 --> 00:06:43.707 所以他找到了一个变通方法, 00:06:43.707 --> 00:06:46.564 自己去探索想要知道的信息。 00:06:46.564 --> 00:06:48.454 你考虑一下,这确实很有道理, 00:06:48.454 --> 00:06:50.535 因为提出一个问题 00:06:50.535 --> 00:06:53.100 是复杂的过程, 00:06:53.100 --> 00:06:59.722 但他能通过在搜索框中输入单词来达到同样目的。 NOTE Paragraph 00:06:59.722 --> 00:07:02.650 因此,这一个小插曲 00:07:02.650 --> 00:07:06.816 深深影响了我和我的家庭, 00:07:06.816 --> 00:07:12.146 因为它让我们对发生在他身上的一切 有了全新的认识, 00:07:12.146 --> 00:07:14.070 也不那么担心他了, 00:07:14.070 --> 00:07:17.302 而且更加欣赏他的「人小鬼大」。 NOTE Paragraph 00:07:17.302 --> 00:07:20.163 事实是愚蠢的, 00:07:20.163 --> 00:07:22.560 极容易被误用, 00:07:22.560 --> 00:07:24.213 有意或无意地。 00:07:24.213 --> 00:07:27.239 我有一个叫Emily Willingham的朋友,是科学家, 00:07:27.239 --> 00:07:30.040 不久前他为福布斯杂志写过一篇文章, 00:07:30.040 --> 00:07:33.850 名为《十个最奇怪的跟自闭症相关的事情》 00:07:33.850 --> 00:07:36.835 此文深得我心。 00:07:36.835 --> 00:07:40.367 「互联网」,一切罪恶的源头,对吧? 00:07:40.367 --> 00:07:44.124 当然,「母亲」也是其中一条。 00:07:44.124 --> 00:07:45.711 事实上,没这么简单, 00:07:45.711 --> 00:07:49.141 「母亲」还进一步细分为多条。 00:07:49.141 --> 00:07:53.956 你们可以看到这个清单真的内涵丰富又有趣。 00:07:53.956 --> 00:07:59.869 我很「欣赏」那些在在高速路旁怀孕的人。 00:07:59.869 --> 00:08:01.392 最后一条很有趣, 00:08:01.392 --> 00:08:06.025 因为「冰箱母亲」在最初被认为是 00:08:06.025 --> 00:08:08.431 孩童自闭症的原因, 00:08:08.431 --> 00:08:11.166 这个词表示那些冰冷的、没有爱心的人。 NOTE Paragraph 00:08:11.166 --> 00:08:12.728 话已至此,你们也许会问, 00:08:12.728 --> 00:08:14.385 「好吧,苏珊,我们明白了, 00:08:14.385 --> 00:08:16.167 你能理解数据,你可以决定数据的意义。」 00:08:16.167 --> 00:08:20.870 这是对的,这绝对是没问题的, 00:08:20.870 --> 00:08:26.480 但挑战在于, 00:08:26.480 --> 00:08:31.228 你们自己也有机会明白数据的意义, 00:08:31.228 --> 00:08:36.564 因为,坦白地讲,数据自己不会创造意义, 是我们创造数据的意义。 00:08:36.564 --> 00:08:39.820 因此,作为商人,作为消费者, 00:08:39.820 --> 00:08:42.359 作为病人,作为公民, 00:08:42.359 --> 00:08:44.729 我认为我们都有责任 00:08:44.729 --> 00:08:49.819 花更多时间来锻炼批判性思维能力。 00:08:49.819 --> 00:08:50.897 为什么? 00:08:50.897 --> 00:08:54.075 因为历史发展到今天, 00:08:54.075 --> 00:08:55.781 我们总是听到这样的说法, 00:08:55.781 --> 00:08:57.762 我们能以闪电般速度 00:08:57.762 --> 00:08:59.915 处理海量数据, 00:08:59.915 --> 00:09:05.270 这就意味着我们能以更快地速度做出错误的决策, 00:09:05.270 --> 00:09:10.292 带给我们史无前例的巨大影响。 00:09:10.292 --> 00:09:11.680 没错吧? 00:09:11.680 --> 00:09:15.120 因此,我们需要做的就是 00:09:15.120 --> 00:09:17.040 多花一点时间在 00:09:17.040 --> 00:09:19.786 人文学, 00:09:19.786 --> 00:09:23.250 社会学,社会科学, 00:09:23.250 --> 00:09:25.558 修辞学,哲学,伦理学, 00:09:25.558 --> 00:09:31.014 因为这些知识非常有助于帮助我们理解大数据, 00:09:31.014 --> 00:09:33.408 而且也能锻炼我们的批判性思维。 00:09:33.408 --> 00:09:39.005 毕竟,如果我能在一个论断中发现问题, 00:09:39.005 --> 00:09:42.860 这个问题是以文字还是数字的形式呈现并不那么重要。 00:09:42.860 --> 00:09:45.579 而且,这些知识会 00:09:45.579 --> 00:09:50.000 让我们有能力辨识出事实与偏见, 00:09:50.000 --> 00:09:51.822 错误的关联信息, 00:09:51.822 --> 00:09:55.640 有能力在30码开外就看透赤裸裸的情感诉求, 00:09:55.640 --> 00:09:58.144 因为,乙事件发生在甲事件之后, 00:09:58.144 --> 00:10:01.226 并不意味着是甲导致乙的发生, 00:10:01.226 --> 00:10:03.345 允许我耍一下酷, 00:10:03.345 --> 00:10:07.642 罗马人称之为 「post hoc ergo propter hoc」 00:10:07.642 --> 00:10:10.938 即「后此谬误」。 NOTE Paragraph 00:10:10.938 --> 00:10:14.695 这意味着我们要对人口统计学 这样的学科打个问号。 00:10:14.695 --> 00:10:17.215 为什么?因为这样的学科基于的假设是 00:10:17.215 --> 00:10:19.521 性别、年龄和住址等数据 00:10:19.521 --> 00:10:20.983 决定我们的身份, 00:10:20.983 --> 00:10:24.461 而不是基于我们的思想和行为。 00:10:24.461 --> 00:10:26.124 我们获取了这些数据, 00:10:26.124 --> 00:10:29.263 我们需要做好隐私控制, 00:10:29.263 --> 00:10:32.839 并保证民众的选择权, 00:10:32.839 --> 00:10:37.952 除此之外,我们需要弄清楚所做的假设, 00:10:37.952 --> 00:10:40.531 采用的研究方法, 00:10:40.531 --> 00:10:43.335 以及对结果的信任。 00:10:43.335 --> 00:10:45.809 就像高中代数老师曾对我说的, 00:10:45.809 --> 00:10:47.340 给我看看你的解题步骤, 00:10:47.340 --> 00:10:50.781 因为如果我不知道你的步骤, 00:10:50.781 --> 00:10:52.772 我就不知道你落下了哪些步骤, 00:10:52.772 --> 00:10:55.210 如果我不知道你问了些什么, 00:10:55.210 --> 00:10:58.407 我就不知道哪些问题你没有问。 00:10:58.407 --> 00:11:00.490 我们应该问自己这个最难回答的问题, 00:11:00.490 --> 00:11:01.409 这真是值得的: 00:11:01.409 --> 00:11:04.909 数据真的显示出了这个结果, 00:11:04.909 --> 00:11:11.100 还是这样的结果让我们感觉更成功、更舒服? NOTE Paragraph 00:11:11.100 --> 00:11:13.682 因此,健康媒体合作实验室 00:11:13.682 --> 00:11:16.191 在该项目结束时发现, 00:11:16.191 --> 00:11:20.949 谈论那些很形象、令人不安的广告的推特中, 00:11:20.949 --> 00:11:24.971 有87%的表达出了恐惧, 00:11:24.971 --> 00:11:29.997 但他们做出这些广告让人戒烟的结论了吗? 00:11:29.997 --> 00:11:32.530 没有。这是科学,但不是魔法。 NOTE Paragraph 00:11:32.530 --> 00:11:35.720 因此,如果我们想要激发 00:11:35.720 --> 00:11:38.582 数据中潜在的能量, 00:11:38.582 --> 00:11:42.030 我们没必要盲目地 00:11:42.030 --> 00:11:45.466 游走于奥威尔所谓的极端未来, 00:11:45.466 --> 00:11:48.583 或赫胥黎所谓的琐碎的未来, 00:11:48.583 --> 00:11:51.603 或两种思想的杂糅。 00:11:51.603 --> 00:11:53.982 我们需要做的就是, 00:11:53.982 --> 00:11:56.700 积极进行批判性思维, 00:11:56.700 --> 00:12:01.369 并学习健康媒体合作实验室的做法, 00:12:01.369 --> 00:12:03.667 就像超级英雄电影里说的那样, 00:12:03.667 --> 00:12:05.489 力量用在行善上。 NOTE Paragraph 00:12:05.489 --> 00:12:07.840 谢谢。 NOTE Paragraph 00:12:07.840 --> 00:12:10.174 (掌声)