1 00:00:01,354 --> 00:00:04,489 科技极大程度上改变了世界: 2 00:00:04,489 --> 00:00:09,138 登月计划,互联网,基因组测序。 3 00:00:09,138 --> 00:00:12,857 但随之而来的是我们内心深处的忧虑, 4 00:00:12,857 --> 00:00:14,713 大约30年前, 5 00:00:14,713 --> 00:00:17,266 文学评论家尼尔•波兹曼出了一本书, 6 00:00:17,266 --> 00:00:19,381 名为《娱乐至死》, 7 00:00:19,381 --> 00:00:22,140 将这个问题展现得淋漓尽致。 8 00:00:22,140 --> 00:00:23,790 他这样写道, 9 00:00:23,790 --> 00:00:26,893 将乔治•奥威尔和阿道司•赫胥黎 10 00:00:26,893 --> 00:00:29,626 两人的反乌托邦观点做比较, 11 00:00:29,626 --> 00:00:35,012 奥威尔害怕我们的文化成为「受制文化」。 12 00:00:35,012 --> 00:00:38,752 赫胥黎担心的是我们的文化成为「琐碎文化」 13 00:00:38,752 --> 00:00:42,847 奥威尔害怕的是真理被隐瞒, 14 00:00:42,847 --> 00:00:45,010 赫胥黎担心的是我们被淹没在 15 00:00:45,010 --> 00:00:47,703 无聊烦琐的世事中。 16 00:00:47,703 --> 00:00:52,483 简言之,这是「老大哥」看你 17 00:00:52,483 --> 00:00:54,969 还是你看「老大哥」的选择。 (译者注:「老大哥」典出奥威尔名著《1984》) 18 00:00:54,969 --> 00:00:56,900 (笑声) 19 00:00:56,900 --> 00:00:58,634 但事实不尽然, 20 00:00:58,634 --> 00:01:01,970 我们不是只能被动地接受数据和科技。 21 00:01:01,970 --> 00:01:04,373 我们能改变科技在我们生活中扮演的角色, 22 00:01:04,373 --> 00:01:06,503 也能改变享受数据带来的恩惠的方式, 23 00:01:06,503 --> 00:01:08,106 但要实现这一目的, 24 00:01:08,106 --> 00:01:11,619 思考方式固然重要, 我们也要对如何解读数据 25 00:01:11,619 --> 00:01:13,649 投以同样高的关注度。 26 00:01:13,649 --> 00:01:16,747 我们需要问问题,要问深刻的问题, 27 00:01:16,747 --> 00:01:18,616 不再单纯地统计数据, 28 00:01:18,616 --> 00:01:21,218 而是要进一步理解数据。 29 00:01:21,218 --> 00:01:23,664 我们身边充斥着那些 30 00:01:23,664 --> 00:01:26,140 讲述世界上有海量数据的故事, 31 00:01:26,140 --> 00:01:27,720 但当我们面临大数据, 32 00:01:27,720 --> 00:01:30,316 面临理解大数据所的挑战, 33 00:01:30,316 --> 00:01:32,404 数据量的大小不代表一切。 34 00:01:32,404 --> 00:01:35,307 还有数据传播的速度, 35 00:01:35,307 --> 00:01:37,003 数据的类型, 36 00:01:37,003 --> 00:01:39,501 举几个例子: 37 00:01:39,501 --> 00:01:41,699 图像, 38 00:01:41,699 --> 00:01:45,706 文字, 39 00:01:45,706 --> 00:01:47,801 视频, 40 00:01:47,801 --> 00:01:49,631 音频。 41 00:01:49,631 --> 00:01:52,673 不同类型的数据能有机地结合在一起, 42 00:01:52,673 --> 00:01:54,894 因为正是人类创造了这些数据, 43 00:01:54,894 --> 00:01:57,669 而且要在一定背景前提下理解特定数据。 44 00:01:57,669 --> 00:02:02,444 目前,一个来自伊利诺大学 芝加哥分校的数据科学家团队, 45 00:02:02,444 --> 00:02:04,973 自称「健康媒体合作实验室」, 46 00:02:04,973 --> 00:02:07,560 正与疾控中心合作, 47 00:02:07,560 --> 00:02:09,065 试图进一步了解 48 00:02:09,065 --> 00:02:11,913 人们谈论戒烟的方式, 49 00:02:11,913 --> 00:02:14,593 谈论电子烟的方式, 50 00:02:14,593 --> 00:02:16,578 以及他们如何协作 51 00:02:16,578 --> 00:02:18,562 来帮助人们戒烟。 52 00:02:18,562 --> 00:02:20,575 有趣的是,如果你想了解 53 00:02:20,575 --> 00:02:22,791 人们谈论吸烟的方式, 54 00:02:22,791 --> 00:02:24,692 首先需要了解 55 00:02:24,692 --> 00:02:27,257 「烟」在他们口中的含义。 56 00:02:27,257 --> 00:02:31,183 在Twitter上,「烟」的含义通常有四类: 57 00:02:31,183 --> 00:02:34,180 第一,吸烟; 58 00:02:34,180 --> 00:02:36,987 第二,抽大麻; 59 00:02:36,987 --> 00:02:39,630 第三,烟熏肋排; 60 00:02:39,630 --> 00:02:43,183 第四,闻香识女。 61 00:02:43,183 --> 00:02:46,176 (笑声) 62 00:02:46,176 --> 00:02:48,602 然后你就会想, 63 00:02:48,602 --> 00:02:50,742 人们是如何谈论电子烟的呢? 64 00:02:50,742 --> 00:02:52,767 人们谈论电子烟的方式非常多, 65 00:02:52,767 --> 00:02:57,986 从屏幕上你们可以看到谈论的方式是如此繁多。 66 00:02:57,986 --> 00:03:01,200 这就让我们想到, 67 00:03:01,200 --> 00:03:03,611 语言是人类创造的, 68 00:03:03,611 --> 00:03:05,951 人类的语言是复杂混乱的, 69 00:03:05,951 --> 00:03:12,018 我们用各种语言,无时无刻不在讲着比喻, 说着俚语和术语, 70 00:03:12,018 --> 00:03:15,221 好不容易弄清了,立马就又变掉了。 71 00:03:15,221 --> 00:03:20,339 那么,疾控中心投放的广告, 72 00:03:20,339 --> 00:03:22,769 以及电视上那种看起来让人非常不安的 73 00:03:22,769 --> 00:03:26,700 形象地画了一个喉咙烧出来洞的女性的广告, 74 00:03:26,700 --> 00:03:31,289 这些广告会影响人们戒烟吗? 75 00:03:31,289 --> 00:03:34,557 健康媒体合作实验室承认其数据的有限性, 76 00:03:34,557 --> 00:03:36,562 但他们还是做了这样的结论, 77 00:03:36,562 --> 00:03:39,874 那些广告——或许你们都见到过—— 78 00:03:39,874 --> 00:03:42,465 确实会震颤人的内心, 79 00:03:42,465 --> 00:03:44,287 让他们有所思考, 80 00:03:44,287 --> 00:03:47,954 这样或许会影响他们未来的行为。 81 00:03:47,954 --> 00:03:51,845 这个项目让我尊重和欣赏的地方, 82 00:03:51,845 --> 00:03:57,414 不仅在于该项目基于人们的真实需求, 83 00:03:57,414 --> 00:04:01,897 还在于它充分诠释了面对「无聊烦琐的世事」 84 00:04:01,897 --> 00:04:04,680 展现出来的勇气。 85 00:04:04,680 --> 00:04:09,185 因此,并不只是大数据在挑战我们对事物的理解, 86 00:04:09,185 --> 00:04:10,586 让我们直面这一事实吧, 87 00:04:10,586 --> 00:04:13,180 不管处理多少数据,哪怕再少的数据, 88 00:04:13,180 --> 00:04:15,873 人们也能把它搞得一团糟, 89 00:04:15,873 --> 00:04:17,490 「见多不怪」了。 90 00:04:17,490 --> 00:04:21,227 你或许会记得,几年前, 91 00:04:21,227 --> 00:04:23,500 前总统罗纳德•里根 92 00:04:23,500 --> 00:04:25,491 在声称「事实是愚蠢的」后 93 00:04:25,491 --> 00:04:28,501 被严厉指责。 94 00:04:28,501 --> 00:04:31,295 平心而论,这是一个口误。 95 00:04:31,295 --> 00:04:33,725 他原本是想引用约翰•亚当斯 96 00:04:33,725 --> 00:04:36,476 在波士顿惨案审判为英军士兵的辩言 97 00:04:36,476 --> 00:04:39,626 「事实是顽固不化的。」 98 00:04:39,626 --> 00:04:42,250 但事实上,我认为 99 00:04:42,250 --> 00:04:45,668 里根总统那句话蕴含着些许智慧, 100 00:04:45,668 --> 00:04:48,444 事实固然顽固不化, 101 00:04:48,444 --> 00:04:51,367 有时确实是愚蠢的。 102 00:04:51,367 --> 00:04:53,255 这对我意义深远, 103 00:04:53,255 --> 00:04:56,803 我讲一个私人故事来告诉你们为什么。 104 00:04:56,803 --> 00:04:59,240 我要深吸一口气。 105 00:04:59,240 --> 00:05:01,994 我的儿子艾萨克,在他两岁的时候, 106 00:05:01,994 --> 00:05:04,411 被诊断出患有自闭症, 107 00:05:04,411 --> 00:05:06,572 在我们眼里,他是个幸福、欢快、 108 00:05:06,572 --> 00:05:08,607 充满爱意、惹人喜欢的小孩, 109 00:05:08,607 --> 00:05:11,509 但该发展水平评估 110 00:05:11,509 --> 00:05:13,579 关注的指标是诸如言多言寡—— 111 00:05:13,579 --> 00:05:17,236 当时,是零—— 112 00:05:17,236 --> 00:05:21,176 互动性姿势和最少目光接触, 113 00:05:21,176 --> 00:05:23,179 根据这套评估标准的结果, 114 00:05:23,179 --> 00:05:27,140 他的发展水平相当于9月大的婴儿。 115 00:05:27,140 --> 00:05:30,100 按照这套标准,结果无可厚非, 116 00:05:30,100 --> 00:05:33,309 但这不是全部。 117 00:05:33,309 --> 00:05:34,710 一年半之后, 118 00:05:34,710 --> 00:05:36,812 在他快要四岁的时候, 119 00:05:36,812 --> 00:05:39,175 有一天我发现他坐在电脑前, 120 00:05:39,175 --> 00:05:44,628 在Google图片搜索中搜索「women」 121 00:05:44,628 --> 00:05:48,244 拼成了「wimen」 122 00:05:48,244 --> 00:05:50,984 接下来我做了任何有心的父母都会做的事, 123 00:05:50,984 --> 00:05:52,885 我立马就按了后退按钮, 124 00:05:52,885 --> 00:05:56,248 看看他还搜索了什么。 125 00:05:56,248 --> 00:05:58,419 查到了,按顺序来:男人, 126 00:05:58,419 --> 00:06:05,686 学校,汽车和电脑。 127 00:06:05,686 --> 00:06:07,756 我目瞪口呆, 128 00:06:07,756 --> 00:06:09,758 因为我们还不知道他会拼单词, 129 00:06:09,758 --> 00:06:11,524 更别说读写了,因此我问他, 130 00:06:11,524 --> 00:06:13,717 「艾萨克,你是如何做到的?」 131 00:06:13,717 --> 00:06:16,395 他很严肃地看着我说, 132 00:06:16,395 --> 00:06:19,747 「在搜索框里输入。」 133 00:06:19,747 --> 00:06:23,481 他一直在自我学习如何去沟通, 134 00:06:23,481 --> 00:06:26,485 但我们将注意力投在了别处, 135 00:06:26,485 --> 00:06:28,780 很显然,那些发展水平评估 136 00:06:28,780 --> 00:06:31,176 过分注重了一个指标—— 137 00:06:31,176 --> 00:06:33,785 言语沟通—— 138 00:06:33,785 --> 00:06:39,488 而忽视了其他指标,如问题解决能力。 139 00:06:39,488 --> 00:06:41,795 沟通对于艾萨克而言很难, 140 00:06:41,795 --> 00:06:43,707 所以他找到了一个变通方法, 141 00:06:43,707 --> 00:06:46,564 自己去探索想要知道的信息。 142 00:06:46,564 --> 00:06:48,454 你考虑一下,这确实很有道理, 143 00:06:48,454 --> 00:06:50,535 因为提出一个问题 144 00:06:50,535 --> 00:06:53,100 是复杂的过程, 145 00:06:53,100 --> 00:06:59,722 但他能通过在搜索框中输入单词来达到同样目的。 146 00:06:59,722 --> 00:07:02,650 因此,这一个小插曲 147 00:07:02,650 --> 00:07:06,816 深深影响了我和我的家庭, 148 00:07:06,816 --> 00:07:12,146 因为它让我们对发生在他身上的一切 有了全新的认识, 149 00:07:12,146 --> 00:07:14,070 也不那么担心他了, 150 00:07:14,070 --> 00:07:17,302 而且更加欣赏他的「人小鬼大」。 151 00:07:17,302 --> 00:07:20,163 事实是愚蠢的, 152 00:07:20,163 --> 00:07:22,560 极容易被误用, 153 00:07:22,560 --> 00:07:24,213 有意或无意地。 154 00:07:24,213 --> 00:07:27,239 我有一个叫Emily Willingham的朋友,是科学家, 155 00:07:27,239 --> 00:07:30,040 不久前他为福布斯杂志写过一篇文章, 156 00:07:30,040 --> 00:07:33,850 名为《十个最奇怪的跟自闭症相关的事情》 157 00:07:33,850 --> 00:07:36,835 此文深得我心。 158 00:07:36,835 --> 00:07:40,367 「互联网」,一切罪恶的源头,对吧? 159 00:07:40,367 --> 00:07:44,124 当然,「母亲」也是其中一条。 160 00:07:44,124 --> 00:07:45,711 事实上,没这么简单, 161 00:07:45,711 --> 00:07:49,141 「母亲」还进一步细分为多条。 162 00:07:49,141 --> 00:07:53,956 你们可以看到这个清单真的内涵丰富又有趣。 163 00:07:53,956 --> 00:07:59,869 我很「欣赏」那些在在高速路旁怀孕的人。 164 00:07:59,869 --> 00:08:01,392 最后一条很有趣, 165 00:08:01,392 --> 00:08:06,025 因为「冰箱母亲」在最初被认为是 166 00:08:06,025 --> 00:08:08,431 孩童自闭症的原因, 167 00:08:08,431 --> 00:08:11,166 这个词表示那些冰冷的、没有爱心的人。 168 00:08:11,166 --> 00:08:12,728 话已至此,你们也许会问, 169 00:08:12,728 --> 00:08:14,385 「好吧,苏珊,我们明白了, 170 00:08:14,385 --> 00:08:16,167 你能理解数据,你可以决定数据的意义。」 171 00:08:16,167 --> 00:08:20,870 这是对的,这绝对是没问题的, 172 00:08:20,870 --> 00:08:26,480 但挑战在于, 173 00:08:26,480 --> 00:08:31,228 你们自己也有机会明白数据的意义, 174 00:08:31,228 --> 00:08:36,564 因为,坦白地讲,数据自己不会创造意义, 是我们创造数据的意义。 175 00:08:36,564 --> 00:08:39,820 因此,作为商人,作为消费者, 176 00:08:39,820 --> 00:08:42,359 作为病人,作为公民, 177 00:08:42,359 --> 00:08:44,729 我认为我们都有责任 178 00:08:44,729 --> 00:08:49,819 花更多时间来锻炼批判性思维能力。 179 00:08:49,819 --> 00:08:50,897 为什么? 180 00:08:50,897 --> 00:08:54,075 因为历史发展到今天, 181 00:08:54,075 --> 00:08:55,781 我们总是听到这样的说法, 182 00:08:55,781 --> 00:08:57,762 我们能以闪电般速度 183 00:08:57,762 --> 00:08:59,915 处理海量数据, 184 00:08:59,915 --> 00:09:05,270 这就意味着我们能以更快地速度做出错误的决策, 185 00:09:05,270 --> 00:09:10,292 带给我们史无前例的巨大影响。 186 00:09:10,292 --> 00:09:11,680 没错吧? 187 00:09:11,680 --> 00:09:15,120 因此,我们需要做的就是 188 00:09:15,120 --> 00:09:17,040 多花一点时间在 189 00:09:17,040 --> 00:09:19,786 人文学, 190 00:09:19,786 --> 00:09:23,250 社会学,社会科学, 191 00:09:23,250 --> 00:09:25,558 修辞学,哲学,伦理学, 192 00:09:25,558 --> 00:09:31,014 因为这些知识非常有助于帮助我们理解大数据, 193 00:09:31,014 --> 00:09:33,408 而且也能锻炼我们的批判性思维。 194 00:09:33,408 --> 00:09:39,005 毕竟,如果我能在一个论断中发现问题, 195 00:09:39,005 --> 00:09:42,860 这个问题是以文字还是数字的形式呈现并不那么重要。 196 00:09:42,860 --> 00:09:45,579 而且,这些知识会 197 00:09:45,579 --> 00:09:50,000 让我们有能力辨识出事实与偏见, 198 00:09:50,000 --> 00:09:51,822 错误的关联信息, 199 00:09:51,822 --> 00:09:55,640 有能力在30码开外就看透赤裸裸的情感诉求, 200 00:09:55,640 --> 00:09:58,144 因为,乙事件发生在甲事件之后, 201 00:09:58,144 --> 00:10:01,226 并不意味着是甲导致乙的发生, 202 00:10:01,226 --> 00:10:03,345 允许我耍一下酷, 203 00:10:03,345 --> 00:10:07,642 罗马人称之为 「post hoc ergo propter hoc」 204 00:10:07,642 --> 00:10:10,938 即「后此谬误」。 205 00:10:10,938 --> 00:10:14,695 这意味着我们要对人口统计学 这样的学科打个问号。 206 00:10:14,695 --> 00:10:17,215 为什么?因为这样的学科基于的假设是 207 00:10:17,215 --> 00:10:19,521 性别、年龄和住址等数据 208 00:10:19,521 --> 00:10:20,983 决定我们的身份, 209 00:10:20,983 --> 00:10:24,461 而不是基于我们的思想和行为。 210 00:10:24,461 --> 00:10:26,124 我们获取了这些数据, 211 00:10:26,124 --> 00:10:29,263 我们需要做好隐私控制, 212 00:10:29,263 --> 00:10:32,839 并保证民众的选择权, 213 00:10:32,839 --> 00:10:37,952 除此之外,我们需要弄清楚所做的假设, 214 00:10:37,952 --> 00:10:40,531 采用的研究方法, 215 00:10:40,531 --> 00:10:43,335 以及对结果的信任。 216 00:10:43,335 --> 00:10:45,809 就像高中代数老师曾对我说的, 217 00:10:45,809 --> 00:10:47,340 给我看看你的解题步骤, 218 00:10:47,340 --> 00:10:50,781 因为如果我不知道你的步骤, 219 00:10:50,781 --> 00:10:52,772 我就不知道你落下了哪些步骤, 220 00:10:52,772 --> 00:10:55,210 如果我不知道你问了些什么, 221 00:10:55,210 --> 00:10:58,407 我就不知道哪些问题你没有问。 222 00:10:58,407 --> 00:11:00,490 我们应该问自己这个最难回答的问题, 223 00:11:00,490 --> 00:11:01,409 这真是值得的: 224 00:11:01,409 --> 00:11:04,909 数据真的显示出了这个结果, 225 00:11:04,909 --> 00:11:11,100 还是这样的结果让我们感觉更成功、更舒服? 226 00:11:11,100 --> 00:11:13,682 因此,健康媒体合作实验室 227 00:11:13,682 --> 00:11:16,191 在该项目结束时发现, 228 00:11:16,191 --> 00:11:20,949 谈论那些很形象、令人不安的广告的推特中, 229 00:11:20,949 --> 00:11:24,971 有87%的表达出了恐惧, 230 00:11:24,971 --> 00:11:29,997 但他们做出这些广告让人戒烟的结论了吗? 231 00:11:29,997 --> 00:11:32,530 没有。这是科学,但不是魔法。 232 00:11:32,530 --> 00:11:35,720 因此,如果我们想要激发 233 00:11:35,720 --> 00:11:38,582 数据中潜在的能量, 234 00:11:38,582 --> 00:11:42,030 我们没必要盲目地 235 00:11:42,030 --> 00:11:45,466 游走于奥威尔所谓的极端未来, 236 00:11:45,466 --> 00:11:48,583 或赫胥黎所谓的琐碎的未来, 237 00:11:48,583 --> 00:11:51,603 或两种思想的杂糅。 238 00:11:51,603 --> 00:11:53,982 我们需要做的就是, 239 00:11:53,982 --> 00:11:56,700 积极进行批判性思维, 240 00:11:56,700 --> 00:12:01,369 并学习健康媒体合作实验室的做法, 241 00:12:01,369 --> 00:12:03,667 就像超级英雄电影里说的那样, 242 00:12:03,667 --> 00:12:05,489 力量用在行善上。 243 00:12:05,489 --> 00:12:07,840 谢谢。 244 00:12:07,840 --> 00:12:10,174 (掌声)