WEBVTT 00:00:01.006 --> 00:00:06.130 历史纪录可以让我们知道 古希腊人如何打扮、 00:00:06.130 --> 00:00:07.428 如何生活、 00:00:07.428 --> 00:00:08.964 如何打仗... 00:00:08.964 --> 00:00:11.362 但他们如何思考呢? 00:00:11.362 --> 00:00:15.866 有一个很自然的方法就是, 去探索人类最深层的想法—— 00:00:15.866 --> 00:00:17.752 我们的想像力、 00:00:17.752 --> 00:00:19.189 意识力、 00:00:19.193 --> 00:00:20.428 去梦想—— 00:00:20.428 --> 00:00:22.602 是否是一样的。 00:00:22.602 --> 00:00:24.345 另一种可能是, 00:00:24.345 --> 00:00:28.102 去探索造就我们文化的社会变革, 00:00:28.102 --> 00:00:32.891 这些变革也许就是 改变人类想法的主要因素。 00:00:32.891 --> 00:00:35.419 对这一点,大家或许有不同的看法。 00:00:35.419 --> 00:00:38.176 实际上,这是一个存在已久的哲学辩论。 00:00:38.644 --> 00:00:42.811 究竟这个问题是否可以 通过科学来处理? 00:00:42.811 --> 00:00:45.390 我的建议是 00:00:45.390 --> 00:00:50.250 如同仅借由一些砖头, 我们得以重建希腊古都的外貌, 00:00:50.250 --> 00:00:52.562 也可用同样的方式, 00:00:52.572 --> 00:00:56.718 借由一些文化作品, 比如考古纪录、 00:00:56.718 --> 00:00:59.935 化石,来了解人类的想法。 00:00:59.935 --> 00:01:01.043 而实际上, 00:01:01.043 --> 00:01:03.389 因为对人类的 00:01:03.389 --> 00:01:06.871 古老文化书籍做了一些心理分析, 00:01:06.871 --> 00:01:12.850 朱利安 杰尼斯在70年代, 发表了一个相当大胆激进的假说: 00:01:12.850 --> 00:01:15.287 他说,3000年前的人类, 00:01:15.287 --> 00:01:21.365 是我们现在俗称的 “精神分裂症患者”。 00:01:21.753 --> 00:01:23.255 他会如此主张的原因是 00:01:23.255 --> 00:01:26.656 依据世界各地不同的传统及位置, 00:01:26.656 --> 00:01:28.568 这些书籍里面 00:01:28.568 --> 00:01:31.568 所描述的人类行为 00:01:31.568 --> 00:01:35.110 似乎不约而同地都会服从 00:01:35.110 --> 00:01:36.684 他们认为是从神袛 00:01:36.684 --> 00:01:40.044 那边传来的声音...... 00:01:40.044 --> 00:01:43.682 而如今,我们会称之为“幻听”。 00:01:43.888 --> 00:01:46.514 随着时间的洗礼, 00:01:46.518 --> 00:01:50.163 他们开始认知到 那些声音是他们自己创造的, 00:01:50.163 --> 00:01:53.128 他们就是那些内在声音的主人。 00:01:53.316 --> 00:01:56.015 有了这样的认知, 他们学会了 “自省”: 00:01:56.015 --> 00:01:59.608 一种反思自己想法的能力。 00:01:59.785 --> 00:02:03.156 所以杰尼斯对“意识”的理论就是, 00:02:03.156 --> 00:02:06.336 至少现今我们觉察到的“意识”、 00:02:06.336 --> 00:02:09.920 感觉到我们能掌控 自我人生的感悟—— 00:02:09.920 --> 00:02:13.237 是相当近代的文化发展。 00:02:13.456 --> 00:02:15.236 这理论很有前瞻性, 00:02:15.236 --> 00:02:16.493 但一个很明显的问题就是, 00:02:16.493 --> 00:02:20.715 它是建立在极少又特殊的案例上。 00:02:21.085 --> 00:02:22.558 所以问题是, 00:02:22.562 --> 00:02:27.617 3000年来人类才建立起 自省能力的这个理论 00:02:27.617 --> 00:02:30.631 是否可以经得起量化且客观的考验。 00:02:31.543 --> 00:02:35.100 至于要如何做的问题, 也是相当简单明了。 00:02:35.100 --> 00:02:38.544 但我的意思并非,比如, 柏拉图有一天突然醒来写下 00:02:38.544 --> 00:02:40.257 “你好!我是柏拉图, 00:02:40.257 --> 00:02:43.150 我今天拥有完整的自省意识了。” 那样简单而已。 00:02:43.150 --> 00:02:45.497 (笑声) 00:02:45.497 --> 00:02:48.860 而这鞥告诉我们,我们要找出 问题的本质是什么。 00:02:49.467 --> 00:02:54.122 我们必须找到从来没有被 谈论过的概念。 00:02:54.434 --> 00:02:58.888 “自省”这个词,在我们研究的 00:02:58.888 --> 00:03:01.698 这些书本中从未出现过一次。 00:03:01.698 --> 00:03:05.815 所以为了解决这个问题, 我们要建立一个字词的空间。 00:03:06.571 --> 00:03:09.852 在这个大空间里, 包含了所有的词汇, 00:03:09.852 --> 00:03:12.684 用这种方式可以衡量 00:03:12.688 --> 00:03:16.171 两个词语彼此之间的关联程度。 00:03:16.460 --> 00:03:17.254 举个例子, 00:03:17.254 --> 00:03:20.532 你会想,“狗”、“猫”是比较相关的词, 00:03:20.536 --> 00:03:24.387 但“葡萄柚”和“对数” 就没什么关联了。 00:03:24.809 --> 00:03:29.486 而在这个空间里的任何 两个词都必须能以此衡量。 00:03:29.486 --> 00:03:32.931 而我们有很多方式 可以建立起这些字的空间架构, 00:03:32.931 --> 00:03:34.498 方法一,只要请教专家就行了, 00:03:34.498 --> 00:03:36.554 有点类似查字典。 00:03:36.896 --> 00:03:38.318 另一个可行的方法是, 00:03:38.318 --> 00:03:42.007 当两个字词出现关联性时, 去追踪它们的预设状况, 00:03:42.007 --> 00:03:44.430 它们可能会出现在同一句、 00:03:44.430 --> 00:03:45.887 同一段落、 00:03:45.887 --> 00:03:47.707 或同一文档中, 00:03:47.711 --> 00:03:51.433 比偶然出现频繁得多。 00:03:52.231 --> 00:03:54.275 在这个简单的前提下, 00:03:54.275 --> 00:03:55.359 这个单纯且带有 00:03:55.359 --> 00:03:57.199 运算技巧的方法 00:03:57.199 --> 00:03:58.109 在这个复杂且高维度的 00:03:58.109 --> 00:04:01.743 空间中必须能充分发挥作用, 00:04:01.747 --> 00:04:04.032 而事后证明,它相当有效。 00:04:04.035 --> 00:04:06.941 向各位介绍一下,它多有效, 00:04:06.941 --> 00:04:11.263 我们分析了一些经常用到的词语。 00:04:11.607 --> 00:04:12.696 首先你可以看到, 00:04:12.696 --> 00:04:16.088 这些词语会自动地划分为 语义相近的相邻群组, 00:04:16.088 --> 00:04:17.768 所以你可看到水果,身体部位, 00:04:17.768 --> 00:04:20.784 电脑零件与科学术语等等。 00:04:21.119 --> 00:04:25.341 演算法也可以把我们要 整理的概念分门别类出来。 00:04:25.852 --> 00:04:26.507 举个例子, 00:04:26.507 --> 00:04:30.328 你可以看到,科学的术语 被拆解成两个子类, 00:04:30.328 --> 00:04:32.748 分别是太空与物理的术语。 00:04:33.338 --> 00:04:35.578 然后你会发现一件有趣的事。 00:04:35.578 --> 00:04:37.497 举个例子,“天文学”这个词, 00:04:37.497 --> 00:04:39.118 它现在的位置看似不太对, 00:04:39.118 --> 00:04:41.587 却的确在正确的位置上, 00:04:41.587 --> 00:04:43.045 它应该介于科学与 00:04:43.045 --> 00:04:44.403 天文学术语之间, 00:04:44.403 --> 00:04:45.961 因为天文学是一门科学 00:04:45.961 --> 00:04:48.033 同时又包含了很多天文学术语。 00:04:48.033 --> 00:04:49.967 我们可以持续寻找其它类似的情况。 00:04:49.967 --> 00:04:51.461 如果你盯着这些词一阵子, 00:04:51.461 --> 00:04:53.709 然后随机搭配连接一下这些词语, 00:04:53.709 --> 00:04:57.928 你会觉得好像自己在做诗。 00:04:57.928 --> 00:04:59.894 那是因为在某种程度上, 00:04:59.894 --> 00:05:03.834 在这个空间里漫遊, 就像是在脑海中做诗一样。 00:05:04.027 --> 00:05:05.568 最后, 00:05:05.568 --> 00:05:09.702 演算法也能辨识出人类的直觉, 00:05:09.702 --> 00:05:13.628 并归纳到自省的词语范畴中。 00:05:13.632 --> 00:05:14.869 举个例子, 00:05:14.869 --> 00:05:18.862 比如“自我”、“內疚”、“理由”、“情绪” 00:05:18.862 --> 00:05:20.775 与“自省”的含义非常接近, 00:05:20.775 --> 00:05:21.740 但其它的词汇, 00:05:21.740 --> 00:05:24.121 比如“红色”、“足球”、“蜡烛”、“香蕉” 00:05:24.121 --> 00:05:25.633 就差很远了。 00:05:26.054 --> 00:05:28.810 所以一旦我们建立起 这样的词汇空间, 00:05:28.810 --> 00:05:31.630 有关于自省的历史, 00:05:31.630 --> 00:05:34.023 有关与任何概念的历史, 00:05:34.027 --> 00:05:38.760 以前被认为是抽象 或是有点模糊的词汇, 00:05:38.760 --> 00:05:40.418 都可以变成实实在在的 00:05:40.418 --> 00:05:43.216 可以被量化的科学。 00:05:44.216 --> 00:05:46.962 而我们要做的就是, 拿起这些书, 00:05:46.962 --> 00:05:48.357 把它们数字化, 00:05:48.357 --> 00:05:51.210 然后把这些词汇映射到 00:05:51.210 --> 00:05:53.203 词汇空间里面, 00:05:53.203 --> 00:05:56.961 然后我们问电脑, 这些词汇所经过的轨迹 00:05:56.961 --> 00:06:00.353 花了多少时间才接近自省的概念。 00:06:00.760 --> 00:06:01.940 有了这些数据, 00:06:01.940 --> 00:06:03.906 我们就可以分析古希腊传统中, 00:06:03.906 --> 00:06:06.021 有关于自省的历史, 00:06:06.021 --> 00:06:09.453 因为我们拥有最完整的文字记录。 00:06:09.631 --> 00:06:11.870 所以我们先把这些书—— 00:06:11.870 --> 00:06:14.194 按照时间排列—— 00:06:14.198 --> 00:06:15.964 然后把每本书中的词汇都 00:06:15.964 --> 00:06:17.955 投射到词语空间里面, 00:06:17.959 --> 00:06:20.685 然后我们问电脑,这些字词 与自省有多少的相关性, 00:06:20.685 --> 00:06:22.265 再把它们平均起来。 00:06:22.590 --> 00:06:25.762 然后,我们不断地问电脑问题, 00:06:25.762 --> 00:06:29.058 这些书就会越来越 00:06:29.058 --> 00:06:30.836 接近自省的概念。 00:06:30.836 --> 00:06:35.307 而这正是当时在古希腊所发生的事。 00:06:35.698 --> 00:06:38.779 各位可以看到在 荷马时代最古老的书籍, 00:06:38.779 --> 00:06:42.321 与自省的相关性只有一点点。 00:06:42.321 --> 00:06:44.465 但在大约在公元前400年左右, 00:06:44.465 --> 00:06:49.273 这个数据却快速上涨至五倍, 00:06:49.273 --> 00:06:51.741 这些书与自省的概念 00:06:51.741 --> 00:06:54.039 越来越接近。 00:06:54.039 --> 00:06:56.623 最棒的是, 00:06:56.623 --> 00:06:57.759 我们可以问电脑, 00:06:57.759 --> 00:07:01.976 在不同的、独立的传统文化中, 是否也有一样的现象。 00:07:02.962 --> 00:07:06.112 所以,我们用同样的方法, 分析了传统犹太基督教的书籍, 00:07:06.112 --> 00:07:08.883 也得到了类似的趋势。 00:07:09.548 --> 00:07:14.147 在最古老的旧约圣经中, 你可以看到它缓慢地增加, 00:07:14.147 --> 00:07:16.157 之后在新约圣经中, 00:07:16.157 --> 00:07:18.008 它在快速地增长。 00:07:18.008 --> 00:07:20.157 大约公元400年, 00:07:20.157 --> 00:07:22.267 圣人奥古斯丁的《忏悔录》中 00:07:22.267 --> 00:07:24.897 自省的词汇数量达到了最高峰。 00:07:24.897 --> 00:07:26.825 这个信息相当重要, 00:07:26.825 --> 00:07:30.202 因为圣人奥古斯丁已经被多位学者、 00:07:30.202 --> 00:07:32.428 心理学家、历史学家公认为 00:07:32.428 --> 00:07:34.536 是自省的创始人之一。 00:07:35.060 --> 00:07:38.837 有些人认为他是现代心理学之父。 00:07:39.012 --> 00:07:40.871 所以,我们演算法的优点 00:07:40.871 --> 00:07:43.701 不仅可以量化, 00:07:43.701 --> 00:07:44.868 而且客观, 00:07:44.868 --> 00:07:47.018 当然速度也相当快—— 00:07:47.018 --> 00:07:49.409 几秒就可以跑完—— 00:07:49.409 --> 00:07:52.966 并捕捉到使用传统方法 必须费长时间调查 00:07:52.966 --> 00:07:55.998 才能抓到的一些重点。 00:07:56.317 --> 00:08:00.038 这也是科学美好的地方之一, 00:08:00.038 --> 00:08:03.462 它可以解读、归纳这想法, 00:08:03.462 --> 00:08:06.063 然后广泛应用在许多不同的领域上。 00:08:06.769 --> 00:08:11.500 或许最具挑战性的问题是, 00:08:11.500 --> 00:08:14.960 我们用电脑来分析过去的 自我意识发展的方法, 00:08:14.960 --> 00:08:19.127 是不是也可以告诉我们 自我意识的发展趋势呢? 00:08:19.550 --> 00:08:20.954 更确切地说, 00:08:20.954 --> 00:08:23.454 我们现在说的话, 00:08:23.454 --> 00:08:28.664 是否可以告诉我们接下来的几天、 00:08:28.664 --> 00:08:29.655 几个月或几年后, 00:08:29.655 --> 00:08:31.197 我们的心智会达到什么情况。 00:08:31.867 --> 00:08:34.580 类似的,我们现在很多人 都使用穿戴式侦测器, 00:08:34.580 --> 00:08:36.401 可以侦测我们的心跳、 00:08:36.401 --> 00:08:37.720 呼吸、 00:08:37.724 --> 00:08:39.394 基因, 00:08:39.394 --> 00:08:43.080 让我们可以预防疾病, 00:08:43.080 --> 00:08:46.681 我们是否可以通过 监控和分析我们所说的话、 00:08:46.681 --> 00:08:49.378 发的微博、邮件和书写的文字, 00:08:49.378 --> 00:08:54.170 来提前告诉我们,我们的心智 可能要发生问题了? 00:08:55.087 --> 00:08:56.687 我跟我的兄弟, 00:08:56.687 --> 00:08:59.681 吉列尔莫 切基, 00:08:59.681 --> 00:09:01.696 扛起了这项任务。 00:09:02.228 --> 00:09:07.864 我们纪录分析了 34 位年轻人的谈话。 00:09:07.864 --> 00:09:11.295 他们曾是患精神分裂症的高风险人群。 00:09:11.434 --> 00:09:14.335 我们测量了他们第一天的谈话, 00:09:14.339 --> 00:09:17.185 然后问电脑,从他们的话中, 是否可以预测出, 00:09:17.185 --> 00:09:20.151 未來三年內, 00:09:20.151 --> 00:09:23.170 他们会不会患上精神错乱。 00:09:23.427 --> 00:09:25.777 但我们大失所望, 00:09:25.777 --> 00:09:28.934 一次又一次的失败。 00:09:29.793 --> 00:09:33.695 没有足够的语义上的信息 00:09:33.699 --> 00:09:36.512 来预测未来的心智发展。 00:09:36.716 --> 00:09:39.915 它有能力分辨 00:09:39.915 --> 00:09:42.584 精神病患者和健康人, 00:09:42.584 --> 00:09:45.320 因为这有点像我们之前 做古文字的分析, 00:09:45.320 --> 00:09:48.278 但没办法预测未来精神错乱的发病。 00:09:49.164 --> 00:09:50.834 后来我们了解到, 00:09:50.834 --> 00:09:55.022 也许最关键的不是他们说了什么, 00:09:55.022 --> 00:09:57.349 而是他们怎么说。 00:09:57.679 --> 00:09:58.929 进一步说, 00:09:58.929 --> 00:10:01.790 不是他们说的话落在哪个 语义相近的群组里, 00:10:01.790 --> 00:10:04.374 而是他们说话的方式是否会在这几个 00:10:04.374 --> 00:10:07.119 语义相近的群组里快速地跳来跳去。 00:10:07.247 --> 00:10:08.612 所以我们想出了一个 00:10:08.612 --> 00:10:11.365 叫做“语义连贯性”的评估方法, 00:10:11.365 --> 00:10:16.413 本质上就是评估谈话的持续性 00:10:16.413 --> 00:10:19.102 是否会落在同一个 语义主题或类别上。 00:10:19.294 --> 00:10:23.335 结果显示,刚刚的 34 位年轻人, 00:10:23.335 --> 00:10:26.998 通过这个语义连贯性演算法, 00:10:26.998 --> 00:10:29.656 预测谁会精神错乱的正确率 00:10:29.656 --> 00:10:32.976 达到了百分之百。 00:10:32.976 --> 00:10:36.045 目前临床上所有评估方式 00:10:36.045 --> 00:10:37.595 都无法达到、 00:10:37.595 --> 00:10:40.935 甚至无法接近这个数字。 00:10:42.525 --> 00:10:46.078 在我做这项研究的时候, 清楚地记得一件事, 00:10:46.078 --> 00:10:48.399 当时我坐在电脑前面, 00:10:48.399 --> 00:10:51.169 看到保罗发的一些微博—— 00:10:51.169 --> 00:10:54.299 他是我之前在布宜诺斯艾利斯市 教书时的第一个学生, 00:10:54.299 --> 00:10:56.389 当时他住在纽约。 00:10:56.393 --> 00:10:58.305 我发现微博的内容不太对劲—— 00:10:58.305 --> 00:11:02.020 我看不懂是什么, 因为他写得不太清楚—— 00:11:02.020 --> 00:11:04.097 但我有一种 00:11:04.097 --> 00:11:07.237 强烈的直觉,一定 有什么地方不对劲儿了。 00:11:08.347 --> 00:11:11.044 所以我立刻打电话给保罗, 00:11:11.044 --> 00:11:13.333 没错,他当时感觉不太舒服。 00:11:13.333 --> 00:11:14.798 仅仅通过阅读 00:11:14.798 --> 00:11:17.798 他微博的字里行间, 00:11:17.798 --> 00:11:22.084 我就可以感受到他的精神健康状态, 00:11:22.084 --> 00:11:25.937 阅读别人的用词 的确是个简单有效的帮助方式。 00:11:25.937 --> 00:11:27.599 今天我要告诉各位的是, 00:11:27.599 --> 00:11:30.257 我们已经越来越能够理解 00:11:30.257 --> 00:11:34.572 如何把我们共有的, 00:11:34.572 --> 00:11:36.072 共享的直觉 00:11:36.072 --> 00:11:38.102 转换成演算法。 00:11:38.102 --> 00:11:39.547 通过这样做, 00:11:39.547 --> 00:11:44.191 未来我们也许可以看到一种 全然不同的精神健康模式, 00:11:44.191 --> 00:11:49.842 是基于一种客观、 量化的方式来自动分析出 00:11:49.842 --> 00:11:51.475 我们所写的词汇, 00:11:51.475 --> 00:11:53.140 还有我们所说的话。 00:11:53.140 --> 00:11:54.315 谢谢。 00:11:54.315 --> 00:11:59.888 (掌声)