WEBVTT

00:00:01.006 --> 00:00:06.130
历史纪录可以让我们知道
古希腊人如何打扮、

00:00:06.130 --> 00:00:07.428
如何生活、

00:00:07.428 --> 00:00:08.964
如何打仗...

00:00:08.964 --> 00:00:11.362
但他们如何思考呢？

00:00:11.362 --> 00:00:15.866
有一个很自然的方法就是，
去探索人类最深层的想法——

00:00:15.866 --> 00:00:17.752
我们的想像力、

00:00:17.752 --> 00:00:19.189
意识力、

00:00:19.193 --> 00:00:20.428
去梦想——

00:00:20.428 --> 00:00:22.602
是否是一样的。

00:00:22.602 --> 00:00:24.345
另一种可能是，

00:00:24.345 --> 00:00:28.102
去探索造就我们文化的社会变革，

00:00:28.102 --> 00:00:32.891
这些变革也许就是
改变人类想法的主要因素。

00:00:32.891 --> 00:00:35.419
对这一点，大家或许有不同的看法。

00:00:35.419 --> 00:00:38.176
实际上，这是一个存在已久的哲学辩论。

00:00:38.644 --> 00:00:42.811
究竟这个问题是否可以
通过科学来处理？

00:00:42.811 --> 00:00:45.390
我的建议是

00:00:45.390 --> 00:00:50.250
如同仅借由一些砖头，
我们得以重建希腊古都的外貌，

00:00:50.250 --> 00:00:52.562
也可用同样的方式，

00:00:52.572 --> 00:00:56.718
借由一些文化作品，
比如考古纪录、

00:00:56.718 --> 00:00:59.935
化石，来了解人类的想法。

00:00:59.935 --> 00:01:01.043
而实际上，

00:01:01.043 --> 00:01:03.389
因为对人类的

00:01:03.389 --> 00:01:06.871
古老文化书籍做了一些心理分析，

00:01:06.871 --> 00:01:12.850
朱利安 杰尼斯在70年代，
发表了一个相当大胆激进的假说：

00:01:12.850 --> 00:01:15.287
他说，3000年前的人类，

00:01:15.287 --> 00:01:21.365
是我们现在俗称的
“精神分裂症患者”。

00:01:21.753 --> 00:01:23.255
他会如此主张的原因是

00:01:23.255 --> 00:01:26.656
依据世界各地不同的传统及位置，

00:01:26.656 --> 00:01:28.568
这些书籍里面

00:01:28.568 --> 00:01:31.568
所描述的人类行为

00:01:31.568 --> 00:01:35.110
似乎不约而同地都会服从

00:01:35.110 --> 00:01:36.684
他们认为是从神袛

00:01:36.684 --> 00:01:40.044
那边传来的声音......

00:01:40.044 --> 00:01:43.682
而如今，我们会称之为“幻听”。

00:01:43.888 --> 00:01:46.514
随着时间的洗礼，

00:01:46.518 --> 00:01:50.163
他们开始认知到
那些声音是他们自己创造的，

00:01:50.163 --> 00:01:53.128
他们就是那些内在声音的主人。

00:01:53.316 --> 00:01:56.015
有了这样的认知，
他们学会了 “自省”：

00:01:56.015 --> 00:01:59.608
一种反思自己想法的能力。

00:01:59.785 --> 00:02:03.156
所以杰尼斯对“意识”的理论就是，

00:02:03.156 --> 00:02:06.336
至少现今我们觉察到的“意识”、

00:02:06.336 --> 00:02:09.920
感觉到我们能掌控
自我人生的感悟——

00:02:09.920 --> 00:02:13.237
是相当近代的文化发展。

00:02:13.456 --> 00:02:15.236
这理论很有前瞻性，

00:02:15.236 --> 00:02:16.493
但一个很明显的问题就是，

00:02:16.493 --> 00:02:20.715
它是建立在极少又特殊的案例上。

00:02:21.085 --> 00:02:22.558
所以问题是，

00:02:22.562 --> 00:02:27.617
3000年来人类才建立起
自省能力的这个理论

00:02:27.617 --> 00:02:30.631
是否可以经得起量化且客观的考验。

00:02:31.543 --> 00:02:35.100
至于要如何做的问题，
也是相当简单明了。

00:02:35.100 --> 00:02:38.544
但我的意思并非，比如，
柏拉图有一天突然醒来写下

00:02:38.544 --> 00:02:40.257
“你好！我是柏拉图，

00:02:40.257 --> 00:02:43.150
我今天拥有完整的自省意识了。”
那样简单而已。

00:02:43.150 --> 00:02:45.497
（笑声）

00:02:45.497 --> 00:02:48.860
而这鞥告诉我们，我们要找出
问题的本质是什么。

00:02:49.467 --> 00:02:54.122
我们必须找到从来没有被
谈论过的概念。

00:02:54.434 --> 00:02:58.888
“自省”这个词，在我们研究的

00:02:58.888 --> 00:03:01.698
这些书本中从未出现过一次。

00:03:01.698 --> 00:03:05.815
所以为了解决这个问题，
我们要建立一个字词的空间。

00:03:06.571 --> 00:03:09.852
在这个大空间里，
包含了所有的词汇，

00:03:09.852 --> 00:03:12.684
用这种方式可以衡量

00:03:12.688 --> 00:03:16.171
两个词语彼此之间的关联程度。

00:03:16.460 --> 00:03:17.254
举个例子，

00:03:17.254 --> 00:03:20.532
你会想，“狗”、“猫”是比较相关的词，

00:03:20.536 --> 00:03:24.387
但“葡萄柚”和“对数”
就没什么关联了。

00:03:24.809 --> 00:03:29.486
而在这个空间里的任何
两个词都必须能以此衡量。

00:03:29.486 --> 00:03:32.931
而我们有很多方式
可以建立起这些字的空间架构，


00:03:32.931 --> 00:03:34.498
方法一，只要请教专家就行了，

00:03:34.498 --> 00:03:36.554
有点类似查字典。


00:03:36.896 --> 00:03:38.318
另一个可行的方法是，

00:03:38.318 --> 00:03:42.007
当两个字词出现关联性时，
去追踪它们的预设状况，

00:03:42.007 --> 00:03:44.430
它们可能会出现在同一句、

00:03:44.430 --> 00:03:45.887
同一段落、

00:03:45.887 --> 00:03:47.707
或同一文档中，

00:03:47.711 --> 00:03:51.433
比偶然出现频繁得多。

00:03:52.231 --> 00:03:54.275
在这个简单的前提下，

00:03:54.275 --> 00:03:55.359
这个单纯且带有

00:03:55.359 --> 00:03:57.199
运算技巧的方法

00:03:57.199 --> 00:03:58.109
在这个复杂且高维度的

00:03:58.109 --> 00:04:01.743
空间中必须能充分发挥作用，

00:04:01.747 --> 00:04:04.032
而事后证明，它相当有效。

00:04:04.035 --> 00:04:06.941
向各位介绍一下，它多有效，

00:04:06.941 --> 00:04:11.263
我们分析了一些经常用到的词语。

00:04:11.607 --> 00:04:12.696
首先你可以看到，

00:04:12.696 --> 00:04:16.088
这些词语会自动地划分为
语义相近的相邻群组，

00:04:16.088 --> 00:04:17.768
所以你可看到水果，身体部位，

00:04:17.768 --> 00:04:20.784
电脑零件与科学术语等等。

00:04:21.119 --> 00:04:25.341
演算法也可以把我们要
整理的概念分门别类出来。

00:04:25.852 --> 00:04:26.507
举个例子，


00:04:26.507 --> 00:04:30.328
你可以看到，科学的术语
被拆解成两个子类，

00:04:30.328 --> 00:04:32.748
分别是太空与物理的术语。

00:04:33.338 --> 00:04:35.578
然后你会发现一件有趣的事。

00:04:35.578 --> 00:04:37.497
举个例子，“天文学”这个词，

00:04:37.497 --> 00:04:39.118
它现在的位置看似不太对，

00:04:39.118 --> 00:04:41.587
却的确在正确的位置上，

00:04:41.587 --> 00:04:43.045
它应该介于科学与

00:04:43.045 --> 00:04:44.403
天文学术语之间，

00:04:44.403 --> 00:04:45.961
因为天文学是一门科学

00:04:45.961 --> 00:04:48.033
同时又包含了很多天文学术语。

00:04:48.033 --> 00:04:49.967
我们可以持续寻找其它类似的情况。

00:04:49.967 --> 00:04:51.461
如果你盯着这些词一阵子，

00:04:51.461 --> 00:04:53.709
然后随机搭配连接一下这些词语，

00:04:53.709 --> 00:04:57.928
你会觉得好像自己在做诗。

00:04:57.928 --> 00:04:59.894
那是因为在某种程度上，

00:04:59.894 --> 00:05:03.834
在这个空间里漫遊，
就像是在脑海中做诗一样。

00:05:04.027 --> 00:05:05.568
最后，

00:05:05.568 --> 00:05:09.702
演算法也能辨识出人类的直觉，


00:05:09.702 --> 00:05:13.628
并归纳到自省的词语范畴中。

00:05:13.632 --> 00:05:14.869
举个例子，

00:05:14.869 --> 00:05:18.862
比如“自我”、“內疚”、“理由”、“情绪”

00:05:18.862 --> 00:05:20.775
与“自省”的含义非常接近，

00:05:20.775 --> 00:05:21.740
但其它的词汇，

00:05:21.740 --> 00:05:24.121
比如“红色”、“足球”、“蜡烛”、“香蕉”

00:05:24.121 --> 00:05:25.633
就差很远了。

00:05:26.054 --> 00:05:28.810
所以一旦我们建立起
这样的词汇空间，

00:05:28.810 --> 00:05:31.630
有关于自省的历史，

00:05:31.630 --> 00:05:34.023
有关与任何概念的历史，

00:05:34.027 --> 00:05:38.760
以前被认为是抽象
或是有点模糊的词汇，

00:05:38.760 --> 00:05:40.418
都可以变成实实在在的

00:05:40.418 --> 00:05:43.216
可以被量化的科学。

00:05:44.216 --> 00:05:46.962
而我们要做的就是，
拿起这些书，

00:05:46.962 --> 00:05:48.357
把它们数字化，

00:05:48.357 --> 00:05:51.210
然后把这些词汇映射到

00:05:51.210 --> 00:05:53.203
词汇空间里面，

00:05:53.203 --> 00:05:56.961
然后我们问电脑，
这些词汇所经过的轨迹

00:05:56.961 --> 00:06:00.353
花了多少时间才接近自省的概念。

00:06:00.760 --> 00:06:01.940
有了这些数据，

00:06:01.940 --> 00:06:03.906
我们就可以分析古希腊传统中，

00:06:03.906 --> 00:06:06.021
有关于自省的历史，

00:06:06.021 --> 00:06:09.453
因为我们拥有最完整的文字记录。

00:06:09.631 --> 00:06:11.870
所以我们先把这些书——

00:06:11.870 --> 00:06:14.194
按照时间排列——

00:06:14.198 --> 00:06:15.964
然后把每本书中的词汇都

00:06:15.964 --> 00:06:17.955
投射到词语空间里面，

00:06:17.959 --> 00:06:20.685
然后我们问电脑，这些字词
与自省有多少的相关性，

00:06:20.685 --> 00:06:22.265
再把它们平均起来。

00:06:22.590 --> 00:06:25.762
然后，我们不断地问电脑问题，

00:06:25.762 --> 00:06:29.058
这些书就会越来越

00:06:29.058 --> 00:06:30.836
接近自省的概念。

00:06:30.836 --> 00:06:35.307
而这正是当时在古希腊所发生的事。


00:06:35.698 --> 00:06:38.779
各位可以看到在
荷马时代最古老的书籍，

00:06:38.779 --> 00:06:42.321
与自省的相关性只有一点点。

00:06:42.321 --> 00:06:44.465
但在大约在公元前400年左右，

00:06:44.465 --> 00:06:49.273
这个数据却快速上涨至五倍，

00:06:49.273 --> 00:06:51.741
这些书与自省的概念

00:06:51.741 --> 00:06:54.039
越来越接近。

00:06:54.039 --> 00:06:56.623
最棒的是，

00:06:56.623 --> 00:06:57.759
我们可以问电脑，

00:06:57.759 --> 00:07:01.976
在不同的、独立的传统文化中，
是否也有一样的现象。

00:07:02.962 --> 00:07:06.112
所以，我们用同样的方法，
分析了传统犹太基督教的书籍，

00:07:06.112 --> 00:07:08.883
也得到了类似的趋势。

00:07:09.548 --> 00:07:14.147
在最古老的旧约圣经中，
你可以看到它缓慢地增加，

00:07:14.147 --> 00:07:16.157
之后在新约圣经中，

00:07:16.157 --> 00:07:18.008
它在快速地增长。

00:07:18.008 --> 00:07:20.157
大约公元400年，

00:07:20.157 --> 00:07:22.267
圣人奥古斯丁的《忏悔录》中

00:07:22.267 --> 00:07:24.897
自省的词汇数量达到了最高峰。

00:07:24.897 --> 00:07:26.825
这个信息相当重要，

00:07:26.825 --> 00:07:30.202
因为圣人奥古斯丁已经被多位学者、

00:07:30.202 --> 00:07:32.428
心理学家、历史学家公认为

00:07:32.428 --> 00:07:34.536
是自省的创始人之一。


00:07:35.060 --> 00:07:38.837
有些人认为他是现代心理学之父。


00:07:39.012 --> 00:07:40.871
所以，我们演算法的优点


00:07:40.871 --> 00:07:43.701
不仅可以量化，

00:07:43.701 --> 00:07:44.868
而且客观，

00:07:44.868 --> 00:07:47.018
当然速度也相当快——

00:07:47.018 --> 00:07:49.409
几秒就可以跑完——

00:07:49.409 --> 00:07:52.966
并捕捉到使用传统方法
必须费长时间调查

00:07:52.966 --> 00:07:55.998
才能抓到的一些重点。

00:07:56.317 --> 00:08:00.038
这也是科学美好的地方之一，

00:08:00.038 --> 00:08:03.462
它可以解读、归纳这想法，

00:08:03.462 --> 00:08:06.063
然后广泛应用在许多不同的领域上。

00:08:06.769 --> 00:08:11.500
或许最具挑战性的问题是，

00:08:11.500 --> 00:08:14.960
我们用电脑来分析过去的
自我意识发展的方法，

00:08:14.960 --> 00:08:19.127
是不是也可以告诉我们
自我意识的发展趋势呢？

00:08:19.550 --> 00:08:20.954
更确切地说，

00:08:20.954 --> 00:08:23.454
我们现在说的话，

00:08:23.454 --> 00:08:28.664
是否可以告诉我们接下来的几天、

00:08:28.664 --> 00:08:29.655
几个月或几年后，

00:08:29.655 --> 00:08:31.197
我们的心智会达到什么情况。

00:08:31.867 --> 00:08:34.580
类似的，我们现在很多人
都使用穿戴式侦测器，

00:08:34.580 --> 00:08:36.401
可以侦测我们的心跳、


00:08:36.401 --> 00:08:37.720
呼吸、

00:08:37.724 --> 00:08:39.394
基因，

00:08:39.394 --> 00:08:43.080
让我们可以预防疾病，

00:08:43.080 --> 00:08:46.681
我们是否可以通过
监控和分析我们所说的话、

00:08:46.681 --> 00:08:49.378
发的微博、邮件和书写的文字，

00:08:49.378 --> 00:08:54.170
来提前告诉我们，我们的心智
可能要发生问题了？

00:08:55.087 --> 00:08:56.687
我跟我的兄弟，

00:08:56.687 --> 00:08:59.681
吉列尔莫 切基，

00:08:59.681 --> 00:09:01.696
扛起了这项任务。


00:09:02.228 --> 00:09:07.864
我们纪录分析了 34 位年轻人的谈话。

00:09:07.864 --> 00:09:11.295
他们曾是患精神分裂症的高风险人群。

00:09:11.434 --> 00:09:14.335
我们测量了他们第一天的谈话，

00:09:14.339 --> 00:09:17.185
然后问电脑，从他们的话中，
是否可以预测出，

00:09:17.185 --> 00:09:20.151
未來三年內，

00:09:20.151 --> 00:09:23.170
他们会不会患上精神错乱。

00:09:23.427 --> 00:09:25.777
但我们大失所望，

00:09:25.777 --> 00:09:28.934
一次又一次的失败。


00:09:29.793 --> 00:09:33.695
没有足够的语义上的信息

00:09:33.699 --> 00:09:36.512
来预测未来的心智发展。

00:09:36.716 --> 00:09:39.915
它有能力分辨

00:09:39.915 --> 00:09:42.584
精神病患者和健康人，

00:09:42.584 --> 00:09:45.320
因为这有点像我们之前
做古文字的分析，

00:09:45.320 --> 00:09:48.278
但没办法预测未来精神错乱的发病。

00:09:49.164 --> 00:09:50.834
后来我们了解到，


00:09:50.834 --> 00:09:55.022
也许最关键的不是他们说了什么，

00:09:55.022 --> 00:09:57.349
而是他们怎么说。


00:09:57.679 --> 00:09:58.929
进一步说，

00:09:58.929 --> 00:10:01.790
不是他们说的话落在哪个
语义相近的群组里，

00:10:01.790 --> 00:10:04.374
而是他们说话的方式是否会在这几个

00:10:04.374 --> 00:10:07.119
语义相近的群组里快速地跳来跳去。

00:10:07.247 --> 00:10:08.612
所以我们想出了一个

00:10:08.612 --> 00:10:11.365
叫做“语义连贯性”的评估方法，

00:10:11.365 --> 00:10:16.413
本质上就是评估谈话的持续性

00:10:16.413 --> 00:10:19.102
是否会落在同一个
语义主题或类别上。

00:10:19.294 --> 00:10:23.335
结果显示，刚刚的 34 位年轻人，

00:10:23.335 --> 00:10:26.998
通过这个语义连贯性演算法，

00:10:26.998 --> 00:10:29.656
预测谁会精神错乱的正确率

00:10:29.656 --> 00:10:32.976
达到了百分之百。

00:10:32.976 --> 00:10:36.045
目前临床上所有评估方式

00:10:36.045 --> 00:10:37.595
都无法达到、

00:10:37.595 --> 00:10:40.935
甚至无法接近这个数字。

00:10:42.525 --> 00:10:46.078
在我做这项研究的时候，
清楚地记得一件事，

00:10:46.078 --> 00:10:48.399
当时我坐在电脑前面，


00:10:48.399 --> 00:10:51.169
看到保罗发的一些微博——

00:10:51.169 --> 00:10:54.299
他是我之前在布宜诺斯艾利斯市
教书时的第一个学生，

00:10:54.299 --> 00:10:56.389
当时他住在纽约。


00:10:56.393 --> 00:10:58.305
我发现微博的内容不太对劲——

00:10:58.305 --> 00:11:02.020
我看不懂是什么，
因为他写得不太清楚——

00:11:02.020 --> 00:11:04.097
但我有一种

00:11:04.097 --> 00:11:07.237
强烈的直觉，一定
有什么地方不对劲儿了。

00:11:08.347 --> 00:11:11.044
所以我立刻打电话给保罗，

00:11:11.044 --> 00:11:13.333
没错，他当时感觉不太舒服。


00:11:13.333 --> 00:11:14.798
仅仅通过阅读

00:11:14.798 --> 00:11:17.798
他微博的字里行间，

00:11:17.798 --> 00:11:22.084
我就可以感受到他的精神健康状态，

00:11:22.084 --> 00:11:25.937
阅读别人的用词
的确是个简单有效的帮助方式。

00:11:25.937 --> 00:11:27.599
今天我要告诉各位的是，


00:11:27.599 --> 00:11:30.257
我们已经越来越能够理解

00:11:30.257 --> 00:11:34.572
如何把我们共有的，

00:11:34.572 --> 00:11:36.072
共享的直觉

00:11:36.072 --> 00:11:38.102
转换成演算法。

00:11:38.102 --> 00:11:39.547
通过这样做，

00:11:39.547 --> 00:11:44.191
未来我们也许可以看到一种
全然不同的精神健康模式，

00:11:44.191 --> 00:11:49.842
是基于一种客观、
量化的方式来自动分析出

00:11:49.842 --> 00:11:51.475
我们所写的词汇，

00:11:51.475 --> 00:11:53.140
还有我们所说的话。

00:11:53.140 --> 00:11:54.315
谢谢。

00:11:54.315 --> 00:11:59.888
（掌声）