WEBVTT 00:00:00.106 --> 00:00:03.887 ♪[音乐]♪ 00:00:04.367 --> 00:00:07.367 课后辅导时间: 博弈论 00:00:08.213 --> 00:00:10.402 - [Mary Clare] 今天 我们将通过一个简单的例子 00:00:10.402 --> 00:00:13.108 进一步理解博弈论 00:00:13.108 --> 00:00:16.289 Bob 和 Al 是互为对手的 著名的魔术师 00:00:16.289 --> 00:00:19.215 他们研究出了一种 颇受欢迎的新戏法 00:00:19.215 --> 00:00:21.366 为了利益最大化 00:00:21.366 --> 00:00:23.514 他们同意限制表演场数 00:00:23.519 --> 00:00:26.485 如果一周内 他们两个都只表演一场 00:00:26.485 --> 00:00:29.684 他俩都将得到 1万美元的出场费 00:00:29.684 --> 00:00:32.135 然而,如果有一个 魔术师违约 00:00:32.135 --> 00:00:33.876 每周演出5次 00:00:33.876 --> 00:00:36.753 而另一个照旧演出1次的话 00:00:36.753 --> 00:00:40.289 那个作弊者将赚到15000块 00:00:40.289 --> 00:00:43.828 而另一个魔术师 将只能赚到1000块 00:00:43.867 --> 00:00:46.119 如果两个魔术师都违反契约 00:00:46.119 --> 00:00:47.582 各演5场 00:00:47.582 --> 00:00:50.582 那么将各赚6000块 00:00:50.582 --> 00:00:52.929 那么,他们各自演出场数的 00:00:52.929 --> 00:00:54.800 纳什均衡是怎样的呢? 00:00:54.800 --> 00:00:56.486 纳什均衡是说 00:00:56.486 --> 00:00:59.899 除非别人改变了 他们的行为或策略 00:00:59.899 --> 00:01:04.351 否则无一参与者 有理由改变自己的行为或策略 00:01:04.485 --> 00:01:06.174 为了找到 Bob 和 Al 00:01:06.174 --> 00:01:08.243 演出场数的纳什均衡点 00:01:08.243 --> 00:01:12.007 我们必须在 Al 的行为基础上 先分析一下 Bob 的行为 00:01:12.007 --> 00:01:13.436 反之亦然 00:01:13.595 --> 00:01:15.265 我们画一个2乘2的矩阵 00:01:15.265 --> 00:01:17.861 解释起来会比较容易 00:01:17.861 --> 00:01:20.513 两个人各自有两个选项 00:01:20.878 --> 00:01:22.577 在矩阵的每个格子中 00:01:22.577 --> 00:01:26.129 我们列出了不同状态下 他们各自的收益 00:01:26.446 --> 00:01:29.741 我们先来解释 Bob 的 再来解释 Al 的 00:01:30.246 --> 00:01:32.785 基于 Al 的行为 我们先来看看 00:01:32.785 --> 00:01:34.414 Bob 的最佳策略 00:01:34.634 --> 00:01:37.965 Al 要么遵守诺言 每周表演1次 00:01:37.965 --> 00:01:41.116 要么她违背诺言 进行5场演出 00:01:41.825 --> 00:01:44.336 如果她合作,只演1场 00:01:44.336 --> 00:01:46.096 那么 Bob 的最佳策略是什么呢? 00:01:46.488 --> 00:01:49.026 请注意,我们只从 Bob的角度看 00:01:49.026 --> 00:01:51.266 那么他最好的选择是作弊 00:01:51.266 --> 00:01:53.015 一周演出5场 00:01:53.015 --> 00:01:54.806 赚取15000 00:01:54.806 --> 00:01:58.346 而不是演1场,赚10000 00:01:58.647 --> 00:02:03.645 现在,如果 Al 背信弃义 表演5场又会怎样呢? 00:02:04.127 --> 00:02:07.456 Bob 的最佳策略依旧是 每周演出5场 00:02:07.456 --> 00:02:09.103 赚取6000 00:02:09.103 --> 00:02:12.819 而不是每周演出1次,只赚1000 00:02:13.533 --> 00:02:20.277 不管 Al 怎么做 Bob 的最佳策略都是欺骗——表演5场 00:02:20.277 --> 00:02:22.892 那么作弊便成了他的优势策略 00:02:23.553 --> 00:02:26.374 现在,我们从 Al 的角度再来看看 00:02:26.374 --> 00:02:28.421 我敢打赌 你们已经知道结果会是怎样 00:02:28.421 --> 00:02:32.048 如果 Bob 遵守诺言 每周只演出1场 00:02:32.048 --> 00:02:35.961 那么 Al 最好的选择 是进行5场演出 00:02:36.243 --> 00:02:39.317 与其赚10000 她会赚到15000 00:02:39.558 --> 00:02:41.766 如果 Bob 失信 00:02:41.766 --> 00:02:43.458 演出5场 00:02:43.458 --> 00:02:47.176 Al 的最佳选择也是作弊 进行5场演出 00:02:47.176 --> 00:02:50.459 因为她会赚6000 而不是1000 00:02:50.898 --> 00:02:54.616 鉴于 Al 的最佳策略 是每周演出5场 00:02:54.616 --> 00:02:57.188 无论 Bob 怎么做 00:02:57.188 --> 00:03:00.497 这也成了她的优势策略 00:03:00.965 --> 00:03:03.607 所以,如果 Bob 的优势策略 也是作弊 00:03:03.607 --> 00:03:06.537 那么在这个游戏中的纳什均衡点 00:03:06.537 --> 00:03:08.818 就是他俩都失信 00:03:09.183 --> 00:03:12.456 在一周内都表演5场 各自赚取6000 00:03:12.838 --> 00:03:15.525 请注意,这可不是一个最佳方案 00:03:15.927 --> 00:03:18.047 如果每人每周只进行一场演出 00:03:18.047 --> 00:03:19.842 那则会好很多 00:03:19.842 --> 00:03:21.389 他们会赚到更多的钱 00:03:21.389 --> 00:03:23.790 而且有一大堆闲暇时间 00:03:24.099 --> 00:03:26.489 但是,如果我们只是评估 00:03:26.489 --> 00:03:28.839 矩阵中列出的收益情况 00:03:28.839 --> 00:03:33.450 Bob 和 Al 为了获得最大利益 则会一起作弊 00:03:33.450 --> 00:03:35.236 这就是纳什均衡 00:03:35.500 --> 00:03:38.726 当然,矩阵之外是 一个真实的世界 00:03:38.726 --> 00:03:41.433 情况要错综复杂得多 00:03:41.433 --> 00:03:43.279 人们注重信守诺言 00:03:43.279 --> 00:03:44.648 长远地考虑问题 00:03:44.648 --> 00:03:46.598 而不只是短视 00:03:46.840 --> 00:03:48.590 把这个例子作为 00:03:48.590 --> 00:03:50.860 简单而有力的出发点 00:03:50.860 --> 00:03:53.378 从而更好地理解 人类如何做出决策 00:03:53.578 --> 00:03:55.713 一如既往 请告诉我们你的想法 00:03:55.713 --> 00:03:57.309 想练习更多的习题 00:03:57.309 --> 00:03:58.879 在这个视频的结尾处 00:03:58.879 --> 00:04:00.900 有更多挑战性问题等着你呢! 00:04:00.900 --> 00:04:03.359 ♪ [音乐] ♪