0:00:00.106,0:00:03.887 ♪[音乐]♪ 0:00:04.367,0:00:07.367 课后辅导时间:[br]博弈论 0:00:08.213,0:00:10.402 - [Mary Clare] 今天[br]我们将通过一个简单的例子 0:00:10.402,0:00:13.108 进一步理解博弈论 0:00:13.108,0:00:16.289 Bob 和 Al 是互为对手的[br]著名的魔术师 0:00:16.289,0:00:19.215 他们研究出了一种[br]颇受欢迎的新戏法 0:00:19.215,0:00:21.366 为了利益最大化 0:00:21.366,0:00:23.514 他们同意限制表演场数 0:00:23.519,0:00:26.485 如果一周内[br]他们两个都只表演一场 0:00:26.485,0:00:29.684 他俩都将得到[br]1万美元的出场费 0:00:29.684,0:00:32.135 然而,如果有一个[br]魔术师违约 0:00:32.135,0:00:33.876 每周演出5次 0:00:33.876,0:00:36.753 而另一个照旧演出1次的话 0:00:36.753,0:00:40.289 那个作弊者将赚到15000块 0:00:40.289,0:00:43.828 而另一个魔术师[br]将只能赚到1000块 0:00:43.867,0:00:46.119 如果两个魔术师都违反契约 0:00:46.119,0:00:47.582 各演5场 0:00:47.582,0:00:50.582 那么将各赚6000块 0:00:50.582,0:00:52.929 那么,他们各自演出场数的 0:00:52.929,0:00:54.800 纳什均衡是怎样的呢? 0:00:54.800,0:00:56.486 纳什均衡是说 0:00:56.486,0:00:59.899 除非别人改变了[br]他们的行为或策略 0:00:59.899,0:01:04.351 否则无一参与者[br]有理由改变自己的行为或策略 0:01:04.485,0:01:06.174 为了找到 Bob 和 Al 0:01:06.174,0:01:08.243 演出场数的纳什均衡点 0:01:08.243,0:01:12.007 我们必须在 Al 的行为基础上[br]先分析一下 Bob 的行为 0:01:12.007,0:01:13.436 反之亦然 0:01:13.595,0:01:15.265 我们画一个2乘2的矩阵 0:01:15.265,0:01:17.861 解释起来会比较容易 0:01:17.861,0:01:20.513 两个人各自有两个选项 0:01:20.878,0:01:22.577 在矩阵的每个格子中[br] 0:01:22.577,0:01:26.129 我们列出了不同状态下[br]他们各自的收益 0:01:26.446,0:01:29.741 我们先来解释 Bob 的[br]再来解释 Al 的 0:01:30.246,0:01:32.785 基于 Al 的行为[br]我们先来看看 0:01:32.785,0:01:34.414 Bob 的最佳策略 0:01:34.634,0:01:37.965 Al 要么遵守诺言[br]每周表演1次 0:01:37.965,0:01:41.116 要么她违背诺言[br]进行5场演出 0:01:41.825,0:01:44.336 如果她合作,只演1场 0:01:44.336,0:01:46.096 那么 Bob 的最佳策略是什么呢? 0:01:46.488,0:01:49.026 请注意,我们只从[br]Bob的角度看 0:01:49.026,0:01:51.266 那么他最好的选择是作弊 0:01:51.266,0:01:53.015 一周演出5场 0:01:53.015,0:01:54.806 赚取15000 0:01:54.806,0:01:58.346 而不是演1场,赚10000 0:01:58.647,0:02:03.645 现在,如果 Al 背信弃义[br]表演5场又会怎样呢? 0:02:04.127,0:02:07.456 Bob 的最佳策略依旧是[br]每周演出5场 0:02:07.456,0:02:09.103 赚取6000 0:02:09.103,0:02:12.819 而不是每周演出1次,只赚1000 0:02:13.533,0:02:20.277 不管 Al 怎么做[br]Bob 的最佳策略都是欺骗——表演5场 0:02:20.277,0:02:22.892 那么作弊便成了他的优势策略 0:02:23.553,0:02:26.374 现在,我们从 Al 的角度再来看看 0:02:26.374,0:02:28.421 我敢打赌[br]你们已经知道结果会是怎样 0:02:28.421,0:02:32.048 如果 Bob 遵守诺言[br]每周只演出1场 0:02:32.048,0:02:35.961 那么 Al 最好的选择[br]是进行5场演出 0:02:36.243,0:02:39.317 与其赚10000[br]她会赚到15000 0:02:39.558,0:02:41.766 如果 Bob 失信 0:02:41.766,0:02:43.458 演出5场 0:02:43.458,0:02:47.176 Al 的最佳选择也是作弊[br]进行5场演出 0:02:47.176,0:02:50.459 因为她会赚6000[br]而不是1000 0:02:50.898,0:02:54.616 鉴于 Al 的最佳策略[br]是每周演出5场 0:02:54.616,0:02:57.188 无论 Bob 怎么做 0:02:57.188,0:03:00.497 这也成了她的优势策略 0:03:00.965,0:03:03.607 所以,如果 Bob 的优势策略[br]也是作弊 0:03:03.607,0:03:06.537 那么在这个游戏中的纳什均衡点[br] 0:03:06.537,0:03:08.818 就是他俩都失信 0:03:09.183,0:03:12.456 在一周内都表演5场[br]各自赚取6000 0:03:12.838,0:03:15.525 请注意,这可不是一个最佳方案 0:03:15.927,0:03:18.047 如果每人每周只进行一场演出 0:03:18.047,0:03:19.842 那则会好很多 0:03:19.842,0:03:21.389 他们会赚到更多的钱 0:03:21.389,0:03:23.790 而且有一大堆闲暇时间 0:03:24.099,0:03:26.489 但是,如果我们只是评估 0:03:26.489,0:03:28.839 矩阵中列出的收益情况 0:03:28.839,0:03:33.450 Bob 和 Al 为了获得最大利益[br]则会一起作弊 0:03:33.450,0:03:35.236 这就是纳什均衡 0:03:35.500,0:03:38.726 当然,矩阵之外是[br]一个真实的世界 0:03:38.726,0:03:41.433 情况要错综复杂得多 0:03:41.433,0:03:43.279 人们注重信守诺言 0:03:43.279,0:03:44.648 长远地考虑问题 0:03:44.648,0:03:46.598 而不只是短视 0:03:46.840,0:03:48.590 把这个例子作为 0:03:48.590,0:03:50.860 简单而有力的出发点 0:03:50.860,0:03:53.378 从而更好地理解[br]人类如何做出决策 0:03:53.578,0:03:55.713 一如既往[br]请告诉我们你的想法 0:03:55.713,0:03:57.309 想练习更多的习题 0:03:57.309,0:03:58.879 在这个视频的结尾处 0:03:58.879,0:04:00.900 有更多挑战性问题等着你呢! 0:04:00.900,0:04:03.359 ♪ [音乐] ♪