[Script Info] Title: [Events] Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text Dialogue: 0,0:00:00.04,0:00:02.34,Default,,0000,0000,0000,,这一节及后面几节 Dialogue: 0,0:00:02.34,0:00:07.27,Default,,0000,0000,0000,,我们将对如下数据进行一些处理 Dialogue: 0,0:00:07.31,0:00:09.53,Default,,0000,0000,0000,,但愿通过这些计算 Dialogue: 0,0:00:09.53,0:00:14.35,Default,,0000,0000,0000,,你们能直观理解方差分析的概念 Dialogue: 0,0:00:14.39,0:00:19.74,Default,,0000,0000,0000,,这一节 我将计算总平方和 Dialogue: 0,0:00:19.78,0:00:24.66,Default,,0000,0000,0000,,简记为SST 总平方和 Dialogue: 0,0:00:24.68,0:00:28.44,Default,,0000,0000,0000,,你可以将其考虑为计算方差时的分子部分 Dialogue: 0,0:00:28.46,0:00:31.05,Default,,0000,0000,0000,,也就是这些数据点离均值的距离的平方之和 Dialogue: 0,0:00:31.05,0:00:35.24,Default,,0000,0000,0000,,也就是这些数据点离均值的距离的平方之和 Dialogue: 0,0:00:35.26,0:00:37.23,Default,,0000,0000,0000,,不需要像计算样本方差那样除以自由度 Dialogue: 0,0:00:37.23,0:00:40.56,Default,,0000,0000,0000,,不需要像计算样本方差那样除以自由度 Dialogue: 0,0:00:40.58,0:00:43.24,Default,,0000,0000,0000,,怎么算呢 首先需要求出这些数值的均值 Dialogue: 0,0:00:43.24,0:00:46.54,Default,,0000,0000,0000,,怎么算呢 首先需要求出这些数值的均值 Dialogue: 0,0:00:46.55,0:00:50.75,Default,,0000,0000,0000,,我将其称为总平均值 Dialogue: 0,0:00:50.77,0:00:53.03,Default,,0000,0000,0000,,它等于每个数据集的均值的均值 Dialogue: 0,0:00:53.03,0:00:56.25,Default,,0000,0000,0000,,它等于每个数据集的均值的均值 Dialogue: 0,0:00:56.25,0:00:59.00,Default,,0000,0000,0000,,算一下总平均值 Dialogue: 0,0:00:59.00,0:01:16.01,Default,,0000,0000,0000,,这里有3+2+1+5+3+4+5+6+7 Dialogue: 0,0:01:16.01,0:01:18.29,Default,,0000,0000,0000,,总共9个数据点 Dialogue: 0,0:01:18.29,0:01:24.88,Default,,0000,0000,0000,,9个数据点 所有这里除以9 看看等于多少 Dialogue: 0,0:01:24.88,0:01:34.68,Default,,0000,0000,0000,,3+2+1=6 然后5+3+4=12 Dialogue: 0,0:01:34.70,0:01:43.64,Default,,0000,0000,0000,,5+6+7=18 然后6+12=18 再加18得36 Dialogue: 0,0:01:43.66,0:01:46.26,Default,,0000,0000,0000,,除以9 等于4 Dialogue: 0,0:01:46.28,0:01:50.02,Default,,0000,0000,0000,,下面证明这等于均值的均值 Dialogue: 0,0:01:50.03,0:01:53.24,Default,,0000,0000,0000,,第一组 也就是绿色这组 均值为 Dialogue: 0,0:01:53.24,0:01:57.00,Default,,0000,0000,0000,,第一组 也就是绿色这组 均值为 Dialogue: 0,0:01:57.00,0:01:59.53,Default,,0000,0000,0000,,3+2+1 也就是6 Dialogue: 0,0:01:59.53,0:02:03.08,Default,,0000,0000,0000,,除以数据点数目3 结果是2 Dialogue: 0,0:02:03.08,0:02:12.06,Default,,0000,0000,0000,,再求第二组的均值 5+3+4也就是12 Dialogue: 0,0:02:12.06,0:02:15.67,Default,,0000,0000,0000,,除以3 等于4 Dialogue: 0,0:02:15.67,0:02:22.34,Default,,0000,0000,0000,,再求第三组的均值 5+6+7=18 Dialogue: 0,0:02:22.36,0:02:27.02,Default,,0000,0000,0000,,除以3 得6 这些就是每组的均值 Dialogue: 0,0:02:27.02,0:02:31.00,Default,,0000,0000,0000,,求总平均值的另一种方式就是 2+4+6 Dialogue: 0,0:02:31.00,0:02:35.08,Default,,0000,0000,0000,,得到12 然后除以均值个数3 结果还是4 Dialogue: 0,0:02:35.08,0:02:38.09,Default,,0000,0000,0000,,总均值可以看成所有数据点的均值 或每组均值的均值 Dialogue: 0,0:02:38.09,0:02:41.54,Default,,0000,0000,0000,,总均值可以看成所有数据点的均值 或每组均值的均值 Dialogue: 0,0:02:41.54,0:02:43.05,Default,,0000,0000,0000,,两种都行 Dialogue: 0,0:02:43.05,0:02:48.08,Default,,0000,0000,0000,,下面我们来求总平方和 Dialogue: 0,0:02:48.08,0:02:53.93,Default,,0000,0000,0000,,它等于 (3-4)2… Dialogue: 0,0:02:53.93,0:02:57.08,Default,,0000,0000,0000,,4也就是总均值 Dialogue: 0,0:02:57.08,0:03:05.06,Default,,0000,0000,0000,,+(2-4)2+(1-4)2 第二组我用紫色 Dialogue: 0,0:03:05.06,0:03:16.00,Default,,0000,0000,0000,,+(5-4)2+(3-4)2+(4-4)2 Dialogue: 0,0:03:16.00,0:03:19.06,Default,,0000,0000,0000,,+(5-4)2+(3-4)2+(4-4)2 Dialogue: 0,0:03:19.10,0:03:20.85,Default,,0000,0000,0000,,还剩3个 Dialogue: 0,0:03:20.85,0:03:32.08,Default,,0000,0000,0000,,+(5-4)2+(6-4)2+(7-4)2 Dialogue: 0,0:03:32.08,0:03:38.04,Default,,0000,0000,0000,,第一项(3-4)2=(-1)2=1 Dialogue: 0,0:03:38.04,0:03:42.01,Default,,0000,0000,0000,,第一项(3-4)2=(-1)2=1 Dialogue: 0,0:03:42.01,0:03:51.00,Default,,0000,0000,0000,,加(-2)2 也就是4 加(-3)2 也就是9 Dialogue: 0,0:03:51.00,0:03:55.43,Default,,0000,0000,0000,,然后紫红色部分 5-4=1 平方还是1 Dialogue: 0,0:03:55.43,0:03:59.12,Default,,0000,0000,0000,,(3-4)2=(-1)2=1 Dialogue: 0,0:03:59.14,0:04:03.02,Default,,0000,0000,0000,,4-4=0 平方还是0 Dialogue: 0,0:04:03.02,0:04:05.19,Default,,0000,0000,0000,,还是写一下 表示计算过 Dialogue: 0,0:04:05.19,0:04:07.19,Default,,0000,0000,0000,,还有3个数据点 Dialogue: 0,0:04:07.21,0:04:14.52,Default,,0000,0000,0000,,(5-4)2=1 (6-4)2=22=4 Dialogue: 0,0:04:14.52,0:04:19.30,Default,,0000,0000,0000,,加上(7-4)2=32=9 Dialogue: 0,0:04:19.30,0:04:25.05,Default,,0000,0000,0000,,算一下 1+4+9=5+9=14 Dialogue: 0,0:04:25.06,0:04:34.93,Default,,0000,0000,0000,,算一下 1+4+9=5+9=14 Dialogue: 0,0:04:34.95,0:04:39.06,Default,,0000,0000,0000,,这里还有一个1+4+9=14 Dialogue: 0,0:04:39.06,0:04:41.96,Default,,0000,0000,0000,,这里也是14 Dialogue: 0,0:04:41.96,0:04:43.94,Default,,0000,0000,0000,,然后中间是2 Dialogue: 0,0:04:43.96,0:04:55.00,Default,,0000,0000,0000,,14+14+2=28+2=30 总平方和是30 Dialogue: 0,0:04:55.00,0:04:59.59,Default,,0000,0000,0000,,如果要求方差 可以除以自由度 Dialogue: 0,0:04:59.61,0:05:06.10,Default,,0000,0000,0000,,自由度我讲过很多次了 Dialogue: 0,0:05:06.12,0:05:10.29,Default,,0000,0000,0000,,假设这里是m组 Dialogue: 0,0:05:10.33,0:05:14.02,Default,,0000,0000,0000,,我不会去严格证明 但我会展示给你们 Dialogue: 0,0:05:14.02,0:05:18.80,Default,,0000,0000,0000,,统计学中某些奇怪的公式来自何方 Dialogue: 0,0:05:18.82,0:05:22.64,Default,,0000,0000,0000,,我不会去严格证明 我会给一些直观理解 Dialogue: 0,0:05:22.64,0:05:25.06,Default,,0000,0000,0000,,这里总共是m组 Dialogue: 0,0:05:25.06,0:05:31.89,Default,,0000,0000,0000,,每组n个成员 Dialogue: 0,0:05:31.90,0:05:36.81,Default,,0000,0000,0000,,那么总成员个数也就是m?n=3×3=9 Dialogue: 0,0:05:36.81,0:05:39.11,Default,,0000,0000,0000,,那么总成员个数也就是m?n=3×3=9 Dialogue: 0,0:05:39.13,0:05:41.04,Default,,0000,0000,0000,,考虑下自由度 Dialogue: 0,0:05:41.04,0:05:47.08,Default,,0000,0000,0000,,自由度是数据点个数减1 Dialogue: 0,0:05:47.08,0:05:52.50,Default,,0000,0000,0000,,如果你知道总均值 Dialogue: 0,0:05:52.52,0:05:59.03,Default,,0000,0000,0000,,那么就只有9-1 即8条新信息 Dialogue: 0,0:05:59.03,0:06:02.87,Default,,0000,0000,0000,,因为最后一条信息可以通过总均值求出 Dialogue: 0,0:06:02.87,0:06:06.81,Default,,0000,0000,0000,,知道任意8条信息 总可以利用总均值求出剩下的1条 Dialogue: 0,0:06:06.81,0:06:13.53,Default,,0000,0000,0000,,知道任意8条信息 总可以利用总均值求出剩下的1条 Dialogue: 0,0:06:13.55,0:06:17.72,Default,,0000,0000,0000,,也就是说 这里只有8个独立的成员 Dialogue: 0,0:06:17.74,0:06:22.08,Default,,0000,0000,0000,,一般而言 自由度也就是m?n-1 Dialogue: 0,0:06:22.08,0:06:33.60,Default,,0000,0000,0000,,一般而言 自由度也就是m?n-1 Dialogue: 0,0:06:33.64,0:06:41.68,Default,,0000,0000,0000,,这里计算方差 也就是用30除以mn-1 Dialogue: 0,0:06:41.72,0:06:47.66,Default,,0000,0000,0000,,这里也就是8个自由度 30/8 Dialogue: 0,0:06:47.68,0:06:53.00,Default,,0000,0000,0000,,这就是9元素的所有这些数字的方差 Dialogue: 0,0:06:53.00,0:06:54.65,Default,,0000,0000,0000,,这一节就到这里 Dialogue: 0,0:06:54.65,0:06:58.05,Default,,0000,0000,0000,,下一节 我将讲到 这个总的波动程度 Dialogue: 0,0:06:58.05,0:07:05.81,Default,,0000,0000,0000,,下一节 我将讲到 这个总的波动程度 Dialogue: 0,0:07:05.81,0:07:09.91,Default,,0000,0000,0000,,有多少来自每个组内的波动程度 Dialogue: 0,0:07:09.91,0:07:14.03,Default,,0000,0000,0000,,有多少来自组间的波动程度 Dialogue: 0,0:07:14.03,0:07:17.61,Default,,0000,0000,0000,,也许你们已经看出这种方差分析来自哪里了 Dialogue: 0,0:07:17.61,0:07:21.89,Default,,0000,0000,0000,,这里的方差来自9个样本值 Dialogue: 0,0:07:21.89,0:07:24.08,Default,,0000,0000,0000,,如果这些组有所不同 Dialogue: 0,0:07:24.08,0:07:28.19,Default,,0000,0000,0000,,部分波动可能来自不同组 Dialogue: 0,0:07:28.19,0:07:31.24,Default,,0000,0000,0000,,部分波动可能来自各组内 Dialogue: 0,0:07:31.24,0:07:34.05,Default,,0000,0000,0000,,下一节我将计算这些 Dialogue: 0,0:07:34.05,0:07:37.37,Default,,0000,0000,0000,,它们加起来将得到总平方和 Dialogue: 0,0:00:01.00,0:00:15.00,Default,,0000,0000,0000,,本字幕由网易公开课提供,更多课程请到http//open.163.com Dialogue: 0,0:00:17.07,0:00:25.07,Default,,0000,0000,0000,,网易公开课官方微博 http://t.163.com/163open Dialogue: 0,0:00:30.07,0:00:45.07,Default,,0000,0000,0000,,oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org