0:00:00.040,0:00:02.340 这一节及后面几节 0:00:02.340,0:00:07.270 我们将对如下数据进行一些处理 0:00:07.310,0:00:09.530 但愿通过这些计算 0:00:09.530,0:00:14.350 你们能直观理解方差分析的概念 0:00:14.390,0:00:19.740 这一节 我将计算总平方和 0:00:19.780,0:00:24.660 简记为SST 总平方和 0:00:24.680,0:00:28.440 你可以将其考虑为计算方差时的分子部分 0:00:28.460,0:00:31.050 也就是这些数据点离均值的距离的平方之和 0:00:31.050,0:00:35.240 也就是这些数据点离均值的距离的平方之和 0:00:35.260,0:00:37.230 不需要像计算样本方差那样除以自由度 0:00:37.230,0:00:40.560 不需要像计算样本方差那样除以自由度 0:00:40.580,0:00:43.240 怎么算呢 首先需要求出这些数值的均值 0:00:43.240,0:00:46.540 怎么算呢 首先需要求出这些数值的均值 0:00:46.550,0:00:50.750 我将其称为总平均值 0:00:50.770,0:00:53.030 它等于每个数据集的均值的均值 0:00:53.030,0:00:56.250 它等于每个数据集的均值的均值 0:00:56.250,0:00:59.000 算一下总平均值 0:00:59.000,0:01:16.010 这里有3+2+1+5+3+4+5+6+7 0:01:16.010,0:01:18.290 总共9个数据点 0:01:18.290,0:01:24.880 9个数据点 所有这里除以9 看看等于多少 0:01:24.880,0:01:34.680 3+2+1=6 然后5+3+4=12 0:01:34.700,0:01:43.640 5+6+7=18 然后6+12=18 再加18得36 0:01:43.660,0:01:46.260 除以9 等于4 0:01:46.280,0:01:50.020 下面证明这等于均值的均值 0:01:50.030,0:01:53.240 第一组 也就是绿色这组 均值为 0:01:53.240,0:01:57.000 第一组 也就是绿色这组 均值为 0:01:57.000,0:01:59.530 3+2+1 也就是6 0:01:59.530,0:02:03.080 除以数据点数目3 结果是2 0:02:03.080,0:02:12.060 再求第二组的均值 5+3+4也就是12 0:02:12.060,0:02:15.670 除以3 等于4 0:02:15.670,0:02:22.340 再求第三组的均值 5+6+7=18 0:02:22.360,0:02:27.020 除以3 得6 这些就是每组的均值 0:02:27.020,0:02:31.000 求总平均值的另一种方式就是 2+4+6 0:02:31.000,0:02:35.080 得到12 然后除以均值个数3 结果还是4 0:02:35.080,0:02:38.090 总均值可以看成所有数据点的均值 或每组均值的均值 0:02:38.090,0:02:41.540 总均值可以看成所有数据点的均值 或每组均值的均值 0:02:41.540,0:02:43.050 两种都行 0:02:43.050,0:02:48.080 下面我们来求总平方和 0:02:48.080,0:02:53.930 它等于 (3-4)2… 0:02:53.930,0:02:57.080 4也就是总均值 0:02:57.080,0:03:05.060 +(2-4)2+(1-4)2 第二组我用紫色 0:03:05.060,0:03:16.000 +(5-4)2+(3-4)2+(4-4)2 0:03:16.000,0:03:19.060 +(5-4)2+(3-4)2+(4-4)2 0:03:19.100,0:03:20.850 还剩3个 0:03:20.850,0:03:32.080 +(5-4)2+(6-4)2+(7-4)2 0:03:32.080,0:03:38.040 第一项(3-4)2=(-1)2=1 0:03:38.040,0:03:42.010 第一项(3-4)2=(-1)2=1 0:03:42.010,0:03:51.000 加(-2)2 也就是4 加(-3)2 也就是9 0:03:51.000,0:03:55.430 然后紫红色部分 5-4=1 平方还是1 0:03:55.430,0:03:59.120 (3-4)2=(-1)2=1 0:03:59.140,0:04:03.020 4-4=0 平方还是0 0:04:03.020,0:04:05.190 还是写一下 表示计算过 0:04:05.190,0:04:07.190 还有3个数据点 0:04:07.210,0:04:14.520 (5-4)2=1 (6-4)2=22=4 0:04:14.520,0:04:19.300 加上(7-4)2=32=9 0:04:19.300,0:04:25.050 算一下 1+4+9=5+9=14 0:04:25.060,0:04:34.930 算一下 1+4+9=5+9=14 0:04:34.950,0:04:39.060 这里还有一个1+4+9=14 0:04:39.060,0:04:41.960 这里也是14 0:04:41.960,0:04:43.940 然后中间是2 0:04:43.960,0:04:55.000 14+14+2=28+2=30 总平方和是30 0:04:55.000,0:04:59.590 如果要求方差 可以除以自由度 0:04:59.610,0:05:06.100 自由度我讲过很多次了 0:05:06.120,0:05:10.290 假设这里是m组 0:05:10.330,0:05:14.020 我不会去严格证明 但我会展示给你们 0:05:14.020,0:05:18.800 统计学中某些奇怪的公式来自何方 0:05:18.820,0:05:22.640 我不会去严格证明 我会给一些直观理解 0:05:22.640,0:05:25.060 这里总共是m组 0:05:25.060,0:05:31.890 每组n个成员 0:05:31.900,0:05:36.810 那么总成员个数也就是m?n=3×3=9 0:05:36.810,0:05:39.110 那么总成员个数也就是m?n=3×3=9 0:05:39.130,0:05:41.040 考虑下自由度 0:05:41.040,0:05:47.080 自由度是数据点个数减1 0:05:47.080,0:05:52.500 如果你知道总均值 0:05:52.520,0:05:59.030 那么就只有9-1 即8条新信息 0:05:59.030,0:06:02.870 因为最后一条信息可以通过总均值求出 0:06:02.870,0:06:06.810 知道任意8条信息 总可以利用总均值求出剩下的1条 0:06:06.810,0:06:13.530 知道任意8条信息 总可以利用总均值求出剩下的1条 0:06:13.550,0:06:17.720 也就是说 这里只有8个独立的成员 0:06:17.740,0:06:22.080 一般而言 自由度也就是m?n-1 0:06:22.080,0:06:33.600 一般而言 自由度也就是m?n-1 0:06:33.640,0:06:41.680 这里计算方差 也就是用30除以mn-1 0:06:41.720,0:06:47.660 这里也就是8个自由度 30/8 0:06:47.680,0:06:53.000 这就是9元素的所有这些数字的方差 0:06:53.000,0:06:54.650 这一节就到这里 0:06:54.650,0:06:58.050 下一节 我将讲到 这个总的波动程度 0:06:58.050,0:07:05.810 下一节 我将讲到 这个总的波动程度 0:07:05.810,0:07:09.910 有多少来自每个组内的波动程度 0:07:09.910,0:07:14.030 有多少来自组间的波动程度 0:07:14.030,0:07:17.610 也许你们已经看出这种方差分析来自哪里了 0:07:17.610,0:07:21.890 这里的方差来自9个样本值 0:07:21.890,0:07:24.080 如果这些组有所不同 0:07:24.080,0:07:28.190 部分波动可能来自不同组 0:07:28.190,0:07:31.240 部分波动可能来自各组内 0:07:31.240,0:07:34.050 下一节我将计算这些 0:07:34.050,0:07:37.370 它们加起来将得到总平方和 0:00:01.000,0:00:15.000 本字幕由网易公开课提供,更多课程请到http//open.163.com 0:00:17.070,0:00:25.070 网易公开课官方微博 http://t.163.com/163open 0:00:30.070,0:00:45.070 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org