1 00:00:00,040 --> 00:00:02,340 这一节及后面几节 2 00:00:02,340 --> 00:00:07,270 我们将对如下数据进行一些处理 3 00:00:07,310 --> 00:00:09,530 但愿通过这些计算 4 00:00:09,530 --> 00:00:14,350 你们能直观理解方差分析的概念 5 00:00:14,390 --> 00:00:19,740 这一节 我将计算总平方和 6 00:00:19,780 --> 00:00:24,660 简记为SST 总平方和 7 00:00:24,680 --> 00:00:28,440 你可以将其考虑为计算方差时的分子部分 8 00:00:28,460 --> 00:00:31,050 也就是这些数据点离均值的距离的平方之和 9 00:00:31,050 --> 00:00:35,240 也就是这些数据点离均值的距离的平方之和 10 00:00:35,260 --> 00:00:37,230 不需要像计算样本方差那样除以自由度 11 00:00:37,230 --> 00:00:40,560 不需要像计算样本方差那样除以自由度 12 00:00:40,580 --> 00:00:43,240 怎么算呢 首先需要求出这些数值的均值 13 00:00:43,240 --> 00:00:46,540 怎么算呢 首先需要求出这些数值的均值 14 00:00:46,550 --> 00:00:50,750 我将其称为总平均值 15 00:00:50,770 --> 00:00:53,030 它等于每个数据集的均值的均值 16 00:00:53,030 --> 00:00:56,250 它等于每个数据集的均值的均值 17 00:00:56,250 --> 00:00:59,000 算一下总平均值 18 00:00:59,000 --> 00:01:16,010 这里有3+2+1+5+3+4+5+6+7 19 00:01:16,010 --> 00:01:18,290 总共9个数据点 20 00:01:18,290 --> 00:01:24,880 9个数据点 所有这里除以9 看看等于多少 21 00:01:24,880 --> 00:01:34,680 3+2+1=6 然后5+3+4=12 22 00:01:34,700 --> 00:01:43,640 5+6+7=18 然后6+12=18 再加18得36 23 00:01:43,660 --> 00:01:46,260 除以9 等于4 24 00:01:46,280 --> 00:01:50,020 下面证明这等于均值的均值 25 00:01:50,030 --> 00:01:53,240 第一组 也就是绿色这组 均值为 26 00:01:53,240 --> 00:01:57,000 第一组 也就是绿色这组 均值为 27 00:01:57,000 --> 00:01:59,530 3+2+1 也就是6 28 00:01:59,530 --> 00:02:03,080 除以数据点数目3 结果是2 29 00:02:03,080 --> 00:02:12,060 再求第二组的均值 5+3+4也就是12 30 00:02:12,060 --> 00:02:15,670 除以3 等于4 31 00:02:15,670 --> 00:02:22,340 再求第三组的均值 5+6+7=18 32 00:02:22,360 --> 00:02:27,020 除以3 得6 这些就是每组的均值 33 00:02:27,020 --> 00:02:31,000 求总平均值的另一种方式就是 2+4+6 34 00:02:31,000 --> 00:02:35,080 得到12 然后除以均值个数3 结果还是4 35 00:02:35,080 --> 00:02:38,090 总均值可以看成所有数据点的均值 或每组均值的均值 36 00:02:38,090 --> 00:02:41,540 总均值可以看成所有数据点的均值 或每组均值的均值 37 00:02:41,540 --> 00:02:43,050 两种都行 38 00:02:43,050 --> 00:02:48,080 下面我们来求总平方和 39 00:02:48,080 --> 00:02:53,930 它等于 (3-4)2… 40 00:02:53,930 --> 00:02:57,080 4也就是总均值 41 00:02:57,080 --> 00:03:05,060 +(2-4)2+(1-4)2 第二组我用紫色 42 00:03:05,060 --> 00:03:16,000 +(5-4)2+(3-4)2+(4-4)2 43 00:03:16,000 --> 00:03:19,060 +(5-4)2+(3-4)2+(4-4)2 44 00:03:19,100 --> 00:03:20,850 还剩3个 45 00:03:20,850 --> 00:03:32,080 +(5-4)2+(6-4)2+(7-4)2 46 00:03:32,080 --> 00:03:38,040 第一项(3-4)2=(-1)2=1 47 00:03:38,040 --> 00:03:42,010 第一项(3-4)2=(-1)2=1 48 00:03:42,010 --> 00:03:51,000 加(-2)2 也就是4 加(-3)2 也就是9 49 00:03:51,000 --> 00:03:55,430 然后紫红色部分 5-4=1 平方还是1 50 00:03:55,430 --> 00:03:59,120 (3-4)2=(-1)2=1 51 00:03:59,140 --> 00:04:03,020 4-4=0 平方还是0 52 00:04:03,020 --> 00:04:05,190 还是写一下 表示计算过 53 00:04:05,190 --> 00:04:07,190 还有3个数据点 54 00:04:07,210 --> 00:04:14,520 (5-4)2=1 (6-4)2=22=4 55 00:04:14,520 --> 00:04:19,300 加上(7-4)2=32=9 56 00:04:19,300 --> 00:04:25,050 算一下 1+4+9=5+9=14 57 00:04:25,060 --> 00:04:34,930 算一下 1+4+9=5+9=14 58 00:04:34,950 --> 00:04:39,060 这里还有一个1+4+9=14 59 00:04:39,060 --> 00:04:41,960 这里也是14 60 00:04:41,960 --> 00:04:43,940 然后中间是2 61 00:04:43,960 --> 00:04:55,000 14+14+2=28+2=30 总平方和是30 62 00:04:55,000 --> 00:04:59,590 如果要求方差 可以除以自由度 63 00:04:59,610 --> 00:05:06,100 自由度我讲过很多次了 64 00:05:06,120 --> 00:05:10,290 假设这里是m组 65 00:05:10,330 --> 00:05:14,020 我不会去严格证明 但我会展示给你们 66 00:05:14,020 --> 00:05:18,800 统计学中某些奇怪的公式来自何方 67 00:05:18,820 --> 00:05:22,640 我不会去严格证明 我会给一些直观理解 68 00:05:22,640 --> 00:05:25,060 这里总共是m组 69 00:05:25,060 --> 00:05:31,890 每组n个成员 70 00:05:31,900 --> 00:05:36,810 那么总成员个数也就是m?n=3×3=9 71 00:05:36,810 --> 00:05:39,110 那么总成员个数也就是m?n=3×3=9 72 00:05:39,130 --> 00:05:41,040 考虑下自由度 73 00:05:41,040 --> 00:05:47,080 自由度是数据点个数减1 74 00:05:47,080 --> 00:05:52,500 如果你知道总均值 75 00:05:52,520 --> 00:05:59,030 那么就只有9-1 即8条新信息 76 00:05:59,030 --> 00:06:02,870 因为最后一条信息可以通过总均值求出 77 00:06:02,870 --> 00:06:06,810 知道任意8条信息 总可以利用总均值求出剩下的1条 78 00:06:06,810 --> 00:06:13,530 知道任意8条信息 总可以利用总均值求出剩下的1条 79 00:06:13,550 --> 00:06:17,720 也就是说 这里只有8个独立的成员 80 00:06:17,740 --> 00:06:22,080 一般而言 自由度也就是m?n-1 81 00:06:22,080 --> 00:06:33,600 一般而言 自由度也就是m?n-1 82 00:06:33,640 --> 00:06:41,680 这里计算方差 也就是用30除以mn-1 83 00:06:41,720 --> 00:06:47,660 这里也就是8个自由度 30/8 84 00:06:47,680 --> 00:06:53,000 这就是9元素的所有这些数字的方差 85 00:06:53,000 --> 00:06:54,650 这一节就到这里 86 00:06:54,650 --> 00:06:58,050 下一节 我将讲到 这个总的波动程度 87 00:06:58,050 --> 00:07:05,810 下一节 我将讲到 这个总的波动程度 88 00:07:05,810 --> 00:07:09,910 有多少来自每个组内的波动程度 89 00:07:09,910 --> 00:07:14,030 有多少来自组间的波动程度 90 00:07:14,030 --> 00:07:17,610 也许你们已经看出这种方差分析来自哪里了 91 00:07:17,610 --> 00:07:21,890 这里的方差来自9个样本值 92 00:07:21,890 --> 00:07:24,080 如果这些组有所不同 93 00:07:24,080 --> 00:07:28,190 部分波动可能来自不同组 94 00:07:28,190 --> 00:07:31,240 部分波动可能来自各组内 95 00:07:31,240 --> 00:07:34,050 下一节我将计算这些 96 00:07:34,050 --> 00:07:37,370 它们加起来将得到总平方和 97 00:00:01,000 --> 00:00:15,000 本字幕由网易公开课提供,更多课程请到http//open.163.com 98 00:00:17,070 --> 00:00:25,070 网易公开课官方微博 http://t.163.com/163open 99 00:00:30,070 --> 00:00:45,070 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org