ANOVA 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi
-
0:01 - 0:02上一节中
-
0:01 - 0:15本字幕由网易公开课提供,更多课程请到http//open.163.com
-
0:02 - 0:06我们计算了9个数据点的总平方和
-
0:06 - 0:109个数据点被分为了3组
-
0:10 - 0:13或者更一般地 分为m组
-
0:13 - 0:18这一节我想知道总平方和
-
0:17 - 0:25网易公开课官方微博 http://t.163.com/163open
-
0:18 - 0:22有多少是由于组内波动造成
-
0:22 - 0:26多少是由于组间波动造成
-
0:26 - 0:30首先 我要求的是组内总波动
-
0:30 - 0:36组内平方和
-
0:30 - 0:45oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
-
0:36 - 0:40黄色用过了 用蓝色吧
-
0:40 - 0:46组内平方和SSW
-
0:46 - 0:51其中W表示within(组内)
-
0:51 - 0:54我们希望求出 总波动中有多少
-
0:54 - 0:58是因为各组内数据点同各自均值之间的差异造成
-
0:58 - 1:00是因为各组内数据点同各自均值之间的差异造成
-
1:00 - 1:02从这里开始
-
1:02 - 1:07我这里不是要求每个点同总均值的距离
-
1:07 - 1:12而是求每点同各自组均值之间的距离
-
1:12 - 1:17这里要求各点同各自组均值的距离平方之和
-
1:17 - 1:21这里要求各点同各自组均值的距离平方之和
-
1:21 - 1:263减去该组均值2 平方
-
1:26 - 1:31加(2-2)2
-
1:31 - 1:34加(1-2)2
-
1:35 - 1:37对每组都这样处理
-
1:37 - 1:40每组数据分别减去各自组的均值
-
1:40 - 1:57于是有+(5-4)2+(3-4)2+(4-4)2
-
1:57 - 2:00最后再看第三组
-
2:00 - 2:05用组中数字减去该组均值 平方 然后全部加起来
-
2:05 - 2:07用组中数字减去该组均值 平方 然后全部加起来
-
2:07 - 2:09于是第三组有
-
2:09 - 2:21+(5-6)2+(6-6)2+(7-6)2
-
2:21 - 2:22这等于多少呢
-
2:22 - 2:29最上面是1+0+1
-
2:30 - 2:32也就是2
-
2:32 - 2:40中间是1+1+0 所以又要加个2
-
2:40 - 2:51下面是1+0+1 还是加2
-
2:52 - 2:56组内平方和是6
-
2:57 - 3:01想想 总的波动是30
-
3:01 - 3:09其中有6来自组内的波动
-
3:09 - 3:11下面考虑一下
-
3:11 - 3:16计算中有多少自由度
-
3:16 - 3:19有多少个独立的数据点
-
3:20 - 3:28假设每一组有n个数据点
-
3:28 - 3:30这里n=3
-
3:31 - 3:38如果你知道n-1个值 而且知道样本均值 你总能求出第n个值
-
3:38 - 3:42在这里也就是说 如果知道2个数据点 总可以求出第3个
-
3:42 - 3:43在这里也就是说 如果知道2个数据点 总可以求出第3个
-
3:43 - 3:45比如知道这两点
-
3:45 - 3:47就能求出第三个点的值
-
3:47 - 3:50总的来说 每组n个数据 那么自由度就是n-1
-
3:50 - 3:57总的来说 每组n个数据 那么自由度就是n-1
-
3:57 - 4:04n表示组内数据的个数
-
4:04 - 4:09那么每组的自由度是n-1
-
4:09 - 4:12这里是n-1 n-1 n-1
-
4:12 - 4:19这样说吧 每一组是n-1个自由度
-
4:19 - 4:22然后有m组
-
4:22 - 4:29所以总共是m?(n-1)个自由度
-
4:29 - 4:33这个特定的题中 n-1=2
-
4:33 - 4:35每一组是2个自由度
-
4:35 - 4:46总共是3组 那就是6个自由度
-
4:46 - 4:51未来我们会从数学上就自由度进行更深入的讨论
-
4:51 - 4:54未来我们会从数学上就自由度进行更深入的讨论
-
4:54 - 4:58这样想最简单 它是真正独立的数据点个数
-
4:58 - 5:01假设我们知道计算平方距离的这些集中趋势统计量
-
5:01 - 5:05假设我们知道计算平方距离的这些集中趋势统计量
-
5:05 - 5:08第三个数据点可以通过其它两个求出来
-
5:08 - 5:10所以这里是6个自由度
-
5:11 - 5:18总波动中有这么多来自组内波动
-
5:18 - 5:24下面考虑一下有多少总波动来自于组间波动
-
5:25 - 5:29这就需要计算… 我换个好点的颜色
-
5:29 - 5:31这些颜色貌似都用过
-
5:31 - 5:41这里要计算的是组间平方和SSB B表示between(组间)
-
5:41 - 5:45也就是说 总波动中有多少
-
5:45 - 5:49是因为均值之间的波动
-
5:49 - 5:51这就是我们现在要计算的
-
5:51 - 5:56而SSW是每个点相对组均值的波动
-
5:57 - 6:01这里求多少波动来自于这些之间
-
6:02 - 6:07对于每个数据点而言…
-
6:07 - 6:09先考虑一下第一组吧
-
6:10 - 6:13第一组中 有多少波动是来自组均值相对总均值的波动
-
6:13 - 6:18第一组中 有多少波动是来自组均值相对总均值的波动
-
6:19 - 6:23我从第一个值的情况开始写一下
-
6:24 - 6:31波动也就是其所在组的均值2减去总均值 平方
-
6:31 - 6:33对于第二个值也一样
-
6:33 - 6:37它对应的均值减去总均值 平方
-
6:38 - 6:39第三个值也一样
-
6:39 - 6:42它对应的均值2减去总均值 平方
-
6:42 - 6:52总共是3个(2-4)2
-
6:52 - 7:03也就是3×4 即12
-
7:03 - 7:06对每一组都可以进行类似处理 我要求的是总和
-
7:06 - 7:09对每一组都可以进行类似处理 我要求的是总和
-
7:09 - 7:13我要求出总波动中 组间波动的贡献
-
7:13 - 7:18我要求出总波动中 组间波动的贡献
-
7:18 - 7:21刚才算的来自第一组 是第一组的贡献
-
7:21 - 7:23再看第二组
-
7:23 - 7:29计算这个5… 抱歉 不是计算它
-
7:29 - 7:33该数据点 总波动中的组间波动是
-
7:33 - 7:38(4-4)2
-
7:38 - 7:41这里也是(4-4)2
-
7:41 - 7:46考虑的不是样本点 而是样本均值
-
7:46 - 7:49最后是(4-4)2
-
7:49 - 7:50用这个
-
7:50 - 7:54减去这个 然后平方 对每个数据点都是如此
-
7:54 - 7:57最后剩下第三组
-
7:58 - 8:10组均值是6 因此有(6-4)2+(6-4)2+(6-4)2
-
8:10 - 8:12再想想
-
8:12 - 8:19这里有多少自由度
-
8:20 - 8:25我们可以这样想 已知总均值时 有多少是新信息
-
8:25 - 8:28我们可以这样想 已知总均值时 有多少是新信息
-
8:28 - 8:31我们可以这样想 已知总均值时 有多少是新信息
-
8:32 - 8:37如果知道2个组均值 知道总均值 第3个组均值总能求出来
-
8:37 - 8:38如果知道2个组均值 知道总均值 第3个组均值总能求出来
-
8:38 - 8:41知道第一个第二个 可以求出第三个
-
8:41 - 8:43知道这个和这个 可以求出那个
-
8:43 - 8:46因为知道这三者的均值
-
8:46 - 8:52一般而言 如果有m组 m个均值
-
8:52 - 9:06自由度就是m-1
-
9:06 - 9:09这个例子中m=3 所以自由度是2
-
9:09 - 9:15这个例子中m=3 所以自由度是2
-
9:15 - 9:19下面来具体算一下平方和
-
9:19 - 9:29第一项 2-4=-2 平方得4
-
9:29 - 9:33这里有3个4 所以是3×4
-
9:34 - 9:51加3×0 加3×(6-4)2=3×22=3×4
-
9:51 - 10:003×4=12 12+0+12=24
-
10:00 - 10:04由于组间均值差异导致的波动是24
-
10:04 - 10:09由于组间均值差异导致的波动是24
-
10:09 - 10:12把这些放到一起来看
-
10:12 - 10:189个数据点的总波动是30
-
10:18 - 10:19我写一下
-
10:20 - 10:26总平方和是30
-
10:26 - 10:33然后每个数据点同该组均值之差的平方和
-
10:33 - 10:40我们求出来是6 这也就是组内平方和
-
10:40 - 10:49组内平方和是6 而且自由度是6
-
10:49 - 10:54一般而言 自由度是m(n-1)
-
10:55 - 11:03而总的自由度则是mn-1个自由度
-
11:03 - 11:06自由度列在这一列
-
11:06 - 11:09这里 自由度算出来是8
-
11:09 - 11:14就在刚才 我们算出了组间平方和
-
11:14 - 11:18组间平方和是24
-
11:18 - 11:24自由度是m-1 这里等于2
-
11:25 - 11:31这里很有趣 方差分析的结果非常漂亮
-
11:31 - 11:35未来的视频中 我还会用这来进行假设检验
-
11:35 - 11:38未来的视频中 我还会用这来进行假设检验
-
11:38 - 11:43组内平方和+组间平方和=总平方和
-
11:43 - 11:45组内平方和+组间平方和=总平方和
-
11:45 - 11:51也就是说 数据中的总波动
-
11:51 - 11:56可以由每个组内的波动
-
11:56 - 11:58可以由每个组内的波动
-
11:58 - 12:04加上组间的波动来描述
-
12:04 - 12:06自由度也是如此
-
12:06 - 12:09组间平方和有2个自由度
-
12:09 - 12:13组内平方和有6个自由度
-
12:13 - 12:142+6=8
-
12:14 - 12:19正好等于总平方和的自由度
-
12:19 - 12:23一般而言 这总成立
-
12:23 - 12:27组间平方和的自由度是m-1
-
12:27 - 12:33组内自由度的平方和是m(n-1)
-
12:33 - 12:38相加有m-1+mn-m
-
12:38 - 12:44这两个消去 总共是mn-1个自由度
-
12:44 - 12:49正好等于总平方和的自由度
-
12:49 - 12:54上一节和这一节所做的这些运算
-
12:54 - 12:59是想让你们理解 总的波动
-
12:59 - 13:04可以看成是两个分量波动之和
-
13:04 - 13:12一方面是组内的波动程度
-
13:12 - 13:17另一方面是组间的波动程度
-
13:17 - 13:19但愿没把你们搞糊涂