这一节及后面几节
我们将对如下数据进行一些处理
但愿通过这些计算
你们能直观理解方差分析的概念
这一节 我将计算总平方和
简记为SST 总平方和
你可以将其考虑为计算方差时的分子部分
也就是这些数据点离均值的距离的平方之和
也就是这些数据点离均值的距离的平方之和
不需要像计算样本方差那样除以自由度
不需要像计算样本方差那样除以自由度
怎么算呢 首先需要求出这些数值的均值
怎么算呢 首先需要求出这些数值的均值
我将其称为总平均值
它等于每个数据集的均值的均值
它等于每个数据集的均值的均值
算一下总平均值
这里有3+2+1+5+3+4+5+6+7
总共9个数据点
9个数据点 所有这里除以9 看看等于多少
3+2+1=6 然后5+3+4=12
5+6+7=18 然后6+12=18 再加18得36
除以9 等于4
下面证明这等于均值的均值
第一组 也就是绿色这组 均值为
第一组 也就是绿色这组 均值为
3+2+1 也就是6
除以数据点数目3 结果是2
再求第二组的均值 5+3+4也就是12
除以3 等于4
再求第三组的均值 5+6+7=18
除以3 得6 这些就是每组的均值
求总平均值的另一种方式就是 2+4+6
得到12 然后除以均值个数3 结果还是4
总均值可以看成所有数据点的均值 或每组均值的均值
总均值可以看成所有数据点的均值 或每组均值的均值
两种都行
下面我们来求总平方和
它等于 (3-4)2…
4也就是总均值
+(2-4)2+(1-4)2 第二组我用紫色
+(5-4)2+(3-4)2+(4-4)2
+(5-4)2+(3-4)2+(4-4)2
还剩3个
+(5-4)2+(6-4)2+(7-4)2
第一项(3-4)2=(-1)2=1
第一项(3-4)2=(-1)2=1
加(-2)2 也就是4 加(-3)2 也就是9
然后紫红色部分 5-4=1 平方还是1
(3-4)2=(-1)2=1
4-4=0 平方还是0
还是写一下 表示计算过
还有3个数据点
(5-4)2=1 (6-4)2=22=4
加上(7-4)2=32=9
算一下 1+4+9=5+9=14
算一下 1+4+9=5+9=14
这里还有一个1+4+9=14
这里也是14
然后中间是2
14+14+2=28+2=30 总平方和是30
如果要求方差 可以除以自由度
自由度我讲过很多次了
假设这里是m组
我不会去严格证明 但我会展示给你们
统计学中某些奇怪的公式来自何方
我不会去严格证明 我会给一些直观理解
这里总共是m组
每组n个成员
那么总成员个数也就是m?n=3×3=9
那么总成员个数也就是m?n=3×3=9
考虑下自由度
自由度是数据点个数减1
如果你知道总均值
那么就只有9-1 即8条新信息
因为最后一条信息可以通过总均值求出
知道任意8条信息 总可以利用总均值求出剩下的1条
知道任意8条信息 总可以利用总均值求出剩下的1条
也就是说 这里只有8个独立的成员
一般而言 自由度也就是m?n-1
一般而言 自由度也就是m?n-1
这里计算方差 也就是用30除以mn-1
这里也就是8个自由度 30/8
这就是9元素的所有这些数字的方差
这一节就到这里
下一节 我将讲到 这个总的波动程度
下一节 我将讲到 这个总的波动程度
有多少来自每个组内的波动程度
有多少来自组间的波动程度
也许你们已经看出这种方差分析来自哪里了
这里的方差来自9个样本值
如果这些组有所不同
部分波动可能来自不同组
部分波动可能来自各组内
下一节我将计算这些
它们加起来将得到总平方和
本字幕由网易公开课提供,更多课程请到http//open.163.com
网易公开课官方微博 http://t.163.com/163open
oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org