< Return to Video

ANOVA 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi

  • 0:01 - 0:02
    上一节中
  • 0:01 - 0:15
    本字幕由网易公开课提供,更多课程请到http//open.163.com
  • 0:02 - 0:06
    我们计算了9个数据点的总平方和
  • 0:06 - 0:10
    9个数据点被分为了3组
  • 0:10 - 0:13
    或者更一般地 分为m组
  • 0:13 - 0:18
    这一节我想知道总平方和
  • 0:17 - 0:25
    网易公开课官方微博 http://t.163.com/163open
  • 0:18 - 0:22
    有多少是由于组内波动造成
  • 0:22 - 0:26
    多少是由于组间波动造成
  • 0:26 - 0:30
    首先 我要求的是组内总波动
  • 0:30 - 0:36
    组内平方和
  • 0:30 - 0:45
    oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
  • 0:36 - 0:40
    黄色用过了 用蓝色吧
  • 0:40 - 0:46
    组内平方和SSW
  • 0:46 - 0:51
    其中W表示within(组内)
  • 0:51 - 0:54
    我们希望求出 总波动中有多少
  • 0:54 - 0:58
    是因为各组内数据点同各自均值之间的差异造成
  • 0:58 - 1:00
    是因为各组内数据点同各自均值之间的差异造成
  • 1:00 - 1:02
    从这里开始
  • 1:02 - 1:07
    我这里不是要求每个点同总均值的距离
  • 1:07 - 1:12
    而是求每点同各自组均值之间的距离
  • 1:12 - 1:17
    这里要求各点同各自组均值的距离平方之和
  • 1:17 - 1:21
    这里要求各点同各自组均值的距离平方之和
  • 1:21 - 1:26
    3减去该组均值2 平方
  • 1:26 - 1:31
    加(2-2)2
  • 1:31 - 1:34
    加(1-2)2
  • 1:35 - 1:37
    对每组都这样处理
  • 1:37 - 1:40
    每组数据分别减去各自组的均值
  • 1:40 - 1:57
    于是有+(5-4)2+(3-4)2+(4-4)2
  • 1:57 - 2:00
    最后再看第三组
  • 2:00 - 2:05
    用组中数字减去该组均值 平方 然后全部加起来
  • 2:05 - 2:07
    用组中数字减去该组均值 平方 然后全部加起来
  • 2:07 - 2:09
    于是第三组有
  • 2:09 - 2:21
    +(5-6)2+(6-6)2+(7-6)2
  • 2:21 - 2:22
    这等于多少呢
  • 2:22 - 2:29
    最上面是1+0+1
  • 2:30 - 2:32
    也就是2
  • 2:32 - 2:40
    中间是1+1+0 所以又要加个2
  • 2:40 - 2:51
    下面是1+0+1 还是加2
  • 2:52 - 2:56
    组内平方和是6
  • 2:57 - 3:01
    想想 总的波动是30
  • 3:01 - 3:09
    其中有6来自组内的波动
  • 3:09 - 3:11
    下面考虑一下
  • 3:11 - 3:16
    计算中有多少自由度
  • 3:16 - 3:19
    有多少个独立的数据点
  • 3:20 - 3:28
    假设每一组有n个数据点
  • 3:28 - 3:30
    这里n=3
  • 3:31 - 3:38
    如果你知道n-1个值 而且知道样本均值 你总能求出第n个值
  • 3:38 - 3:42
    在这里也就是说 如果知道2个数据点 总可以求出第3个
  • 3:42 - 3:43
    在这里也就是说 如果知道2个数据点 总可以求出第3个
  • 3:43 - 3:45
    比如知道这两点
  • 3:45 - 3:47
    就能求出第三个点的值
  • 3:47 - 3:50
    总的来说 每组n个数据 那么自由度就是n-1
  • 3:50 - 3:57
    总的来说 每组n个数据 那么自由度就是n-1
  • 3:57 - 4:04
    n表示组内数据的个数
  • 4:04 - 4:09
    那么每组的自由度是n-1
  • 4:09 - 4:12
    这里是n-1 n-1 n-1
  • 4:12 - 4:19
    这样说吧 每一组是n-1个自由度
  • 4:19 - 4:22
    然后有m组
  • 4:22 - 4:29
    所以总共是m?(n-1)个自由度
  • 4:29 - 4:33
    这个特定的题中 n-1=2
  • 4:33 - 4:35
    每一组是2个自由度
  • 4:35 - 4:46
    总共是3组 那就是6个自由度
  • 4:46 - 4:51
    未来我们会从数学上就自由度进行更深入的讨论
  • 4:51 - 4:54
    未来我们会从数学上就自由度进行更深入的讨论
  • 4:54 - 4:58
    这样想最简单 它是真正独立的数据点个数
  • 4:58 - 5:01
    假设我们知道计算平方距离的这些集中趋势统计量
  • 5:01 - 5:05
    假设我们知道计算平方距离的这些集中趋势统计量
  • 5:05 - 5:08
    第三个数据点可以通过其它两个求出来
  • 5:08 - 5:10
    所以这里是6个自由度
  • 5:11 - 5:18
    总波动中有这么多来自组内波动
  • 5:18 - 5:24
    下面考虑一下有多少总波动来自于组间波动
  • 5:25 - 5:29
    这就需要计算… 我换个好点的颜色
  • 5:29 - 5:31
    这些颜色貌似都用过
  • 5:31 - 5:41
    这里要计算的是组间平方和SSB B表示between(组间)
  • 5:41 - 5:45
    也就是说 总波动中有多少
  • 5:45 - 5:49
    是因为均值之间的波动
  • 5:49 - 5:51
    这就是我们现在要计算的
  • 5:51 - 5:56
    而SSW是每个点相对组均值的波动
  • 5:57 - 6:01
    这里求多少波动来自于这些之间
  • 6:02 - 6:07
    对于每个数据点而言…
  • 6:07 - 6:09
    先考虑一下第一组吧
  • 6:10 - 6:13
    第一组中 有多少波动是来自组均值相对总均值的波动
  • 6:13 - 6:18
    第一组中 有多少波动是来自组均值相对总均值的波动
  • 6:19 - 6:23
    我从第一个值的情况开始写一下
  • 6:24 - 6:31
    波动也就是其所在组的均值2减去总均值 平方
  • 6:31 - 6:33
    对于第二个值也一样
  • 6:33 - 6:37
    它对应的均值减去总均值 平方
  • 6:38 - 6:39
    第三个值也一样
  • 6:39 - 6:42
    它对应的均值2减去总均值 平方
  • 6:42 - 6:52
    总共是3个(2-4)2
  • 6:52 - 7:03
    也就是3×4 即12
  • 7:03 - 7:06
    对每一组都可以进行类似处理 我要求的是总和
  • 7:06 - 7:09
    对每一组都可以进行类似处理 我要求的是总和
  • 7:09 - 7:13
    我要求出总波动中 组间波动的贡献
  • 7:13 - 7:18
    我要求出总波动中 组间波动的贡献
  • 7:18 - 7:21
    刚才算的来自第一组 是第一组的贡献
  • 7:21 - 7:23
    再看第二组
  • 7:23 - 7:29
    计算这个5… 抱歉 不是计算它
  • 7:29 - 7:33
    该数据点 总波动中的组间波动是
  • 7:33 - 7:38
    (4-4)2
  • 7:38 - 7:41
    这里也是(4-4)2
  • 7:41 - 7:46
    考虑的不是样本点 而是样本均值
  • 7:46 - 7:49
    最后是(4-4)2
  • 7:49 - 7:50
    用这个
  • 7:50 - 7:54
    减去这个 然后平方 对每个数据点都是如此
  • 7:54 - 7:57
    最后剩下第三组
  • 7:58 - 8:10
    组均值是6 因此有(6-4)2+(6-4)2+(6-4)2
  • 8:10 - 8:12
    再想想
  • 8:12 - 8:19
    这里有多少自由度
  • 8:20 - 8:25
    我们可以这样想 已知总均值时 有多少是新信息
  • 8:25 - 8:28
    我们可以这样想 已知总均值时 有多少是新信息
  • 8:28 - 8:31
    我们可以这样想 已知总均值时 有多少是新信息
  • 8:32 - 8:37
    如果知道2个组均值 知道总均值 第3个组均值总能求出来
  • 8:37 - 8:38
    如果知道2个组均值 知道总均值 第3个组均值总能求出来
  • 8:38 - 8:41
    知道第一个第二个 可以求出第三个
  • 8:41 - 8:43
    知道这个和这个 可以求出那个
  • 8:43 - 8:46
    因为知道这三者的均值
  • 8:46 - 8:52
    一般而言 如果有m组 m个均值
  • 8:52 - 9:06
    自由度就是m-1
  • 9:06 - 9:09
    这个例子中m=3 所以自由度是2
  • 9:09 - 9:15
    这个例子中m=3 所以自由度是2
  • 9:15 - 9:19
    下面来具体算一下平方和
  • 9:19 - 9:29
    第一项 2-4=-2 平方得4
  • 9:29 - 9:33
    这里有3个4 所以是3×4
  • 9:34 - 9:51
    加3×0 加3×(6-4)2=3×22=3×4
  • 9:51 - 10:00
    3×4=12 12+0+12=24
  • 10:00 - 10:04
    由于组间均值差异导致的波动是24
  • 10:04 - 10:09
    由于组间均值差异导致的波动是24
  • 10:09 - 10:12
    把这些放到一起来看
  • 10:12 - 10:18
    9个数据点的总波动是30
  • 10:18 - 10:19
    我写一下
  • 10:20 - 10:26
    总平方和是30
  • 10:26 - 10:33
    然后每个数据点同该组均值之差的平方和
  • 10:33 - 10:40
    我们求出来是6 这也就是组内平方和
  • 10:40 - 10:49
    组内平方和是6 而且自由度是6
  • 10:49 - 10:54
    一般而言 自由度是m(n-1)
  • 10:55 - 11:03
    而总的自由度则是mn-1个自由度
  • 11:03 - 11:06
    自由度列在这一列
  • 11:06 - 11:09
    这里 自由度算出来是8
  • 11:09 - 11:14
    就在刚才 我们算出了组间平方和
  • 11:14 - 11:18
    组间平方和是24
  • 11:18 - 11:24
    自由度是m-1 这里等于2
  • 11:25 - 11:31
    这里很有趣 方差分析的结果非常漂亮
  • 11:31 - 11:35
    未来的视频中 我还会用这来进行假设检验
  • 11:35 - 11:38
    未来的视频中 我还会用这来进行假设检验
  • 11:38 - 11:43
    组内平方和+组间平方和=总平方和
  • 11:43 - 11:45
    组内平方和+组间平方和=总平方和
  • 11:45 - 11:51
    也就是说 数据中的总波动
  • 11:51 - 11:56
    可以由每个组内的波动
  • 11:56 - 11:58
    可以由每个组内的波动
  • 11:58 - 12:04
    加上组间的波动来描述
  • 12:04 - 12:06
    自由度也是如此
  • 12:06 - 12:09
    组间平方和有2个自由度
  • 12:09 - 12:13
    组内平方和有6个自由度
  • 12:13 - 12:14
    2+6=8
  • 12:14 - 12:19
    正好等于总平方和的自由度
  • 12:19 - 12:23
    一般而言 这总成立
  • 12:23 - 12:27
    组间平方和的自由度是m-1
  • 12:27 - 12:33
    组内自由度的平方和是m(n-1)
  • 12:33 - 12:38
    相加有m-1+mn-m
  • 12:38 - 12:44
    这两个消去 总共是mn-1个自由度
  • 12:44 - 12:49
    正好等于总平方和的自由度
  • 12:49 - 12:54
    上一节和这一节所做的这些运算
  • 12:54 - 12:59
    是想让你们理解 总的波动
  • 12:59 - 13:04
    可以看成是两个分量波动之和
  • 13:04 - 13:12
    一方面是组内的波动程度
  • 13:12 - 13:17
    另一方面是组间的波动程度
  • 13:17 - 13:19
    但愿没把你们搞糊涂
Title:
ANOVA 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi
Description:

Analysis of Variance 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi

more » « less
Video Language:
English
Duration:
13:20
chezisu1988 added a translation

Chinese, Simplified subtitles

Revisions