回归系数的假设检验
前面所求得的回归方程是否成立,即X、Y是否有直线关系,是回归分析要考虑的首要问题。我们知道即使X、Y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零。因此需作是否为零的假设检验,可用方差分析或t检验。
.P(x, y) ˆ YY Y YY
----------------------------------- --------------Y Y X
应变量Y的平方和划分示意图
任一点P的纵坐标被回归直线与均数Y截成三段:
ˆ),表示实测点P与回归直线的纵向距离,即实际值Y与估计第一段(YYˆ之差,称为剩余或残差。 值YˆY),ˆ与均数Y之差,第二段(Y即Y估计值Y它与回归系数的大小有关。|b|ˆY)也越大,ˆY)亦为零,ˆ)=(YY),(Y(Y值越大,反之亦然。当b=0时,则(YYˆ)减小。 也就是回归直线不能使残差(YY1
-
第三段Y,是应变量Y的均数。
ˆy)与偏依变量y的总变异(yy)由y与x间存在直线关系所引起的变异(yˆ)两部分构成,即 差(yyˆy)(yyˆ) (yy)(y上式两端平方,然后对所有的n点求和,则有
ˆy)(yyˆ)]2 (yy)2[(yˆy)2(yyˆ)22(yˆy)(yyˆ) (yˆabxyb(xx),所以yˆyb(xx) 由于y于是
ˆy)(yyˆ)b(xx)(yyˆ) (y
b(xx)[(yy)b(xx)]
b(xx)(yy)b(xx)b(xx) =0 所以有
ˆy)2(yyˆ)2 (yy)2(yˆy)2(yy)2反映了y的总变异程度,称为y的总平方和,记为SSy;(y反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,
ˆ)2反映了除y与x存在直线关系以外的原因,包括随机误差记为SSR;(yy所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。总变异SS总是由回归关系引起的SS回和与回归无关的其它各种因素产生的SS剩所构成。若回归直线与各实测点十分吻合,则SS回将明显大于SS剩,当全部实测值都在回归直线上时,SS总=SS回,SS剩=0,反之,若回归直线拟合不好,SS回相对较小,SS剩则相对增大。可见SS回/SS剩反映了回归的效果。
上式又可表示为:SSySSRSSr 这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,
2
-
y的总自由度dfy也划分为回归自由度dfR与离回归自由度dfr两部分,即
dfydfRdfr
在直线回归分析中,回归自由度等于自变量的个数,即dfR1;y的总自由度dfyn1;离回归自由度dfrn2。于是:
离回归均方MSrSSr/dfr,回归均方MSRSSR/dfR
(1)、方差分析法: 具体计算如下: 1、 建立无效假设:
H0 :β= 0, 即胆固醇与年龄之间无直线关系
H1 :β≠0, 即胆固醇与年龄之间有直线关系 α= 0.05 2、计算
SS总=88.8081 df总=19
SS回=b l xy =0.141 (453.7385)=63.9771 df回=1
SS剩 = SS总 — SS 回 =88.8081-63.9771=24.8310 方差分析结果表
3
df剩=18
-
变异来源 总变异 回归 剩余 SS df MS F 88.8081 19 63.9771 1 63.9771 46.377 24.8310 18 1.3795 3、查表确定p值
F0.05(1,18) = 4.41 , F0.01(1,18) = 8.29 P<0.01 故按α= 0.05水准拒绝无效假设,接受备择假设。
4、结论:可以认为高血脂病人治疗前胆固醇与年龄由直线关系。
(2)、t检验
基本思想与样本均数与总体均数比较的t检验类似,而检验统计量t值的计算按下式完成:
t
b0bSbSyx/lxx df = n-2
本例 n =20,SS剩=1.3795 , lxx=3216.95, b=0.141
Syx24.8311.1745
2024
-
Sb1.17450.0207
3216.95t0.1416.812
0.0207 按df = 18 ,查t界值表,t0.05(18) =2.101, t0.01(18) =2.878 ,按=0.05 水准,拒绝H0, 接受H1 , 结论同上。
直线回归方程的应用
统计预测:
1、总体回归系数β的区间估计
根据参数估计原理,回归系数b是总体回归系数β的点估计,正像样本均数X不一定恰好等于总体均数一样,需要对总体回归系数β进行区间估计。
(bt(n2)Sb,bt(n2)Sb)
式中Sb为回归系数的标准误;n-2为自由度。 回归方程为y2.6610.141x
根据资料的样本回归系数b=0.141估计总体回归系数β的95%可信区间。 已知b=0.141, sb=0.0207, 20218, t0.05(18)=2.101 则总体回归系数β的95%可信区间为
(0.141-2.1010.0207, 0.141+2.1010.0207)=(0.0975,0.1977)
2、Yˆ的区间估计
ˆ的总体均数。对ˆ的估计可Yˆ 是指总体中自变量X为某一定值X0时,YY5
-
计算可信区间:
ˆtˆ(Yˆ,Yt(n2)SYˆ) (n2)SYˆ的标准误,可按下式计算: 式中SYˆ即YSYˆSY.X(X0X)21 n(XX)2
式中SY.X为剩余标准差。当X0X时,SYˆSY.X/n,此时,可信区间的范围最窄,预测精度相对较高。
试计算当X0=50岁时,Yˆ的95%可信区间。 已知X39.45,(XX)23216.95, sy.x=1.175
ˆ=2.661+0.14150 = 9.71 Y1(5039.45)2SYˆ1.1750.3418(mmol/L)
203216.9520218,t0.05(18)=2.101
当X0=50时,Yˆ的95%可信区间为
(9.71-2.1010.3418,9.71+2.1010.3418)= ( 8.99, 10.43) mmol/L 即当年龄为50岁时,估计其胆固醇的的总体均数Yˆ在(8.99, 10.43)
mmol/L范围内的可能性为95%。
6
-
12.0010.00胆固醇8.006.00R Sq 线性 = 0.7214.002030405060年龄
3、个体Y值的容许区间
总体中,X为一定值时,个体Y值的波动范围,可按下式求出:
ˆtˆ(Y(n2)SY,Yt(n2)SY)
式中SY为X取一定值时,个体Y值的标准差,其计算公式为
SYSY.X(X0X)211 n(XX)2试计算当X0=50时,个体Y值的95%容许区间。
ˆ=9.71,t0.05(18)=2.101,SY.X=1.175 已知 Y7
-
1(5039.45)2 SY1.17511.2230
203216.95故当X0=50岁时,个体Y值的95%容许区间为:
(9.71-2.1011.2230, 9.71+2.1011.2230)=(7.14, 12.28) mmol/L 即当年龄为50岁时,总体中有95%的个体Y值波动在(7.14,12.28)
mmol/L的范围内。 12.0010.00胆固醇8.006.00R Sq 线性 = 0.7214.002030405060年龄
8
-
用回归方程进行统计控制
控制是指党要求Y值在一定的范围内波动时,如何通过控制X的范围来实现统计控制的目标, 所以统计控制是利用回归方程进行的逆估计。如:为使一名糖尿病人的血糖维持在正常范围(4.44-6.66mol/L),如何控制血中胰岛素水平?这可以对回归的逆运算来实现。
例如:资料已建立了有胰岛素估计血糖平均水平的直线回归方程,问:欲将血糖水平控制在正常范围的上限6.66mol/L以内时,血中胰岛素应维持在什么水平上?
已知Y18.7957-0.4585X, n20,sy1.6324,取α=0.05,本例当
'个体y值取6.66mol/L 时的x值,故取单侧t0.05(18)=1.734,所得方程为:
‘ˆt6.66Y18.7957-0.4585)+1.7341.6324=21.62620.4585x0.05(18)SY=(由此式解得x = 32.64(mu/L) , 即如要将一名糖尿病人的血糖控制在6.66mol/L以内,胰岛素水平可维持在32.64(mu/L)以上。
又例:某市环境监测站在某交通点连续测定30天,每天定时采样3次,发现大气中NO2浓度Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线关系,根据90
对观测数据求得回归方程 Y0.0648660.000133X,剩余标准差syx0.032522。若NO2最大容许浓度为0.15mg/m3,则汽车流量应如何控制?
设=0.05。
本例
syx0.032522,=0.05,=90-2=88,查表得单侧t0.05(88)=1.6624。
由于本例未给出每小时汽车流量的均数及lxx,且样本含量较大,故以syx代替sy,
9
-
计算个体Y值单侧95%容许区间的上限:
YuY1.6624syx0.0648660.000133x1.66240.0325220.000133x0.010801
当Y0.15时,解得X=1209,即只要把汽车流量控制在1209辆/小时以下,
那么就有95%可能使NO2不超过最大容许浓度0.15mg/m3。
10
因篇幅问题不能全部显示,请点此查看更多更全内容