对于线性回归模型,很多人在做数据分析的时候都运用过,用于分析两个变量之间的关系,但可能对其中的原理并没有进行细致的思考,比如r2数值的统计意义?在统计学上,线性模型的有效性如何进行评估?估计y的均值和单次y的95%置信区间CI是怎么做的?等等,这里对这些原理进行解释,但不给出证明。
一个财险公司想要把主要住宅火灾的损失金额y与火灾点到最近的消防站的距离建立联系,这项研究在一个大城市范围很大的郊区完成,每起火灾的损失金额y与受灾点到最近的消防站的距离x都被记录下来,结果如下表所示:
求解:
1. 运用直线概率模型给出火灾损失和受灾点到最近的消防站距离的关系
2. 在统计上评判模型的有效性
3. 当距离为3.5公里时,给出受灾损失的平均值估计的误差范围及单次受灾损失估计的误差范围(95%置信区间)
解答:
1)假定受灾损失和距离符合直线模型:y=β0+β1*x+ε
2)求解出直线模型的参数β0,β1,可以方便地利用统计软件计(Excel,Minitab)算出来,下图为Excel计算出的回归分析参数
可以看出:
3)确定随机误差部分ε的概率分布。如上图Excel输出结果,标准差s=2.3163
4)检验模型的有效性
a.检验火灾损失与火灾点距离消防站的距离有没有线性关系,即β1=0检验
H0:β1=0
Ha:β1>0
df=n-2=15-2=13,在p=0.05显著性水平时对应的t0.05=1.771,t=7.23>t0.05,所以拒绝原假设,即β1>0,火灾损失与火灾点距离消防站的距离有线性关系。
b.看决定系数r2=0.923, 说明火灾损失样本的变异性有约92%可以通过火灾点到消防站的距离x的线性模型来解释,说明模型的具有很强的线性关系
5)当x=3.5时,E(y)95%的置信区间以及y的预测值95%的置信区间都在下图所思的Minitab输出结果中。
预测值y_hat=27.496
y的平均值y_bar 95%的置信区间是(26.1901,28.8011),说明在距离为3.5英里时,我们有95%的把握,发生火灾损失的平均值在26190~28801美元之间
预测单次y值的95%的置信区间是(22.324,32.667),说明在距离为3.5英里时,我们有95%的把握,发生火灾损失在22324~32667美元之间
变量之间存在确切的关系,比如y=15x
变量之间存在的关系有一个确定性部门和随机误差部分组成,比如y=15x+随机误差ε
概率模型的一般形式:
y=确定性部分+随机误差ε
其中y是感兴趣的变量。我们往往假设随机误差的期望值是零,即y的期望
E(y)=确定性部分
线性模型是最简单的概率模型,其要素包括:
残差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares)
也称误差平方和,y真实值和y预测值(估计值)之间的误差和
回归平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
由回归关系可以解释的误差平方和
总离差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
SSE+SSR=SST或 RSS+ESS=TSS
1.误差和(SE)为零
2.误差平方和(SSE)比其他任何一条执行模型都小
1. ε的期望为0。对于一个给定的x,ε的值在无限长的试验序列中均值是0,y的期望E(y)=β0+β1x
2. 对于所有给定的自变量x,ε的概率分布方差是常数
3. ε的概率分布服从正态分布
4. 任何两个观测值对应的ε都是独立的
其性质可以用下图来说明。实际运用时,这些假设并不需要完全成立,只需部分满足
在SSE的计算中,可能需要反复计算SSyy,SSxy,β等值,为避免代入误差,一般要保留6位有效数字。
我们期望大部分(95%)观测值y分别位于他们的最小二乘预测值y^的2s范围内。
推断β1是否=0
如果x对y的预测不起作用,则β1=0
其中S为ε的方差
简单线下回归,即ε的4个假设
用于衡量两个变量的线性相关强度
说明:
1. 高相关系数并不一定意味着x和y存在因果关系,仅仅说明两个变量之间可能存在线性趋势
2. 低相关系数并不一定说明x和y之间没有关系,仅仅说明x和y不是很强的线性相关
一种测量模型有效性的方法就是测量x对于预测y的贡献,为此,我们计算使用来x提供的信息后,y的预测误差减少了多少
1. 如果假定x对于预测y没有一点贡献,那么y的最佳预测值就是样本评价值y_bar, 预测误差为离差平方和SST(SSyy)
2. 如果假定x对于预测y有贡献,那么y的最佳预测值就是样本评价值y_hat, 预测误差为残差平方和SSE,
如下图的x,y散点图,b为x对y对预测没有贡献,c为x对y对预测有贡献:
那么线性模型对于预测的贡献为SST-SSE=SSR,称回归平方和,也叫ESS(Explain Sum of Squares)可解释的误差平方和
SSyy:总的样本变异性
SSE:拟合直线模型后未解释的变异性
(SSyy-SSE)/SSyy=可解释的样本变异性/总的样本变异性=总的样本变异性被线性关系解释的百分比
模型的运用主要是两方面:
1.用模型根据给定的x值估计y的平均值E(y),大量试验y的平均值
2.用模型根据给定的x值估计一个新的y值,预测一个单独试验的结果
两个运用的不同体现在估计和预测的相对精度上。
可以看出,预测y的个别值的误差范围比估计y的平均值的误差范围大,这是因为预测y的个别值的误差可以看作预测y的均值E(y)的误差加上预测y的随机误差,误差在x_bar的时候最小。