强影响点

强影响点指对多重线性回归模型参数估计有很强影响的数据点。由于多重线性回归采用最小二乘法进行参数估计，此时对所有的记录均一视同仁。当数据库中存在远离多维空间数据主体的记录时，它们将导致拟合的模型偏向该数据点。对于强影响点的识别是进行多重线性回归时应该注意的另一个重要问题。强影响点是对参数估计的稳定性及真实性具有很大影响的数据，对于回归模型数据集中的强影响点是指那些对统计量的取值有非常大的影响力和冲击力的点。由于各个数据点对统计推断的影响大小不相等，为了定量地刻画影响的大小，迄今为止已经提出多种尺度，诸如基于残差的尺度、基于拟合的尺度、基于影响的尺度、基于置信椭圆的尺度、基于似然函数的尺度等。在每一种类型中又可能有不同的统计量，例如基于影响函数就已有多种距离来度量，有Cook距离、Welsch-Kuh距离、Welsch距离修正、Andrews-Pregibon等度量平均拟合距离。由此可见，如何研究影响与从何种角度考虑统计有着密切关系，每一种度量都是某一方面的影响并在具体场合下较为有效。这一方面反映了度量影响问题的复杂性，另一方面也说明了影响分析的研究在统计诊断中是一个较为活跃的方向。此外，还有大量有待研究解决的问题在实际应用中可以选择几种不同的度量对影响进行分析并对各种分析结果加以比较，以期待得到更为全面的结论。其中Cook距离研究比较早，在统计诊断中广泛地为人们所接受1。

基本信息

中文名
强影响点
所属学科
数学
所属问题
数理统计
相关问题
多重线性回归模型参数估计
相关概念
线性回归、异常点、杠杆点等

基本介绍

众所周知，线性回归拟合时使用的是最小二乘法，即保证各实测点至直线纵向距离的平方和为最小，这就带来了一个问题：如果存在异常点或离群值，它们离回归直线较远，相应距离的平方就非常的大，为了保证平方和为最小，回归直线不得不强烈的向该点所在方位偏移，显然，这可能会导致错误的分析结论。因此，在回归分析中必须要仔细考虑有无强影响点存在，在样本量比较小的时候尤其应注意该问题。

强影响点是指保留该点与删除该点2种情况下建立的回归方程中的回归系数会产生很大差异的点。

一般称严重偏离既定模型的数据点为异常点，远离数据主体的点为高杠杆点，对统计推断影响特别大的点为强影响点。其中异常点和高杠杆点都有可能形成强影响点2。