多重共线性
经济学术语
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
基本信息
- 中文名
多重共线性
- 外文名
Multicollinearity
- 相关词目
近似共线性
- 依据模型
线性回归模型
基本简介
对线性回归模型
基本假设之一是自变量,
之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说明这一点,首先来计算线性回归模型参数的 LS 估计的均方误差。为此。重写线性回归模型的矩阵形式为
其中
服从多元正态分布
,设计矩阵 X 是
的,且秩为 p。这时,参数
的 LS 估计为
,而回归系数的 LS 估计为
。注意到由此获得的 LS 估计是无偏的,于是估计
的均方误差为
其中
是
的特征根。显然,如果
至少有一个特征根非常接近于零,则
就很大,
也就不再是
的一个好的估计。由线性代数的理论知道,若矩阵
的某个特质根接近零,就意味着矩阵 X 的列向量之间存在近似线性关系。
如果存在一组不全为零的数
,使得
则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足
,使得
则称线性回归模型存在非完全共线性。
如果线性回归模型存在完全共线性,则回归系数的 LS 估计不存在,因此,在线性回归分析中所谈的共线性主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。1
产生原因
主要有3个方面:
(1)经济变量相关的共同趋势
(2)滞后变量的引入
(3)样本资料的限制