• 1.摘要
  • 2.基本信息
  • 3.定义
  • 4.性质
  • 5.不相关和独立
  • 6.生活示例
  • 7.应用
  • 7.1.概率论
  • 7.2.企业物流
  • 7.3.聚类分析
  • 8.缺点
  • 9.另请参阅
  • 10.参考资料

相关系数

研究变量之间线性相关程度的量

相关系数最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数1

相关表和相关图反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数

需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。

依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

基本信息

  • 中文名

    相关系数

  • 外文名

    Correlation coefficient

  • 基本释义

    度量两个变量间的线性关系

  • 常用

    皮尔逊相关系数

  • 描述

    线性关系

  • 特点

    无量纲

  • 设计者

定义

相关系数

相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。

简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。

定义式3

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差

复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

性质

相关系数

这里,,是一个可以表征和之间线性关系紧密程度的量。它具有两个性质:

(1)

(2)的充要条件是,存在常数a,b,使得

由性质衍生:

a. 相关系数定量地刻画了 X 和 Y的相关程度,即越大,相关程度越大;对应相关程度最低;

b. X 和Y 完全相关的含义是在概率为1的意义下存在线性关系,于是是一个可以表征X 和Y 之间线性关系紧密程度的量。当较大时,通常说X 和Y相关程度较好;当较小时,通常说X 和Y相关程度较差;当X和Y不相关,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系4

不相关和独立

若X和Y不相关,,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系;若,则X和Y不相关。

若X和Y独立,则必有,因而X和Y不相关;若X和Y不相关,则仅仅是不存在线性关系,可能存在其他关系,如,X和Y不独立。