皮尔逊相关系数

在统计学中，皮尔逊相关系数( Pearson correlation coefficient），又称皮尔逊积矩相关系数（Pearson product-moment correlation coefficient，简称PPMCC或PCCs），是用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与1之间。

基本信息

中文名
皮尔逊相关系数
外文名
Pearson correlation coefficient
别名
皮尔逊积矩相关系数
相关人物
卡尔·皮尔逊；弗朗西斯·高尔顿
学科
统计学

函数介绍

皮尔逊相关系数函数是一种用于计算两个变量之间线性相关程度的函数。在数学上，它的公式为：

r = (nΣxy - ΣxΣy) / sqrt((nΣx^2 - (Σx)^2)(nΣy^2 - (Σy)^2))

其中，r表示皮尔逊相关系数，n表示样本数量，x和y分别表示两个变量的取值，Σ表示求和符号。

皮尔逊相关系数函数的输入是两个变量的取值，输出是它们之间的相关系数。通常情况下，相关系数的取值范围在-1到1之间，其中-1表示完全负相关，0表示无相关，1表示完全正相关。在实际应用中，皮尔逊相关系数函数可以用于数据分析、统计建模、机器学习等领域，帮助研究者了解数据之间的关系，从而做出更好的决策。

图1.皮尔逊相关系数举例

图1中，几组的点集，以及各个点集中和之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向（第一排），而不是相关性的斜率（中间），也不是各种非线性关系（第三排）。请注意：中间的图中斜率为0，但相关系数是没有意义的，因为此时Y变量是0。

定义

皮尔逊相关系数是一种用于衡量两个变量之间线性相关程度的统计量。它的取值范围在-1到1之间，其中-1表示完全负相关，0表示无相关，1表示完全正相关。皮尔逊相关系数是最常用的相关系数之一，广泛应用于社会科学、自然科学、医学等领域的数据分析中。它可以帮助研究者了解两个变量之间的关系，从而更好地理解数据和现象。皮尔逊相关系数的计算基于两个变量的协方差和标准差，可以通过公式 r = cov(X,Y) / (std(X) * std(Y)) 来计算，其中cov(X,Y)表示X和Y的协方差，std(X)和std(Y)分别表示X和Y的标准差。

数学特性

皮尔逊相关系数具有以下数学特性：

取值范围在-1到1之间，其中-1表示完全负相关，0表示无相关，1表示完全正相关。

如果两个变量之间存在线性关系，则皮尔逊相关系数为正数；如果两个变量之间存在负的线性关系，则皮尔逊相关系数为负数。

皮尔逊相关系数对数据的分布形态有一定要求，即两个变量的分布应该近似于正态分布。

皮尔逊相关系数对异常值比较敏感，如果数据中存在异常值，则可能会导致相关系数的计算结果不准确。

皮尔逊相关系数可以用于衡量两个变量之间的线性关系，但不能用于衡量非线性关系。

皮尔逊相关系数可以通过假设检验来判断两个变量之间的相关性是否显著。

解释

皮尔逊相关系数是用于衡量两个变量之间线性相关程度的统计量。它的取值范围在-1到1之间，其中-1表示完全负相关，0表示无相关，1表示完全正相关。皮尔逊相关系数可以帮助研究者了解两个变量之间的关系，从而更好地理解数据和现象。