Logistic regression

Outliers, Leverage & Influential points

异常值点: 异常值是指数据中有异常表现的数据点。在一个回归模型中，异常值点包括离群点，高杠杆值点和强影响点，这些点都可能对结果产生较大的负面影响，因此对异常值点的判断及修正对建立正确的回归模型非常重要。

Outliers(离群点): 离群点通常指残差非常大的点，即模型预测的y值与真实的y值相差非常大。通常检测离群点的方法有：方法1：用箱线图判断，如果图中的点出现在四个分位数外的一般都是离群点。方法2：用QQ图检测，落在置信区间外的点通常被认为是离群点。方法3：通常认为标准化残差的绝对值大于2的点可能是离群点，也有资料说是大于3，可视情况而定方法4：用car包的outlierTest()函数求得最大标准化残差绝对值Bonferroni调整后的p值，从而作出判断。对离群点，我们一般会选择删除，删除离群点还有利于提高数据集对于正态分布假设的拟合度。

Leverage(高杠杆值点): 高杠杆值点指的是x值比较异常，通常与响应变量值y没有关系。判断高杠杆值点的方法：方法1：杠杆点在简单线性回归中较容易辨别，一般找出预测值超出正常范围的观测点即杠杆点。方法2：计算点的帽子统计量，若该点的帽子统计量大于帽子统计量的均值的2或3倍，通常被认为是高杠杆值点。

Influential(强影响点): 即对模型参数估计值影响有些比例失衡的点。例如，若移除模型的一个观测点时，模型会发生巨大的改变。一般来说，高杠杆值点，若是离群点，则是强影响点。当然强影响点也不局限于此，强影响点是指对统计推断有影响的点，一般用cook距离进行判断，若cook距离的值大于4/(n-k-1),则表明是强影响点

influenceplot()函数(car包中有)，可以把离群点，高杠杆值点，影响点都整合在一个图上，影响图横坐标为帽子值，纵坐标为学生化残差，因此纵坐标超过+2或者-2的点被认为是离群点，横坐标可以判断哪些点是高杠杆值点，图中越往右上角的点，越有可能是强影响点。

Pre-request for logistic regression model

使用logistic regression model前，需判断是否满足以下7个研究假设：
假设1：因变量即结局是二分类变量。
假设2：有至少1个自变量，自变量可以是连续变量，也可以是分类变量。
假设3：每条观测间相互独立。分类变量（包括自变量和因变量）的分类必须全面且每一个分类间互斥。
假设4：最小样本量要求为自变量数目的15倍，但一些研究者认为样本量应达到自变量数目的50倍。
假设5：连续的自变量与因变量的Logit转换值之间存在线性关系。
假设6：自变量间不存在共线性。
假设7：没有明显的离群点、杠杆点和强影响点。

References

Distinction Between Outliers & High Leverage Observations

Outliers: discrepancy, leverage, and influence of the observations

Favorites

Categories

Tags

Lists

About

Home

Logistic regression

November 15, 2017

Logistic regression

Outliers, Leverage & Influential points

Pre-request for logistic regression model

References

CHENYUAN

CHENYUAN Blog Homepage

Tools--plagiarism checker and duplicate content finder

Tools--English grammar and spelling check