AP Statistics-异常值、杠杆点、影响点判定及其各自影响
在AP统计中,高杠杆点和影响点的判定是“先判定高杠杆点,再验证是否为影响点”的递进过程,核心区别是:高杠杆点仅需满足“x值极端”,而影响点是“高杠杆点+移除后模型显著变化”。以下是具体判定方法(适配AP题的考查逻辑):
一、如何判定“高杠杆点”?
高杠杆点的核心特征是:解释变量$x$的值远偏离$x$的样本均值$\bar{x}$(即$x$在散点图中位置极端)。AP题中判定方法分2种:
1. 直观判定(AP题最常用)
通过散点图观察$x$的位置:
- 该点的$x$值明显超出其他点的$x$取值范围(如其他点的$x$在10-20之间,该点$x=50$);
- 该点的$x$值远大于/小于$x$的样本均值$\bar{x}$(如$\bar{x}=15$,该点$x=1$或$x=30$)。
2. 杠杆值(Leverage Value)判定(AP题偶尔提经验法则)
杠杆值衡量$x$对模型的“潜在影响能力”,公式为:
AP统计中常用经验法则:若杠杆值$h_i > \frac{2(k+1)}{n}$(双变量分析中$k=1$,故为$\frac{4}{n}$,$n$是样本量),则该点为高杠杆点。
例如:$n=20$时,$\frac{4}{20}=0.2$,若某点杠杆值$h_i=0.3>0.2$,则为高杠杆点。
二、如何判定“影响点”?
影响点的前提是“该点已被判定为高杠杆点”(只有$x$极端的点,才有能力改变模型),再通过“移除验证”判定:
移除该点后,观察以下模型参数是否发生显著变化:
- 回归线的斜率$b$(如原始斜率$b=3.2$,移除后变为$b=1.5$,变化幅度超50%);
- 相关系数$r$(如原始$r=0.8$,移除后变为$r=0.4$,相关性大幅减弱);
- 截距$a$(通常伴随斜率变化)。
三、AP题中的典型场景与结论
| 场景(散点图特征) | 判定结果 | 理由 |
|---|---|---|
| $x$极端(高杠杆),移除后斜率/r无明显变化 | 高杠杆点,不是影响点 | $x$极端但$y$贴合回归线(残差小),对模型无实际改变力。 |
| $x$极端(高杠杆),移除后斜率/r显著变化 | 高杠杆点+影响点 | $x$极端且$y$偏离回归线(残差大),对模型有“决定性拉拽作用”。 |
| $x$正常,$y$偏离回归线(残差大) | 离群值,不是高杠杆点/影响点 | $x$不极端,无能力改变模型,仅为普通离群值。 |
四、AP题易错点提醒
- 影响点一定是高杠杆点(只有$x$极端才能影响模型),但高杠杆点不一定是影响点(若$y$贴合趋势,无偏离);
- 不要混淆“离群值”和“高杠杆点”:离群值看$y$偏离趋势,高杠杆点看$x$位置极端;
- FRQ中判定影响点需写全步骤:“该点$x$远偏离$\bar{x}$(是高杠杆点),移除后斜率从$b=3$变为$b=1.2$(显著变化),故为影响点”。
五、异常值/离群值/杠杆点移除对模型的影响对比表
(注:AP统计中“异常值”通常指回归离群值,表格中统一术语并区分核心场景)
| 点的类型(细分场景) | 位置核心特征 | 移除后对相关系数$r$的影响 | 移除后对回归线斜率$b$的影响 | 移除后对$y$总体方差的影响 | 移除后对残差方差的影响 | AP常考场景提示 |
|---|---|---|---|---|---|---|
| 回归离群值($x$正常,$y$偏离趋势) | $x$接近$\bar{x}$,$y$显著偏离回归线(残差大) | 变大(剩余点更聚集,线性相关性增强) | 基本不变($x$不极端,对斜率拉力弱) | 变小(移除$y$极值,离散度降低) | 变小(移除大残差点,预测误差降低) | 选择题常考“移除离群值后$r$变大” |
| 高杠杆点($x$极端,$y$贴合趋势) | $x$远偏离$\bar{x}$,$y$在回归线上(残差小) | 变小(失去极端点支撑,线性聚集度下降) | 基本不变($y$贴合趋势,无偏离拉力) | 轻微变小($y$在正常范围,仅$x$极端) | 基本不变(残差本就小) | 选择题易混淆“高杠杆点≠影响点” |
| 影响点(单侧:$x$极端+$y$偏离趋势) | $x$远偏离$\bar{x}$,$y$显著偏离回归线(残差大) | 变大(移除偏离点,点更聚集) | 显著变化(如原被拉高→变平缓/原被拉低→变陡峭) | 变小(移除$y$极值) | 显著变小(移除高杠杆+大残差点) | FRQ常考“移除影响点后斜率变平缓” |
| 影响点(双侧:$x$极小+极大,$y$分别偏离两侧) | $x$分处$\bar{x}$两端,$y$分别在回归线上下(残差大) | 变大(移除偏离点) | 轻微变化(两侧拉力相互抵消) | 变小(移除$y$极值) | 显著变小(移除大残差点) | 选择题考“双侧影响点移除后斜率变化小” |
| 混合点($x$正常离群值+$x$极端影响点) | 一个$x$正常、$y$偏离;一个$x$极端、$y$偏离 | 变大(移除两个偏离点) | 变小(高杠杆点的“拉高/拉低”拉力主导) | 变小(移除$y$极值) | 显著变小(移除两个大残差点) | 对应之前“Penguin+Superman”场景,FRQ考斜率变化分析 |

