# 第八章 ## 成对数据的统计分析 在必修课程中,我们学习了单个变量的观测数据的直观表示和统计特征的刻画等知识与方法,例如,用直方图描述样本数据的分布规律,用均值刻画样本数据的集中趋势,用方差刻画样本数据的离散程度等。这些方法主要适用于通过样本认识单个变量的统计规律。在现实中,我们还经常需要了解两个或两个以上变量之间的关系。例如,教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;医疗卫生部门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等。为此,我们需要进一步学习通过样本推断变量之间关系的知识和方法。 本章的学习内容有成对数据的统计相关性、一元线性回归模型和2×2列联表等,这些知识与方法在解决实际问题中非常有用。可以发现,两个随机变量的相关性可以通过成对样本数据进行分析;利用一元线性回归模型可以研究变量之间的随机关系,进行预测;利用2×2列联表可以检验两个随机变量的独立性。本章的学习对于提高我们解决实际问题的能力,提升数据分析、数学建模等素养都是非常有帮助的。 [图片描述:图片展示了学生排队进行体格检查的场景。一名护士正在为一名女生测量身高,该女生站在量高尺下。另有几名学生排队等候,其中一名男生正在进行体重测量。学生们手持表格,显示他们正在进行健康检查。这生动地体现了成对数据(如身高和体重)的收集过程。|标题:学生体格检查情景图|图片1] # 8.1 成对数据的统计相关性 我们知道,如果变量 $y$ 是变量 $x$ 的函数,那么由 $x$ 就可以唯一确定 $y$。然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度。例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值。那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题。 ### 8.1.1 变量的相关关系 我们知道,一个人的体重与他的身高有关系,一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素。像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为**相关关系** (correlation)。 两个变量具有相关关系的事例在现实中大量存在,例如: 1. 子女身高 $y$ 与父亲身高 $x$ 之间的关系。一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮,但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高。 2. 商品销售收入 $y$ 与广告支出 $x$ 之间的关系。一般来说,广告支出越多,商品销售收入越高。但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关。 3. 空气污染指数 $y$ 与汽车保有量 $x$ 之间的关系。一般来说,汽车保有量增加,空气污染指数会上升,但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业废气排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素。 4. 粮食亩产量 $y$ 与施肥量 $x$ 之间的关系。在一定范围内,施肥量越大,粮食亩产量就越高。但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。 因为在相关关系中,变量 $y$ 的值不能随变量 $x$ 的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系。对上述各例中两个变量之间的相关关系,我们 往往会根据自己以往积累的经验作出推断,“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足。例如,不同经验的人对同一情形可能会得出不同结论,不是所有的情形都有经验可循等,因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断。 ## 探究 在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表8.1-1所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据。 **表 8.1-1** | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | :----------- | :-- | :--- | :--- | :--- | :--- | :--- | :--- | | 年龄/岁 | 23 | 27 | 39 | 41 | 45 | 49 | 50 | | 脂肪含量/% | 9.5 | 17.8 | 21.2 | 25.9 | 27.5 | 26.3 | 28.2 | | 编号 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | | :----------- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 年龄/岁 | 53 | 54 | 56 | 57 | 58 | 60 | 61 | | 脂肪含量/% | 29.6 | 30.2 | 31.4 | 30.8 | 33.5 | 35.2 | 34.6 | 根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗? 为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征。用横轴表示年龄,纵轴表示脂肪含量,则表 8.1-1 中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如图 8.1-1所示的统计图,我们把这样的统计图叫做**散点图** (*scatter plot*)。 [图片描述:该图是一个散点图,展示了人体脂肪含量与年龄之间的关系。水平X轴代表年龄,单位为“岁”,范围从15到65。垂直Y轴代表脂肪含量,单位为“%”,范围从0到40。图中的各个点代表了不同编号个体对应的年龄和脂肪含量数据。这些点大致沿一条从图表左下角延伸到右上角的趋势线分布,清晰地表明随着年龄的增长,脂肪含量总体上呈现出增加的趋势。|标题:图8.1-1|图片编号:1] > 利用统计软件画散点图,有些电子表格软件可以通过插入图表,从图表类型中选取散点图;R软件可以用函数 plot。 观察图 8.1-1,可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增加的趋势,这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系。 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量**正相关** (positive correlation);当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量**负相关** (negative correlation)。 由图8.1-1,能够推断脂肪含量与年龄这两个变量正相关。 > ③ **思考** > (1) 两个变量负相关时,成对样本数据的散点图有什么特点? > (2) 你能举出生活中两个变量正相关或负相关的一些例子吗? 散点图是描述成对数据之间关系的一种直观方法。观察散点图 8.1-1,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在某条直线附近。一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量**线性相关**。 观察散点图 8.1-2,我们发现:图(1)中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;类似地,图(2)中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;图(3)中的散点杂乱无章,无规律可言,看不出这两个变量有什么相关性。 [图片描述:该图包含三个散点图,分别展示了不同类型的变量关系。每个散点图都有X轴(从0到14)和Y轴(从0到12)的刻度。 (1) 第一个散点图显示数据点沿着一条向上弯曲的曲线分布,表示变量之间存在非线性正相关关系。 (2) 第二个散点图显示数据点先是下降后又上升,形成一个U形或折线状分布,表示变量之间存在相关性,但既非正相关也非负相关。 (3) 第三个散点图中的数据点分布散乱,没有明显的趋势或规律,表明变量之间没有可识别的相关性。|标题:图8.1-2|图片编号:图1] 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量**非线性相关**或**曲线相关**。 ### 练习 1. 举例说明什么叫相关关系,相关关系与函数关系有什么区别? 2. 根据下面的散点图,推断图中的两个变量是否存在相关关系。 [图片描述: 散点图,横轴表示 $x$,纵轴表示 $y$。数据点从左上角到右下角分布,呈现明显的负相关线性趋势。|标题: 散点图 (1)|图片编号: 1] [图片描述: 散点图,横轴表示 $x$,纵轴表示 $y$。数据点先上升后下降,呈现非线性(抛物线状)关系。|标题: 散点图 (2)|图片编号: 2] [图片描述: 散点图,横轴表示 $x$,纵轴表示 $y$。数据点随机分布,没有明显的线性或非线性关系。|标题: 散点图 (3)|图片编号: 3] [图片描述: 散点图,横轴表示 $x$,纵轴表示 $y$。数据点从左下角到右上角分布,呈现明显的正相关线性趋势。|标题: 散点图 (4)|图片编号: 4] (第2题) 3. 下表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类数与海拔高度是否存在相关关系?如果是,那么这种相关关系有什么特点? | 地区 | A | B | C | D | E | F | G | H | I | J | K | | :--------- | :--- | :--- | :--- | :-- | :-- | :-- | :-- | :-- | :--- | :-- | :-- | | 海拔高度/m | 1250 | 1158 | 1067 | 457 | 701 | 731 | 610 | 670 | 1493 | 762 | 549 | | 鸟的种类/种 | 36 | 30 | 37 | 11 | 11 | 13 | 17 | 13 | 29 | 4 | 15 | --- ### 8.1.2 样本相关系数 通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等。散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小。能否像引入均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢? 对于变量 $x$ 和变量 $y$,设经过随机抽样获得的成对样本数据为 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$,其中 $x_1, x_2, \dots, x_n$ 和 $y_1, y_2, \dots, y_n$ 的均值分别为 $\bar{x}$ 和 $\bar{y}$。为了刻画每个变量的观测数据相对其均值的增减情况,将每个变量的观测数据减去其均值,得到成对数据为 $(x_1 - \bar{x}, y_1 - \bar{y}), (x_2 - \bar{x}, y_2 - \bar{y}), \dots, (x_n - \bar{x}, y_n - \bar{y})$, 并绘制散点图。 利用上述方法处理表8.1-1中的数据,得到图8.1-3.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的. [图片描述:一个散点图,显示了数据点在坐标系中的分布,大部分点位于第一象限和第三象限,表明变量之间存在正相关关系。x轴从-30到15,y轴从-20到10。|标题:图8.1-3|图片1] 一般地,如果变量$x$和$y$正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图 8.1-4(1)所示;如果变量$x$和$y$负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图8.1-4(2)所示. [图片描述:包含两个散点图的并排图像。左侧的图(1)展示了变量正相关时数据点在第一象限和第三象限的分布,右侧的图(2)展示了变量负相关时数据点在第二象限和第四象限的分布。两个图均以原点O为中心。|标题:图8.1-4|图片2] > **💡 思考** > > 根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗? 从上述讨论得到启发,利用散点$(x_i-\bar{x}, y_i-\bar{y}) (i=1, 2, \dots, n)$的横、纵坐标是否同号,可以构造一个量 $L_{xy} = \frac{1}{n} [(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\dots+(x_n-\bar{x})(y_n-\bar{y})]$ 一般情形下,$L_{xy} \geq 0$表明成对样本数据正相关;$L_{xy} < 0$表明成对样本数据负相关. > **? 思考** > 你认为 $L_{xy}$ 的大小一定能度量出成对样本数据的相关程度吗? 因为 $L_{xy}$ 的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小。例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的 $L_{xy}$ 将变为原来的 100 倍,但单位的改变并不会导致体重与身高之间相关程度的改变。 为了消除度量单位的影响,需要对数据作进一步的“标准化”处理。我们用 $s_x = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2}$, $s_y = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2}$ 分别除 $x_i - \bar{x}$ 和 $y_i - \bar{y}$ ($i=1, 2, \dots, n$),得 $(\frac{x_1-\bar{x}}{s_x}, \frac{y_1-\bar{y}}{s_y})$, $(\frac{x_2-\bar{x}}{s_x}, \frac{y_2-\bar{y}}{s_y})$, ..., $(\frac{x_n-\bar{x}}{s_x}, \frac{y_n-\bar{y}}{s_y})$. 为简单起见,把上述“标准化”处理后的成对数据分别记为 $(x'_1, y'_1)$, $(x'_2, y'_2)$, ..., $(x'_n, y'_n)$, 仿照 $L_{xy}$ 的构造,可以得到 $r = \frac{1}{n}(x'_1 y'_1 + x'_2 y'_2 + \dots + x'_n y'_n)$ $$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} \tag{1}$$ 我们称 $r$ 为变量 $x$ 和变量 $y$ 的**样本相关系数** (sample correlation coefficient)。 这样,我们利用成对样本数据构造了样本相关系数 $r$。样本相关系数 $r$ 是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征: 当 $r>0$ 时,称成对样本数据正相关。这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。 当 $r<0$ 时,称成对样本数据负相关。这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小。 那么,样本相关系数 $r$ 的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下 $r$ 的取值范围。 观察 $r$ 的结构,联想到二维 (平面) 向量、三维 (空间) 向量数量积的坐标表示,我们将向量的维数推广到 $n$ 维,$n$ 维向量 $\mathbf{a}, \mathbf{b}$ 的数量积仍然定义为 $\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}||\mathbf{b}| \cos \theta$, 其中 $\theta$ 为向量 $\mathbf{a}, \mathbf{b}$ 的夹角。类似于平面或空间向量的坐标表示,对于向量 $\mathbf{a}=(a_1, a_2,$ ..., $a_n$) 和 $\mathbf{b}=(b_1, b_2, \dots, b_n)$,我们有 $$ \mathbf{a} \cdot \mathbf{b} = a_1 b_1 + a_2 b_2 + \dots + a_n b_n $$ 设“标准化”处理后的成对数据 $(x'_1, y'_1), (x'_2, y'_2), \dots, (x'_n, y'_n)$ 的第一分量构成 $n$ 维向量 $$ \mathbf{x}' = (x'_1, x'_2, \dots, x'_n), $$ 第二分量构成 $n$ 维向量 $$ \mathbf{y}' = (y'_1, y'_2, \dots, y'_n), $$ 则有 $$ r = \frac{1}{n} \mathbf{x}' \cdot \mathbf{y}' = \frac{1}{n} |\mathbf{x}'| |\mathbf{y}'| \cos \theta. $$ 因为 $|\mathbf{x}'| = |\mathbf{y}'| = \sqrt{n}$,所以样本相关系数 $$ r = \cos \theta, $$ 其中 $\theta$ 为向量 $\mathbf{x}'$ 和向量 $\mathbf{y}'$ 的夹角。 由 $-1 \le \cos \theta \le 1$,可知 $$ -1 \le r \le 1. $$ > [!QUESTION] 思考 > 当 $|r|=1$ 时,成对样本数据之间具有怎样的关系呢? 当 $|r|=1$ 时,$r = \cos \theta$ 中的 $\theta=0$ 或 $\pi$,向量 $\mathbf{x}'$ 和 $\mathbf{y}'$ 共线。由向量的知识可知,存在实数 $\lambda$,使得 $\mathbf{y}' = \lambda \mathbf{x}'$,即 $$ \frac{y_i - \bar{y}}{s_y} = \lambda \frac{x_i - \bar{x}}{s_x}, \quad i = 1, 2, \dots, n. $$ 这表明成对样本数据 $(x_i, y_i)$ 都落在直线 $$ y - \bar{y} = \frac{\lambda s_y}{s_x} (x - \bar{x}) $$ 上。这时,成对样本数据的两个分量之间满足一种线性关系。 > 样本相关系数 $r$ 有时也称样本线性相关系数,$|r|$ 刻画了样本点集中于某条直线的程度。当 $r=0$ 时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系。 由此可见,样本相关系数 $r$ 的取值范围为 $[-1, 1]$。 样本相关系数 $|r|$ 的绝对值大小可以反映成对样本数据之间线性相关的程度: * 当 $|r|$ 越接近 $1$ 时,成对样本数据的线性相关程度越强; * 当 $|r|$ 越接近 $0$ 时,成对样本数据的线性相关程度越弱。 图8.1-5是不同成对样本数据的散点图和相应的样本相关系数。图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数 $r=0.97$,表明成对样本数据的正线性相关程度很强。图(2)中的散点有明 显的从左上角到右下角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;样本相关系数$r = -0.85$,表明成对样本数据的负线性相关程度比较强。从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱。 [图片描述:四幅散点图展示了不同强度的线性相关关系。 图(1):散点图显示数据点紧密地沿着一条向上倾斜的直线分布,表示非常强的正线性相关。样本相关系数$r=0.97$。 图(2):散点图显示数据点较为紧密地沿着一条向下倾斜的直线分布,表示较强的负线性相关。样本相关系数$r=-0.85$。 图(3):散点图显示数据点较为分散,但隐约可见微弱的向上趋势,表示弱的正线性相关。样本相关系数$r=0.24$。 图(4):散点图显示数据点高度分散,没有明显的线性趋势,表示极弱的线性相关。样本相关系数$r=-0.05$。|标题:图8.1-5 样本相关系数与散点图|图片编号:图1] 综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数$r$可以反映两个随机变量之间的线性相关程度:$r$的符号反映了相关关系的正负性;$|r|$的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度。 在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,我们可以利用这两个变量取值的所有成对数据,通过公式(1)就可以计算出两个变量的相关系数。例如,要确切了解脂肪含量$y$与年龄$x$的线性相关程度,需要调查所有人的年龄及其脂肪含量,再将得到的成对数据代入公式(1),计算出相关系数。这个相关系数就能确切地反映变量之间的相关程度。 不过,在实际中,获得总体中所有的成对数据往往是不容易的。因此,我们还是要用样本估计总体的思想来解决问题,也就是说,我们先要通过抽样获取两个变量的一些成对样本 数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度。对于简单随机样本而言,样本具有随机性,因此样本相关系数 $r$ 也具有随机性。一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好。 **例1** 根据表8.1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度。 **解:** 先画出散点图,[图片描述:一个展示脂肪含量和年龄之间关系的散点图,样本点集中在一条直线附近。|标题:图8.1-1 脂肪含量与年龄散点图|图片编号:1]所示。观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关。 根据样本相关系数的定义, $$ r = \frac{\sum_{i=1}^{14}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{14}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{14}(y_i - \bar{y})^2}} = \frac{\sum_{i=1}^{14}x_iy_i - 14\bar{x}\bar{y}}{\sqrt{\sum_{i=1}^{14}x_i^2 - 14\bar{x}^2}\sqrt{\sum_{i=1}^{14}y_i^2 - 14\bar{y}^2}} \quad ① $$ 利用计算工具计算可得 $\bar{x} \approx 48.07, \bar{y} \approx 27.26, \sum_{i=1}^{14}x_iy_i = 19403.2,$ $\sum_{i=1}^{14}x_i^2 = 34181, \sum_{i=1}^{14}y_i^2 = 11051.77.$ 利用统计软件计算样本相关系数,有些电子表格软件用函数 CORREL;R 软件用函数 cor。 代入①式,得 $$ r \approx \frac{19403.2 - 14 \times 48.07 \times 27.26}{\sqrt{34181 - 14 \times 48.07^2} \times \sqrt{11051.77 - 14 \times 27.26^2}} \approx 0.97. $$ 由样本相关系数 $r \approx 0.97$,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。 **例2** 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与 A 商品销售额的10年数据,如表8.1-2所示。 表 8.1-2 | 第 $n$ 年 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | | :----------------- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 居民年收入/亿元 | 32.2 | 31.1 | 32.9 | 35.8 | 37.1 | 38.0 | 39.0 | 43.0 | 44.6 | 46.0 | | A 商品销售额/万元 | 25.0 | 30.0 | 34.0 | 37.0 | 39.0 | 41.0 | 42.0 | 44.0 | 48.0 | 51.0 | 画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断 A 商品销售额与居民年收入的相关程度和变化趋势的异同。 **解:** 画出成对样本数据的散点图,[图片描述:一个展示城市居民年收入和A商品销售额之间关系的散点图,样本数据呈现出线性相关关系。|标题:图8.1-6 居民年收入与A商品销售额散点图|图片编号:2]所示。从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系。 [图片描述:该散点图展示了A商品销售额与居民年收入之间的关系。横轴代表居民年收入(单位:亿元),刻度从30到50;纵轴代表A商品销售额(单位:万元),刻度从20到55。图中共描绘了7个数据点,这些点从左下到右上呈现出明显的上升趋势,表明A商品销售额随居民年收入的增加而增加,两者之间存在显著的正相关关系。这有助于学生理解如何通过散点图初步判断两个变量之间的相关性。|标题:图8.1-6|图片编号:1] 由样本数据计算得样本相关系数 $r \approx 0.95$. 由此可以推断, A商品销售额与居民年收入正线性相关, 即A商品销售额与居民年收入有相同的变化趋势, 且相关程度很强. **例3** 在某校高一年级中随机抽取25名男生, 测得他们的身高、体重、臂展等数据, 如表 8.1-3所示. 表 8.1-3 | 编号 | 身高/cm | 体重/kg | 臂展/cm | |---|---|---|---| | 1 | 173 | 55 | 169 | | 2 | 179 | 71 | 170 | | 3 | 175 | 52 | 172 | | 4 | 179 | 62 | 177 | | 5 | 182 | 82 | 174 | | 6 | 173 | 63 | 166 | | 7 | 180 | 55 | 174 | | 8 | 170 | 81 | 169 | | 9 | 169 | 54 | 166 | | 10 | 177 | 54 | 176 | | 11 | 177 | 59 | 170 | | 12 | 178 | 67 | 174 | | 13 | 174 | 56 | 170 | | 14 | 166 | 66 | 161 | | 15 | 176 | 61 | 166 | | 16 | 176 | 49 | 165 | | 17 | 175 | 60 | 173 | | 18 | 169 | 48 | 162 | | 19 | 184 | 86 | 189 | | 20 | 169 | 58 | 164 | | 21 | 182 | 54 | 170 | | 22 | 171 | 58 | 164 | | 23 | 177 | 61 | 173 | | 24 | 173 | 58 | 165 | | 25 | 173 | 51 | 169 | 体重与身高、臂展与身高分别具有怎样的相关性? **解**: 根据样本数据画出体重与身高、臂展与身高的散点图, 分别如图 8.1-7(1)和(2)所示, 两个散点图都呈现出线性相关的特征. [图片描述:该图包含两个并列的散点图,用于分析学生身高与体重、身高与臂展之间的关系。 左侧散点图(标记为(1))展示了体重(纵轴,单位:kg,刻度从40到90)与身高(横轴,单位:cm,刻度从165到185)的关系。图中的数据点广泛分布,但总体趋势是从左下到右上倾斜,表明身高与体重之间存在正向相关性,即身高较高的学生通常体重也较大。 右侧散点图(标记为(2))展示了臂展(纵轴,单位:cm,刻度从155到190)与身高(横轴,单位:cm,刻度从165到185)的关系。图中的数据点同样呈现出从左下到右上的趋势,表明身高与臂展之间也存在正向相关性,即身高较高的学生通常臂展也较长。 这两个散点图直观地展示了人体测量数据中的线性相关特征,是统计学中分析变量关系的典型示例。|标题:图8.1-7|图片编号:2] 通过计算得到体重与身高、臂展与身高的样本相关系数分别约为 $0.34$ 和 $0.78$,都为正线性相关,其中,臂展与身高的相关程度更高。 ## 练习 1. 由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系? 为什么? 2. 已知变量 $x$ 和变量 $y$ 的3对随机观测数据 $(2,2)$, $(3, -1)$, $(5, -7)$,计算成对样本数据的样本相关系数。能据此推断这两个变量线性相关吗? 为什么? 3. 画出下列成对数据的散点图,并计算样本相关系数,据此,请你谈谈样本相关系数在刻画成对样本数据相关关系上的特点。 (1) $(-2,-3)$, $(-1,-1)$, $(0, 1)$, $(1, 3)$, $(2, 5)$, $(3, 7)$; (2) $(0,0)$, $(1, 1)$, $(2, 4)$, $(3,9)$, $(4, 16)$; (3) $(-2,-8)$, $(-1,-1)$, $(0,0)$, $(1, 1)$, $(2, 8)$, $(3,27)$; (4) $(2,0)$, $(1, \sqrt{3})$, $(0, 2)$, $(-1, \sqrt{3})$, $(-2,0)$。 4. 随机抽取7家超市,得到其广告支出与销售额数据如下: | 超市 | A | B | C | D | E | F | G | | :--------- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | | 广告支出/万元 | 1 | 2 | 4 | 6 | 10 | 14 | 20 | | 销售额/万元 | 19 | 32 | 44 | 40 | 52 | 53 | 54 | 请推断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征。 ## 习题 8.1 ### 复习巩固 1. 在以下4幅散点图中,推断哪些图中的 $y$ 和 $x$ 之间存在相关关系? 其中哪些正相关,哪些负相关? 哪些图所对应的成对样本数据呈现出线性相关关系? 哪些图所对应的成对样本数据呈现出非线性相关关系? [图片描述:左侧散点图显示数据点随机分布,没有明显的线性或非线性模式,x轴从-3到2,y轴从-2到2,数据点在平面上呈圆形散布。|标题:(1)|图片1] [图片描述:右侧散点图显示数据点从左下到右上呈上升趋势,表明存在正线性相关关系,x轴从-3到2,y轴从-2到2,数据点大致围绕一条斜率为正的直线分布。|标题:(2)|图片2] [图片描述:散点图,显示x增加时y大致呈下降趋势,各点围绕一个负斜率的直线散布。x轴范围为-3到2,y轴范围为-2到2。|标题:图 (3) 散点图|图片编号:1] [图片描述:散点图,显示x增加时y大致呈上升趋势,且上升速度加快,呈非线性关系(可能为指数型增长)。x轴范围为-3到2,y轴范围为-2到2。|标题:图 (4) 散点图|图片编号:2] (第1题) ## 综合运用 2. 随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行调查,所得数据如下: | 航空公司编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | | :----------- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 航班正点率/% | 81.8 | 76.8 | 76.6 | 75.7 | 73.8 | 72.2 | 71.2 | 70.8 | 91.4 | 68.5 | | 顾客投诉/次 | 21 | 58 | 85 | 68 | 74 | 93 | 72 | 122 | 18 | 125 | 顾客投诉次数和航班正点率之间是否呈现出线性相关关系?它们之间的相关程度如何?变化趋势有何特征? 3. 根据物理中的胡克定律,在弹性限度内,弹簧伸长的长度与所受的外力成正比,在弹性限度内,测得一根弹簧伸长长度 $x$ 和相应所受外力 $F$ 的一组数据如下: | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | $x$/cm | 1 | 1.2 | 1.4 | 1.6 | 1.8 | 2.0 | 2.2 | 2.4 | 2.8 | 3.0 | | $F$/N | 3.08 | 3.76 | 4.31 | 5.02 | 5.51 | 6.25 | 6.74 | 7.40 | 8.54 | 9.24 | 两个变量的样本相关系数是否为1?请你解释其中的原因. ## 拓广探索 4. 某地区的环境条件适合天鹅栖息繁衍,有人发现了一个有趣的现象,该地区有5个村庄,其中3个村庄附近栖息的天鹅较多,婴儿出生率也较高;2个村庄附近栖息的天鹅较少,婴儿的出生率也较低,有人认为婴儿出生率和天鹅数之间存在相关关系,并得出一个结论:天鹅能够带来孩子,你同意这个结论吗?为什么? ## 8.2 一元线性回归模型及其应用 通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等。进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测。 下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题。 ### 8.2.1 一元线性回归模型 生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高。为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生的身高及其父亲的身高,得到的数据如表8.2-1所示。 **表 8.2-1** | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | | :---------- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | | 父亲身高/cm | 174 | 170 | 173 | 169 | 182 | 172 | 180 | 172 | 168 | 166 | 182 | 173 | 164 | 180 | | 儿子身高/cm | 176 | 176 | 170 | 170 | 185 | 176 | 178 | 174 | 170 | 168 | 178 | 172 | 165 | 182 | 利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表8.2-1中的成对样本数据表示为散点图,如图8.2-1所示。可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关,利用统计软件,求得样本相关系数为$r \approx 0.886$,表明儿子身高和父亲身高正线性相关,且相关程度较高。 [图片描述: 该散点图展示了14名男大学生的儿子身高与父亲身高的数据。横轴表示父亲身高(单位:cm),范围从160cm到185cm;纵轴表示儿子身高(单位:cm),范围从160cm到190cm。图中可见散点大致沿一条从左下角到右上角的趋势分布,显示出正向的线性相关关系。|标题: 图8.2-1|图片编号: 1] > **思考** > > 根据表 8.2-1 中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗? 在表 8.2-1 的数据中,存在父亲身高相同,而儿子身高不同的情况。例如,第6个和第8个观测的父亲身高均为172 cm,而对应的儿子身高分别为176 cm 和174 cm;同样,第3,4两个观测中,儿子身高都是170 cm,而父亲身高分别为173 cm 和169 cm。可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画。 图 8.2-1 中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型。其中,随机误差是一个随机变量。 用 $x$ 表示父亲身高,$Y$ 表示儿子身高,$e$ 表示随机误差。假定随机误差 $e$ 的均值为0,方差为与父亲身高无关的定值 $\sigma^2$,则它们之间的关系可以表示为 $$\begin{cases} Y=bx+a+e, \\ E(e)=0, D(e)=\sigma^2. \end{cases}$$ (1) > ? > 为什么假设 $E(e)=0$,而不假设其为某个不为0的常数? 我们称(1)式为 $Y$ 关于 $x$ 的**一元线性回归模型** (simple linear regression model)。其中,$Y$ 称为**因变量**或**响应变量**,$x$ 称为**自变量**或**解释变量**;$a$ 和 $b$ 为模型的未知参数,$a$ 称为截距参数,$b$ 称为斜率参数;$e$ 是 $Y$ 与 $bx+a$ 之间的随机误差。模型中的 $Y$ 也是随机变量,其值虽然不能由变量 $x$ 的值确定,但是却能表示为 $bx+a$ 与 $e$ 的和(叠加),前一部分由 $x$ 所确定,后一部分是随机的。如果 $e=0$,那么 $Y$ 与 $x$ 之间的关系就可用一元线性函数模型来描述。 对于父亲身高 $x_i$ 和儿子身高 $Y_i$ 的一元线性回归模型(1),可以解释为父亲身高为 $x_i$ 的所有男大学生的身高组成一个子总体,该子总体的均值为 $bx_i+a$,即该子总体的均值与父亲身高是线性函数关系,而对于父亲身高为 $x_i$ 的某一名男大学生,他的身高 $y_i$ 并不一定为 $bx_i+a$,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项 $e_i=y_i-(bx_i+a)$。 ### ③ 思考 你能结合具体实例解释产生模型(1)中随机误差项的原因吗? 在研究儿子身高与父亲身高的关系时,产生随机误差 $e$ 的原因有: (1) 除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等; (2) 在测量儿子身高时,由于测量工具、测量精度所产生的测量误差; (3) 实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差 $e$ 的原因。 ## 练习 1. 说明函数模型与回归模型的区别,并分别举出两个应用函数模型和回归模型的例子。 2. 在一元线性回归模型(1)中,参数 $b$ 的含义是什么? 3. 将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系吗? --- ## 8.2.2 一元线性回归模型参数的最小二乘估计 在一元线性回归模型中,表达式 $Y=bx+a+e$ 刻画的是变量 $Y$ 与变量 $x$ 之间的线性相关关系,其中参数 $a$ 和 $b$ 未知,需要根据成对样本数据进行估计。由模型的建立过程可知,参数 $a$ 和 $b$ 刻画了变量 $Y$ 与变量 $x$ 的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近。 > **探究** > > 利用散点图8.2-1找出一条直线,使各散点在整体上与此直线尽可能接近。 有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置。测量出此时的斜率和截距,就可得到一条直线,如图8.2-2所示。 [图片描述: 这是一个散点图,横轴表示“父亲身高/cm”,纵轴表示“儿子身高/cm”,数值范围均从160到190。图中有多个散点,表示父亲身高与儿子身高的配对数据。一条斜向上方的直线穿过这些散点,大致呈现线性趋势,这条直线似乎是经过拟合或通过测量方法找到的,以使散点尽可能接近该直线。|标题: 图8.2-2|图片编号: 图1] [图片描述: 这是一个散点图,横轴表示“父亲身高/cm”,纵轴表示“儿子身高/cm”,数值范围均从160到190。图中有多个散点,表示父亲身高与儿子身高的配对数据。一条斜向上方的直线穿过这些散点,该直线似乎是通过选择图中的两个特定点连接而成,并且使得直线两侧的点的个数大致相等。|标题: 图8.2-3|图片编号: 图2] 有的同学可能会想,可以在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图8.2-3 所示。 还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图 8.2-4 所示。 同学们不妨去实践一下,看看这些方法是不是真的可行。 上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径。 先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”。 [图片描述: 散点图显示了儿子身高(y轴,160-190cm)与父亲身高(x轴,160-185cm)的对应关系。图中有多个数据点,并绘制了两条不同颜色的直线(一条黑色,一条品红色),试图拟合这些数据点。|标题: 儿子身高与父亲身高的散点图|图1] 图 8.2-4 通常,我们会想到利用点到直线$y=bx+a$的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度。我们设满足一元线性回归模型的两个变量的$n$对样本数据为$(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$,由$y_i=bx_i+a+e_i$ ($i=1, 2, \dots, n$),得 $|y_i-(bx_i+a)|=|e_i|$. 显然$|e_i|$越小,表示点$(x_i, y_i)$与点$(x_i, bx_i+a)$的“距离”越小,即样本数据点离直线$y=bx+a$的竖直距离越小,如图 8.2-5 所示。特别地,当$e_i=0$时,表示点$(x_i, y_i)$在这条直线上。 [图片描述: 散点图显示了儿子身高(y轴,160-190cm)与父亲身高(x轴,160-185cm)的对应关系。图中有多个数据点和一条蓝色的回归直线。图中通过垂直箭头清晰地展示了每个数据点到回归直线的竖直距离(残差)。|标题: 散点图与数据点到直线的竖直距离|图2] 图 8.2-5 因此,可以用这$n$个竖直距离之和 $\sum_{i=1}^{n} |y_i - (bx_i + a)|$ 来刻画各样本观测数据与直线$y=bx+a$的“整体接近程度”。 在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和 $Q=\sum_{i=1}^{n} (y_i - bx_i - a)^2$ 来刻画“整体接近程度”。 在上式中,$x_i, y_i$ ($i=1, 2, 3, \dots, n$)是已知的成对样本数据,所以$Q$由$a$和$b$所决定,即它是$a$和$b$的函数。因为$Q$还可以表示为$\sum_{i=1}^{n} e_i^2$,即它是随机误差的平方和,这个和当然越小越好,所以我们取使$Q$达到最小的$a$和$b$的值,作为截距和斜率的估计值。 下面利用成对样本数据求使$Q$取最小值的$a, b$。 记 $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$, $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$. 因为 $Q(a, b) = \sum_{i=1}^{n}(y_i-bx_i-a)^2$ $$ \begin{aligned} &= \sum_{i=1}^{n} [y_i-bx_i - (\bar{y} - \bar{b}\bar{x}) + (\bar{y} - \bar{b}\bar{x}) - a]^2 \\ &= \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x}) + (\bar{y} - \bar{b}\bar{x}) - a]^2 \\ &= \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x})]^2 + 2\sum_{i=1}^{n}[(y_i - \bar{y}) - b(x_i - \bar{x})] \times \\ & \quad [(\bar{y}-\bar{b}\bar{x}) - a] + n [(\bar{y}-\bar{b}\bar{x}) - a]^2, \end{aligned} $$ 注意到 $$ \begin{aligned} & \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x})](\bar{y}-\bar{b}\bar{x} - a) \\ &= (\bar{y}-\bar{b}\bar{x}-a) \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x})] \\ &= (\bar{y}-\bar{b}\bar{x}-a)[\sum_{i=1}^{n}(y_i-\bar{y}) - b\sum_{i=1}^{n}(x_i-\bar{x})] \\ &= (\bar{y}-\bar{b}\bar{x}-a)[(n\bar{y} - n\bar{y}) - b(n\bar{x} - n\bar{x})] \\ &= 0, \end{aligned} $$ 所以 $$Q(a, b) = \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x})]^2 + n(\bar{y} - \bar{b}\bar{x} - a)^2.$$ 上式右边各项均为非负数, 且前 $n$ 项与 $a$ 无关, 所以, 要使 $Q$ 取到最小值, $n(\bar{y} - \bar{b}\bar{x} - a)^2$ 的值应为 $0$, 即 $a=\bar{y}-\bar{b}\bar{x}$. 此时 $$ \begin{aligned} Q(a, b) &= \sum_{i=1}^{n} [(y_i - \bar{y}) - b(x_i - \bar{x})]^2 \\ &= b^2\sum_{i=1}^{n} (x_i - \bar{x})^2 - 2b \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) + \sum_{i=1}^{n} (y_i - \bar{y})^2. \end{aligned} $$ 上式是关于 $b$ 的二次函数, 因此要使 $Q$ 取得最小值, 当且仅当 $b$ 的取值为 $$\hat{b} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}.$$ 综上, 当 $a,b$ 的取值为 $$ \begin{cases} \hat{b} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \\ \hat{a} = \bar{y} - \hat{b}\bar{x} \end{cases} \quad (2) $$ 时, $Q$ 达到最小. 我们将$y=\hat{b}x+\hat{a}$称为$Y$关于$x$的**经验回归方程**,也称**经验回归函数**或**经验回归公式**,其图形称为**经验回归直线**。这种求经验回归方程的方法叫做**最小二乘法**①,求得的$\hat{b}, \hat{a}$叫做$b, a$的**最小二乘估计** (least squares estimate)。 > **①** 这里的“二乘”是平方的意思。 对于表 8.2-1 中的数据,利用公式(2)可以计算出$\hat{b}=0.839, \hat{a}=28.957$,得到儿子身高$Y$关于父亲身高$x$的经验回归方程为 $$ \hat{y}=0.839x+28.957 $$ 相应的经验回归直线如图 8.2-6 所示。 [图片描述: 散点图显示了父亲身高(x轴,单位cm)与儿子身高(y轴,单位cm)之间的关系。x轴范围从160到185 cm,y轴范围从160到190 cm。图中有多个数据点(橙色圆点)呈正相关分布。一条蓝色的回归直线穿过这些数据点,其方程为 $\hat{y}=0.839x+28.957$,直观地展示了这种线性关系。|标题: 儿子身高与父亲身高的经验回归直线|图片编号: 1] > 利用统计软件求经验回归模型,有些电子表格软件可以用数据分析中的“回归”分析工具或通过“添加趋势线”得到;R软件可以用函数 `lm` 计算参数的最小二乘估计结果。 ## 思考 当$x=176$时,$\hat{y} \approx 177$。如果一位父亲的身高为176 cm,他儿子长大成人后的身高一定是177 cm吗?为什么? 显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高。不过,我们可以作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右。 实际上,如果把这所学校父亲身高为176 cm的所有儿子身高作为一个子总体,那么177 cm是这个子总体的均值的估计值。 > 英国著名统计学家高尔顿 (F. Galton, 1822—1911) 把这种后代的身高向中间值靠近的趋势称为“回归现象”,后来,人们把由一个或多个变量的变化去推测另一个变量的变化的方法称为回归分析。 这里的经验回归方程$\hat{y}=0.839x+28.957$,其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839 cm。分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如 $$ x=185(\text{cm}) \text{,则} \hat{y}=184.172(\text{cm}) $$ 矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如 > 根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲的平均身高一样?你怎么看这个判断? $x=170(\text{cm})$, 则 $\hat{y}=171.587(\text{cm})$. 对于响应变量Y,通过观测得到的数据称为**观测值**,通过经验回归方程得到的$\hat{y}$称为**预测值**,观测值减去预测值所得的差称为**残差**。残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为**残差分析**。 例如,对于表8.2-1中的第6个观测,父亲身高为172cm,其儿子身高的观测值为 $y_6=176(\text{cm})$, 预测值为 $\hat{y}_6=0.839 \times 172+28.957=173.265(\text{cm})$, 残差为 $176-173.265=2.735(\text{cm})$. 类似地,可以得到其他的残差,如表8.2-2所示。 **表 8.2-2** | 编号 | 父亲身高/cm | 儿子身高观测值/cm | 儿子身高预测值/cm | 残差/cm | |---|---|---|---|---| | 1 | 174 | 176 | 174.943 | 1.057 | | 2 | 170 | 176 | 171.587 | 4.413 | | 3 | 173 | 170 | 174.104 | -4.104 | | 4 | 169 | 170 | 170.748 | -0.748 | | 5 | 182 | 185 | 181.655 | 3.345 | | 6 | 172 | 176 | 173.265 | 2.735 | | 7 | 180 | 178 | 179.977 | -1.977 | | 8 | 172 | 174 | 173.265 | 0.735 | | 9 | 168 | 170 | 169.909 | 0.091 | | 10 | 166 | 168 | 168.231 | -0.231 | | 11 | 182 | 178 | 181.655 | -3.655 | | 12 | 173 | 172 | 174.104 | -2.104 | | 13 | 164 | 165 | 166.553 | -1.553 | | 14 | 180 | 182 | 179.977 | 2.023 | 为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图8.2-7所示。 [图片描述:一个散点图,横坐标表示“父亲身高/cm”,范围从160到185;纵坐标表示“残差/cm”,范围从-5到5。图中有14个数据点,这些点随机分布在0值附近,没有表现出明显的模式或趋势,表明线性回归模型对数据拟合良好。|标题:图8.2-7 残差图|图片1] 观察表8.2-2可以看到,残差有正有负,残差的绝对值最大是4.413。观察残差的散点图可以发现,残差比较均匀地分布在横轴的两侧,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为$\sigma^2$的随机变量的观测值。可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设。 一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策。 **③ 思考** 观察图8.2-8中四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定? [图片描述:该图包含四幅散点图,展示了不同类型的残差与观测时间的关系。 子图 (1) 描述:残差(y轴)与观测时间(x轴)之间存在明显的正向线性趋势,残差值随着观测时间的增加而增大,散点形成一个斜向上的带状区域,显示出模型可能遗漏了与时间相关的线性解释变量。 子图 (2) 描述:残差(y轴)与观测时间(x轴)之间呈现出U型非线性关系,残差值先减小后增大,散点形成一个碗状或U形,提示模型可能遗漏了时间变量的非线性函数。 子图 (3) 描述:残差(y轴)的离散程度(方差)随着观测时间(x轴)的增大而显著增大,散点形成一个从左到右逐渐变宽的漏斗状,表明存在异方差性,即残差方差不恒定。 子图 (4) 描述:残差(y轴)围绕0值均匀随机分布,没有明显的趋势、模式或方差变化,残差的方差在整个观测时间范围内保持恒定,散点呈水平带状均匀分布,符合一元线性回归模型对随机误差的假设。 |标题:图8.2-8 四种类型的残差图|图片编号:图1] 根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为$\sigma^2$的随机变量的观测值。在图8.2-8中,图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大;图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,可见,在图8.2-8中,只有图(4)满足一元线性回归模型对随机误差的假设。 ## 练习 1. 对一元线性回归模型参数 $a$ 和 $b$ 的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘整体接近程度’的定义,可以得到参数 $a$ 和 $b$ 不同的估计,只要‘整体接近程度’定义合理即可。”你觉得这个说法对吗? 2. 假如女儿身高 $y$ (单位: cm) 关于父亲身高 $x$ (单位: cm) 的经验回归方程为 $y=0.81x+25.82$。已知父亲身高为 $175 \text{ cm}$,请估计女儿的身高。 3. 根据 8.1.1 节表 8.1-1 中的数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点。 4. 计算表 8.2-2 中的所有残差之和,你能发现什么规律? 5. 假设变量 $x$ 与变量 $Y$ 的 $n$ 对观测数据为 $(x_1, y_1)$, $(x_2, y_2)$, …, $(x_n, y_n)$,两个变量满足一元线性回归模型 $$ \begin{cases} Y=bx+e, \\ E(e)=0, D(e)=\sigma^2. \end{cases} $$ 请写出参数 $b$ 的最小二乘估计。 **例** 经验表明,一般树的胸径(树的主干在地面以上 $1.3 \text{ m}$ 处的直径)越大,树就越高。由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高。在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表 8.2-3),试根据这些数据建立树高关于胸径的经验回归方程。 **表 8.2-3** | 编号 | 胸径/cm | 树高/m | 编号 | 胸径/cm | 树高/m | | :--- | :------ | :----- | :--- | :------ | :----- | | 1 | 18.1 | 18.8 | 7 | 29.6 | 22.4 | | 2 | 20.1 | 19.2 | 8 | 32.4 | 22.6 | | 3 | 22.2 | 21.0 | 9 | 33.7 | 23.0 | | 4 | 24.4 | 21.0 | 10 | 35.7 | 24.3 | | 5 | 26.0 | 22.1 | 11 | 38.3 | 23.9 | | 6 | 28.3 | 22.1 | 12 | 40.2 | 24.7 | **分析:** 因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标画出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关,如果是,再利用公式 (2) 计算出 $\hat{b}$, $\hat{a}$ 即可。 **解:** 以胸径为横坐标、树高为纵坐标作散点图,得到图 8.2-9。 在图 8.2-9 中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系。 [图片描述: 散点图显示了树高(单位:m)与胸径(单位:cm)之间的关系。横轴表示胸径,范围从 15 cm 到 45 cm;纵轴表示树高,范围从 16 m 到 26 m。图中的散点大致呈现从左下角到右上角的线性趋势,表明胸径和树高之间存在正相关关系。随着胸径的增大,树高也倾向于增大。|标题: 树高与胸径的散点图|图片编号: 图8.2-9] 用$d$表示胸径,$h$表示树高,根据最小二乘法,计算可得经验回归方程为 $h=0.249 3d+14.84$, 相应的经验回归直线如图 8.2-10所示。 [图片描述:一个散点图,显示了树高(Y轴,单位m,范围从16到26)与胸径(X轴,单位cm,范围从15到45)的关系。图中有多个红色数据点和一个蓝色的线性回归线,回归方程为$h=0.249 3d+14.84$。|标题:树高与胸径的经验回归直线图|图1] 根据经验回归方程,由表 8.2-3 中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示。 **表 8.2-4** | 编号 | 胸径/cm | 树高观测值/m | 树高预测值/m | 残差/m | | :-- | :------ | :----------- | :----------- | :----- | | 1 | 18.1 | 18.8 | 19.4 | -0.6 | | 2 | 20.1 | 19.2 | 19.9 | -0.7 | | 3 | 22.2 | 21.0 | 20.4 | 0.6 | | 4 | 24.4 | 21.0 | 20.9 | 0.1 | | 5 | 26.0 | 22.1 | 21.3 | 0.8 | | 6 | 28.3 | 22.1 | 21.9 | 0.2 | | 7 | 29.6 | 22.4 | 22.2 | 0.2 | | 8 | 32.4 | 22.6 | 22.9 | -0.3 | | 9 | 33.7 | 23.0 | 23.2 | -0.2 | | 10 | 35.7 | 24.3 | 23.7 | 0.6 | | 11 | 38.3 | 23.9 | 24.4 | -0.5 | | 12 | 40.2 | 24.7 | 24.9 | -0.2 | 以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11。 [图片描述:一个残差散点图,显示了残差(Y轴,单位m,范围从-1.0到1.0)与胸径(X轴,单位cm,范围从15到45)的关系。图中的红色数据点分布在以Y轴的0刻度线为中心线,宽度约为2的带状区域内,最大绝对残差为0.8。|标题:残差图|图2] 观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内。可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高。 **问题** 人们常将男子短跑100m的高水平运动员称为“百米飞人”。表 8.2-5 给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据。试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程。 **表 8.2-5** | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | | :----- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | | **年份** | 1896 | 1912 | 1921 | 1930 | 1936 | 1956 | 1960 | 1968 | | **纪录/s** | 11.80 | 10.60 | 10.40 | 10.30 | 10.20 | 10.10 | 10.00 | 9.95 | 以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图 8.2-12。 [图片描述:展示了男子短跑100米世界纪录随年份变化的散点图。横轴是年份(从1890到1970),纵轴是纪录时间(单位:秒,从9.5到12.0)。图中包含8个数据点,显示世界纪录时间随年份的增加而逐渐减少。|标题:图8.2-12|图片编号:1] 在图 8.2-12 中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程。 用$Y$表示男子短跑100m的世界纪录,$t$表示纪录产生的年份,利用一元线性回归模型 $$ \begin{cases} Y=bt+a+e, \\ E(e)=0, D(e)=\sigma^2 \end{cases} $$ 来刻画世界纪录和世界纪录产生年份之间的关系。根据最小二乘法,由表中的数据得到经验回归方程为 $$ \hat{y}_1=-0.020\,337\,43t+49.769\,130\,31. \quad \text{①} $$ 将经验回归直线叠加到散点图,得到图 8.2-13。 [图片描述:展示了男子短跑100米世界纪录随年份变化的散点图,并叠加了一条最小二乘回归直线。横轴是年份(t,从1890到1970),纵轴是纪录时间(Y/s,从9.5到12.0)。图中数据点与图8.2-12相同,粉色直线为根据数据拟合得到的回归线,清晰地显示了世界纪录时间随年份增加而线性下降的趋势。|标题:图8.2-13|图片编号:2] **ⓘ 观察** 从图8.2-13中可以看到,经验回归方程①较好地刻画了散点的变化趋势。请再仔细观察图形,你能看出其中存在的问题吗? 以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征。例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方。这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征。 **? 思考** 你能对模型进行修改,以使其更好地反映散点的分布特征吗? 仔细观察图8.2-12,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近。回顾已有的函数知识,可以发现函数$y=-\ln x$的图象具有类似的形状特征。注意到100 m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线 $$y=f(t)=C_1+C_2\ln(t-1895)$$ 的周围,其中$C_1$和$C_2$为未知的参数,且$C_2<0$。 用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中$C_1$,$C_2$是待定参数。现在问题转化为如何利用成对数据估计参数$C_1$和$C_2$。 为了利用一元线性回归模型估计参数$C_1$和$C_2$,我们引进一个中间变量$x$,令$x=\ln(t-1895)$。通过$x=\ln(t-1895)$,将年份变量数据进行变换,得到新的成对数据(精确到0.01),如表8.2-6所示。 表8.2-6 | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | | :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | | $x$ | 0.00 | 2.83 | 3.26 | 3.56 | 3.71 | 4.11 | 4.17 | 4.29 | | $Y/s$ | 11.80 | 10.60 | 10.40 | 10.30 | 10.20 | 10.10 | 10.00 | 9.95 | 如果表8.2-6对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数$C_1$和$C_2$作出估计,进而可以得到$Y$关于$t$的非线性经验回归方程。 在直角坐标系中画出表8.2-6中成对数据的散点图,如图8.2-14所示,散点的分布呈现出很强的线性相关特征。 因此,用一元线性回归模型 $$ \begin{cases} Y=c_2x+c_1+u, \\ E(u)=0, D(u)=\delta^2 \end{cases} $$ 拟合表8.2-6中的成对数据,得到经验回归方程 $$ \hat{y}_2 = -0.426 \, 439 \, 8x + 11.801 \, 265 \, 3 \quad (*) $$ 再在图8.2-14中画出$(*)$式所对应的经验回归直线,得到图8.2-15。 [图片描述: 这是一个二维散点图,横轴表示 $x$ 变量,纵轴表示 $Y/s$ 变量。图中有8个散点,大致点位为 (0, 11.8), (2.8, 10.6), (3.3, 10.4), (3.6, 10.2), (3.9, 10.1), (4.2, 10.0), (4.4, 9.9), (4.6, 9.8)。散点图的背景有浅蓝色水平网格线。|标题: 图8.2-14|图片编号: 图1] [图片描述: 这是一个二维散点图,横轴表示 $x$ 变量,纵轴表示 $Y/s$ 变量。图中有8个散点,与图8.2-14中的散点相同。在此散点图上绘制了一条粉红色的直线,代表经验回归直线,这条直线穿过这些散点,显示了变量 $Y/s$ 和 $x$ 之间的线性拟合关系,趋势为负相关。|标题: 图8.2-15|图片编号: 图2] 图8.2-15表明,经验回归方程$(*)$对于表8.2-6中的成对数据具有非常好的拟合精度,将图8.2-15与图8.2-13进行对比,可以发现$x$和$Y$之间的线性相关程度比原始样本数据的线性相关程度强得多。 将$x=\ln(t-1895)$代入$(*)$式,得到由创纪录年份预报世界纪录的经验回归方程 $$ \hat{y}_2 = -0.426 \, 439 \, 8 \ln(t-1895) + 11.801 \, 265 \, 3 \quad \text{②} $$ 在同一直角坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),如图8.2-16所示,我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①。 下面通过残差来比较这两个经验回归方程对数据刻画的好坏,在表8.2-5中,用$t_i$表示编号为$i$的年份数据,用$y_i$表示编号为$i$的纪录数据,则经验回归方程①和②的残差计算公式分别为 $$ \hat{e}_i = y_i + 0.020 \, 337 \, 43t_i - 49.769 \, 130 \, 31, \quad i=1, 2, \ldots, 8; $$ $$ \hat{u}_i = y_i + 0.426 \, 439 \, 8 \ln(t_i - 1895) - 11.801 \, 265 \, 3, \quad i=1, 2, \ldots, 8. $$ [图片描述:这张图表展示了两个经验回归方程的拟合效果。横轴为时间 $t$ (从1890年到1970年),纵轴为 Y/s。图上包含了一系列散点数据,以及两条不同颜色的曲线,分别代表了两个回归方程的拟合结果。其中一条曲线(蓝色)下降较快,另一条曲线(红色)下降较缓,更好地接近了大部分数据点。|标题:图8.2-16|图片1] 两个经验回归方程的残差(精确到0.001)如**表 8.2-7**所示,观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①。 **表 8.2-7** | 编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | | :--- | :--- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | | $t$ | 1896 | 1912 | 1921 | 1930 | 1936 | 1956 | 1960 | 1968 | | $\hat{e}$ | 0.591 | -0.284 | -0.301 | -0.218 | -0.196 | 0.111 | 0.092 | 0.205 | | $\hat{u}$ | -0.001 | 0.007 | -0.012 | 0.015 | -0.018 | 0.052 | -0.021 | -0.022 | 在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反。可以通过比较残差的平方和来比较两个模型的效果。由 $$ Q_1 = \sum_{i=1}^8 (\hat{e}_i)^2 \approx 0.669, Q_2 = \sum_{i=1}^8 (\hat{u}_i)^2 \approx 0.004, $$ 可知 $Q_2$ 小于 $Q_1$。因此在残差平方和最小的标准下,非线性回归模型 $$ \begin{cases} Y = c_2 \ln(t-1895)+c_1+u, \\ E(u)=0, D(u)=\delta^2 \end{cases} $$ 的拟合效果要优于一元线性回归模型的拟合效果。 也可以用决定系数 $R^2$ 来比较两个模型的拟合效果,$R^2$ 的计算公式为 $$ R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}. $$ 在 $R^2$ 表达式中,$\sum_{i=1}^n (y_i - \bar{y})^2$ 与经验回归方程无关,残差平方和 $\sum_{i=1}^n (y_i - \hat{y}_i)^2$ 与经验回归方程有关,因此 $R^2$ 越大,表示残差平方和越小,即模型的拟合效果越好;$R^2$ 越小,表示残差平方和越大,即模型的拟合效果越差。 由**表 8.2-7**容易算出经验回归方程①和②的 $R^2$ 分别约为 $0.7325$ 和 $0.9983$,因此经验回归方程②的刻画效果比经验回归方程①的好很多。 另外,我们还可以用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑 $100 \text{m}$ 世界纪录数据,如**表 8.2-8**所示。 表 8.2-8 | 编号 | 9 | 10 | 11 | 12 | 13 | 14 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **t** | 1983 | 1988 | 1991 | 1991 | 1994 | 1996 | | **$Y/s$** | 9.93 | 9.92 | 9.90 | 9.86 | 9.85 | 9.84 | | 编号 | 15 | 16 | 17 | 18 | 19 | 20 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **t** | 1999 | 2005 | 2007 | 2008 | 2008 | 2009 | | **$Y/s$** | 9.79 | 9.77 | 9.74 | 9.72 | 9.69 | 9.58 | 在散点图 8.2-12中,绘制表8.2-8中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到图8.2-17。显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①。 [图片描述: 散点图显示了$Y/s$随时间$t$变化的趋势。图中包含绿色散点数据,代表实际观测值。一条红色直线代表经验回归方程①,一条蓝色曲线代表经验回归方程②。蓝色曲线更贴近绿色散点,显示出更好的拟合效果,而红色直线则偏离较远。x轴表示时间t,从1890年到2010年,y轴表示$Y/s$,从9.0到12.0。|标题:图8.2-17|图1] > **③ 思考** > > 在上述问题情境中,男子短跑100 m世界纪录和纪录产生年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗? 在使用经验回归方程进行预测时,需要注意下列问题: (1) 经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系。同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系。 (2) 经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。 (3) 解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差。 (4) 不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。 ## 练习 1. 在回归分析中,分析残差能够帮助我们解决哪些问题? 2. 2003—2012 年我国的国内生产总值(GDP)的数据(摘自国家统计局网站)如下: | 年份 | GDP/亿元 | 年份 | GDP/亿元 | | :--- | :---------- | :--- | :---------- | | 2003 | 137 422.0 | 2008 | 319 244.6 | | 2004 | 161 840.2 | 2009 | 348 517.7 | | 2005 | 187 318.9 | 2010 | 412 119.3 | | 2006 | 219 438.5 | 2011 | 487 940.2 | | 2007 | 270 092.3 | 2012 | 538 580.0 | (1) 作 GDP 和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述; (2) 建立年份为解释变量,GDP 为响应变量的一元线性回归模型,并计算残差; (3) 根据你得到的一元线性回归模型,预测 2023 年的 GDP,看看你的预测值与实际的 GDP 的误差是多少; (4) 你认为这个模型能较好地刻画 GDP 和年份的关系吗?请说明理由。 (5) 随着时间的发展,又收集到 2013—2022 年的 GDP 数据(摘自国家统计局网站)如下: | 年份 | GDP/亿元 | 年份 | GDP/亿元 | | :--- | :---------- | :--- | :------------ | | 2013 | 592 963.2 | 2018 | 919 281.1 | | 2014 | 643 563.1 | 2019 | 986 515.2 | | 2015 | 688 858.2 | 2020 | 1 013 567.0 | | 2016 | 746 395.1 | 2021 | 1 149 237.0 | | 2017 | 832 035.9 | 2022 | 1 204 724.0 | 建立年份(2003—2022)为解释变量,GDP 为响应变量的经验回归方程,并预测 2023 年的 GDP,与实际的 GDP 误差是多少?你能发现什么? ## 习题 8.2 ### 复习巩固 1. 如果散点图中所有的散点都落在一条斜率为非 0 的直线上,请回答下列问题: (1) 解释变量和响应变量的关系是什么? (2) $R^2$ 是多少? 2. 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次试验,收集数据如表所示。 | 零件数/个 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | |---|---|---|---|---|---|---|---|---|---|---| | 加工时间/min | 62 | 68 | 75 | 81 | 89 | 95 | 102 | 108 | 115 | 122 | 1. 画出散点图; 2. 建立加工时间关于零件数的一元线性回归模型; 3. 关于加工零件的个数与加工时间,你能得出什么结论? 3. 根据8.1.2节例2中某城市居民年收入与A商品销售额的数据: 1. 建立A商品销售额关于居民年收入的一元线性回归模型; 2. 如果这座城市居民的年收入为40亿元,估计A商品的销售额是多少. ## 综合运用 4. 人口问题是关乎国计民生的大问题。下表是1949—2022年我国的人口总数(摘自国家统计局网站)。 | 年份 | 总人口/万人 | 年份 | 总人口/万人 | 年份 | 总人口/万人 | |---|---|---|---|---|---| | 1949 | 54 167 | 1984 | 104 357 | 2004 | 129 988 | | 1950 | 55 196 | 1985 | 105 851 | 2005 | 130 756 | | 1951 | 56 300 | 1986 | 107 507 | 2006 | 131 448 | | 1955 | 61 465 | 1987 | 109 300 | 2007 | 132 129 | | 1960 | 66 207 | 1988 | 111 026 | 2008 | 132 802 | | 1965 | 72 538 | 1989 | 112 704 | 2009 | 133 450 | | 1970 | 82 992 | 1990 | 114 333 | 2010 | 134 091 | | 1971 | 85 229 | 1991 | 115 823 | 2011 | 134 916 | | 1972 | 87 177 | 1992 | 117 171 | 2012 | 135 922 | | 1973 | 89 211 | 1993 | 118 517 | 2013 | 136 726 | | 1974 | 90 859 | 1994 | 119 850 | 2014 | 137 646 | | 1975 | 92 420 | 1995 | 121 121 | 2015 | 138 326 | | 1976 | 93 717 | 1996 | 122 389 | 2016 | 139 232 | | 1977 | 94 974 | 1997 | 123 626 | 2017 | 140 011 | | 1978 | 96 259 | 1998 | 124 761 | 2018 | 140 541 | | 1979 | 97 542 | 1999 | 125 786 | 2019 | 141 008 | | 1980 | 98 705 | 2000 | 126 743 | 2020 | 141 212 | | 1981 | 100 072 | 2001 | 127 627 | 2021 | 141 260 | | 1982 | 101 654 | 2002 | 128 453 | 2022 | 141 175 | | 1983 | 103 008 | 2003 | 129 227 | | | 1. 画出散点图; 2. 建立总人口数关于年份的一元线性回归模型; 3. 直接用上面建立的回归模型预测2023年的我国人口总数,得到的结果合理吗?为什么? 5. 在某地区的一段时间内观测到的不小于某震级$x$的地震数$N$的数据如下表: | 震级 $x$ | 3.0 | 3.2 | 3.4 | 3.6 | 3.8 | 4.0 | 4.2 | 4.4 | 4.6 | 4.8 | 5.0 | | :--------- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :--- | | 地震数 $N$ | 28 381 | 20 380 | 14 795 | 10 695 | 7 641 | 5 502 | 3 842 | 2 698 | 1 919 | 1 356 | 973 | | 震级 $x$ | 5.2 | 5.4 | 5.6 | 5.8 | 6.0 | 6.2 | 6.4 | 6.6 | 6.8 | 7.0 | | :--------- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | | 地震数 $N$ | 746 | 604 | 435 | 274 | 206 | 148 | 98 | 57 | 41 | 25 | 试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗? ## 拓广探索 6. 生活中有许多变量之间的关系是值得我们去研究的,例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系. 如果它们之间有关系,请建立统计模型进行分析. ## 阅读与思考 ### 回归与相关 回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个或多个变量的变化去推测另一个变量的变化,后者研究随机变量间的相关关系,它们是由英国科学家高尔顿创立的. 高尔顿的科研兴趣十分广泛,在地理学、气象学、统计学、心理学、人类学等众多领域都有建树.他在遗传学的研究中发现了一个令人困惑的问题,通常,高个子的人会和高个子的人结婚,矮个子的人会和矮个子的人结婚,而人类的遗传是把上一代的优势性状传递给下一代,这样,在人群中,高个子、矮个子的比例都应逐渐增多,而中等个子的比例应逐渐下降,但事实并非如此,为什么呢?这个问题一直萦绕在他的心头. 1875年,为了确定豌豆尺寸的遗传规律,他将自己精心挑选的 490 粒甜豌豆按照尺寸大小分成7组,在7个不同地区各种植70粒(每组10 粒). 豌豆成熟后,他仔细测量了新豌豆(子代)的尺寸,并与豌豆种子(母代)的尺寸进行比较,数据分析发现,母代尺寸大的子代尺寸较大,母代尺寸小的子代尺寸也较小,但无论尺寸大小,都有子代向母代的平均值(7种尺寸豌豆的平均值)靠近的趋势. 这一结论在遗传学上是否具有普遍性呢?能否用它来解释人的个子高矮的遗传现象呢?为此,在$1885$年,高尔顿随机选取了$205$对夫妇及其$928$个成年子女的身高数据进行研究。由于男女身高存在差异,他采用女子身高乘$1.08$的方法将女子身高换算成男子身高。他将父母的平均身高称为“中亲身高”,用 $$\frac{a \times 1.08 + b}{2}$$ 进行计算,其中$a$为母亲身高,$b$为父亲身高。记中亲身高为$X$(母代变量),子女身高为$Y$(子代变量),分析$X$和$Y$的数据,他惊奇地发现,$X$和$Y$的平均值均为$173.4\text{ cm}$。在此基础上,他还发现:当中亲身高大于平均值时,他们的子女相对较高,但与父母相比还是矮一些,例如,当中亲身高为$181.6\text{ cm}$时,他们子女的平均身高仅为$177.5\text{ cm}$;当中亲身高小于平均值时,他们的子女相对较矮,但比父母又要高一些,例如,当中亲身高为$166.4\text{ cm}$时,他们子女的平均身高为$169.4\text{ cm}$。这表明,子女身高有向平均值“回归”的倾向。$1886$年,高尔顿将这一研究成果写成了论文《遗传身高向平均身高的回归》,文中正式引入了“回归”这个概念。$1888$年,高尔顿发表了统计史上第一篇有关相关系数值的论文,文中用到了一种用图形估计相关系数值的方法。 高尔顿提出的回归和相关思想是开创性的,但他的工作做得还不够彻底。后来,埃奇沃思(F. Y. Edgeworth, $1845—1926$)和皮尔逊(K. Pearson, $1857—1936$)等一批学者加入到研究中来,使回归和相关理论得到了完善与发展。埃奇沃思不仅给出了常见的样本相关系数的公式,还赋予“回归”以纯数学的意义,为这一方法的广泛应用奠定了基础,皮尔逊则系统整理和完善了当时的已有成果,用极大似然法对相关系数的估计问题做了改进,并把相关和回归方法运用到生物测量数据,推动了这一方法在生物领域的应用。 回归和相关方法的创立,为统计方法增添了重要的工具,推动了统计学的应用和发展,标志着统计学描述时代的结束和推断时代的开始。随着时代的发展,“回归”一词的内涵得到了极大扩展,它可以泛指在任何情况下自变量与因变量之间的统计关系;回归分析、相关分析也在科学研究的各个方面得到广泛应用,成为探索变量之间关系的重要方法。 请你进一步查阅资料,了解回归与相关的发展和应用。 ## 8.3 列联表与独立性检验 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量。数值变量的取值为实数,其大小和运算都有实际含义。 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为**分类变量**。分类变量的取值可以用实数表示,例如,学生所在的班级可以用1, 2, 3等表示,男性、女性可以用1, 0表示,等等。在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义。本节我们主要讨论取值于$\{0, 1\}$的分类变量的关联性问题。 ### 8.3.1 分类变量与列联表 如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法。我们先看下面的具体问题。 **问题** 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率。为了方便,我们设 $f_0 = \frac{\text{经常锻炼的女生数}}{\text{女生总数}}$,$f_1 = \frac{\text{经常锻炼的男生数}}{\text{男生总数}}$。 那么,只要求出$f_0$和$f_1$的值,通过比较这两个值的大小,就可以知道女生和男生在锻 炼的经常性方面是否有差异,由所给的数据,经计算得到 $f_0=\frac{331}{523}\approx 0.633, f_1=\frac{473}{601}\approx 0.787.$ 由 $f_1-f_0\approx 0.787-0.633=0.154$ 可知,男生经常锻炼的比率比女生高出 15.4 个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼. 上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.用 $\Omega$ 表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以 $\Omega$ 为样本空间的古典概型,并定义一对分类变量 $X$ 和 $Y$ 如下:对于 $\Omega$ 中的每一名学生,分别令 $X = \begin{cases} 0, \text{ 该生为女生,} \\ 1, \text{ 该生为男生,} \end{cases} \quad Y = \begin{cases} 0, \text{ 该生不经常锻炼,} \\ 1, \text{ 该生经常锻炼.} \end{cases}$ 我们希望通过比较条件概率 $P(Y=1|X=0)$ 和 $P(Y=1|X=1)$ 回答上面的问题.按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是 $P(Y=1|X=0)$,而该男生属于经常锻炼群体的概率是 $P(Y=1|X=1)$.因此,“性别对体育锻炼的经常性没有影响”可以描述为 $P(Y=1|X=0)=P(Y=1|X=1);$ 而“性别对体育锻炼的经常性有影响”可以描述为 $P(Y=1|X=0)\neq P(Y=1|X=1).$ 为了清楚起见,我们用表格整理数据,如表 8.3-1 所示. 表 8.3-1 单位:人 | 性别 | 不经常(Y=0) | 经常(Y=1) | 合计 | |---|---|---|---| | 女生(X=0) | 192 | 331 | 523 | | 男生(X=1) | 128 | 473 | 601 | | 合计 | 320 | 804 | 1124 | 我们用$\{X=0, Y=1\}$表示事件$\{X=0\}$和$\{Y=1\}$的积事件,用$\{X=1, Y=1\}$表示事件$\{X=1\}$和$\{Y=1\}$的积事件,根据古典概型和条件概率的计算公式,我们有 $P(Y=1|X=0)=\frac{n(X=0, Y=1)}{n(X=0)}=\frac{331}{523} \approx 0.633,$ $P(Y=1|X=1)=\frac{n(X=1, Y=1)}{n(X=1)}=\frac{473}{601} \approx 0.787.$ 由 $P(Y=1|X=1)$ 大于 $P(Y=1|X=0)$ 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼. 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将如表 8.3-1 这种形式的数据统计表称为 **2×2 列联表** (contingency table)。2×2 列联表给出了成对分类变量数据的交叉分类频数。以表 8.3-1 为例,它包含了 $X$ 和 $Y$ 的如下信息:最后一行的前两个数分别是事件 $\{Y=0\}$ 和 $\{Y=1\}$ 中样本点的个数;最后一列的前两个数分别是事件 $\{X=0\}$ 和 $\{X=1\}$ 中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件 $\{X=x, Y=y\}$ ($x, y=0,1$) 中样本点的个数;右下角格中的数是样本空间中样本点的总数。 在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率。然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率。在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路。比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。 > 将所关心的对象的全体看成古典概型的样本空间,就可以用概率的语言刻画相关的问题,进而用频率稳定于概率的原理推断问题的答案。很多统计方法都是基于这种思想建立起来的。 **例 1** 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取 88 名学生。通过测验得到了如下数据:甲校 43 名学生中有 10 名数学成绩优秀;乙校 45 名学生中有 7 名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异。 **解**: 用 $\Omega$ 表示两所学校的全体学生构成的集合,考虑以 $\Omega$ 为样本空间的古典概型。对于 $\Omega$ 中每一名学生,定义分类变量 $X$ 和 $Y$ 如下: $X=\begin{cases} 0, & \text{该生来自甲校,} \\ 1, & \text{该生来自乙校,} \end{cases}$ $Y=\begin{cases} 0, & \text{该生数学成绩不优秀,} \\ 1, & \text{该生数学成绩优秀.} \end{cases}$ 我们将所给数据整理成表 8.3-2。 表 8.3-2 单位: 人 | 学校 | 数学成绩 | | | :-------- | :------------- | :------ | | | 不优秀 ($Y=0$) | 优秀 ($Y=1$) | | 甲校 ($X=0$) | 33 | 10 | | 乙校 ($X=1$) | 38 | 7 | | 合计 | 71 | 17 | | 合计 | | :--- | | 43 | | 45 | | 88 | 表 8.3-2 是关于分类变量 $X$ 和 $Y$ 的抽样数据的 2×2 列联表:最后一行的前两个数分别是事件 $\{Y=0\}$ 和 $\{Y=1\}$ 的频数;最后一列的前两个数分别是事件 $\{X=0\}$ 和 $\{X=1\}$ 的频数;中间的四个格中的数是事件 $\{X=x, Y=y\}$ ($x, y=0,1$) 的频数;右下角格中的数是样本容量。因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为 乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为 $\frac{33}{43} \approx 0.7674$ 和 $\frac{10}{43} \approx 0.2326$; $\frac{38}{45} \approx 0.8444$ 和 $\frac{7}{45} \approx 0.1556$. 我们可以用等高堆积条形图直观地展示上述计算结果,如图 8.3-1所示. [图片描述:一张等高堆积条形图,展示了甲校和乙校学生数学成绩优秀和不优秀的频率。图表X轴表示学校(甲校、乙校),Y轴表示频率(从0.0到1.0)。每个学校的柱子由两部分堆叠而成:蓝色部分代表“不优秀”,红色部分代表“优秀”。具体地,甲校的不优秀频率约为0.7674,优秀频率约为0.2326;乙校的不优秀频率约为0.8444,优秀频率约为0.1556。图旁边的提示框说明了如何利用统计软件绘制条形图,例如通过电子表格软件插入图表,或使用R软件的`barplot`函数。|标题:图8.3-1|图片编号:1] 在图8.3-1中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率.通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断 $P(Y=1|X=0)>P(Y=1|X=1)$.也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高. ### ③ 思考 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的? 事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题. ### 练习 1. 成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活中两种属性或现象之间关联的成语吗? 2. 例1中的随机抽样数据是否足够确定与 $X$ 和 $Y$ 有关的所有概率和条件概率?为什么? 3. 根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语。那么 (1) 吸烟是否对每位烟民一定会引发健康问题? (2) 有人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗? 4. 假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表: 单位:人 | 性别 | 不经常 | 经常 | 合计 | | :--- | :----- | :--- | :--- | | 女生 | 5 | 15 | 20 | | 男生 | 6 | 18 | 24 | | 合计 | 11 | 33 | 44 | (1) 据此推断性别因素是否影响学生锻炼的经常性; (2) 说明你的推断结论是否可能犯错,并解释原因. --- ## 8.3.2 独立性检验 前面我们通过$2 \times 2$列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联。对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大。因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算。 考虑以 $\Omega$ 为样本空间的古典概型。设 $X$ 和 $Y$ 为定义在 $\Omega$ 上,取值于$\{0,1\}$的成对分类变量,我们希望判断事件$\{X=1\}$和$\{Y=1\}$之间是否有关联。注意到$\{X=0\}$和$\{X=1\}$,$\{Y=0\}$和$\{Y=1\}$都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系 $H_0: P(Y=1|X=0)=P(Y=1|X=1)$ 是否成立,通常称$H_0$为**零假设或原假设** (null hypothesis)。这里,$P(Y=1|X=0)$表示从$\{X=0\}$中随机选取一个样本点,该样本点属于$\{X=0, Y=1\}$的概率;而$P(Y=1|X=1)$表示从$\{X=1\}$中随机选取一个样本点,该样本点属于$\{X=1, Y=1\}$的概率。 由条件概率的定义可知,零假设 $H_0$ 等价于 $\frac{P(X=0, Y=1)}{P(X=0)} = \frac{P(X=1, Y=1)}{P(X=1)}$ 或 $P(X=0, Y=1)P(X=1)=P(X=1, Y=1)P(X=0). \quad \text{①}$ 注意到$\{X=0\}$和$\{X=1\}$为对立事件,于是 $P(X=0)=1-P(X=1)$。再由概率的性质,我们有 由此推得①式等价于 $P(X=0, Y=1)=P(Y=1)-P(X=1, Y=1)$. $P(X=1)P(Y=1)=P(X=1, Y=1)$. 因此, 零假设 $H_0$ 等价于$\{X=1\}$与$\{Y=1\}$独立. 根据已经学过的概率知识, 下面的四条性质彼此等价: * $\{X=0\}$与$\{Y=0\}$独立; * $\{X=0\}$与$\{Y=1\}$独立; * $\{X=1\}$与$\{Y=0\}$独立; * $\{X=1\}$与$\{Y=1\}$独立. 如果这些性质成立, 我们就称分类变量 $X$ 和 $Y$ 独立. 这相当于下面四个等式成立: $P(X=0, Y=0)=P(X=0)P(Y=0)$; $P(X=0, Y=1)=P(X=0)P(Y=1)$; $P(X=1, Y=0)=P(X=1)P(Y=0)$; $P(X=1, Y=1)=P(X=1)P(Y=1)$. (2) 因此, 我们可以用概率语言, 将零假设改述为 $H_0$: 分类变量 $X$ 和 $Y$ 独立. 假定我们通过简单随机抽样得到了 $X$ 和 $Y$ 的抽样数据列联表, 如表8.3-3所示. **表 8.3-3** | X | Y=0 | Y=1 | 合计 | | :--- | :-- | :-- | :-------- | | **Y** | | | | | X=0 | $a$ | $b$ | $a+b$ | | X=1 | $c$ | $d$ | $c+d$ | | 合计 | $a+c$ | $b+d$ | $n=a+b+c+d$ | 表8.3-3是关于分类变量 $X$ 和 $Y$ 的抽样数据的2×2列联表: 最后一行的前两个数分别是事件$\{Y=0\}$和$\{Y=1\}$的频数; 最后一列的前两个数分别是事件$\{X=0\}$和$\{X=1\}$的频数; 中间的四个数 $a, b, c, d$ 是事件$\{X=x, Y=y\}(x, y=0,1)$ 的频数; 右下角格中的数 $n$ 是样本容量. > [图片描述:一个带有问号图标的思考框,包含一个关于如何根据等式和数据构造统计量以推断变量独立性的问题。右侧紧邻一个附加说明框,解释了表中频数作为随机样本的性质。|标题:思考|图片编号] ### 思考 如何基于②中的四个等式及列联表8.3-3中的数据, 构造适当的统计量, 对成对分类变量 $X$ 和 $Y$ 是否相互独立作出推断? > 对于随机样本, 表8.3-3中的频数 $a,b,c,d$ 都是随机变量, 而表8.3-2中的相应数据是这些随机变量的一次观测结果. 在零假设 $H_0$ 成立的条件下, 根据频率稳定于概率的原理, 由②中的第一个等式, 我们可以用概率$P(X=0)$和$P(Y=0)$对应的频率的乘积 估计概率 $P(X=0, Y=0)$,而把 $$ \frac{(a+b)(a+c)}{n^2} $$ $$ \frac{(a+b)(a+c)}{n} $$ 视为事件 $ \{X=0, Y=0\} $ 发生的频数的期望值 (或预期值)。这样,该频数的观测值 $a$ 和期望值 $\frac{(a+b)(a+c)}{n}$ 应该比较接近。 综合②中的四个式子,如果零假设 $H_0$ 成立,下面四个量的取值都不应该太大: $$ \left|a - \frac{(a+b)(a+c)}{n}\right|, \left|b - \frac{(a+b)(b+d)}{n}\right|, $$ $$ \left|c - \frac{(c+d)(a+c)}{n}\right|, \left|d - \frac{(c+d)(b+d)}{n}\right| \quad \text{③} $$ 反之,当这些量的取值较大时,就可以推断 $H_0$ 不成立。 但是,我们并不能直接用③中的值的大小来推断 $H_0$ 是否成立。为此需要找到一个既合理又能够计算分布的统计量。一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小。为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量: $$ \chi^2 = \frac{\left(a - \frac{(a+b)(a+c)}{n}\right)^2}{\frac{(a+b)(a+c)}{n}} + \frac{\left(b - \frac{(a+b)(b+d)}{n}\right)^2}{\frac{(a+b)(b+d)}{n}} + $$ $$ \frac{\left(c - \frac{(c+d)(a+c)}{n}\right)^2}{\frac{(c+d)(a+c)}{n}} + \frac{\left(d - \frac{(c+d)(b+d)}{n}\right)^2}{\frac{(c+d)(b+d)}{n}} $$ 该表达式可化简为 $$ \chi^2 = \frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)} \quad \text{(1)} $$ 统计学家建议,用随机变量 $\chi^2$ 取值的大小作为判断零假设 $H_0$ 是否成立的依据,当它比较大时推断 $H_0$ 不成立,否则认为 $H_0$ 成立。那么,究竟 $\chi^2$ 大到什么程度,可以推断 $H_0$ 不成立呢?或者说,怎样确定判断 $\chi^2$ 大小的标准呢? 根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与 $H_0$ 相矛盾的小概率事件来实现。在假定 $H_0$ 的条件下,对于有放回简单随机抽样,当样本容量 $n$ 充分大时,统计学家得到了 $\chi^2$ 的近似分布。忽略 $\chi^2$ 的实际分布与该近似分布的误差后,对于任何小概率值 $\alpha$,可以找到相应的正实数 $x_\alpha$,使得下面关系成立: $$ P(\chi^2 \ge x_\alpha) = \alpha \quad \text{(4)} $$ 我们称 $x_a$ 为 $\alpha$ 的**临界值**,这个临界值就可作为判断 $X^2$ 大小的标准。概率值 $\alpha$ 越小,临界值 $x_a$ 越大。当总体很大时,抽样有、无放回对 $X^2$ 的分布影响较小,因此,在应用中往往不严格要求抽样必须是有放回的。 由④式可知,只要把概率值 $\alpha$ 取得充分小,在假设 $H_0$ 成立的情况下,事件 $\{X^2 \ge x_a\}$ 是不大可能发生的。根据这个规律,如果该事件发生,我们就可以推断 $H_0$ 不成立。不过这个推断有可能犯错误,但犯错误的概率不会超过 $\alpha$。 基于小概率值 $\alpha$ 的检验规则是: * 当 $X^2 \ge x_a$ 时,我们就推断 $H_0$ 不成立,即认为 $X$ 和 $Y$ 不独立,该推断犯错误的概率不超过 $\alpha$; * 当 $X^2 < x_a$ 时,我们没有充分证据推断 $H_0$ 不成立,可以认为 $X$ 和 $Y$ 独立。 这种利用 $X^2$ 的取值推断分类变量 $X$ 和 $Y$ 是否独立的方法称为 $X^2$ 独立性检验,读作“卡方独立性检验”,简称**独立性检验** (test of independence)。 表 8.3-4 给出了 $X^2$ 独立性检验中 5 个常用的小概率值和相应的临界值。 **表 8.3-4** | $\alpha$ | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 | | -------- | ----- | ----- | ----- | ----- | ------ | | $X_a$ | 2.706 | 3.841 | 6.635 | 7.879 | 10.828 | 例如,对于小概率值 $\alpha=0.05$,我们有如下的具体检验规则: (1) 当 $X^2 \ge X_{0.05}=3.841$ 时,我们推断 $H_0$ 不成立,即认为 $X$ 和 $Y$ 不独立,该推断犯错误的概率不超过 0.05; (2) 当 $X^2 < X_{0.05}=3.841$ 时,我们没有充分证据推断 $H_0$ 不成立,可以认为 $X$ 和 $Y$ 独立。 **例 2** 依据小概率值 $\alpha=0.1$ 的 $X^2$ 独立性检验,分析例 1 中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异? **解:** 零假设为 $H_0$: 分类变量 $X$ 与 $Y$ 相互独立,即两校学生的数学成绩优秀率无差异。 根据表 8.3-2 中的数据,计算得到 $$X^2 = \frac{88 \times (33 \times 7 - 10 \times 38)^2}{43 \times 45 \times 71 \times 17} \approx 0.837 < 2.706 = x_{0.1}$$ 根据小概率值 $\alpha=0.1$ 的 $X^2$ 独立性检验,没有充分证据推断 $H_0$ 不成立,因此可以认为 $H_0$ 成立,即认为两校的数学成绩优秀率没有差异。 > **? 思考** > 例 1 和例 2 都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗? 事实上,如前所述,**例1**只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分。在**例2**中,我们用$X^2$独立性检验对零假设 $H_0$ 进行了检验,通过计算,发现 $X^2 \approx 0.837$ 小于 $\alpha = 0.1$ 所对应的临界值 $2.706$,因此认为没有充分证据推断 $H_0$ 不成立,所以接受 $H_0$,推断出两校学生的数学成绩优秀率没有显著差异的结论。这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的。因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。 由此可见,相对于简单比较两个频率的推断,用$X^2$独立性检验得到的结果更理性、更全面,理论依据也更充分。 > 当我们接受零假设 $H_0$ 时,也可能犯错误。我们不知道犯这类错误的概率 $p$ 的大小,但是知道,若 $\alpha$ 越大,则 $p$ 越小。 **例3** 某儿童医院用甲、乙两种疗法治疗小儿消化不良,采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名。试根据小概率值 $\alpha=0.005$ 的独立性检验,分析乙种疗法的效果是否比甲种疗法好。 **解:** 零假设为 $H_0$: 疗法与疗效独立,即两种疗法效果没有差异。 将所给数据进行整理,得到两种疗法治疗数据的列联表,如**表 8.3-5**所示。 **表 8.3-5** 单位:人 | 疗法 | 未治愈 | 治愈 | 合计 | | :--- | :----- | :--- | :--- | | 甲 | 15 | 52 | 67 | | 乙 | 6 | 63 | 69 | | 合计 | 21 | 115 | 136 | 根据列联表中的数据,经计算得到 $$ X^2 = \frac{136 \times (15 \times 63 - 52 \times 6)^2}{67 \times 69 \times 21 \times 115} \approx 4.881 < 7.879 = x_{0.005}^2. $$ 根据小概率值 $\alpha=0.005$ 的独立性检验,没有充分证据推断 $H_0$ 不成立,因此可以认为 $H_0$ 成立,即认为两种疗法效果没有差异。 --- **● 观察** 在**表 8.3-5**中,若对调两种疗法的位置或对调两种疗效的位置,则表达式(1)中 $a,b,c,d$ 的赋值都会相应地改变,这样做会影响$X^2$取值的计算结果吗? **例4** 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了 $9965$ 人,得到成对样本观测数据的分类统计结果,如表 8.3-6 所示。依据小概率值 $\alpha=0.001$ 的独立性检验,分析吸烟是否会增加患肺癌的风险。 **表 8.3-6** 单位:人 | 吸烟 | 肺癌 | | 合计 | | :------- | :------------- | :---------- | :--- | | | 非肺癌患者 | 肺癌患者 | | | 非吸烟者 | $7775$ | $42$ | $7817$ | | 吸烟者 | $2099$ | $49$ | $2148$ | | 合计 | $9874$ | $91$ | $9965$ | **解:** 零假设为 $H_0$: 吸烟与患肺癌之间无关联。 根据列联表中的数据,经计算得到: $$ X^2 = \frac{9\,965 \times (7\,775 \times 49 - 42 \times 2\,099)^2}{7\,817 \times 2\,148 \times 9\,874 \times 91} \approx 56.632 \ge 10.828 = x_{0.001} $$ 根据小概率值 $\alpha=0.001$ 的独立性检验,我们推断 $H_0$ 不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于 $0.001$。 根据表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为 $$ \frac{7\,775}{7\,817} \approx 0.994\,6 \quad \text{和} \quad \frac{42}{7\,817} \approx 0.005\,4 $$ 吸烟者中不患肺癌和患肺癌的频率分别为 $$ \frac{2\,099}{2\,148} \approx 0.977\,2 \quad \text{和} \quad \frac{49}{2\,148} \approx 0.022\,8 $$ 由 $$ \frac{0.022\,8}{0.005\,4} \approx 4.2 $$ 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的 $4$ 倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌。 总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节: (1) 提出零假设 $H_0: X$ 和 $Y$ 相互独立,并给出在问题中的解释。 (2) 根据抽样数据整理出 $2 \times 2$ 列联表,计算 $X^2$ 的值,并与临界值 $x_\alpha$ 比较。 (3) 根据检验规则得出推断结论。 (4) 在 $X$ 和 $Y$ 不独立的情况下,根据需要,通过比较相应的频率,分析 $X$ 和 $Y$ 间的影响规律。 注意,上述几个环节的内容可以根据不同情况进行调整。例如,在有些时候,分类变量的抽样数据列联表是问题中给定的。 ## ? 思考 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗? 简单地说,反证法是在某种假设$H_0$之下,推出一个矛盾结论,从而证明$H_0$不成立;而独立性检验是在零假设$H_0$之下,如果出现一个与$H_0$相矛盾的小概率事件,就推断$H_0$不成立,且该推断犯错误的概率不大于这个小概率。另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误。 独立性检验的本质是比较观测值与期望值之间的差异,由$X^2$所代表的这种差异的大小是通过确定适当的小概率值进行判断的。这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式。 ## 练习 1. 对于例3中的抽样数据,采用小概率值$\alpha=0.05$的独立性检验,分析乙种疗法的效果是否比甲种疗法好。 2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论?为什么? 3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表: 单位: 只 | 药物 A | 疾病 B (未患病) | 疾病 B (患病) | 合计 | | :------- | :-------------- | :------------ | :--- | | 未服用 | 29 | 15 | 44 | | 服用 | 47 | 14 | 61 | | 合计 | 76 | 29 | 105 | 依据$\alpha=0.05$的独立性检验,分析药物A对预防疾病B的有效性。 4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下: 单位: 人 | 数学成绩 | 语文成绩 (不优秀) | 语文成绩 (优秀) | 合计 | | :------- | :---------------- | :-------------- | :--- | | 不优秀 | 212 | 61 | 273 | | 优秀 | 54 | 73 | 127 | | 合计 | 266 | 134 | 400 | 依据$\alpha=0.05$的独立性检验,能否认为数学成绩与语文成绩有关联? ## 习题 8.3 ### 复习巩固 1. 为什么必须基于成对样本数据推断两个分类变量之间是否有关联? 2. 为什么$X^2$独立性检验方法不适用于普查数据? 3. 等高堆积条形图在两个分类变量之间关联性的研究中能够起到什么作用? 4. 对于已经获取的成对样本数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么? ### 综合运用 5. 为了研究高三年级学生的性别和身高是否大于170 cm的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表: 单位: 人 | 性别 | 身高 | 合计 | | :--- | :------------ | :--- | | | 低于 170 cm | 不低于 170 cm | | | 女 | 81 | 16 | 97 | | 男 | 28 | 75 | 103 | | 合计 | 109 | 91 | 200 | 请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联,如果结论是性别与身高有关联,请解释它们之间如何相互影响. 6. 第5题中的身高变量是数值型变量还是分类变量?为什么? 7. 从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表: 单位: 人 | 性别 | 身高 | 合计 | | :--- | :------------ | :--- | | | 低于 170 cm | 不低于 170 cm | | | 女 | 14 | 7 | 21 | | 男 | 8 | 11 | 19 | | 合计 | 22 | 18 | 40 | (1) 依据$a=0.05$的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?解释所得结论的实际含义. (2) 得到的结论与第5题的一致吗?如果不一致,你认为原因是什么. 8. 调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表: 单位:人 | 性别 | 晚上 | 白天 | 合计 | | :--- | :--- | :--- | :--- | | 女 | 24 | 31 | 55 | | 男 | 8 | 26 | 34 | | 合计 | 32 | 57 | 89 | 依据 $a=0.1$ 的独立性检验,能否认为性别与出生时间有关联?解释所得结论的实际含义。 ### 拓广探索 9. 对例1列联表8.3-2中的数据,依据 $a=0.1$ 的独立性检验,我们已经知道独立性检验的结论是学校和成绩无关,如果表8.3-2中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因。 ## 小结 ### 一、本章知识结构 [图片描述:本章知识结构流程图,展示了成对数据分析的不同方法。成对数据首先分为数值变量和分类变量两大类。数值变量的分析引向相关性研究,相关性又具体包括样本相关系数和一元线性回归模型。分类变量的分析通过$2 \times 2$列联表进行,并进一步引出独立性检验。|标题:本章知识结构图|图片1] ```mermaid graph LR A[成对数据] --> B(数值变量); A --> C(分类变量); B --> D[相关性]; D --> E[样本相关系数]; D --> F[一元线性回归模型]; C --> G[2×2列联表]; G --> H[独立性检验]; ``` ### 二、回顾与思考 在必修课程中学习过用样本观测数据推断变量的统计特征的方法,本章我们学习用成对样本观测数据推断两个变量之间关系的方法。贯穿本章的主要思想依然是通过样本估计总体的思想。 对两个数值型变量,通过样本散点图可以直观描述它们之间的相关关系,通过样本相关系数可以定量地度量它们之间线性相关的程度,进而推断两个变量之间的相关关系。对两个相关的变量,我们常常用回归模型刻画一个变量对另一个变量的影响,不同的相关关系用不同的回归模型。一元线性回归模型主要用于刻画线性相关的两个变量之间的关系,通常根据样本数据,用最小二乘法估计出模型的参数,得到经验回归模型。通过分析残差可以对模型进行评价和改进,使模型不断完善。如果模型比较好地刻画了两个变量的关系,我们就可以根据自变量的取值去预测因变量的取值,进而帮助我们决策。 对于两个分类变量,可以通过$2 \times 2$列联表反映两个变量之间的有关统计信息,据此我们可以从直观上推断两个变量是否有关联。独立性检验是对变量之间的关联性进行统计推断,这种推断基于小概率原理,这与基于逻辑矛盾的反证法有所不同,为了使拒绝零假设犯错误的概率更小,就要取更小的概率值$\alpha$。 回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,采用了归纳推理的方法,所以得出的结论都可能犯错误,这是用样本估计总体所得出的统计结论的一个特点,体现了统计学的特性。事实上,统计学面向随机现象,探究或然性下的规律性,即使是同样的数据,也允许人们根据自己对数据背景的理解,采用不同的推断方法进行分析,得出不同的推断结论,其判断结论的准则是“好”与“坏”,当然,所采用的方法越好,所得结论犯错误的概率越小,所以,面对具体问题,我们要尽量选择合适的、好的统计方法。 人民教育出版社 请你带着下面的问题,复习一下全章的內容吧! 1. 举例说明成对数据是如何形成的。 2. 举例说明什么叫相关关系,它与函数关系有什么区别? 3. 借助样本相关系数和回归模型,可以刻画两个变量的非线性相关程度的高低吗? 4. 一元线性回归模型中,模型参数 $a$ 和 $b$ 的统计意义是什么? 5. 最小二乘原理是什么?你能说一说它的基本思想吗? 6. 举例说明用条件概率的语言刻画两个分类变量关联性的关键点是什么? 7. 分类变量和数值变量有何本质不同? 8. 独立性检验的基本思想是什么?它和反证法有何异同? 9. 若依据 $\alpha=0.05$ 的独立性检验,结论是两个变量之间有关联,如何解释这个结论?如果是两个变量之间没有关联,又该如何解释这个结论? 10. 通过本章的学习,你对统计方法和确定性方法的差异性有哪些新的认识? ## 复习参考题8 ### 复习巩固 1. 变量 $x$ 与 $y$ 的成对样本数据的散点图如下图所示,据此可以推断变量 $x$ 与 $y$ 之间( )。 [图片描述: 散点图显示了变量x和y的成对样本数据。x轴从0到3.0,y轴从0到8。数据点大致呈现从左下到右上的趋势,表明存在正相关。具体点位:(0, 0.5), (0.5, 1), (0.7, 1.2), (1.3, 2.2), (1.9, 4.5), (2.5, 5.8), (3.1, 7)。|标题: 变量x与y的成对样本数据散点图|图片编号: 图1] (第1题) (A) 很可能存在负相关 (B) 一定存在正相关 (C) 很可能存在正相关 (D) 一定不存在负相关 2. 根据变量 $Y$ 和 $x$ 的成对样本数据,由一元线性回归模型 $$ \begin{cases} Y=bx+a+e \\ E(e)=0, D(e)=\sigma^2 \end{cases} $$ 得到经验回归模型 $\hat{y}=\hat{b}x+\hat{a}$,对应的残差如图所示。模型误差( )。 人民教育出版社 [图片描述: 散点图展示了残差(y轴)与自变量x(x轴)之间的关系。图中残差值围绕y=0轴分布,但其离散程度(方差)似乎随着x值的增大而增大,呈现出一种扩散或“扇形”模式。这表明残差的方差可能不是常数,即存在异方差性。|标题:残差图|图片编号:1] (第2题) (A) 满足一元线性回归模型的所有假设 (B) 不满足一元线性回归模型的 $E(e)=0$ 的假设 (C) 不满足一元线性回归模型的 $D(e)=\sigma^2$ 的假设 (D) 不满足一元线性回归模型的 $E(e)=0$ 和 $D(e)=\sigma^2$ 的假设 3. 根据分类变量 $x$ 与 $y$ 的成对样本数据,计算得到 $\chi^2=2.974$.依据 $\alpha=0.05$ 的独立性检验,结论为( ). (A) 变量 $x$ 与 $y$ 不独立 (B) 变量 $x$ 与 $y$ 不独立,这个结论犯错误的概率不超过 $0.05$ (C) 变量 $x$ 与 $y$ 独立 (D) 变量 $x$ 与 $y$ 独立,这个结论犯错误的概率不超过 $0.05$ 4. 8.3节例4中推断吸烟与患肺癌是有关联的,能用一元线性回归模型建立它们之间的关系吗?为什么? ## 综合运用 5. 根据8.1.2节例3中的数据,建立臂展关于身高的经验回归模型,画出残差图,描述残差图的特点. 6. 下表是1896—2021年男子三级跳远奥运会冠军的成绩,请分析这组数据,能用一元线性回归模型刻画这组数据吗? | 年份 | 成绩/m | 年份 | 成绩/m | 年份 | 成绩/m | 年份 | 成绩/m | | :--- | :----- | :--- | :----- | :--- | :----- | :--- | :----- | | 1896 | 13.71 | 1932 | 15.72 | 1972 | 17.35 | 2004 | 17.79 | | 1900 | 14.47 | 1936 | 16.00 | 1976 | 17.29 | 2008 | 17.67 | | 1904 | 14.35 | 1948 | 15.40 | 1980 | 17.35 | 2012 | 17.81 | | 1908 | 14.92 | 1952 | 16.22 | 1984 | 17.25 | 2016 | 17.86 | | 1912 | 14.64 | 1956 | 16.35 | 1988 | 17.61 | 2021 | 17.98 | | 1920 | 14.50 | 1960 | 16.81 | 1992 | 18.17 | | | | 1924 | 15.53 | 1964 | 16.85 | 1996 | 18.09 | | | | 1928 | 15.21 | 1968 | 17.39 | 2000 | 17.71 | | | 7. 汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过试验测得行驶里程与某品牌轮胎凹槽深度的数据,请根据数据建立轮胎凹槽深度和汽车行驶里程的关系,并解释模型的含义. | 行驶里程/万km | 0.00 | 0.64 | 1.29 | 1.93 | 2.57 | 3.22 | 3.86 | 4.51 | 5.15 | | :------------------ | :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- | | 轮胎凹槽深度/mm | 10.02 | 8.37 | 7.39 | 6.48 | 5.82 | 5.20 | 4.55 | 4.16 | 3.82 | 8. 为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表: 单位:只 | 药物 | 未患病 | 患病 | 合计 | | :----- | :----- | :--- | :--- | | 未服用 | 75 | 66 | 141 | | 服用 | 112 | 47 | 159 | | 合计 | 187 | 113 | 300 | 依据$\alpha=0.05$的独立性检验,能否认为药物有效呢?如何解释得到的结论? ## 拓广探索 9. 气象部门由每天的最高气温的数据,得到每月最高气温的平均数,简称平均高温.下表是2017年31个城市1月和7月的平均高温数据. | 城市 | 1月平均高温/℃ | 7月平均高温/℃ | | :--------- | :------------- | :------------- | | 北京 | 3 | 32 | | 成都 | 12 | 32 | | 重庆 | 12 | 36 | | 福州 | 17 | 36 | | 广州 | 21 | 33 | | 贵阳 | 9 | 28 | | 哈尔滨 | -11 | 30 | | 海口 | 22 | 32 | | 杭州 | 11 | 36 | | 合肥 | 9 | 35 | | 呼和浩特 | -3 | 30 | | 济南 | 6 | 33 | | 昆明 | 17 | 24 | | 拉萨 | 8 | 23 | | 兰州 | 5 | 33 | | 南昌 | 13 | 35 | | 南京 | 9 | 35 | | 南宁 | 20 | 33 | | 上海 | 10 | 36 | | 沈阳 | -3 | 31 | | 石家庄 | 3 | 33 | | 太原 | 3 | 32 | | 天津 | 3 | 33 | | 乌鲁木齐 | -3 | 32 | | 武汉 | 10 | 34 | | 西安 | 8 | 36 | | 西宁 | 4 | 27 | | 银川 | 2 | 32 | | 长春 | -8 | 29 | | 长沙 | 11 | 35 | | 郑州 | 7 | 34 | (1) 画出并观察各城市1月与7月的平均高温的散点图,你认为1月与7月的平均高温有线性趋势吗?描述散点图的特点. (2) 结合地理知识并用统计方法分析表中的数据,解释这两个月平均高温的关系. # 建立统计模型进行预测 在现实世界中有许多随机现象需要研究,已有的学习告诉我们,研究随机现象,就是要明确研究对象和问题的基础上,通过收集数据、整理数据、提取信息、构建数学模型,再利用模型进行推断,得出结论。通过这样的研究所得出的结论,可以为我们作出决策提供有力的依据。 下面我们看一个通过建立统计模型进行随机现象的分析和决策的实际事例。 **背景** 大气污染物$\text{PM}_{2.5}$ (大气中直径小于或等于$2.5 \mu\text{m}$ 的颗粒物) 的浓度超过一定的限度会影响人的身体健康。为了研究 $\text{PM}_{2.5}$ 的浓度是否受到汽车流量、气候状况等因素的影响,研究人员选择了 24 个社会经济发展水平相近的城市,在每个城市选择一个交通点建立监测点,统计每个监测点 24 h 内过往的汽车流量 (单位: 千辆),同时在低空相同的高度测定每个监测点该时间段的平均气温 (单位: ℃)、风速 (单位: m/s)、空气湿度 (绝对湿度,单位: $\text{g}/\text{m}^3$) 以及空气中$\text{PM}_{2.5}$ 的平均浓度 (单位: $\mu\text{g}/\text{m}^3$),得到的数据如表 1 所示。 表 1 24个城市交通点空气中$\text{PM}_{2.5}$浓度监测数据 | 城市编号 | 汽车流量 | 平均气温 | 空气湿度 | 风速 | $\text{PM}_{2.5}$ 浓度 | | :------- | :------- | :------- | :------- | :--- | :----------- | | 1 | 1.300 | 20.0 | 80 | 0.45 | 66 | | 2 | 1.444 | 23.0 | 57 | 0.50 | 76 | | 3 | 0.786 | 26.5 | 64 | 1.50 | 21 | | 4 | 1.652 | 23.0 | 84 | 0.40 | 170 | | 5 | 1.756 | 29.5 | 72 | 0.90 | 156 | | 6 | 1.754 | 30.0 | 76 | 0.80 | 120 | | 7 | 1.200 | 22.5 | 69 | 1.80 | 72 | | 8 | 1.500 | 21.8 | 77 | 0.60 | 120 | | 9 | 1.200 | 27.0 | 58 | 1.70 | 100 | | 10 | 1.476 | 27.0 | 65 | 0.65 | 129 | | 11 | 1.820 | 22.0 | 83 | 0.40 | 135 | | 12 | 1.436 | 28.0 | 68 | 2.00 | 99 | | 13 | 0.948 | 22.5 | 69 | 2.00 | 35 | | 14 | 1.440 | 21.5 | 79 | 2.40 | 58 | | 15 | 1.084 | 28.5 | 59 | 3.00 | 29 | | 16 | 1.844 | 26.0 | 73 | 1.00 | 140 | | 17 | 1.116 | 35.0 | 92 | 2.80 | 43 | | 18 | 1.656 | 20.0 | 83 | 1.45 | 69 | | 19 | 1.536 | 23.0 | 57 | 1.50 | 87 | | 20 | 0.960 | 24.8 | 67 | 1.50 | 45 | | 21 | 1.784 | 23.3 | 83 | 0.90 | 222 | | 22 | 1.496 | 27.0 | 65 | 0.65 | 145 | | 23 | 1.060 | 26.0 | 58 | 1.83 | 34 | | 24 | 1.436 | 28.0 | 68 | 2.00 | 105 | 我们希望通过这些数据,定量探究与$PM_{2.5}$浓度相关的影响因素,为作出控制空气污染的决策提供依据。 建立统计模型进行预测的一般流程如图1所示,我们按照这个流程,对上述问题进行研究。 [图片描述:该流程图描绘了建立统计模型进行预测的一般过程。流程从“未知现象”开始,箭头指向“了解背景知识,明确分析目的,确定获得数据方法”。这一步与“观测数据(样本)”共同被包含在“收集数据”的虚线框内。从“了解背景知识,明确分析目的,确定获得数据方法”有箭头指向“观测数据(样本)”。“观测数据(样本)”的下一步是“统计描述”。“统计描述”、“统计模型”、“统计推断”三者按顺序排列,并都被包含在“分析数据”的虚线框内。从“统计描述”到“统计模型”,再到“统计推断”都有箭头指示顺序。最后,从“统计推断”有一个虚线箭头指回“了解背景知识,明确分析目的,确定获得数据方法”,形成一个迭代循环。|标题:图1 建立统计模型进行预测的一般流程|图片1] ```mermaid graph TD subgraph 收集数据 B[了解背景知识, 明确分析目的, 确定获得数据方法] C[观测数据 (样本)] end subgraph 分析数据 D[统计描述] E[统计模型] F[统计推断] end A[未知现象] --> B B --> C C --> D D --> E E --> F F -- 迭代/反馈 --> B ``` # 一、问题背景分析 影响 $PM_{2.5}$ 浓度的因素很多,原因也比较复杂,我们甚至不能确切地了解 $PM_{2.5}$ 产生的原因,但我们可以先从简单的问题入手开展研究。 例如,如果只考虑 $PM_{2.5}$ 浓度与汽车流量的关系,我们可以以汽车流量为自变量,$PM_{2.5}$ 浓度为因变量,采用回归分析的方法进行研究。 这时,我们需要考虑以下三个方面的问题: 1. **统计描述**,即直观描述成对样本数据的统计相关性,例如,$PM_{2.5}$ 浓度是否随汽车流量的增加而增加?$PM_{2.5}$ 浓度与汽车流量的关系是线性关系还是非线性关系?如果汽车流量每增加100辆,$PM_{2.5}$ 浓度平均增加多少?等等。 2. **统计建模与推断**,即建立回归模型,检验并估计模型参数,例如,$PM_{2.5}$ 浓度是否随汽车流量的变化而变化?汽车流量对 $PM_{2.5}$ 浓度的影响有多大?汽车流量对 $PM_{2.5}$ 浓度的影响是否具有统计学意义?等等。 3. **统计应用**,即利用模型进行统计预测或控制,例如,如何由汽车流量预测大气中 $PM_{2.5}$ 的浓度?如何通过控制汽车流量达到控制空气中 $PM_{2.5}$ 浓度的目的?等等。 # 二、建立统计模型 ## 1.绘制散点图 绘制散点图是进行回归分析的第一步,可以直观地考察两个变量之间的关系,为我们分析两个变量之间的关系类型提供帮助。 以汽车流量为横轴、$PM_{2.5}$ 浓度为纵轴绘制散点图。为了研究方便,我们使用R软件。首先将表1中的数据建立一个“csv”文件,例如建立“pm25.csv”文件(图2)。然后在 工作区域中输入“w=read.csv(“pm25.csv")”,读入数据。再用“plot(PM$_{2.5}$浓度~汽车流量,w)”函数,画出散点图(图3)。 | 城市编号 | 汽车流量 | 气温 | 湿度 | 风速 | PM$_{2.5}$浓度 | | :------- | :------- | :--- | :--- | :--- | :-------- | | 1 | 1.3 | 20 | 80 | 0.45 | 66 | | 2 | 1.444 | 23 | 57 | 0.5 | 76 | | 3 | 0.786 | 26.5 | 64 | 1.5 | 21 | | 4 | 1.652 | 23 | 84 | 0.4 | 170 | | 5 | 1.756 | 29.5 | 72 | 0.9 | 156 | | 6 | 1.754 | 30 | 76 | 0.8 | 120 | | 7 | 1.2 | 22.5 | 69 | 1.8 | 72 | | 8 | 1.5 | 21.8 | 77 | 0.6 | 120 | | 9 | 1.2 | 27 | 58 | 1.7 | 100 | | 10 | 1.476 | 27 | 65 | 0.65 | 129 | | 11 | 1.82 | 22 | 83 | 0.4 | 135 | | 12 | 1.436 | 28 | 68 | 2 | 99 | | 13 | 0.948 | 22.5 | 69 | 2 | 35 | | 14 | 1.44 | 21.5 | 79 | 2.4 | 58 | | 15 | 1.064 | 28.5 | 59 | 3 | 29 | | 16 | 1.844 | 26 | 73 | 1 | 140 | | 17 | 1.116 | 35 | 92 | 2.8 | 43 | | 18 | 1.656 | 20 | 83 | 1.45 | 69 | | 19 | 1.536 | 23 | 57 | 1.5 | 87 | | 20 | 0.96 | 24.8 | 67 | 1.5 | 45 | | 21 | 1.784 | 23.3 | 83 | 0.9 | 222 | | 22 | 1.496 | 27 | 65 | 0.65 | 145 | | 23 | 1.06 | 26 | 58 | 1.83 | 34 | | 24 | 1.436 | 28 | 68 | 2 | 105 | [图片描述:一个包含24行数据的表格,列标题分别为“城市编号”、“汽车流量”、“气温”、“湿度”、“风速”和“PM2.5浓度”。表格展示了不同城市在不同汽车流量、气温、湿度和风速条件下的PM2.5浓度数据。|标题:图2 数据表格|图片编号:1] [图片描述:一个名为“R Graphics: Device 2 (ACTIVE)”的散点图,横轴表示“汽车流量”,纵轴表示“PM2.5浓度”。图中的点显示了PM2.5浓度随汽车流量变化的分布情况,初步揭示了两者之间的关系。|标题:图3 PM2.5浓度与汽车流量的散点图|图片编号:2] 由图3可以发现,PM$_{2.5}$浓度随着汽车流量的增加呈线性增长趋势,但在汽车流量相近时,PM$_{2.5}$的浓度有时相差很大,说明PM$_{2.5}$浓度除了受汽车流量的影响外,可能还受到其他一些已知或未知的因素(如风速、空气温度、空气湿度等)影响。因此PM$_{2.5}$浓度与汽车流量之间是一种相关关系。 2. 建立线性回归方程 一元线性回归模型为 $$ \begin{cases} Y=bx+a+e, \\ E(e)=0, D(e)=\sigma^2, \end{cases} $$ 根据样本数据,利用最小二乘法对模型参数 $a, b$ 进行估计,得到经验回归模型 $\hat{y}=\hat{b}x+\hat{a}$。 在 R 软件的工作区域输入“a=lm(PM$_{2.5}$浓度~汽车流量,w)”,建立 PM$_{2.5}$浓度与汽车流量之间的回归方程并进行相关的分析。我们可以用“abline(a)”画出回归直线(图4),用“summary(a)”输出回归结果(图5)。这样,我们得到了PM$_{2.5}$浓度关于汽车流量的回归方程 $$ \hat{y}=138.60x-99.69. \quad \text{①} $$ [图片描述:一个名为“R Graphics: Device 2 (ACTIVE)”的散点图,横轴表示“汽车流量”,纵轴表示“PM2.5浓度”。图上除了原始数据点外,还叠加了一条线性回归直线,该直线是根据最小二乘法拟合的,直观展示了PM2.5浓度随汽车流量增加的线性趋势。|标题:图4 PM2.5浓度与汽车流量的散点图及回归直线|图片编号:3] [图片描述:R软件中执行`summary(a)`命令的输出结果截图,详细展示了线性回归模型的统计信息。这包括残差(Residuals)的分布(最小值、四分位数、最大值)、系数(Coefficients)的估计值(Estimate,如截距-99.69和汽车流量138.60)、标准误差(Std. Error)、t值(t value)和p值(Pr(>|t|))。此外,还给出了显著性代码、残差标准误差、自由度、R平方(Multiple R-squared和Adjusted R-squared)以及F统计量及其p值,这些都是评估模型拟合优度和变量显著性的重要指标。|标题:图5 R语言线性回归模型结果概要|图片编号:4] ## 3. 回归结果分析 (1) 回归系数估计的输出结果如下: | Coefficients: | Estimate | Std. Error | t value | Pr(>|t|) | | :------------ | :------- | :--------- | :------ | :-------- | | (Intercept) | -99.69 | 29.58 | -3.370 | 0.002 76 | | 汽车流量 | 138.60 | 20.62 | 6.721 | 9.37e-07 | 在输出结果中,估计量 (Estimate) 对应的列是回归系数 $a$ 和 $b$ 的估计值,即 $\hat{a}=-99.69$,$\hat{b}=138.60$。由 $\hat{b}=138.60$,说明 PM$_{2.5}$ 浓度随着汽车流量的增加而增加,汽车流量每增加 100 辆 (0.1 千辆),空气中的 PM$_{2.5}$ 浓度平均可能增加 $13.86 \text{ µg/m}^3$。 汽车流量对应的 $t$ 值 ($t$-value) 是检验回归系数 $b$ 是否为 0 的指标。结果显示:$t$ 统计量的值为 $6.721$,自由度 $n-2=22$。给定显著性水平 $\alpha=0.05$,临界值 $t_{0.025}(22)=2.074$。由于 $t=6.721 > t_{0.025}(22)$,表明 $b$ 显著地不为 0,说明汽车流量是影响 PM$_{2.5}$ 浓度的一个显著性因素,或者根据 $p$ 值 ($\text{Pr}(>|t|)$) $9.37 \times 10^{-7} < 0.05$,也说明汽车流量是影响 PM$_{2.5}$ 浓度的一个显著性因素。 (2) 线性关系显著性检验的输出结果如下: ``` Residual standard error: 29.97 on 22 degrees of freedom F-statistic: 45.17 on 1 and 22 DF, p-value: 9.366e-07 ``` 在输出结果中,$F$ 统计量 ($F$-statistics) 是检验两变量线性关系显著性的指标。结果显示:$F$ 统计量的值为 $45.17$,分子自由度 $df=1$,分母自由度 $df=n-2=22$。给定显著性水平 $\alpha=0.05$,临界值 $F_{0.05}(1, 22)=4.301$。由于 $F=45.17 > F_{0.05}(1, 22)$,或 $p$ 值 ($p$-value) $9.366 \times 10^{-7} < 0.05$,表明 PM$_{2.5}$ 浓度与汽车流量的线性关系是显著的。可以认为 PM$_{2.5}$ 浓度与汽车流量之间的回归方程①具有统计学意义。 (3) 决定系数和调整的决定系数的输出结果如下: ``` Multiple R-squared: 0.672 5, Adjusted R-squared: 0.657 6 ``` 决定系数 $R^2$ 是回归分析中重要的统计量,$R^2$ 数值的大小反映了自变量对回归的贡献,也就是在因变量的总变异中回归关系所能解释的百分比。决定系数也反映了回归模型的拟合效果。当自变量与因变量均为随机变量时,决定系数等于样本相关系数 $r$ 的平方。其中调整的决定系数 $R' = 0.6576 = 65.76\%$,说明 PM$_{2.5}$ 浓度总变异的 $65.76\%$ 与汽车流量有关。 ## 三、模型的应用 回归模型的重要应用之一是预测,在给定 $x$ 值时,根据回归方程,计算 $Y$ 的预测值 $\hat{y}$。我国规定空气中 PM$_{2.5}$ 浓度的安全标准为年平均浓度 $35 \text{ µg/m}^3$,24 h 平均浓度 $75 \text{ µg/m}^3$。当汽车流量为 1300 辆,即 $x=1.3$ 时,$\hat{y}=80.49$,说明 PM$_{2.5}$ 浓度在安全标 准附近;当汽车流量为 $2300$ 辆,即 $x=2.3$ 时,$\hat{y}=219.09$,说明 $\text{PM}_{2.5}$ 浓度严重超标,需要预警和采取措施进行干预。 某城市为使 $\text{PM}_{2.5}$ 浓度的平均值在 $60 \sim 120$,拟对汽车流量作适当控制,可以利用回归方程得到汽车流量。当 $\hat{y}_1=60$ 时,$x_1=1.152$;当 $\hat{y}_2=120$ 时,$x_2=1.585$。因此要使该城市的 $\text{PM}_{2.5}$ 浓度的平均值控制在 $60 \sim 120$, $24 \text{h}$ 的汽车流量就要控制在 $1152 \sim 1585$ 辆。 ## 四、数学建模活动的选题 请同学们仿照上述过程,开展建立统计模型进行预测的活动,可以从下列选题中选择一个,继续研究 $\text{PM}_{2.5}$ 浓度与各相关因素的关系(可借助信息技术工具如 R 软件,Excel,图形计算器等): 1. 依照上面的研究方法与过程,研究影响 $\text{PM}_{2.5}$ 浓度的其他因素(如气温、空气湿度、风速等)与 $\text{PM}_{2.5}$ 浓度的回归模型; 2. 影响 $\text{PM}_{2.5}$ 浓度的各因素之间是否独立,这些因素的选择是否合理; 3. $\text{PM}_{2.5}$ 浓度实际上是受到多个因素的影响,你可以在上述研究的基础上,利用信息技术工具,采用多元线性回归模型进行预测或控制,使分析更加客观和精确。 也可以根据自己的兴趣,与老师协商后确定一个课题进行研究。 ## 五、数学建模活动的要求 1. **组建合作团队** 数学建模实践活动需要团队协作,首先在班级中组成 $3 \sim 5$ 人的研究小组,每位同学参加其中一个小组,在小组内,要确定一个课题负责人,使每位成员都有明确的分工,拟定研究课题、确定研究方案、规划研究步骤、编制研究手册,然后在班里进行一次开题报告。 2. **开展研究活动** 根据开题报告所规划的研究流程,通过背景分析、数据收集、数据分析、数学建模、获得结论等过程,完成课题研究,在研究过程中,可以借助信息技术解决问题。 3. **撰写研究报告** 以小组为单位,撰写一份研究报告。 4. **交流展示** (1) 对同一个课题,先由 $3 \sim 4$ 个小组进行小组交流,每个小组都展示自己的研究成果,相互借鉴、取长补短,在小组报告的基础上形成大组的研究报告,选定代表,制作向全班汇报的演示文稿。 (2) 与老师一起进行全班研究成果展示与交流,在各大组代表作研究报告的基础上,通过质疑、辩论、评价,总结成果,分享体会,分析不足,开展自我评价、同学间相互评价和老师评价,完成本次数学建模活动。 说明:数学建模可能需要用到一些数学软件工具,还有可能涉及一些课外的知识,同学们可以通过阅读一些课外的学习材料获得相关的知识。 ## 六、数学建模活动研究报告的参考形式 年级:______ 班级:______ 完成时间:______ | 序号 | 项目名称及要求 | 报告内容(请在此处填写) | | :--- | :-------------------------------------------------------------------------------------- | :----------------------- | | 1 | 课题名称 | | | 2 | 课题组成员及分工 | | | 3 | 选题的意义 | | | 4 | 研究计划(包括对选题的分析、解决问题的思路等) | | | 5 | 研究过程(包括收集数据、分析数据、建立模型、求解模型的过程,以及过程中出现的难点、解决方案等) | | | 6 | 研究结果 | | | 7 | 收获与体会 | | | 8 | 对此研究的评价(由评价小组或老师填写) | | # 部分中英文词汇索引 | 中文 | 英文 | 页码 | | :----------------- | :---------------------------- | :--- | | 排列 | arrangement | 16 | | 组合 | combination | 21 | | 二项式定理 | binomial theorem | 30 | | 条件概率 | conditional probability | 45 | | 全概率公式 | total probability formula | 49 | | 贝叶斯公式 | Bayes formula | 51 | | 随机变量 | random variable | 57 | | 离散型随机变量 | discrete random variable | 57 | | 两点分布 | two-point distribution | 59 | | 均值 | mean | 63 | | 数学期望 | mathematical expectation | 63 | | 方差 | variance | 68 | | 标准差 | standard deviation | 68 | | 伯努利试验 | Bernoulli trials | 72 | | 二项分布 | binomial distribution | 73 | | 超几何分布 | hypergeometric distribution | 78 | | 连续型随机变量 | continuous random variable | 83 | | 正态分布 | normal distribution | 84 | | 相关关系 | correlation | 93 | | 散点图 | scatter plot | 94 | | 正相关 | positive correlation | 95 | | 负相关 | negative correlation | 95 | | 样本相关系数 | sample correlation coefficient | 98 | | 一元线性回归模型 | simple linear regression model | 106 | | 最小二乘估计 | least squares estimate | 110 | | 列联表 | contingency table | 126 | | 零假设 | null hypothesis | 128 | | 独立性检验 | test of independence | 131 | # 后记 本册教科书是人民教育出版社课程教材研究所中学数学课程教材研究开发中心依据教育部《普通高中数学课程标准(2017年版)》编写的,2019年经国家教材委员会专家委员会审核通过。 本册教科书的编写,集中反映了我国十余年来普通高中课程改革的成果,吸取了2004年版《普通高中课程标准实验教科书·数学(A版)》的编写经验,凝聚了参与课改实验的教育专家、学科专家、教材编写专家、教研人员和一线教师,以及教材设计装帧专家的集体智慧。本册教科书的编写者还有李增沪、张伟等;本书插图绘制为王俊宏。 我们感谢2004年版《普通高中课程标准实验教科书·数学(A版)》的主编刘绍学,副主编钱珮玲、章建跃,以及所有编写人员。我们感谢所有对教科书的编写、出版、试教等提供过帮助与支持的同仁和社会各界朋友。 本册教科书出版之前,我们通过多种渠道与教科书选用作品(包括照片、画作)的作者进行了联系,得到了他们的大力支持。对此,我们表示衷心的感谢!恳请未联系到的作者与我们联系,以便及时支付稿酬。 本册教科书投入使用后,我们根据各方意见作了修订,真诚希望广大师生和家长继续提出宝贵意见! 联系方式 电话:010-58758866 电子邮箱:jcfk@pep.com.cn 人民教育出版社课程教材研究所 中学数学课程教材研究开发中心 [图片描述: 页面背景以青绿色为主,顶部有浅色V字形纹理。页面左侧中央显示有白色大写字母文字“PUTONG GAOZHONG JIAOKESHU”和“SHUXUE”,表明这是一本普通高中数学教科书。左上角有一个带有注册商标符号®的白色图案,形似抽象的叶片或双手。左下角有一个绿色的圆形“中国环境标志”Logo,其下方写有“绿色印刷产品”字样。页面的右侧区域展示了一幅垂直的夜景图像,包含城市或港口的灯光,呈现出虚焦(bokeh)效果。右下角显示有ISBN号“978-7-107-34598-2”及其对应的条形码。|标题: 普通高中教科书 数学 (封底设计)|图片编号: 图1] **PUTONG GAOZHONG JIAOKESHU** **SHUXUE** 中 国环境标 CHINA ENVIRONMENTAL LABELLING 绿色印刷产品 ISBN 978-7-107-34598-2 9787107 345982>