130 KiB
第九章
统计
在现实生活中,我们经常会接触到各种统计数据,例如,人口总量、经济增长率、就业状况、物价指数、产品的合格率、商品的销售额、农作物的产量、人均水资源、居民人均年收入、电视台节目的收视率、学生的平均身高等。要正确阅读并理解这些数据,需要具备一些统计学的知识。
统计学是通过收集数据和分析数据来认识未知现象的一门科学。面对一个统计问题,首先要根据实际需求,通过适当的方法获取数据,并选择适当的统计图表对数据进行整理和描述,在此基础上用各种统计方法对数据进行分析,从样本数据中提取需要的信息,推断总体的情况,进而解决相应的实际问题。
那么,对于具体的统计问题,应如何收集数据?如何从所收集的数据中提取信息来认识未知现象?这种认识一定正确吗?应如何正确解释统计的结果?本章我们将在初中学过的统计与概率知识的基础上,通过进一步学习,加深对这些问题的认识,并通过解决问题的实践,进一步学习数据分析的方法。
[图片描述: 一个发光的蓝色地球仪位于画面中央,被环绕的二进制数据流(0和1)和光环围绕,背景是抽象的蓝色数字世界。右侧前景是一台笔记本电脑,其屏幕上显示着一个带有网格线的上升趋势的折线图,象征着数据分析和信息可视化。整个图像营造出数据在全球范围内流动、被收集和分析的科技感。|标题: 数据分析与全球信息|图片1]
9.1 随机抽样
统计的研究对象是数据,核心是通过数据分析研究和解决问题,因此,首先要设法获取与问题有关的数据,从而为解决问题奠定基础。
[图片描述: 一组人围坐在一张桌子旁,其中一人正在填写表格,另几人正在观察或交谈。这似乎是一个调查或数据收集的场景,与文中提到的人口普查或抽样调查相关。|标题: 居民正在接受调查|图片编号: 图1]
例如,准确掌握全国的人口数据,可以为科学制定国民经济和社会发展规划及其他方针政策提供依据。2020年我国进行了第七次人口普查,对全国人口普遍地、逐户逐人地进行一次性调查登记。调查内容包括每位居民的姓名、性别、年龄、民族、受教育程度等,这里,居民为调查对象,而居民的性别、年龄、民族、受教育程度等是要调查的指标,由于不同调查对象的指标值往往不同,它是一个变化的量,所以常把指标称为变量。像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查。在一个调查中,我们把调查对象的全体称为总体(population),组成总体的每一个调查对象称为个体(individual)。为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体。
由于人口普查需要花费巨大的财力、物力,因而不宜经常进行,为了及时掌握全国人口变动状况,我国每年还会进行一次人口变动情况的调查,这种调查是抽取一部分居民进行调查,根据抽取的居民情况来推断总体的人口变动情况。像这样,根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查(sampling survey)。我们把从总体中抽取的那部分个体称为样本(sample),样本中包含的个体数称为样本容量,简称样本量。调查样本获得的变量值称为样本的观测数据,简称样本数据。
相对全面调查而言,抽样调查由于只抽取一部分个体进行调查,因此具有花费少、效率高的特点。在总体规模比较大的调查中,如果经费、时间上受限,那么抽样调查是比较合适的调查方法。在有些调查中,抽样调查则具有不可替代
的作用。例如,检测一批灯泡的寿命,或一批种子的发芽率,或一批待售袋装牛奶的细菌数是否超标,这些检测具有毁损性,此时只能用抽样调查。
随着社会的发展,抽样调查的应用范围越来越广泛,下面我们研究两种基本的抽样方法——简单随机抽样和分层随机抽样。
9.1.1 简单随机抽样
抽样调查的目的是了解总体的情况。例如,抽样调查一批待售袋装牛奶的细菌数是否超标,其目的是要了解整批牛奶的细菌含量超标情况,而不只是局限在抽查到的那几袋牛奶的情况。因此,通过抽样调查了解总体的情况,自然希望抽取的样本数据能很好地反映总体的情况,即样本含有和总体基本相同的信息。
探究
假设口袋中有红色和白色共1000个小球,除颜色外,小球的大小、质地完全相同。你能通过抽样调查的方法估计袋中红球所占的比例吗?
这里袋中所有小球是调查的总体,每一个小球是个体,小球的颜色是所关心的变量。我们可以从袋中随机地摸出一个球,记录颜色后放回,摇匀后再摸出一个球,如此重复$n$次。根据初中的概率知识可知,随着摸球次数的增加,摸到红球的频率会逐渐稳定于摸到红球的概率,即口袋中红球所占的比例。因此,我们可以通过放回摸球,用频率估计出红球的比例。
在有放回地摸球中,同一个小球有可能被摸中多次,极端情况是每次摸到同一个小球,而被重复摸中的小球只能提供同一个小球的颜色信息。如果我们采用不放回摸球,即从袋中摸出一个球后不再放回袋中,每次摸球都在余下的球中随机摸取,这样就可以避免同一个小球被重复摸中。特别地,当样本量$n=1000$时,不放回摸球已经把袋中的所有球取出,这就完全了解了袋中红球的比例,而有放回摸球一般还不能对袋中红球的比例作出准确的判断。
一般地,设一个总体含有N (N 为正整数)个个体,从中逐个抽取n (1 \le n < N)个个体作为样本。如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简
从总体中,逐个不放回地随机抽取$n$个个体作为样本,一次性批量随机抽取$n$个个体作为样本,两种方法是等价的。
单随机抽样,放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样 (simple random sampling)。通过简单随机抽样获得的样本称为简单随机样本。
与放回简单随机抽样比较,不放回简单随机抽样的效率更高,因此实践中人们更多采用不放回简单随机抽样。除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样。
问题1
一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级学生的平均身高,以便设定可调节课桌椅的标准高度。已知树人中学高一年级有712名学生,如果要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎样抽取样本?
在这个问题中,树人中学全部高一年级的学生构成调查的总体,每一位学生是个体,学生的身高是调查的变量。与“探究”栏目中估计红球的比例类似,我们可以对高一年级进行简单随机抽样,用抽出的样本的平均身高估计高一年级学生的平均身高。实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法。
1. 抽签法
先给712名学生编号,例如按1~712进行编号。然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌。最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的学生进入样本,直到抽足样本所需要的人数。
为什么要给学生编号?编号用学号可以吗?
抽签法简单易行,但当总体较大时,操作起来比较麻烦。因此,抽签法一般适用于总体中个体数不多的情形。
2. 随机数法
先给712名学生编号,例如按1~712进行编号。用随机数工具产生1~712范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本,重复上述过程,直到抽足样本所需要的人数。
如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的人数。
比较随机数法与抽签法,它们各有什么优点和缺点?
(1) 用随机试验生成随机数
准备10个大小、质地一样的小球,小球上分别写上数字0,1,2,…,9,把它们放入一个不透明的袋中。从袋中有放回摸取3次,每次摸取前充分搅拌,并把第一、二、三
一般说来,在计算器或计算机软件没有特殊设定的情况下,它们生成的随机数都是可重复的。为了确认你使用的计算器或计算机软件的情况,可以查阅它的说明书,也可以通过测试它能否生成3个整数随机数1或2来进行判断。
次摸到的数字分别作为百、十、个位数,这样就生成了一个三位随机数,如果这个三位数在1~712范围内,就代表对应编号的学生被抽中,否则舍弃编号。这样产生的随机数可能会有重复。
(2) 用信息技术生成随机数
1. 用计算器生成随机数
进入计算器的计算模式(不同的计算器型号可能会有不同),调出生成随机数的函数并设置参数,例如 RandInt#(1,712),按“=”键即可生成1~712范围内的整数随机数。重复按“=”键,可以生成多个随机数,这样产生的随机数可能会有重复。
2. 用电子表格软件生成随机数
在电子表格软件的任一单元格中,输入“=RANDBETWEEN (1,712)”,即可生成一个1~712范围内的整数随机数。再利用电子表格软件的自动填充功能,可以快速生成大量的随机数(图 9.1-1)。这样产生的随机数可能会有重复。
[图片描述:一张电子表格软件的截图。在公式栏中,单元格A26显示了公式=RANDBETWEEN (1,712)。A列从A1到A20显示了20个随机生成的整数,这些数字都在1到712的范围内。示例数字包括89, 571, 318, 159, 571, 528, 81, 384, 63, 11, 171, 84, 96, 554, 457, 326, 361, 504, 49, 204。|标题:图9.1-1|图片编号:图1]
3. 用R统计软件生成随机数
在R软件的控制台中,输入“`sample(1:712, 50, replace=F)`”,按回车键,就可以得到50个1~712范围内的不重复的整数随机数(图9.1-2)。
[图片描述:R Console的截图及旁边的文本框。R Console界面显示了R软件的版本信息(R version 3.3.1 (2016-06-21))、版权和平台信息,以及一系列关于R是自由软件、如何引用、贡献者等说明文字。核心内容是命令提示符>后输入了sample(1:712, 50, replace=F),其输出结果是50个1到712范围内的不重复随机整数(部分可见,例如579, 535, 346, 391, 179等)。截图右侧是一个信息框,其中写道:“R软件是免费的统计软件,该软件具有比较强大的数据处理、绘图和分析等统计功能,在统计学研究和学习中被广泛使用。”|标题:图9.1-2|图片编号:图2]
随着信息技术的发展,人们越来越多地利用计算器、数学软件、统计软件等工具来生成随机数,尤其是一些统计软件,可以非常方便地按要求生成各种随机数,用信息技术工具产生随机数最大的优点是方便、快捷。
? 思考
用简单随机抽样方法抽取样本,样本量是否越大越好?
我们知道,在重复试验中,试验次数越多,频率接近概率的可能性越大。与此类似,用简单随机抽样的方法抽取学生,样本量越大,样本中不同身高的比例接近总体中相应身高的比例的可能性也越大,样本的平均身高接近总体的平均身高的可能性也越大,即对于样本的代表性,一般说来,样本量大的会好于样本量小的,尤其是样本量不大时,增加样本量可以较好地提高估计的效果。但是,在实际抽样中,样本量的增大会导致调查的人力、费用、时间等成本的增加。因此,抽样调查中样本量的选择要根据实际问题的需要,并不一定是越大越好。
在简单随机抽样调查中,当样本量和总体一样大时,就是全面调查了。
练习
- 在以下调查中,总体、个体各是什么?哪些适合用全面调查?哪些适合用抽样调查? (1) 调查一个班级学生每周的体育锻炼时间; (2) 调查一个地区结核病的发病率; (3) 调查一批炮弹的杀伤半径; (4) 调查一个水库所有鱼中草鱼所占的比例。 请你再举一些不宜用全面调查的例子,并说明理由。
- 如图,由均匀材质制成的一个正二十面体(每个面都是正三角形),将20个面平分成10组,第1组标上0,第2组标上1,…,第10组标上9. [图片描述:一个蓝色半透明的正二十面体(二十面骰子),其部分面可见,并标有数字0、1、2、3、4、5、6。其中,数字0、1、2、3、4、5、6在不同的三角形面上。|标题:第2题|图片1] (1) 投掷正二十面体,若把朝上一面的数字作为投掷结果,则出现0,1,2,…,9是等可能的吗? (2) 三个正二十面体分别涂上红、黄、蓝三种颜色,分别代表百位、十位、个位,同时投掷可以产生一个三位数(百位为0的也看作三位数),它是000~999范围内的随机数吗?
- 实验室的笼子里共有100只小白鼠,现要从中抽取10只作试验用,下列两种情况是否属于简单随机抽样?请说明理由. (1) 每次不经任何挑选地抓一只,抓满10只为止; (2) 将笼中的100只小白鼠按1~100编号,任意选出编号范围内的10个不重复数字,把相应编号
的小白鼠作为试验用的小白鼠。
4. 如果计算器只能生成 [0, 1) 内的随机数,你有办法把它转化为 1 \sim 100 范围内的整数随机数吗?转化为 1 \sim 712 范围内的整数随机数呢?
5. 在抽样调查中,请你说说通过“随机”选择样本的优、缺点。
下面是用随机数法从树人中学高一年级学生中抽取的一个容量为50的简单随机样本,他们的身高变量值(单位:cm)如下: 156.0 166.0 157.0 155.0 162.0 168.0 173.0 155.0 157.0 160.0 175.0 177.0 158.0 155.0 161.0 158.0 161.5 166.0 174.0 170.0 162.0 155.0 156.0 158.0 183.0 164.0 173.0 155.5 176.0 171.0 164.5 160.0 149.0 172.0 165.0 176.0 176.0 168.5 171.0 169.0 156.0 171.0 151.0 158.0 156.0 165.0 158.0 175.0 165.0 171.0 由这些样本观测数据,我们可以计算出样本的平均数为164.3。据此,可以估计树人中学高一年级学生的平均身高为164.3 cm 左右。
上面我们通过简单随机抽样得到部分学生的平均身高,并把样本平均身高作为树人中学高一年级所有学生平均身高的估计值。
一般地,总体中有 N 个个体,它们的变量值分别为 $Y_1, Y_2, \cdots, Y_N$,则称
\bar{Y}=\frac{Y_1+Y_2+\cdots+Y_N}{N}=\frac{1}{N}\sum_{i=1}^{N}Y_i
为总体均值 (population mean),又称总体平均数。如果总体的 N 个变量值中,不同的值共有 k (k \le N) 个,不妨记为 $Y_1, Y_2, \cdots, Y_k$,其中 Y_i 出现的频数为 $f_i (i=1, 2, \cdots, k)$,则总体均值还可以写成加权平均数的形式
\bar{Y}=\frac{1}{N}\sum_{i=1}^{k}f_iY_i.
\Sigma为求和符号,读音为/'sigma/,主要用于多项式求和。\sum_{i=1}^{N}Y_i=Y_1+Y_2+\cdots+Y_N.
如果从总体中抽取一个容量为 n 的样本,它们的变量值分别为 $y_1, y_2, \cdots, y_n$,则称
\bar{y}=\frac{y_1+y_2+\cdots+y_n}{n}=\frac{1}{n}\sum_{i=1}^{n}y_i
为样本均值 (sample mean),又称样本平均数。在简单随机抽样中,我们常用样本平均数 \bar{y} 去估计总体平均数 $\bar{Y}$。
很多科学型计算器都具有求平均数的功能。只要输入数据,按相应的键,就可以快速求出平均数。
探究
小明想考察一下简单随机抽样的估计效果。他从树人中学医务室得到了高一年级学生身高的所有数据,计算出整个年级学生的平均身高为 $165.0 \text{ cm}$。然后,小明用简单随机抽样的方法,从这些数据中抽取了样本量为 50 和 100 的样本各 10 个,分别计算出样本平均数,如表 9.1-1 所示。从小明多次抽样所得的结果中,你有什么发现?
表 9.1-1
| 样本量 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| 样本量为 50 | 165.2 | 162.8 | 164.4 | 164.4 | 165.6 | 164.8 | 165.3 | 164.7 | 165.7 | 165.0 |
| 样本量为 100 | 164.4 | 165.0 | 164.7 | 164.9 | 164.6 | 164.9 | 165.1 | 165.2 | 165.1 | 165.2 |
为了更方便地观察数据,以便我们分析样本平均数的特点以及与总体平均数的关系,我们把这 20 次试验的平均数用图形表示出来,如图 9.1-3 所示。图中的红线表示树人中学高一年级全体学生身高的平均数。
[图片描述:该散点图名为“样本平均数分布图”,展示了两种不同样本量(50和100)的10次抽样试验所得的样本平均数。X轴表示“抽样序号”(1到10),Y轴表示“样本平均数”(从162.5到166)。红色的菱形点代表样本量为50的样本平均数,绿色的方块点代表样本量为100的样本平均数。图中有一条水平的红色直线,位于Y轴165.0处,表示总体平均数。观察图中的数据点,样本量为100的样本平均数(绿色方块)相对于样本量为50的样本平均数(红色菱形)更集中地分布在总体平均数(红线)附近,显示出更大的样本量通常能带来更稳定的估计结果。|标题:图 9.1-3|图片1]
从试验结果看,不管样本量为 50,还是为 100,不同样本的平均数往往是不同的。由于样本的选取是随机的,因此样本平均数也具有随机性,这与总体平均数是一个确定的数不同。虽然在所有 20 个样本平均数中,与总体平均数完全一致的很少,但除了样本量为 50 的第 2 个样本外,样本平均数偏离总体平均数都不超过 $1 \text{ cm}$,即大部分样本平均数离总体平均数不远,在总体平均数附近波动。比较样本量为 50 和样本量为 100 的样本平均数,还可以发现样本量为 100 的波动幅度明显小于样本量为 50 的,这与我们对增加样本量可以提高估计效果的认识是一致的。
总体平均数是总体的一项重要特征,另外,某类个体在总体中所占的比例也是人们关心的一项总体特征,例如全部产品中合格品所占的比例、赞成某项政策的人在整个人群中所占的比例等。
问题2 眼睛是心灵的窗口,保护好视力非常重要。树人中学在“全国爱眼日”前,想通过简单随机抽样的方法,了解一下全校2174名学生中视力不低于5.0的学生所占的比例,你觉得该怎么做?
在这个问题中,全校学生构成调查的总体,每一位学生是个体,学生的视力是考察的变量。为了便于问题的描述,我们记“视力不低于5.0”为1,“视力低于5.0”为0,则第i (i=1, 2, \cdots, 2174)个学生的视力变量值为
Y_i=\begin{cases}
1, & \text{视力不低于 } 5.0, \\
0, & \text{视力低于 } 5.0.
\end{cases}$$
于是,在全校学生中,“视力不低于5.0”的人数就是$Y_1+Y_2+\cdots+Y_{2174}$。可以发现,在总体中,“视力不低于5.0”的人数所占的比例$P$就是学生视力变量的总体平均数
$$P=\frac{Y_1+Y_2+\cdots+Y_{2174}}{2174}=\bar{Y}.$$
类似地,若抽取容量为$n$的样本,把它们的视力变量值分别记为$y_1, y_2, \cdots, y_n$,则在样本中,“视力不低于5.0”的人数所占的比例$p$就是学生视力变量的样本平均数
$$p=\frac{y_1+y_2+\cdots+y_n}{n}=\bar{y}.$$
我们可以用样本平均数$\bar{y}$估计总体平均数$\bar{Y}$,用样本中的比例$p$估计总体中的比例$P$。
现在,我们从树人中学所有学生中抽取一个容量为50的简单随机样本,其视力变量取值如下:
```
1101001011 1000110100 0111011011
1101101010 0010011100
```
由样本观测数据,我们可以计算出样本平均数为
$$\bar{y}=0.54.$$
据此,我们估计在树人中学全体学生中,“视力不低于5.0”的比例约为0.54。
简单随机抽样方法简单、直观,用样本平均数估计总体平均数也比较方便。简单随机抽样是一种基本抽样方法,是其他抽样方法的基础。但在实际应用中,简单随机抽样有一定的局限性,例如,当总体很大时,简单随机抽样给所有个体编号等准备工作非常费事,甚至难以做到;抽中的个体往往很分散,要找到样本中的个体并实施调查会遇到很多困难;简单随机抽样没有利用其他辅助信息,估计效率不是很高;等等。因此,在规模较大的调查中,直接采用简单随机抽样的并不多,一般是把简单随机抽样和其他抽样方法组合使用。
<!--End Page187-->
<!--Begin Page188-->
## 练习
1. 为了合理调配电力资源,某市欲了解全市$50000$户居民的日用电量,若通过简单随机抽样从中抽取了$300$户进行调查,得到其日用电量的平均数为$5.5 \text{ kW} \cdot \text{h}$,则可以推测全市居民用户日用电量的平均数( )。
(A) 一定为$5.5 \text{ kW} \cdot \text{h}$
(B) 高于$5.5 \text{ kW} \cdot \text{h}$
(C) 低于$5.5 \text{ kW} \cdot \text{h}$
(D) 约为$5.5 \text{ kW} \cdot \text{h}$
2. 在学生身高的调查中,小明和小华分别独立进行了简单随机抽样调查。小明调查的样本平均数为$166.4$,样本量为$100$;小华调查的样本平均数为$164.7$,样本量为$200$。你更愿意把哪个值作为总体平均数的估计?是不是你选的值一定比另一个更接近总体平均数?说说你的理由。
3. 找一组数据作为总体,自行设定样本量,进行多次简单随机抽样,观察样本量对估计总体平均数的影响,并试着解释其中的原因。
## 9.1.2 分层随机抽样
抽样调查最核心的问题是样本的代表性。简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,例如,在对树人中学高一年级学生身高的调查中,可能出现样本中$50$个个体大部分来自高个子或矮个子的情形,这种“极端”样本的平均数会大幅度地偏离总体平均数,从而使估计出现较大误差。
能否利用总体中的一些额外信息对抽样方法进行改进呢?
**问题3** 在树人中学高一年级的$712$名学生中,男生有$326$名,女生有$386$名。能否利用这个辅助信息改进简单随机抽样方法,减少“极端”样本的出现,从而提高对整个年级平均身高的估计效果呢?
我们知道,影响身高的因素有很多,性别是其中的一个主要因素。高中男生的身高普遍高于女生的身高,而相同性别的身高差异相对较小。我们可以利用性别和身高的这种关系,把高一年级学生分成男生和女生两个身高有明显差异的群体,对两个群体分别进行简单随机抽样,然后汇总作为总体的一个样本,由于在男生和女生两个群体中都抽取了相应的个体,这样就能有效地避免“极端”样本。
**思考**
对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配?
自然地,为了使样本的结构与总体的分布相近,人数多的群体应多抽一些,人数少的群体应少抽一些,因此,按男生、女生在全体学生中所占的比例进行分配是一种比较合理
<!--End Page188-->
<!--Begin Page189-->
的方式,即
男生样本量 = $\frac{男生人数}{全体学生数} \times 总样本量$,
女生样本量 = $\frac{女生人数}{全体学生数} \times 总样本量$.
这样无论是男生还是女生,每个学生被抽到的概率都相等. 当总样本量为50时,可以计算出从男生、女生中分别应抽取的人数为
$n_男 = \frac{326}{712} \times 50 \approx 23$,
$n_女 = \frac{386}{712} \times 50 \approx 27$.
我们按上述方法抽取了一个容量为50的样本,其观测数据(单位:cm)如下:
**男生**
173.0 174.0 166.0 172.0 170.0 165.0 165.0 168.0 164.0 173.0
172.0 173.0 175.0 168.0 170.0 172.0 176.0 175.0 168.0 173.0
167.0 170.0 175.0
**女生**
163.0 164.0 161.0 157.0 162.0 165.0 158.0 155.0 164.0 162.5
154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0 155.0 148.0
172.0 162.5 158.0 155.5 157.0 163.0 172.0
通过计算,得出男生和女生身高的样本平均数分别为170.6, 160.6. 根据男生、女生身高的样本平均数以及他们各自的人数,可以估计总体平均数为
$\frac{170.6 \times 326 + 160.6 \times 386}{712} \approx 165.2$,
即估计树人中学高一年级学生的平均身高在165.2 cm 左右.
上面我们按性别变量,把高一学生划分为男生、女生两个身高差异较小的子总体分别进行抽样,进而得到总体的估计. 一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为**分层随机抽样** (stratified random sampling),每一个子总体称为**层**. 在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为**比例分配**.
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为 $M$ 和 $N$,抽取的样本量分别为 $m$ 和 $n$. 我们用 $X_1, X_2, \dots, X_M$ 表示第1层各个个体的变量值,用 $x_1, x_2, \dots, x_m$ 表示第1层样本的各个个体的变量值;用 $Y_1, Y_2, \dots, Y_N$ 表示第2层各个个体的变量值,用 $y_1, y_2, \dots, y_n$ 表示第2层样本的各个个体的变量值,则
<!--End Page189-->
<!--Begin Page190-->
第1层的总体平均数和样本平均数分别为
$X = \frac{X_1+X_2+\cdots+X_M}{M} = \frac{1}{M}\sum_{i=1}^{M} X_i$, $\bar{x} = \frac{x_1+x_2+\cdots+x_m}{m} = \frac{1}{m}\sum_{i=1}^{m} x_i$.
第2层的总体平均数和样本平均数分别为
$Y = \frac{Y_1+Y_2+\cdots+Y_N}{N} = \frac{1}{N}\sum_{i=1}^{N} Y_i$, $\bar{y} = \frac{y_1+y_2+\cdots+y_n}{n} = \frac{1}{n}\sum_{i=1}^{n} y_i$.
总体平均数和样本平均数分别为
$W = \frac{\sum_{i=1}^{M}X_i + \sum_{i=1}^{N}Y_i}{M+N}$, $\bar{w} = \frac{\sum_{i=1}^{m}x_i + \sum_{i=1}^{n}y_i}{m+n}$.
由于用第1层的样本平均数$\bar{x}$可以估计第1层的总体平均数$X$,用第2层的样本平均数$\bar{y}$可以估计第2层的总体平均数$Y$,因此我们可以用
$\frac{M\times\bar{x} + N\times\bar{y}}{M+N} = \frac{M}{M+N}\bar{x} + \frac{N}{M+N}\bar{y}$
估计总体平均数$W$.
在比例分配的分层随机抽样中,
$\frac{m}{M} = \frac{n}{N} = \frac{m+n}{M+N}$,
可得
$\frac{M}{M+N}\bar{x} + \frac{N}{M+N}\bar{y} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y} = \bar{w}$.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数$\bar{w}$估计总体平均数$W$.
**探究**
与考察简单随机抽样估计效果类似,小明也想通过多次抽样考察一下分层随机抽样的估计效果,他用比例分配的分层随机抽样方法,从高一年级的学生中抽取了10个样本量为50的样本,计算出样本平均数如表9.1-2所示,与上一小节“探究”中相同样本量的简单随机抽样的结果比较,小明有了一个重要的发现,你是否也有所发现?
表 9.1-2
10个样本的平均数
| 样本的“层” | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| :----------- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- |
| 男生样本 | 170.0 | 170.7 | 169.8 | 171.7 | 172.7 | 171.9 | 171.6 | 170.6 | 172.6 | 170.9 |
| 女生样本 | 162.2 | 160.3 | 159.7 | 158.1 | 161.1 | 158.4 | 159.7 | 160.0 | 160.6 | 160.2 |
| 总样本 | 165.8 | 165.1 | 164.3 | 164.3 | 166.4 | 164.6 | 165.2 | 164.9 | 166.1 | 165.1 |
<!--End Page190-->
<!--Begin Page191-->
我们把分层随机抽样的平均数与上一小节样本量为50的简单随机抽样的平均数用图形表示(图 9.1-4),其中红线表示整个年级学生身高的平均数。
[图片描述:一个散点图,横轴表示“抽样序号”(从0到10),纵轴表示“样本平均数”(从162.5到167)。图中有两条图例:红色菱形代表“简单随机抽样”的样本平均数,绿色方形代表“分层随机抽样”的样本平均数。图中有一条水平的红色直线,大约在165的位置,表示“总体平均数”。通过对比可以看出,绿色方形(分层随机抽样)的点更集中在总体平均数附近,波动幅度较小;而红色菱形(简单随机抽样)的点波动较大,尤其在抽样序号2处有一个点明显偏离总体平均数。|标题:图 9.1-4|图片编号:1]
从试验结果看,分层随机抽样的样本平均数围绕总体平均数波动,与简单随机抽样的结果比较,分层随机抽样并没有明显优于简单随机抽样。但相对而言,分层随机抽样的样本平均数波动幅度更均匀,简单随机抽样中出现了一个(第2个)偏离总体平均数的幅度比较大的样本平均数,即出现了比较“极端”的样本,而分层随机抽样没有出现。
实际上,在个体之间差异较大的情形下,只要选取的分层变量合适,使得各层间差异明显、层内差异不大,分层随机抽样的效果一般会好于简单随机抽样,也好于很多其他抽样方法。分层随机抽样的组织实施也比简单随机抽样方便,而且除了能得到总体的估计外,还能得到每层的估计。
在实际抽样调查中,由于实际问题的复杂性,除了要考虑获得的样本的代表性,还要考虑调查实施中人力、物力、时间等因素,因此通常会把多种抽样方法组合起来使用。例如,在分层抽样中,不同的层内除了用简单随机抽样外,还可以用其他的抽样方法,有时层内还需要再进行分层,等等。
> **探究**
> 如果要了解某电视节目在你所在地区(城市、乡镇或村庄)的收视率,你能帮忙设计一个抽样方案吗?结合你所在地区的实际情况,和同学展开讨论。
## 练习
1. 数据 $x_1, x_2, \ldots, x_m$ 的平均数为 $\bar{x}$,数据 $y_1, y_2, \ldots, y_n$ 的平均数为 $\bar{y}$,证明:
$$
\frac{\sum_{i=1}^{m} x_i + \sum_{j=1}^{n} y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}
$$
2. 有人说:“如果抽样方法设计得好,用样本进行视力调查与对24 300名学生进行视力普查的结果差不多,而且对于想要掌握学生视力状况的教育部门来说,节省了人力、物力和财力,抽样调查更可
<!--End Page191-->
<!--Begin Page192-->
取。”你认为这种说法有道理吗?为什么?
3. 高二年级有男生490人,女生510人,张华按男生、女生进行分层,通过分层随机抽样的方法,得到男生、女生的平均身高分别为170.2cm和160.8cm。
(1) 如果张华在各层中按比例分配样本,总样本量为100,那么在男生、女生中分别抽取了多少名?在这种情况下,请估计高二年级全体学生的平均身高。
(2) 如果张华从男生、女生中抽取的样本量分别为30和70,那么在这种情况下,如何估计高二年级全体学生的平均身高更合理?
4. 要调查全市普通高中高一年级学生中患色盲的比例,小明根据性别对总体进行分层,用分层随机抽样的方法进行调查,请你查阅有关资料,说说这样的分层是否合理。你觉得在选择分层变量时应注意什么?
---
## 💡 阅读与思考
### 如何得到敏感性问题的诚实反应
通过调查获取数据的基本方式是询问,调查问卷是询问的依据,也是信息的载体,无论是面对面的调查,如入户调查,还是非面对面的调查,如电话调查、网络调查等,调查问卷都是必需的。问卷设计十分重要,好的问卷是收集高质量数据的基础。
在统计调查中,问卷的设计是一门很大的学问,例如,调查问题的措辞会对被调查者产生影响,举例来说,在“你在多大程度上喜欢吸烟”和“你在多大程度上不喜欢吸烟”这两种问法中,前者会比后者给出更为肯定的答案。再如,问题在问卷中的位置也会对调查者产生影响,一般地,比较容易的、不涉及个人的问题应当排在比较靠前的位置,较难的、涉及个人的问题应排得比较靠后,等等。
对一些敏感性问题,例如学生在考试中有无作弊、某人是否偷税漏税等,更要精心设计问卷及调查方法,设法消除被调查者的顾虑,使他们能够如实回答问题。否则,被调查者往往会拒绝回答,或不提供真实情况。下面我们用一个例子来说明对敏感性问题的调查方法。
某地区的公共卫生部门为了调查本地区中学生的吸烟情况,对随机抽出的200名学生进行了调查。调查中使用了两个问题。
问题1: 你父亲的公历生日日期是不是奇数?
问题2: 你是否经常吸烟?
调查者设计了一个随机化装置,这是一个装有大小、形状和质量完全一样的50个白球和50个红球的袋子。每个被调查者随机从袋中摸取1个球(摸出的球再
<!--End Page192-->
<!--Begin Page193-->
放回袋中),摸到白球的学生如实回答第一个问题,摸到红球的学生如实回答第二个问题,回答“是”的人往一个盒子中放一个小石子,回答“否”的人什么都不要做。由于问题的答案只有“是”和“否”,而且回答的是哪个问题也是别人不知道的,因此被调查者可以毫无顾虑地给出符合实际情况的答案。
如果在200人中,共有58人回答“是”,你能估计出这个地区吸烟的中学生所占的百分比吗?
由题意可知,每个学生从口袋中摸出1个白球或红球的概率都是 0.5,即我们期望大约有100人回答了第一个问题,另100人回答了第二个问题。在摸出白球的情况下,回答父亲公历生日日期是奇数的概率是 $\frac{186}{365} \approx 0.51$。因而在回答第一个问题的 100人中,大约有51人回答了“是”,所以我们能推出,在回答第二个问题的100人中,大约有7人回答了“是”,即估计这个地区大约有7%的中学生吸烟。
这种方法是不是很巧妙?
### 9.1.3 获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此,如何收集数据是统计学研究的重要内容。
在实践中,获取数据的途径多种多样,常见的有统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等。下面介绍获取数据的一些基本途径。
#### 1. 通过调查获取数据
对于有限总体问题,如人口总数、城乡就业状况、农村贫困人口脱贫状况、生态环境改善状况、青少年受教育状况、高中生近视的比例、产品合格率、高中生日平均上网时间等问题,我们一般通过抽样调查或普查的方法获取数据。
针对不同问题的特点,为了有效收集所需数据,专家发明了各种不同的抽样方法。除了我们已经学过的简单随机抽样和分层随机抽样,还有系统抽样、整群抽样、不等概率抽样、自适应抽样、两阶段抽样等很多其他的方法。在实际应用中,关键在于是否能充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误。在前面的学习中,我们对此有了一定的认识。
<!--End Page193-->
<!--Begin Page194-->
**2. 通过试验获取数据**
试验是获取样本观测数据的另一种重要途径。例如,要判断研制的新药是否有效、培育的小麦新品种是否具有更高的产量等情况,没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据。又如特种钢、轮胎的配方和产品质量等,也需要通过试验获取样本观测数据。
通过试验获取数据时,我们需要严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础。在统计学中,这种安排试验的学问叫做“试验设计”,感兴趣的同学可以查阅试验设计教科书。
**3. 通过观察获取数据**
在现实生活中,我们感兴趣的很多自然现象都不能被人类所控制,如地震、降水、大气污染、宇宙射线等。自然现象会随着时间的变化而变化,不能用我们已经学过的有限总体来刻画,也就不能用抽样的方法获取观测数据;另一方面,由于自然现象不能被人为控制,也不能通过试验获取观测数据。研究这类现象,只能通过长久的持续观察获取数据。
对于各个不同的行业,往往需要专业测量设备获取观测数据。随着科技水平的提高,专业测量设备的自动化程度越来越高,通过观测获取和存储数据的成本越来越低,这成为大数据产生的根源。一般地,通过观察自然现象所获取的数据性质比较复杂,其中蕴含着所观察现象的本质信息,这些信息十分宝贵,统计学理论和方法是挖掘这些信息的强有力的工具之一。
**4. 通过查询获得数据**
我们感兴趣的问题,可能有众多专家研究过,他们在研究中所收集的样本观测数据可能存储于学术论文、专著、新闻稿、公报或互联网上。这些数据是宝贵的财富,我们可以收集前人的劳动成果并加以利用,从而减少收集数据的成本,我们往往把这样获得的数据叫做二手数据。国家统计局是我国最主要的统计数据收集和发布的部门,调查统计的数据涉及经济、社会、民生的方方面面。国家统计局的统计数据通过多种形式进行公布,例如定期发布新闻稿、举办新闻发布会、发布统计公报、出版各类统计资料等。统计公报有年度统计公报、经济普查公报、人口普查公报、农业普查公报等;统计资料出版物有《中国统计摘要》、以《中国统计年鉴》为代表的统计年鉴系列等。
例如,我们想了解2014年全国的交通事故情况,通过查找《中国统计年鉴》可以得到如表9.1-3所示的数据。如果我们关心机动车交通事故逐年变化的情况,那么需要通过查找每年的数据表,并把它们合并整理。
<!--End Page194-->
<!--Begin Page195-->
表 9.1-3 2014年全国交通事故情况
| 类型 | 发生数/起 | 死亡人数/人 | 受伤人数/人 | 直接财产损失/万元 |
| :------- | :-------- | :---------- | :---------- | :---------------- |
| 机动车 | 180 321 | 54 944 | 194 887 | 103 386.0 |
| 非机动车 | 14 175 | 2 311 | 15 737 | 2 719.4 |
| 行人乘车人 | 2 242 | 1 247 | 1 167 | 1 403.5 |
| 其他 | 74 | 21 | 91 | 34.1 |
| 总计 | 196 812 | 58 523 | 211 882 | 107 543 |
随着信息技术的发展,通过互联网获取数据越来越成为获取二手数据的主要方式。例如,可以从国家统计局的官方网站查询得到国家统计局公布的各种统计数据,在网络上,也有专门提供数据服务的公司,它们提供政府部门允许公开的各类数据。
当然,互联网的最大优势是,人们可以利用它强大的搜索功能,在整个网络上查找所需要的数据,但从网络上查找的数据,因为数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真,为进一步的数据分析奠定基础。
## 练习
1. 请从国家统计局网站上查找我国水资源及其使用情况的一些数据,根据数据谈谈当前保护水资源的重要性。
2. 近视是青少年存在的普遍问题,你能查找相关数据,并利用数据说说近几年我国在防治青少年近视上取得的成效吗?
## 习题 9.1
### 复习巩固
1. 下列情况中哪些适合用全面调查,哪些适合用抽样调查?说明理由。
(1) 了解某城市居民的食品消费结构;
(2) 调查一个县各村的粮食播种面积;
(3) 了解某地区小学生中患沙眼的人数;
(4) 了解一批玉米种子的发芽率;
(5) 调查一条河流的水质;
(6) 某企业想了解其产品在市场的占有率。
2. 某刊物对其读者进行满意度调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。这不是一项抽样调查?样本抽取是不是属于简单随机抽样?为什么?
3. 中央电视台希望在春节联欢晚会播出后一周内获得该节目的收视率。下面是三名同学为电视台
<!--End Page195-->
<!--Begin Page196-->
设计的调查方案。
同学 A: 我把这张《春节联欢晚会收视率调查表》放在互联网上,只要上网登录该网址的人就可以看到这张表,他们填写的信息可以很快地反馈到我的电脑中,这样,我就可以很快统计出收视率了。
同学 B: 我给我们居民小区的每一个住户发一份是否在除夕晚上看过中央电视台春节联欢晚会的调查表,只要一两天就可以统计出收视率。
同学 C: 我在一个电话号码本上随机地选出一定数量的手机号码,然后逐个给他们打电话,问一下手机用户是否收看了中央电视台春节联欢晚会,我不出家门就可以统计出中央电视台春节联欢晚会的收视率。
请问: 上述三名同学设计的调查方案获得比较准确的收视率的可能性大吗?为什么?
4. 下列从总体中抽得的样本是否为简单随机样本?
(1) 总体编号为 $1 \sim 75$,在 $0 \sim 99$ 中产生随机整数 $r$。若 $r=0$ 或 $r>75$,则舍弃,重新抽取。
(2) 总体编号为 $1 \sim 75$,在 $0 \sim 99$ 中产生随机整数 $r$,$r$ 除以 $75$ 的余数作为抽中的编号,若余数为 $0$,则抽中 $75$。
(3) 总体编号为 $6001 \sim 6876$,在 $1 \sim 876$ 范围内产生一个随机整数 $r$,把 $r+6000$ 作为抽中的编号。
5. 一支田径队有男运动员 $56$ 人,女运动员 $42$ 人,按性别进行分层,用分层随机抽样的方法从全体运动员中抽出一个容量为 $28$ 的样本,如果样本按比例分配,那么男、女运动员应各抽取多少名?
## 综合运用
6. 数据 $x_1, x_2, \dots, x_n$ 的平均数为 $\bar{x}$,数据 $y_1, y_2, \dots, y_n$ 的平均数为 $\bar{y}$,$a, b$ 为常数。如果满足 $y_1=ax_1+b, y_2=ax_2+b, \dots, y_n=ax_n+b$,证明 $\bar{y}=a\bar{x}+b$。
7. 已知总体划分为 $3$ 层,通过分层随机抽样,得到各层的样本平均数分别为 $\bar{x}, \bar{y}, \bar{z}$。
(1) 根据以上信息可以估计总体平均数吗?如果不能,还需要什么条件?写出估计式。
(2) 如果样本量是按比例分配,第 $1, 2, 3$ 层的个体数分别为 $L, M, N$,样本量分别为 $l, m, n$,证明:
$\frac{L}{L+M+N}\bar{x} + \frac{M}{L+M+N}\bar{y} + \frac{N}{L+M+N}\bar{z} = \frac{l}{l+m+n}\bar{x} + \frac{m}{l+m+n}\bar{y} + \frac{n}{l+m+n}\bar{z}$。
8. 校学生会希望调查学生对本学期学生活动计划的意见,你自愿担任调查员,并打算在学校里抽取 $10\%$ 的同学作为样本。
(1) 怎样安排抽样,可以提高样本的代表性?
(2) 在调查抽样中你可能遇到哪些问题?
(3) 这些问题可能会影响什么?
(4) 你打算怎样解决这些问题?
9. 一般来说,影响农作物收成的因素有气候、土质、田间管理水平等。如果你是一个农村调查队成员,要在麦收季节对你所在地区的小麦进行估产调查,你将如何设计调查方案?
<!--End Page196-->
<!--Begin Page197-->
# 拓广探索
10. 如果调查目的是要确定被调查者的收入水平,请设计一种提问方法。
11. 你可能想了解全校同学生活、学习中的一些情况,例如,全校同学比较喜欢哪门课程,每月的零花钱平均是多少,喜欢看《新闻联播》的同学的比例是多少,每天大约什么时间起床,每天睡眠的平均时间是多少,等。选一些自己关心的问题,设计一份调查问卷,利用简单随机抽样方法调查你们学校同学的情况,并解释你得到的结论。
12. 查询中央电视台最近五年春节联欢晚会的收视率,从中你能发现一些什么信息?查阅一些收视率调查所用的方法,在分析这些方法的合理性和不足的基础上,请你自行设计一个调查收视率的方案。
# 信息技术应用
## 统计软件的应用
在统计中使用计算机技术,不仅可以把人们从机械、烦琐的数据整理、计算中解放出来,极大提高工作效率,而且能使大量人工难以完成的数据处理变成可能,从而促进统计学的发展。现在,用统计软件处理数据已成为统计学的组成部分。
为了满足不同需求,人们开发了功能各异的统计软件。有些是专门的统计软件,统计功能比较全面,如 R, SAS, SPSS, S-Plus, Stata 等;有些是有一定统计功能的软件,如 Microsoft Excel, MATLAB, GeoGebra, 《网络画板》等。通常,统计软件的功能包括对数据进行管理和组织,将数据转化为可视化的图表,对数据进行统计计算和分析等。
下面以电子表格软件和 R 软件为例,介绍统计软件在统计分析中的应用。
### 一、电子表格软件的简单统计功能
#### (一) 产生随机数
1. 用 `RAND()` 函数产生区间 $ [0, 1] $ 内的随机数
打开电子表格软件,在单元格 A1 中输入“`=RAND()`”,按回车键,即可产生区间 $ [0, 1] $ 内的一个随机数。将鼠标放在 A1 单元格的右下角,待鼠标变为“`+`”时,拖动 A1 单元格到 A100,就可产生区间 $ [0, 1] $ 内的 100 个随机数。
2. 用 `RANDBETWEEN (a, b)` 函数产生区间 $ [a, b] $ 内的整数随机数
例如,要产生区间 $ [1, 712] $ 内的一个整数随机数,只要在单元格中输入“`=RANDBETWEEN (1, 712)`”,按回车键即可。
<!--End Page197-->
<!--Begin Page198-->
(二) 随机抽样
用软件的数据分析工具,可以实现有放回简单随机抽样。例如,从一组数据中有放回抽取容量为20的样本,输入数据后,在菜单栏中依次选择“数据”—“数据分析”—“抽样”,点击“确认”按钮,在弹出的对话框中把被抽样的总体数据置于“输入区域”中,在“抽样方法”中选择“随机”,并输入要抽取的样本量“20”,设置“输出选项”后,单击“确定”即可。
若“数据”菜单中没有“数据分析”选项,则在“文件”菜单中依次点击“选项”—“加载项”—“转到”,在“可用加载宏”中选中“分析工具库”和“分析工具库-VBA”,单击“确定”即可把“数据分析”加载到菜单栏中。
(三) 统计量的计算
在电子表格软件的函数库中,有一类统计函数提供了计算常用统计量的各种函数,如 **AVERAGE()** (平均数), **MEDIAN()** (中位数), **MODE()** (众数), **VAR. P()** (方差), **STDEV.P()** (标准差), **PERCENTILE. INC()** (百分位数), 等。可以直接输入函数名称进行调用,也可以通过“插入函数”的方式选择调用。
例如,求单元格 A2 到 A101 所有数据的平均数,可以选一空白单元格,输入“`=AVERAGE (A2:A101)`”,或者在菜单栏中依次选择“公式”—“函数库”—“插入函数”,调出函数“AVERAGE”,再设置求平均数的单元格范围。
其他函数调用的操作过程类似,只是不同函数的参数设置有所不同,可以根据函数的说明进行恰当设置。
二、R软件的简单统计功能
R软件是一款免费软件,可在其官方网站下载。它通过命令形式进行操作。
(一) 产生随机数
1. 用 `runif()` 函数产生区间 $[0,1]$ 内的随机数
例如,要产生 100个区间 $[0,1]$ 内的随机数,在命令窗口中输入“`runif(100)`”即可(图1)。
[图片描述: R控制台(R Console)的截图,显示了用户输入命令`> runif(100)`来生成100个0到1之间的均匀分布随机数。输出结果是一系列浮点数,每行显示6个随机数,并标明了从第几个随机数开始(例如,(1)表示第一个,(7)表示第七个)。这些数字分布在0到1之间,例如0.377789222, 0.512770582等,展示了`runif()`函数生成随机数的功能。|标题:图1 R语言生成随机数的控制台输出|图片编号:1]
2. 用 `sample()` 函数产生区间 $[a,b]$ 内的整数随机数
例如,在命令窗口中输入“`sample(1:712, 100, T)`”,就产生了100个区间 $[1,712]$ 内的可重复的整数随机数。如果希望随机数不可重复,只要把 `sample` 函数中的参数T改为F即可。
<!--End Page198-->
<!--Begin Page199-->
以下是将PDF页面转换的Markdown格式:
(二) 用 `sample()` 函数实现随机抽样
例如,从一组数据$1, 2, 3, 3, 4, 4, 5, 6$中,抽取一个容量为$5$的样本。
如果是有放回的抽取,在命令窗口中输入
```R
x<-c(1,2,3,3,4,4,5,6)
sample(x, 5, T)
```
如果是不放回的抽取,只要把 `sample` 函数中的参数 `T` 改为 `F` 即可。
(三) 统计量的计算
在R软件的命令窗口中,先以向量形式将数据输入R软件中,再根据统计量调用相应的函数求值,如 `mean()` (平均数), `median()` (中位数), `var()` (方差), `sd()` (标准差), `quantile()` (分位数)等。
例如,求数据$6, 4, 2, 4, 5$的平均数,在命令窗口输入
```R
x<-c(6,4,2,4,5)
mean(x)
```
不同函数的参数设置可以查看软件提供的帮助文档,关于方差、标准差、分位数等统计量的含义,本章后续即有介绍。
<!--End Page199-->
<!--Begin Page200-->
## 9.2 用样本估计总体
收集数据是为了寻找数据中蕴含的信息,因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律,所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述。在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了。
下面我们讨论对随机抽样获取的数据的处理方法。
### 9.2.1 总体取值规律的估计
面对一个统计问题,在随机抽样获得观测数据的基础上,需要根据数据分析的需要,选择适当的统计图表描述和表示数据,获得样本的规律,并利用样本的规律估计总体的规律,解决相应的实际问题,请看下面的问题。
**问题1** 我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准$a$,用水量不超过$a$的部分按平价收费,超出$a$的部分按议价收费,如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?
每户居民月均用水量标准如果定得太低,会影响很多居民的日常生活;如果标准太高,则不利于节水。为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民用户所占的比例情况。
如果经费、时间等条件允许,我们可以通过全面调查获得过去一年全市所有居民用户的月均用水量数据,进而得到月均用水量在不同范围内的居民用户所占的比例。由于全市居民用户很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况。
在这个问题中,总体是该市的全体居民用户,个体是每户居民用户,调查的变量是居民用户的月均用水量。
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):
```
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
```
<!--End Page200-->
<!--Begin Page201-->
```markdown
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
从这组数据我们能发现什么信息呢?如果将这组数据从小到大排序,容易发现,这组数据的最小值是$1.3\text{t}$,最大值是$28.0\text{t}$,其他在$1.3\text{t}$至$28.0\text{t}$之间。为了更深入地挖掘数据蕴含的信息,需要对数据作进一步的整理与分析。
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来。在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数。
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择**频率分布表**(frequency distribution table)和**频率分布直方图**(frequency distribution histogram)来整理和表示数据。与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图。
> 用表格整理数据是通过改变数据的组织方式,为数据的解释提供新方式。用图表示数据不仅有利于从数据中提取信息,还可以利用图形传递信息。
**1. 求极差**
极差为一组数据中最大值与最小值的差。样本观测数据的最小值是$1.3\text{t}$,最大值是$28.0\text{t}$,极差为
$28.0 - 1.3 = 26.7$
这说明样本观测数据的变化范围是$26.7\text{t}$。
**2. 决定组距与组数**
合适的组距与组数对发现数据分布规律有重要意义,组数太多或太少,都会影响我们了解数据的分布情况。组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程。数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多。当样本量不超过$100$时,常分成$5 \sim 12$组。为方便起见,一般取等长组距,并且组距应力求
> 数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。有时为了方便,往往按等距分组,或者除了第一和最后的两段,其他各段按等距分组。
```
<!--End Page201-->
<!--Begin Page202-->
“取整”。
分组时可以先确定组距,也可以先确定组数。如果我们取所有组距为3,则
\frac{极差}{组距} = \frac{26.7}{3} = 8.9
即可以将数据分为9组,这也说明这个组距是比较合适的。
### 3. 将数据分组
由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值。例如,可以取区间为$\[1.2, 28.2\]$,按如下方式把样本观测数据以组距3分为9组:
$\[1.2,4.2)$,$\[4.2, 7.2)$,$\dots$, $\[25.2,28.2\]$。
### 4. 列频率分布表
计算各小组的频率,例如第一小组的频率是
\frac{第一组频数}{样本量} = \frac{23}{100} = 0.23
作出频率分布表(**表9.2-1**)。
**表9.2-1**
| 分组 | 划记 | 频数 | 频率 |
| :------------- | :--------- | :--- | :--- |
| $\[1.2, 4.2)$ | 正正正正下 | 23 | 0.23 |
| $\[4.2, 7.2)$ | 正正正正正正T | 32 | 0.32 |
| $\[7.2, 10.2)$ | 正正下 | 13 | 0.13 |
| $\[10.2, 13.2)$ | 正正 | 9 | 0.09 |
| $\[13.2, 16.2)$ | 正正 | 9 | 0.09 |
| $\[16.2, 19.2)$ | 正 | 5 | 0.05 |
| $\[19.2, 22.2)$ | 下 | 3 | 0.03 |
| $\[22.2, 25.2)$ | 正 | 4 | 0.04 |
| $\[25.2, 28.2\]$ | T | 2 | 0.02 |
| **合计** | | **100** | **1.00** |
### 5. 画频率分布直方图
根据**表 9.2-1**可以得到如图 9.2-1 所示的频率分布直方图。
[图片描述:一个带有问号图标的棕色矩形对话框,包含问题“频率分布直方图与频数分布直方图有什么区别?”|标题:思考题|图片编号:1]
<!--End Page202-->
<!--Begin Page203-->
在图 9. 2-1 中,横轴表示月均用水量,纵轴表示 $\frac{频率}{组距}$。
这里,$\frac{频率}{组距}$ 实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度。因为
小长方形的面积 = 组距 $\times \frac{频率}{组距}$ = 频率,
所以各小长方形的面积表示相应各组的频率。这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小。容易知道,在频率分布直方图中,各小长方形的面积的总和等于 1,即样本数据落在整个区间的频率为 1。
> 利用统计软件,可以快速、准确地画出频率分布直方图,频率分布直方图把样本数据落在各小组的比例大小直观化,更有利于我们从整体上把握数据分布的特点。
[图片描述:本图为居民月均用水量的频率分布直方图。横轴表示月均用水量(单位:t),从1.2到28.2分为多个组距,包括但不限于[1.2, 4.2), [4.2, 7.2), [7.2, 10.2) 等。纵轴表示频率/组距。图中显示了九个矩形条,代表不同月均用水量区间的频率密度。各组的频率/组距值从左至右分别为0.077, 0.107, 0.043, 0.030, 0.030, 0.017, 0.010, 0.013, 0.007。其中,月均用水量在[4.2, 7.2)区间的频率密度最高,为0.107。整体分布呈现出左高右低,并带有较长“尾巴”的特征,表明用水量在较低区间内最为集中。|标题:图9.2-1|图片1]
## 观察
观察表 9.2-1 和图9.2-1,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?
从频率分布表 9. 2-1 可以清楚地看出,样本观测数据落在各个小组的比例大小。例如,月均用水量在区间 $[4.2, 7.2)$ 内的居民用户最多,在区间 $[1.2, 4.2)$ 内的次之,而月均用水量超过 $16.2$ 的各区间内数据所占比例较小,等等。
从频率分布直方图 9. 2-1 容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间 $[1.2, 7.2)$ 最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势。
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律,根据 100 户居民
<!--End Page203-->
<!--Begin Page204-->
用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域,这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的,需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解。
> **探究**
>
> 分别以3和27为组数,对数据进行等距分组,画出 100 户居民用户月均用水量的频率分布直方图(图9.2-2)。观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?
[图片描述: 这是一个频率分布直方图,显示了100户居民用户月均用水量在组数为3时的分布情况。横轴表示月均用水量(单位:t),分为三个组距:$[1.2, 10.2)$、$[10.2, 19.2)$ 和 $[19.2, 28.2)$。纵轴表示频率/组距。图中可见第一个组距内的频率/组距最高,约为0.075,第二个组距约为0.025,第三个组距约为0.01。整体呈现随着用水量增加频率递减的趋势。|标题: 图9.2-2 (1) “组数为3”|图1]
[图片描述: 这是一个频率分布直方图,显示了100户居民用户月均用水量在组数为27时的分布情况。横轴表示月均用水量(单位:t),从1.2开始,以1为组距,一直到28.2。纵轴表示频率/组距。图中可见数据主要集中在低值区,特别是在区间 $[5.2, 6.2)$ 内频率/组距最高,约为0.14。整体趋势仍是随着月均用水量增加频率降低,但由于组数增多,能够展现更精细的分布细节和局部波动。|标题: 图9.2-2 (2) “组数为27”|图2]
从图9.2-2中可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同。图9.2-2(1)中直方图的组数少、组距大,从图中容易看出,数据分布的整体规律是随着月均用水量的增加,居民用户数的频率在降低,而且月均用水量在区间 $\[1.2, 10.2)$ 内的居民用户数的频率,远大于在另两个区间 $\[10.2, 19.2)$ 和 $\[19.2, 28.2]$ 内的频率,这说明大部分居民用户的月均用水量都少于10.2 t。图9.2-2(2)中直方图的组数多、组距小,从图中可以看出,数据主要集中在低值区,尤其在区间 $\[5.2, 6.2)$ 内最为集中,从总体上看,随着月均用水量的增加,居民用户数的频率呈现下降趋势,但存在个别区间频
<!--End Page204-->
<!--Begin Page205-->
率变大或者缺失的现象。
从上述分析可见,当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。
这里我们再次指出,对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体的判断。因此,我们要注意积累数据分组、合理使用图表的经验。
## 练习
1. 从某小区抽取 100 户居民用户进行月用电量调查,发现他们的用电量都在 $50 \sim 350 \, \text{kW} \cdot \text{h}$ 之间,进行适当分组后 (每组为左闭右开的区间),画出如图所示的频率分布直方图。
[图片描述: 频率分布直方图,横轴表示月用电量(单位:kW·h),范围从0到350,以50为间隔。纵轴表示频率/组距,刻度包括0.0012, 0.0024, 0.0036, 0.0060。图中有六个蓝色直方条,分别代表以下月用电量区间及其对应的频率/组距:
- $[50, 100)$: 0.0024
- $[100, 150)$: 0.0036
- $[150, 200)$: 0.0060
- $[200, 250)$: 0.0036
- $[250, 300)$: 0.0024
- $[300, 350)$: 0.0012
图中标注了一个变量`x`在频率/组距轴上,其位置与0.0060刻度线重合,也对应区间$[150, 200)$的直方条高度。|标题: 练习1的月用电量频率分布直方图|图片编号:1]
(1) 直方图中 $x$ 的值为__________;
(2) 在被调查的用户中,用电量落在区间 $[100, 250)$ 内的户数为__________。
2. 如图,胡晓统计了他爸爸 9 月的手机通话明细清单,发现他爸爸该月共通话 60 次。胡晓按每次通话时间长短进行分组 (每组为左闭右开的区间),画出了频率分布直方图。
[图片描述: 频率分布直方图,横轴表示通话时间(单位:min),范围从0到30,以5为间隔。纵轴表示频率/组距,刻度从0.01到0.07。图中有六个蓝色直方条,分别代表以下通话时间区间及其对应的频率/组距:
- $[0, 5)$: 0.060
- $[5, 10)$: 0.046
- $[10, 15)$: 0.024
- $[15, 20)$: 0.030
- $[20, 25)$: 0.020
- $[25, 30)$: 0.020|标题: 练习2的通话时间频率分布直方图|图片编号:2]
(1) 通话时长在区间 $[15, 20)$, $[20, 30)$ 内的次数分别为多少?
<!--End Page205-->
<!--Begin Page206-->
(2) 区间 $[20, 30)$ 上的小长方形高度低于 $[15, 20)$ 上的小长方形的高度,说明什么?
3. 请班上每位同学估计一下自己平均每天的课外学习时间(单位:min),然后统计数据,作出全班同学课外学习时间的频率分布直方图,能否由这个频率分布直方图估计出你们学校全体学生课外学习时间的分布情况?可以用它来估计你所在地区(城市、乡镇或村庄)全体学生课外学习时间的分布情况吗?为什么?
---
除频率分布直方图外,我们在初中还学习过条形图、扇形图、折线图、频数分布直方图等。不同的统计图在表示数据上有不同的特点,例如,扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势,不同的统计图适用的数据类型也不同,例如,条形图适用于描述离散型的数据,直方图适用描述连续型数据等。因此,在解决问题的过程中,要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述,以使我们能通过图形直观地发现样本数据的分布情况,进而估计总体的分布规律。
**例1** 已知某市2015年全年空气质量等级如表 9.2-2 所示。
**表 9.2-2**
| 空气质量等级 (空气质量指数 (AQI)) | 频数 | 频率 |
| :------------------------------- | :--: | :--: |
| 优 ($AQI \le 50$) | 83 | 22.8% |
| 良 ($50 < AQI \le 100$) | 121 | 33.2% |
| 轻度污染 ($100 < AQI \le 150$) | 68 | 18.6% |
| 中度污染 ($150 < AQI \le 200$) | 49 | 13.4% |
| 重度污染 ($200 < AQI \le 300$) | 30 | 8.2% |
| 严重污染 ($AQI > 300$) | 14 | 3.8% |
| **合计** | **365** | **100%** |
2022年5月和6月的空气质量指数如下:
5月 33 47 61 75 77 52 36 26 32 70
43 30 26 27 28 32 58 44 73 85
81 83 71 66 29 31 43 84 45 31
51
6月 44 78 89 49 37 25 31 48 47 60
51 38 30 36 43 66 78 84 75 85
100 74 41 27 89 58 43 27 22 30
<!--End Page206-->
<!--Begin Page207-->
选择合适的统计图描述数据,并回答下列问题:
(1)分析该市 2022 年 6 月的空气质量情况。
(2)比较该市 2022 年 5 月和 6 月的空气质量,哪个月的空气质量较好?
(3)比较该市 2022 年 6 月与该市 2015 年全年的空气质量,2022 年 6 月的空气质量是否好于 2015 年?
**解:** (1)根据该市 2022 年 6 月的空气质量指数和空气质量等级分级标准,可以画出该市这个月的不同空气质量等级的频数与频率分布表 (表 9.2-3)。
**表 9.2-3**
| 频数、频率 | 空气质量等级 | 合计 |
| :------- | :--- | :--- | :--------- | :--------- | :--------- | :--------- | :--- |
| | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 | |
| 天数 | 17 | 13 | 0 | 0 | 0 | 0 | 30 |
| 频率 | 56.67% | 43.33% | 0 | 0 | 0 | 0 | 100% |
从表中可以看出,6 月的空气质量都为“优”或“良”, “优”“良”的天数分别为 17 天和 13 天,各占整月的 56.67% 和 43.33%。
我们可以用条形图和扇形图对数据作出直观的描述,如图 9.2-3 和图 9.2-4。从条形图中可以看出,空气质量等级只有“优”和“良”两种,空气质量为“优”的天数比“良”的天数多,后四个等级的天数为零。从扇形图中可以看出,空气质量为“优”的天数超过总天数的一半,其余的为“良”。因此,整体上 6 月的空气质量很好。
[图片描述:一个条形统计图,横轴表示空气质量等级(优、良、轻度污染、中度污染、重度污染、严重污染),纵轴表示天数(从0到20)。其中,“优”等级对应的条形高度为17天,“良”等级对应的条形高度为13天,其余污染等级对应的条形高度均为0天,表明这些等级没有出现。|标题:图 9.2-3|图片编号:图1]
[图片描述:一个扇形统计图,显示了空气质量等级的频率分布。图表分为两个扇区:一个较大的扇区表示“优”等级,占据56.67%的比例,颜色为绿色;另一个较小的扇区表示“良”等级,占据43.33%的比例,颜色为黄色。图例清晰地标示了“优”和“良”对应的颜色。|标题:图 9.2-4|图片编号:图2]
我们还可以用折线图展示空气质量指数随时间的变化情况,如图 9.2-5。容易发现,6 月的空气质量指数在 50 附近波动。
<!--End Page207-->
<!--Begin Page208-->
[图片描述: 这是一个展示2022年5月30日至2022年7月4日期间空气质量指数变化的折线图。横轴表示日期,纵轴表示空气质量指数,范围从0到120。图中的折线显示了指数的波动趋势,其中在6月2日和6月18日前后出现较高的峰值(接近90),而在6月5日和6月26日前后出现较低的谷值(低于30)。|标题: 空气质量指数随日期变化的折线图|图片编号: 图1]
图9.2-5
(2)根据该市2022年5月的空气质量指数和空气质量分级标准,可以画出该市这个月的不同空气质量等级的频数和频率分布表(表9.2-4).
**表9.2-4**
**空气质量等级**
| 频数、频率 | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 | 合计 |
| :--------- | :----- | :------ | :------- | :------- | :------- | :------- | :---- |
| 天数 | 17 | 14 | 0 | 0 | 0 | 0 | 31 |
| 频率 | 54.84% | 45.16% | 0 | 0 | 0 | 0 | 100% |
为了便于比较,我们选用复合条形图,将两组数据同时反映到一个条形图上,通过条形图中柱的高低,可以更直观地进行两个月的空气质量的比较(图 9. 2-6).
[图片描述: 这是一个复合条形图,用于比较2022年5月和6月不同空气质量等级的天数分布。横轴是空气质量等级(优、良、轻度污染、中度污染、重度污染、严重污染),纵轴是天数,范围为0到25。图例区分了5月(蓝色条)和6月(棕色条)。数据显示,在“优”等级中,5月和6月的天数均为17天左右。在“良”等级中,5月的天数约为14天,6月的天数约为13天。对于轻度污染、中度污染、重度污染和严重污染等级,5月和6月的天数均为0。|标题: 2022年5月和6月空气质量等级天数比较条形图|图片编号: 图2]
图9.2-6
由表 9.2-4 和图 9. 2-6 可以发现,5月和6月空气质量基本相同.“优”的天数相同,均为17天,5月“良”的天数比6月多1天,两个月均没有为轻度污染及以上的天数.
(3)把2022年6月和2015年全年的空气质量进行比较,由于一个月和一年的天数差别很大,所以直接通过频数比较没有意义,应该转化成频率分布进行比较,可以通过二者的空气质量指数的频率分布直方图或空气质量等级的频率分布条形图进行比较(图9.2-7).
<!--End Page208-->
<!--Begin Page209-->
[图片描述: 这是一个垂直条形图,显示了2022年6月和2015年全年不同空气质量等级的频率分布。Y轴表示频率,范围从0到0.6。X轴表示空气质量等级,从左到右依次为“优”、“良”、“轻度污染”、“中度污染”、“重度污染”和“严重污染”。图例中,蓝色条代表2022年6月的数据,棕色条代表2015年全年数据。
具体数据如下:
* **优 (Excellent)**: 2022年6月频率约为0.58,2015年全年频率约为0.22。
* **良 (Good)**: 2022年6月频率约为0.42,2015年全年频率约为0.33。
* **轻度污染 (Slightly Polluted)**: 2022年6月频率为0,2015年全年频率约为0.18。
* **中度污染 (Moderately Polluted)**: 2022年6月频率为0,2015年全年频率约为0.13。
* **重度污染 (Severely Polluted)**: 2022年6月频率为0,2015年全年频率约为0.08。
* **严重污染 (Seriously Polluted)**: 2022年6月频率为0,2015年全年频率约为0.03。
整体而言,2022年6月的“优”和“良”等级频率显著高于2015年全年,且无污染等级。|标题:图9.2-7|图1]
通过图 9.2-7 可以看出,2022年6月的空气质量为“优”和“良”的频率都明显高于2015年,而且2022年6月空气质量为污染的天气频率为0,明显低于2015年,所以从整体上看,2022年6月的空气质量要明显好于2015年全年的空气质量.
> **?**
>
> 由此,你能得出 “2022年的空气质量比2015年明显改善了”的结论吗?为什么?
### 练习
1. 某市某月30天的空气质量指数如下:
35 54 80 86 72 85 58 125 111 53
10 66 46 36 18 25 23 40 60 89
88 54 79 14 16 40 59 67 111 62
你觉得这个月的空气质量如何?请设计适当的频率分布直方图展示这组数据,并结合空气质量等级标准分析数据.
2. 统计你们班所有同学的鞋号,选择合适的统计图进行描述,并分析鞋号的分布有什么特点,能用你们班同学鞋号的分布估计你所在学校全体高中学生鞋号的分布吗?估计全国高中学生的鞋号分布呢?
## 9.2.2 总体百分位数的估计
前面我们用频率分布表、频率分布直方图描述了居民用户月均用水量的样本数据,通过对图表的观察与分析,得出了一些样本数据的频率分布规律,并由此推测了该市全体居民用户月均用水量的分布情况,得出了“大部分居民用户的月均用水量集中在一个较低值区域”等推断,接下来的问题是,如何利用这些信息,为政府决策服务呢?下面我们对此进行讨论.
> **问题2** 如果该市政府希望使80%的居民用户生活用水费用支出不受影响,根据9.2.1
<!--End Page209-->
<!--Begin Page210-->
节中100户居民用户的月均用水量数据,你能给市政府提出确定居民用户月均用水量标准的建议吗?
首先要明确一下问题:根据市政府的要求确定居民用户月均用水量标准,就是要寻找一个数$a$,使全市居民用户月均用水量中不超过$a$的占$80\%$,大于$a$的占$20\%$.下面我们通过样本数据对$a$的值进行估计.
> ❓ **你所在的地区是采用阶梯水价吗?标准是多少?**
把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间$[13.6, 13.8)$内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数$\frac{13.6+13.8}{2} = 13.7$,并称此数为这组数据的第**80百分位数**(percentile),或**$80\%$分位数**.
根据样本数据的第80百分位数,我们可以估计总体数据的第80百分位数为13.7左右.由于样本的取值规律与总体的取值规律之间会存在偏差,而在决策问题中,只要临界值近似为第80百分位数即可,因此为了实际中操作的方便,可以建议市政府把月均用水量标准定为$14 \text{t}$,或者把年用水量标准定为$168 \text{t}$.
> ❓ **你认为$14 \text{t}$这个标准一定能够保证$80\%$的居民用水不超标吗?如果不一定,那么哪些环节可能会导致结论的差别?**
一般地,一组数据的第**$p$ 百分位数**是这样一个值,它使得这组数据中至少有$p\%$的数据小于或等于这个值,且至少有$(100-p)\%$的数据大于或等于这个值.
可以通过下面的步骤计算一组$n$个数据的第$p$百分位数:
1. 第1步,按从小到大排列原始数据.
2. 第2步,计算$i=n \times p\%.$
3. 第3步,若$i$不是整数,而大于$i$的比邻整数为$j$,则第$p$百分位数为第$j$项数据;若$i$是整数,则第$p$百分位数为第$i$项与第$(i+1)$项数据的平均数.
> 💡 **对于任意一组数据,满足第$p$ 百分位数定义的值可能不唯一。计算百分位数的方法有多种,我们取一种计算方法比较简单的。**
我们在初中学过的中位数,相当于是第$50$百分位数.在实际应用中,除了中位数外,常用的分位数还有第$25$百分位数,第$75$百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为**四分位数**,其中第$25$百分位数也称为**第一四分位数**或**下四分位数**等,第$75$百分位数也称为**第三四分位数**或**上四分位数**等.另外,像第$1$百分位数,第$5$百分位数,第$95$百分位数和第$99$百分位数在统计中也经常被使用.
**例2** 根据9.1.2节问题3中女生的样本数据,估计树人中学高一年级女生的第25,
<!--End Page210-->
<!--Begin Page211-->
50,75百分位数.
**解**: 把27名女生的样本数据按从小到大排序,可得
148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0
158.0 158.0 159.0 161.0 161.0 162.0 162.5 162.5 163.0
163.0 164.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0
由$25\% \times 27 = 6.75$, $50\% \times 27 = 13.5$, $75\% \times 27 = 20.25$, 可知样本数据的第25, 50, 75百分位数为第7, 14, 21项数据, 分别为155.5, 161, 164. 据此可以估计树人中学高一年级女生的第25, 50, 75百分位数分别约为155.5, 161和164.
[图片描述:一个浅蓝色边框的备注框,内部包含文字提示:“由于女生的样本量比较小, 所以这里对总体的估计可能会存在比较大的误差。”|标题:注意事项|图片编号:1]
**例3** 根据表9.2-1或图9.2-1,估计月均用水量的样本数据的80%和95%分位数.
**分析**: 在某些情况下, 我们只能获得整理好的统计表或统计图, 与原始数据相比, 它们损失了一些信息. 例如由表9.2-1, 我们知道在 $[16.2, 19.2)$ 内有5个数据, 但不知道这5个数据具体是多少, 此时, 我们通常把它们看成均匀地分布在此区间上.
**解**: 由表9.2-1可知, 月均用水量在13.2t以下的居民用户所占比例为
$23\%+32\%+13\%+9\%=77\%$.
在16.2t以下的居民用户所占的比例为
$77\%+9\%=86\%$.
因此, 80%分位数一定位于$[13.2, 16.2)$内. 由
$13.2+3 \times \frac{0.80-0.77}{0.86-0.77} = 14.2$,
可以估计月均用水量的样本数据的80%分位数约为14.2.
类似地, 由
$22.2+3 \times \frac{0.95-0.94}{0.98-0.94} = 22.95$,
可以估计月均用水量的样本数据的95%分位数约为22.95.
## 练习
1. 在居民用户月均用水量标准制定的问题中, 根据教科书中的调查数据, 如果要让60%的居民不超出标准, 居民用户月均用水量标准定为多少合适?
2. 根据9.1.2节问题3中男生的样本数据, 请你估计树人中学高一年级男生的第25, 50, 75百分位数, 如果要减少估计的误差, 你觉得应该怎么做?
3. 分别根据图9.2-2(1)(2)中的数据, 估计这组数据的月均用水量的第80和95百分位数. 与根据图9.2-1估计的结果比较, 它们一样吗? 你认为根据哪个图得到的估计更好? 为什么?
<!--End Page211-->
<!--Begin Page212-->
## 9.2.3 总体集中趋势的估计
为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律,但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一个方面的特征,例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等等。
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势,下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势。
**例4** 利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数。
**解:** 根据9.2.1节中100户居民用户月均用水量的数据,由样本平均数的定义,可得
\bar{y} = \frac{y_1 + y_2 + \cdots + y_{100}}{100} = 8.79
即100户居民的月均用水量的平均数为8.79 t。
> ? 假设某个居民小区有2000户,你能估计该小区的月用水总量吗?
将样本数据按从小到大排序,得第50个数和第51个数均为6.8,由中位数的定义,可得100户居民的月均用水量的中位数是6.8 t。
因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79 t,其中位数约为6.8 t。
> **? 思考**
>
> 小明用统计软件计算了100户居民用水量的平均数和中位数,但在录入数据时,不小心把一个数据7.7录成了77。请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较,哪个量的值变化更大?你能解释其中的原因吗?
通过简单计算可以发现,平均数由原来的8.79 t变为9.483 t,中位数没有变化,还是6.8 t。这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变,因此,与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感。
<!--End Page212-->
<!--Begin Page213-->
## 探究
平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关。在图9.2-8的三种分布形态中,平均数和中位数的大小存在什么关系?
[图片描述: 三幅并排的频率分布直方图,上方绘制有平滑的频率曲线,下方标注了平均数和中位数的位置。
第一幅图(1)显示一个大致对称的频率分布,其频率曲线呈钟形,平均数和中位数位于分布的中心且位置重合,用一个箭头共同指向下方标注的“平均数、中位数”。
第二幅图(2)显示一个右偏(或正偏)的频率分布,频率曲线的尾部向右延伸。在此图中,“中位数”的标记位置在“平均数”的左侧,表明平均数大于中位数。
第三幅图(3)显示一个左偏(或负偏)的频率分布,频率曲线的尾部向左延伸。在此图中,“平均数”的标记位置在“中位数”的左侧,表明平均数小于中位数。|标题: 图9.2-8 不同分布形态下平均数与中位数的关系|图1]
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图9.2-8(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图9.2-8(2)),那么平均数大于中位数;如果直方图在左边“拖尾”(图9.2-8(3)),那么平均数小于中位数,也就是说,和中位数相比,平均数总是在“长尾巴”那边。
**例5** 某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格。据统计,高一年级女生需要不同规格校服的频数如表9.2-5所示。
表9.2-5
| 校服规格 | 155 | 160 | 165 | 170 | 175 | 合计 |
| :------- | :-- | :-- | :-- | :-- | :-- | :--- |
| 频数 | 39 | 64 | 167 | 90 | 26 | 386 |
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用表9.2-5中的数据估计全国高一年级女生校服规格的合理性。
**分析**: 虽然校服规格是用数字表示的,但它们事实上是几种不同的类别,对于这样的分类数据,用众数作为这组数据的代表比较合适。
**解**: 为了更直观地观察数据的特征,我们用条形图来表示表中的数据(图9.2-9)。可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适。
由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理。
<!--End Page213-->
<!--Begin Page214-->
[图片描述:一个柱状图,展示了不同校服规格(155、160、165、170、175)对应的频数。横轴表示校服规格(单位可能是厘米),纵轴表示频数(数量)。图中显示,校服规格为165时频数最高,接近160;规格为170时频数次之,约为90;规格为160时频数约为60;规格为155时频数约为40;规格为175时频数最低,约为30。整体呈现出以165为中心的近似对称分布。|标题:图9.2-9 校服规格频数分布图|图1]
众数只利用了出现次数最多的那个值的信息。众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度。因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感。
一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数。
> **探究**
>
> 样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据,例如,我们在报纸、网络上获得的往往是已经整理好的统计表或统计图,这时该如何估计样本的平均数、中位数和众数?你能以图 9. 2-1 中频率分布直方图提供的信息为例,给出估计方法吗?
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的,此时,通常假设它们在组内均匀分布,这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数。
因为样本平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替,如图 9. 2-10所示,可以测出图中每个小矩形的高度,于是平均数的近似值为
$0.077 \times 3 \times \left(\frac{1.2+4.2}{2}\right) + 0.107 \times 3 \times \left(\frac{4.2+7.2}{2}\right) + \dots + 0.007 \times 3 \times \left(\frac{25.2+28.2}{2}\right) = 8.96$
这个结果与根据原始数据计算的样本平均数 8.79 相差不大。
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由于
$0.077 \times 3 = 0.231$, $(0.077 + 0.107) \times 3 = 0.552$.
<!--End Page214-->
<!--Begin Page215-->
[图片描述:该直方图展示了月均用水量的频率分布。横轴表示月均用水量(单位:t),从1.2到28.2,分为多个区间。纵轴表示频率/组距,从0到0.12。每个条形代表一个用水量区间,其高度表示该区间的频率密度。条形上方标注了具体的频率/组距值。从左到右,这些值分别为:0.077(区间[1.2, 4.2)),0.107(区间[4.2, 7.2)),0.043(区间[7.2, 10.2)),0.030(区间[10.2, 13.2)),0.030(区间[13.2, 16.2)),0.017(区间[16.2, 19.2)),0.010(区间[19.2, 22.2)),0.013(区间[22.2, 25.2)),0.007(区间[25.2, 28.2))。图中在[4.2, 7.2)区间内有一条垂直的虚线,指示中位数的大致位置。|标题:月均用水量频率分布直方图|图片编号:图1]
图9.2-10
因此中位数落在区间 $[4.2, 7.2)$ 内。设中位数为 $x$,由
$0.077 \times 3 + 0.107 \times (x - 4.2) = 0.5$,
得到 $x \approx 6.71$。因此,中位数约为 $6.71$,如图 9.2-11 所示。这个结果与根据原始数据求得的中位数 $6.8$ 很接近。
[图片描述:该直方图与图1(图9.2-10)相同,展示了月均用水量的频率分布,并明确标注了计算出的中位数位置。横轴表示月均用水量(单位:t),从1.2到28.2。纵轴表示频率/组距,从0到0.12。各区间的频率/组距值与图1相同:0.077([1.2, 4.2)),0.107([4.2, 7.2)),0.043([7.2, 10.2)),0.030([10.2, 13.2)),0.030([13.2, 16.2)),0.017([16.2, 19.2)),0.010([19.2, 22.2)),0.013([22.2, 25.2)),0.007([25.2, 28.2))。图中在[4.2, 7.2)区间内有一条垂直的虚线,精确指示了中位数 $6.71$ 的位置。|标题:月均用水量频率分布直方图及中位数|图片编号:图2]
图9.2-11
在频率分布直方图 9.2-1 中,月均用水量在区间 $[4.2, 7.2)$ 内的居民最多,可以将这个区间的中点 $5.7$ 作为众数的估计值,如图 9.2-12 所示。众数常用在描述分类型数据中,在这个实际问题中,众数“$5.7$”让我们知道月均用水量在区间 $[4.2, 7.2)$ 内的居民用户最多,这个信息具有实际意义。
以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特点,并研究了用样本的特征量估计总体的特征量的方法。需要注意的是,这些特征量有时也会被利用而产生误导,例如,假设你到人力市场去找工作,有一个企业老板告诉你,“我们企业员工的年平均收入是 $20$ 万元”,你该如何理解这句话?
<!--End Page215-->
<!--Begin Page216-->
[图片描述:一个柱状图(或称直方图),横轴表示“月均用水量/t”(单位:吨),范围从1.2到28.2,并以3为间隔(如1.2, 4.2, 7.2等)标注刻度。纵轴表示“频率/组距”,刻度从0到0.12。图中显示了月均用水量的频率分布,最高频率/组距为0.107,对应月均用水量在4.2t到7.2t之间。其他柱子的高度及对应频率/组距依次为:[1.2, 4.2)为0.077;[7.2, 10.2)为0.043;[10.2, 13.2)为0.030;[13.2, 16.2)为0.030;[16.2, 19.2)为0.017;[19.2, 22.2)为0.010;[22.2, 25.2)为0.013;[25.2, 28.2)为0.007。图中的最高柱内部有一条垂直的虚线,指示了在该区间内的某一特定点。|标题:月均用水量频率分布图|图片编号:1]
图9.2-12
这句话是真实的,但它可能描述的是差异巨大的实际情况,例如,可能这个企业的工资水平普遍较高,也就是员工年收入的中位数、众数与平均数差不多;也可能是绝大多数员工的年收入较低(如大多数是5万元左右),而少数员工的年收入很高,甚至达到100万元,在这种情况下年收入的平均数就比中位数大得多,尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数。
所以,我们要强调“用数据说话”,但同时又要防止被数据误导,这就需要掌握更多的统计知识和方法。
## 练习
1. 根据表 9.2-2 中的数据,估计该市2015年全年空气质量指数的平均数、中位数和第80百分位数。(注:已知该市属于“严重污染”等级的空气质量指数不超过400)
2. 假设你是某市一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额。已知国家对本市一条新公路的建设投资为2000万元人民币,对另外25个公路项目的投资都在15万元到65万元之间,这26个投资金额的中位数是25万元,平均数是100万元,众数是20万元,请你根据上面的信息给市长写一份简要的报告。
3. 某校举行演讲比赛,10位评委对两位选手的评分如下:
甲 7.5 7.5 7.8 7.8 8.0 8.0 8.2 8.3 8.4 9.9
乙 7.5 7.8 7.8 7.8 8.0 8.0 8.3 8.3 8.5 8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数。那么,这两个选手的最后得分是多少?若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?你认为哪种评分办法更好?为什么?
<!--End Page216-->
<!--Begin Page217-->
> ❓ **阅读与思考**
### 统计学在军事中的应用——二战时德国坦克总量的估计问题
俗话说,知己知彼方能百战百胜。在第二次世界大战期间,德国制造坦克的
技术非常先进,坦克的大量使用使德国占据了战场主动权。因此,了解德国坦克
的生产能力对盟军具有非常重要的战略意义。为此,除了通过常规情报收集信息
外,盟军请来了统计学家参与情报的收集和分析工作。根据德国战后公布的生产
记录显示,运用统计方法估计的结果与真实值非常接近,而通过常规情报进行的
估计则与真实值相去甚远。
下表是二战期间的三个月中,德国记录的生产坦克的数目和情报估计、统计
估计的坦克数目。
**表1**
| 时间 | 德国记录/辆 | 情报估计/辆 | 统计估计/辆 |
| :--------- | :---------- | :---------- | :---------- |
| 1940年6月 | 122 | 1 000 | 169 |
| 1941年6月 | 271 | 1 550 | 244 |
| 1942年8月 | 342 | 1 550 | 327 |
统计估计有如此高的精确度,统计学家是怎么做到的呢?原来,盟军在缴获
的德国坦克上发现了一个重要的线索——每辆坦克上都有一个独一无二的发动机
序列号。据分析,序列号前面6位表示生产的年月,最后4位是按生产顺序从1
开始的连续编号。统计学家主要是将缴获的德国坦克序列号作为样本,用样本估
计总体的方法得出推断的。
假设德国某月生产的坦克总数为 $N$,缴获的该月生产的 $n$ 辆坦克编号从小到
大为 $X_1, X_2, \dots, X_n$,即最大编号为 $X_n$,且缴获的坦克是从所生产的坦克中随
机获取的。
因为生产的坦克是连续编号的,所以缴获坦克的编号 $X_1, X_2, \dots, X_n$ 相当
于从 $[1, N]$ 中随机抽取的 $n$ 个整数,这 $n$ 个数将区间 $[0, N]$ 分成 $(n+1)$
个小区间(图1)。由于 $N$ 是未知的,除了最右边的区间外,其他 $n$ 个区间都是
已知的。
[图片描述:一个数轴图,从0点开始,向右延伸,依次标记有$X_1, X_2, \dots, X_n$这些随机抽取的编号点,最终指向未知的总数$N$。这些点将区间$[0,N]$分成了$(n+1)$个小区间,其中$X_1, X_2, \dots, X_n$是已知的,N是未知的。|标题:图1|图片编号:1]
由于这 $n$ 个数是随机抽取的,所以可以用前 $n$ 个区间的平均长度 $\frac{X_n}{n}$ 估计所有
<!--End Page217-->
<!--Begin Page218-->
$(n+1)$个区间的平均长度$\frac{N}{n+1}$,进而得到 $N$ 的估计。例如,缴获坦克的编号为
2, 4, 5, 12, 可以用$\frac{x_n}{n} = \frac{12}{4}$作为$\frac{N}{4+1}$的估计,即
$\frac{12}{4} = \frac{N}{4+1}$,解得 $N=15$。
当年,统计学家就是利用上述方法估计德国每月生产的坦克数的。
你还能想出其他估计德国每月生产的坦克数的方法吗?例如,用样本编号的平均数作为每月生产坦克编号的平均数等,比较一下哪种方法更合理。
### 9.2.4 总体离散程度的估计
平均数、中位数和众数为我们提供了一组数据的集中趋势的信息,这是概括一组数据的特征的有效方法,但仅知道集中趋势的信息,很多时候还不能使我们做出有效决策,下面的问题就是一个例子。
**问题3** 有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲 7 8 7 9 5 4 9 10 7 4
乙 9 5 7 8 7 6 8 6 7 7
如果你是教练,你如何对两位运动员的射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?
通过简单的排序和计算,可以发现甲、乙两名运动员射击成绩的平均数、中位数、众数都是7。从这个角度看,两名运动员之间没有差别,但从图9.2-13 中看,甲的成绩比较分散,乙的成绩相对集中,即甲的成绩波动幅度比较大,而乙的成绩比较稳定。可见,他们的射击成绩是存在差异的,那么,如何度量成绩的这种差异呢?
[图片描述:页面包含两张并排的频率直方图,分别展示了甲、乙两位射击运动员10次射击命中的环数分布。两张图的Y轴均为“频率”,X轴均为“环数”。
左侧的图(甲)显示,甲运动员的环数分布较为分散,在4环、5环、7环、8环、9环和10环都有频率,其中7环的频率最高(约0.3)。
右侧的图(乙)显示,乙运动员的环数分布相对集中,主要集中在5环到9环,其中7环的频率显著高于其他环数(约0.4)。
通过对比可以看出,甲的成绩波动幅度较大,而乙的成绩较为稳定。|标题:图9.2-13|图1]
一种简单的度量数据离散程度的方法就是用极差,根据甲、乙运动员的10次射击成
<!--End Page218-->
<!--Begin Page219-->
绩,可以得到
甲命中环数的极差 = $10 - 4 = 6$,
乙命中环数的极差 = $9 - 5 = 4$.
可以发现甲的成绩波动范围比乙的大,极差在一定程度上刻画了数据的离散程度,但因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少。
我们知道,如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远。因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度。
> **?** 你还能想出其他刻画数据离散程度的办法吗?
> **③ 思考**
>
> 如何定义“平均距离”?
假设一组数据是 $x_1, x_2, \ldots, x_n$,用 $\bar{x}$ 表示这组数据的平均数,我们用每个数据与平均数的差的绝对值作为“距离”,即
$|x_i - \bar{x}| \quad (i=1, 2, \ldots, n)$
作为 $x_i$ 到 $\bar{x}$ 的“距离”,可以得到这组数据 $x_1, x_2, \ldots, x_n$ 到 $\bar{x}$ 的“平均距离”为
$\frac{1}{n}\sum_{i=1}^n |x_i - \bar{x}|$.
> **?** 想一想,为什么用“平均距离”刻画离散程度,用“总距离”行吗?
为了避免式中含有绝对值,通常改用平方来代替,即
$\frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$. (1)
我们称 (1) 式为这组数据的**方差** (variance)。有时为了计算方差的方便,我们还把方差写成以下形式
$\frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2$.
> **提示**
>
> 可以使用计算器求一组数据的方差。需要注意的是,计算器可能按 $\frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$ 计算方差,此时需要乘以 $\frac{n-1}{n}$ 进行调整。
由于方差的单位是原始数据的单位的平方,与原始数据不一致。为了使二者单位一致,我们对方差开平方,取它的算术平方根,即
$\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2}$. (2)
我们称 (2) 式为这组数据的**标准差** (standard deviation)。
> **?**
>
> 标准差的取值范围是什么?标准差为 $0$ 的一组数据有什么特点?
<!--End Page219-->
<!--Begin Page220-->
如果总体中所有个体的变量值分别为$Y_1, Y_2, \dots, Y_N$,总体平均数为$\bar{Y}$,则称
$$S^2 = \frac{1}{N}\sum_{i=1}^N (Y_i - \bar{Y})^2$$
**为总体方差**,$S=\sqrt{S^2}$ **为总体标准差**。与总体均值类似,总体方差也可以写成加权的形式。
如果总体的 $N$ 个变量值中,不同的值共有 $k(k \ll N)$ 个,不妨记为 $Y_1, Y_2, \dots, Y_k$,其中 $Y_i$ 出现的频数为 $f_i(i=1, 2, \dots, k)$,则总体方差为
$$S^2 = \frac{1}{N}\sum_{i=1}^k f_i (Y_i - \bar{Y})^2$$
如果一个样本中个体的变量值分别为 $y_1, y_2, \dots, y_n$,样本平均数为 $\bar{y}$,则称
$$s^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \bar{y})^2$$
**为样本方差**,$s=\sqrt{s^2}$ **为样本标准差**。
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小,显然,在刻画数据的分散程度上,方差和标准差是一样的。但在解决实际问题中,一般多采用标准差。
在实际问题中,总体平均数和总体标准差都是未知的。就像用样本平均数估计总体平均数一样,通常我们也用样本标准差去估计总体标准差。在随机抽样中,样本标准差依赖于样本的选取,具有随机性。
在问题 3 中,我们可以根据标准差来判断两名运动员的成绩的离散程度,计算可得
$S_甲=2, s_乙 \approx 1.095$.
由 $S_甲 > s_乙$ 可知,甲的成绩离散程度大,乙的成绩离散程度小,由此可以估计,乙比甲的射击成绩稳定。
如果要从这两名选手中选择一名参加比赛,要看一下他们的平均成绩在所有参赛选手中的位置。如果两人都排在前面,就选成绩稳定的乙选手,否则可以选甲。
**例 6** 在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生 23 人,其平均数和方差分别为 170.6 和 12.59,抽取了女生 27 人,其平均数和方差分别为 160.6 和 38.62。你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?
**解**: 把男生样本记为 $x_1, x_2, \dots, x_{23}$,其平均数记为 $\bar{x}$,方差记为 $s_x^2$;把女生样本记为 $y_1, y_2, \dots, y_{27}$,其平均数记为 $\bar{y}$,方差记为 $s_y^2$;把总样本数据的平均数记为 $\bar{z}$,方差记为 $s^2$。
根据方差的定义,总样本方差为
$$s^2 = \frac{1}{50}\left[\sum_{i=1}^{23}(x_i - \bar{z})^2 + \sum_{j=1}^{27}(y_j - \bar{z})^2\right]$$
<!--End Page220-->
<!--Begin Page221-->
$= \frac{1}{50} \left[ \sum_{i=1}^{23} (x_i - \bar{x} + \bar{x} - \bar{z})^2 + \sum_{j=1}^{27} (y_j - \bar{y} + \bar{y} - \bar{z})^2 \right]$.
由$\sum_{i=1}^{23}(x_i - \bar{x}) = \sum_{i=1}^{23}x_i - 23\bar{x} = 0$, 可得
$\sum_{i=1}^{23} 2(x_i - \bar{x})(\bar{x} - \bar{z}) = 2(\bar{x} - \bar{z})\sum_{i=1}^{23}(x_i - \bar{x}) = 0$.
同理可得
$\sum_{j=1}^{27} 2(y_j - \bar{y})(\bar{y} - \bar{z}) = 0$.
因此,
$s^2 = \frac{1}{50} \left[ \sum_{i=1}^{23}(x_i - \bar{x})^2 + \sum_{i=1}^{23}(\bar{x} - \bar{z})^2 + \sum_{j=1}^{27}(y_j - \bar{y})^2 + \sum_{j=1}^{27}(\bar{y} - \bar{z})^2 \right]$
$= \frac{1}{50} \{23[s_x^2 + (\bar{x} - \bar{z})^2] + 27[s_y^2 + (\bar{y} - \bar{z})^2]\}$. ①
由$\bar{x}=170.6$, $\bar{y}=160.6$, 根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,可得总样本平均数为
$\bar{z} = \frac{23}{23+27}\bar{x} + \frac{27}{23+27}\bar{y}$
$= \frac{23 \times 170.6 + 27 \times 160.6}{50}$
$= 165.2$.
把已知的男生、女生样本平均数和方差的取值代入①,可得
$s^2 = \frac{1}{50}\{23 \times [12.59+(170.6-165.2)^2] + 27 \times [38.62+(160.6-165.2)^2]\}$
$= 51.4862$.
我们可以计算出总样本的方差为$51.4862$, 并据此估计高一年级学生身高的总体方差为$51.4862$。
样本标准差刻画了数据离平均数波动的幅度大小,平均数和标准差一起能反映数据取值的信息.例如,根据9.2.1节中100户居民用户的月均用水量数据,可以计算出样本平均数$\bar{x}=8.79$,样本标准差$s \approx 6.20$。
$\bar{x}-s=2.59, \bar{x}+s=14.99,$
$\bar{x}-2s=-3.61, \bar{x}+2s=21.19.$
如图9.2-14所示,可以发现,这100个数据中大部分落在区间$[\bar{x}-s, \bar{x}+s]=$ $[2.59, 14.99]$内,在区间$[\bar{x}-2s, \bar{x}+2s]=[-3.61, 21.19]$外的只有7个.也就是说,绝大部分数据落在$[\bar{x}-2s, \bar{x}+2s]$内.
<!--End Page221-->
<!--Begin Page222-->
[图片描述:一个显示月均用水量频率/组距分布的直方图。横轴表示月均用水量(单位:t),从1.2到28.2,分为若干组距。纵轴表示频率/组距。图中显示了不同用水量区间的频率密度,最高的峰值在4.2-7.2t区间,频率/组距为0.107,最低的峰值在25.2-28.2t区间,频率/组距为0.007。图中还包含一些虚线,可能用于表示特定统计量或区间。|标题:图9.2-14|图片1]
## 练习
1. 不经过计算,你能给下列各组数的方差排序吗?
(1) 5,5,5,5,5,5,5,5,5;
(2) 4, 4, 4, 5,5,5,6,6,6;
(3) 3,3,4,4,5,6,6,7,7;
(4) 2,2,2,2,5,8,8,8,8.
2. 数据 $x_1, x_2, \dots, x_n$ 的方差为 $s_x^2$,数据 $y_1, y_2, \dots, y_n$ 的方差为 $s_y^2$, $a, b$ 为常数。证明:
(1) 如果 $y_1=x_1+b, y_2=x_2+b, \dots, y_n=x_n+b$,那么 $s_y^2=s_x^2$;
(2) 如果 $y_1=ax_1, y_2=ax_2, \dots, y_n=ax_n$,那么 $s_y^2=a^2 s_x^2$.
3. 农场种植的甲、乙两种水稻,在面积相等的两块稻田中连续 6 年的产量如下:
单位:kg
| 品种 | 第1年 | 第2年 | 第3年 | 第4年 | 第5年 | 第6年 |
| :--- | :---- | :---- | :---- | :---- | :---- | :---- |
| 甲 | 900 | 920 | 900 | 850 | 910 | 920 |
| 乙 | 890 | 960 | 950 | 850 | 860 | 890 |
哪种水稻的产量比较稳定?
4. 一个小商店从一家公司购进 21 袋白糖,每袋白糖的标准质量是 500 g,为了了解这些白糖的质量情况,称出各袋白糖的质量(单位: g)如下:
486 495 496 498 499 493 493
498 484 497 504 489 495 503
499 503 509 498 487 500 508
(1) 21 袋白糖的平均质量 $\bar{x}$ 是多少?标准差 $s$ 是多少?
(2) 质量位于 $\bar{x}-s$ 与 $\bar{x}+s$ 之间有多少袋白糖?所占的百分比是多少?
5. 某学校有高中学生 500 人,其中男生 320 人,女生 180 人.有人为了获得该校全体高中学生的身高信息,采用分层抽样的方法抽取样本,并观测样本的指标值(单位: cm),计算得男生样本的均值为 173.5,方差为 17,女生样本的均值为 163.83,方差为 30.03.
<!--End Page222-->
<!--Begin Page223-->
(1) 根据以上信息, 能够计算出总样本的均值和方差吗? 为什么?
(2) 如果已知男、女样本量按比例分配, 你能计算出总样本的均值和方差各为多少吗?
(3) 如果已知男、女的样本量都是25, 你能计算出总样本的均值和方差各为多少吗? 它们分别作为总体均值和方差的估计合适吗? 为什么?
## 习题 9.2
### 复习巩固
1. 棉花的纤维长度是棉花质量的重要指标。在一批棉花中随机抽测了60根棉花的纤维长度 (单位: mm), 按从小到大排序结果如下:
```
25 28 33 50 52 58 59 60 61 62
82 86 113 115 140 143 146 170 175 195
202 206 233 236 238 255 260 263 264 265
293 293 294 296 301 302 303 305 305 306
321 323 325 326 328 340 343 346 348 350
352 355 357 357 358 360 370 380 383 385
```
(1) 请你选择合适的组距, 作出这个样本的频率分布直方图, 分析这批棉花纤维长度分布的特征;
(2) 请你估计这批棉花的第 $5, 95$ 百分位数。
2. 甲、乙两台机床同时生产一种零件, 在10天中, 两台机床每天生产的次品数分别为:
```
甲 0 1 0 2 2 0 3 1 2 4
乙 2 3 1 1 0 2 1 1 0 1
```
分别计算这两组数据的平均数和标准差, 从计算结果看, 哪台机床的性能更好?
3. 在去年的足球联赛上, 一队每场比赛平均失球数是 $1.5$, 全年比赛失球个数的标准差为 $1.1$; 二队每场比赛平均失球数是 $2.1$, 全年失球个数的标准差是 $0.4$。你认为下列说法中哪一种是正确的, 为什么?
(1) 平均说来一队比二队防守技术好;
(2) 二队比一队技术水平更稳定;
(3) 一队在防守中有时表现较差, 有时表现又非常好;
(4) 二队很少不失球。
4. 数据 $X_1, X_2, \dots, X_n$ 的方差和标准差分别为 $s_x^2, s_x$, 数据 $y_1, y_2, \dots, y_n$ 的方差和标准差分别为 $s_y^2, s_y$. 若 $y_1=ax_1+b, y_2=ax_2+b, \dots, y_n=ax_n+b$ 成立, $a, b$ 为常数, 证明: $s_y^2 = a^2s_x^2, s_y=|a|s_x$.
5. 数据 $X_1, X_2, \dots, X_n$ 的方差 $s^2=0$, 证明: 所有的 $x_i(i=1, 2, \dots, n)$ 都相同.
<!--End Page223-->
<!--Begin Page224-->
# 综合运用
6. 以往的招生统计数据显示,某所大学录取的新生高考总分的中位数基本上稳定在550分。你的一位高中校友在今年的高考中得了520分,你是立即劝阻他报考这所大学,还是先进一步查阅一下这所大学以往招生的其他统计信息?解释一下你的选择。
7. 甲、乙两个班级,一次数学考试的分数排序如下:
甲班 51 54 59 60 64 68 68 68 70 71
72 72 74 76 77 78 79 79 80 80
82 85 85 86 86 87 87 87 88 89
90 90 91 96 97 98 98 98 100 100
乙班 61 63 63 66 70 71 71 73 75 75
76 79 79 80 80 80 81 81 82 82
83 83 83 84 84 84 85 85 85 85
85 85 86 87 87 88 90 91 94 98
请你就这次考试成绩,对两个班级的数学学习情况进行评价。
8. 有一种鱼的身体吸收汞,一定量身体中汞的含量超过其体重的$1.00 \times 10^{-6}$的鱼被人食用后,就会对人体产生危害。在30条鱼的样本中发现的汞含量(乘百万分之一)如下:
0.07 0.24 0.95 0.98 1.02 0.98 1.37 1.40 0.39 1.02
1.44 1.58 0.54 1.08 0.61 0.72 1.20 1.14 1.62 1.68
1.85 1.20 0.81 0.82 0.84 1.29 1.26 2.10 0.91 1.31
(1) 请用合适的统计图描述上述数据,并分析这30条鱼的汞含量的分布特点;
(2) 求出上述样本数据的平均数和标准差;
(3) 从实际情况看,许多鱼的汞含量超标的原因是这些鱼在出售之前没有被检测过,你认为每批这种鱼的平均汞含量都比$1.00 \times 10^{-6}$大吗?
(4) 在上述样本中,有多少条鱼的汞含量在以平均数为中心、2倍标准差的范围内?
9. 在一次人才招聘会上,有一家公司的招聘员告诉你,“我们公司的收入水平很高”“去年,在50名员工中,最高年收入达到了200万,员工年收入的平均数是10万”,而你的预期是获得9万元年薪。
(1) 你是否能够判断年薪为9万元的员工在这家公司算高收入者?
(2) 如果招聘员继续告诉你,“员工年收入的变化范围是从3万到200万”,这个信息是否足以使你作出自己是否受聘的决定?为什么?
(3) 如果招聘员继续给你提供了如下信息,员工收入的第一四分位数为4.5万,第三四分位数为9.5万,你又该如何使用这条信息来作出是否受聘的决定?
(4) 根据(3)中招聘员提供的信息,你能估计出这家公司员工收入的中位数是多少吗?为什么平均数比估计出的中位数高很多?
10. 有20种不同的零食,每100g可食部分包含的能量(单位:kJ)如下:
110 120 123 165 432 190 174 235 428 318
249 280 162 146 210 120 123 120 150 140
<!--End Page224-->
<!--Begin Page225-->
(1) 以上述20个数据组成总体,求总体平均数与总体标准差。
(2) 设计恰当的随机抽样方法,从总体中抽取一个容量为7的样本,求样本的平均数与标准差。
(3) 利用上面的抽样方法,再抽取容量为7的样本,计算样本的平均数和标准差。这个样本的平均数和标准差与(2) 中的结果一样吗?为什么?
(4) 利用(2) 中的随机抽样方法,分别从总体中抽取一个容量为10, 13, 16, 19的样本,求样本的平均数与标准差,分析样本量与样本的平均数和标准差对总体的估计效果之间有什么关系。
**拓广探索**
11. 已知总体划分为3层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:$l, \bar{x}, s_1^2$; $m, \bar{y}, s_2^2$; $n, \bar{z}, s_3^2$。记总的样本平均数为$\bar{w}$,样本方差为$s^2$,证明:
(1) $\bar{w} = \frac{l}{l+m+n}\bar{x} + \frac{m}{l+m+n}\bar{y} + \frac{n}{l+m+n}\bar{z}$;
(2) $s^2 = \frac{1}{l+m+n} \{l [s_1^2 + (\bar{x}-\bar{w})^2] + m [s_2^2 + (\bar{y}-\bar{w})^2] + n [s_3^2 + (\bar{z}-\bar{w})^2]\}$。
12. 调查本班每名同学的家庭在同一周的用电量,从中你能发现什么信息?写一份简短的统计报告,说明你发现的信息。
**阅读与思考**
**大数据**
“大数据”正在改变着世界,改变着人们的思维方式和行为方式,“大数据”造福于人类的事例不胜枚举。例如,在医疗方面,医院利用大量病人的临床医疗信息,通过大数据分析,可以极大提高病情诊断水平;在教育方面,通过对学生的测试成绩进行分析、追踪,可以提高评估学生学习状况的准确性,有效提高教学质量;在能源方面,通过分析气象数据,可以找出建设风电场的最佳地点,更高效地利用风力能源,更有效地降低成本。
同学们知道吗,从2016年12月29日到2017年1月4日,一周之内,神秘棋手“大师(Master)”以60连胜的战绩战胜所有对手,其中包括当时中日韩的围棋顶级职业棋手柯洁、井山裕太、朴廷桓以及聂卫平、常昊等一代传奇。实际上,“大师”就是2016年3月以4:1的总比分战胜围棋世界冠军李世石九段的谷歌围棋人工智能“阿尔法狗(AlphaGo)”。阿尔法狗的神速进步,根本在于大
<!--End Page225-->
<!--Begin Page226-->
数据的积累及洞察,将人类智慧经验变成了具体化、可视化、能精准判断、可以快速学习运用的方式,从而使自己的行为不断优化,水平越来越高。所以可以说阿尔法狗“横扫世界围棋界”,本质是大数据深度运用后的效果。
信息化时代,人们越来越意识到数据的重要性,越来越强调依托数据和数据分析结果做出决策,可以毫不夸张地说,大数据已经开启了一次重大的时代转型。
请同学们查阅图书或互联网,了解大数据的有关内容,包括大数据产生的社会背景,大数据研究的內容和重要结果,大数据方法在某一领域的具体应用等,体会大数据对当代社会发展的作用。
<!--End Page226-->
<!--Begin Page227-->
# 9.3 统计案例 公司员工的肥胖情况调查分析
## 一、背景与数据
近年来,我国肥胖人群的规模急速增长,肥胖人群有很大的心血管安全隐患。目前,国际上常用身体质量指数(Body Mass Index,缩写 BMI)来衡量人体胖瘦程度以及是否健康,其计算公式是
\text{BMI}=\frac{\text{体重(单位:kg)}}{\text{身高}^2\text{(单位:m}^2)}
中国成人的BMI数值标准为:$\text{BMI}<18.5$为体重过低; $18.5 \le \text{BMI}<24.0$为体重正常; $24.0 \le \text{BMI}<28.0$为超重; $\text{BMI} \ge 28.0$为肥胖。
为了解某公司员工的身体肥胖情况,研究人员从公司员工体检数据中,采用比例分配的分层随机抽样方法抽取了 90名男员工、50名女员工的身高和体重数据,计算得到他们的BMI值如下:
**男员工**
23.5 21.6 30.6 22.1 23.7 20.6 24.0 23.9 20.8 21.5
22.1 21.6 19.0 20.2 19.6 17.3 17.9 23.4 18.7 23.1
17.3 22.4 20.8 25.1 21.3 27.7 23.5 23.6 19.4 23.1
18.6 24.1 21.3 19.5 18.7 21.0 22.6 16.0 18.0 17.9
22.1 19.3 19.3 22.8 29.0 21.4 22.3 18.8 19.7 27.4
23.5 23.6 30.5 22.3 21.6 17.6 21.5 29.1 25.5 18.7
22.1 18.9 25.8 27.8 35.3 17.5 27.0 19.9 22.2 24.5
18.0 19.0 21.1 21.3 18.7 23.9 20.8 34.2 16.6 19.3
20.9 23.7 23.7 23.0 18.7 27.3 21.2 17.3 23.5 30.1
**女员工**
21.8 18.2 25.2 28.1 21.5 19.1 25.7 24.4 17.6 20.8
20.5 20.2 17.4 21.6 18.4 20.3 30.8 23.6 23.3 22.8
20.8 16.8 19.0 16.4 18.7 26.1 20.2 17.6 15.4 21.5
19.5 31.6 19.1 20.4 13.9 18.6 16.6 15.9 18.3 18.1
29.7 18.9 16.9 25.8 19.8 18.5 16.0 17.6 19.1 26.5
<!--End Page227-->
<!--Begin Page228-->
## 二、任务与要求
根据上面的数据,写一份该公司员工肥胖情况的统计分析报告。要求:
1. 选择合适的图表展示数据;
2. 比较男、女员工在肥胖状况上的差异;
3. 分析公司员工胖瘦程度的整体情况;
4. 提出控制体重的建议。
## 三、统计分析报告的主要组成部分
1. 标题
2. 前言
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况。
3. 主体
展示数据分析的全过程:首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图表描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体情况。
4. 结尾
对主体部分的內容进行概括,结合控制体重的一般方法(可以查阅有关文献),提出控制公司员工体重的建议。
<!--End Page228-->
<!--Begin Page229-->
# 小结
## 一、本章知识结构
[图片描述: 这是一个统计学知识结构流程图。它展示了从实际问题出发,通过普查或抽样获取数据,进而分析总体特征并做出决策的完整过程。流程分为两个主要路径:
1. **普查路径**: 从“实际问题”到“总体”,通过“普查”得到“总体数据”,然后直接推导出“总体的取值规律”、“总体的百分位数”、“总体的平均值、中位数、众数”和“总体标准差、方差、极差”等总体特征。
2. **抽样路径**: 从“实际问题”到“总体”,通过“抽样”得到“样本”,进而获得“样本观测数据”,从“样本观测数据”中分析出“样本频率分布”、“样本的百分位数”、“样本的平均数、中位数、众数”和“样本标准差、方差、极差”等样本特征。
随后,通过“估计”过程,利用这些样本特征来推断和估计对应的总体特征(如样本频率分布估计总体的取值规律)。
最终,所有这些(无论是普查直接获得还是样本估计的)总体特征共同支持了“决策与建议”的制定。图中,“总体的取值规律”等四个总体特征被一个虚线框包围,表示它们是进行决策的基础。|标题: 统计学知识结构流程图|图片编号: 图1]
```mermaid
graph TD
A[实际问题] --> B[总体]
subgraph 数据获取与总体特征分析
direction TD
C[总体数据]
J[样本]
B -- "普查" --> C
B -- "抽样" --> J
O[样本观测数据]
J --> O
end
subgraph 总体特征参数 (虚线框所示)
direction TD
D[总体的取值规律]
E[总体的百分位数]
F[总体的平均值、中位数、众数]
G[总体标准差、方差、极差]
end
C --> D
C --> E
C --> F
C --> G
K[样本频率分布]
L[样本的百分位数]
M[样本的平均数、中位数、众数]
N[样本标准差、方差、极差]
O --> K
O --> L
O --> M
O --> N
K -- "估计" --> D
L -- "估计" --> E
M -- "估计" --> F
N -- "估计" --> G
D & E & F & G --> H[决策与建议]
```
## 二、回顾与思考
统计是研究数据的学问,所以学习统计的首要任务是掌握获取数据的方法。为此,本章我们首先通过实例学习了简单随机抽样、分层随机抽样等常用的抽样方法,并在简单的实际情境中,讨论了如何根据实际问题的特点设计抽样方法。接着,我们学习了根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述的方法,从中我们看到,合理使用统计图表对于从数据中获取信息是非常重要的。在此基础上,我们研究了用样本估计总体的取值规律、百分位数、集中趋势参数(平均数、中位数、众数)和离散程度参数(标准差、方差、极差)等问题,了解了百分位数、集中趋势参数、离散程度参数的统计含义。这个学习过程实际上反映了用统计方法解决实际问题的基本过程。
<!--End Page229-->
<!--Begin Page230-->
用统计的知识解决实际问题,首先要明确面临的是一个怎样的统计问题,这时常常需要先搞清楚问题的背景知识,才能提出有意义的统计问题。在抽样调查中,最核心的问题是样本的代表性,一般来说,增加样本量有利于提高样本的代表性,但样本量增加会导致调查成本增加,因此需要根据实际问题来确定合适的样本量。对一个具体的统计问题,总体的取值规律、百分位数、集中趋势参数、离散程度参数等都是确定的,但具体是什么却是未知的,我们可以通过样本去估计,因为样本具有随机性,所以样本的取值规律、百分位数、集中趋势参数、离散程度参数等都有随机性,因此,由样本估计总体时,所作出的统计推断结果具有或然性,这是运用统计结果解释实际问题时需要注意的。
在用统计方法解决实际问题时,要尽可能运用计算工具来处理数据,实际上,学会使用统计软件作统计图表、计算样本平均数、样本方差等特征值,不仅能避免烦琐的运算,而且有利于我们积累数据分析的经验,更好地体会统计思想,某种意义上也是现代社会一个公民应具备的基本素养。
请你带着下面的问题,复习一下全章的內容吧。
1. 你能从自己的学习、生活中提出一些统计问题吗?为什么你认为研究这些问题是有意义的?
2. 简单随机抽样和分层随机抽样有什么联系与区别?它们各自的特点和适用范围是什么?在分层随机抽样中,分层的目的是什么?
3. 请你举例说明:
(1) 用频率分布表或频率分布直方图刻画数据的取值规律时,从中可以获得哪些信息?
(2) 百分位数可以告诉我们什么信息?
(3) 用平均数和中位数、众数刻画数据的集中趋势时,它们各自的特点是什么?
(4) 用方差和标准差、极差刻画数据的离散程度时,它们各有什么特点?
4. 在某次考试中,如果已知每班同学数学成绩的平均数、方差以及班级人数,由此你能计算出全年级同学数学成绩的平均数和方差吗?
5. 为什么说用样本估计总体时所作出的统计推断结果具有或然性?你能举例说明吗?
<!--End Page230-->
<!--Begin Page231-->
# 复习参考题9
## 复习巩固
1. 为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生进行调查分析。在这个问题中,被抽取的200名学生是( )。
(A) 总体
(B) 个体
(C) 样本
(D) 样本量
2. 四名同学各掷骰子5次,分别记录每次骰子出现的点数。根据四名同学的统计结果,可以判断出一定没有出现点数6的是( )。
(A) 平均数为3,中位数为2
(B) 中位数为3,众数为2
(C) 平均数为2,方差为2.4
(D) 中位数为3,方差为2.8
3. 如果一组数据的中位数比平均数小很多,下面哪种叙述一定是错误的?为什么?
(1) 数据中可能有异常值;
(2) 这组数据是近似对称的;
(3) 数据中可能有极端大的值;
(4) 数据中众数可能和中位数相同.
4. (1) 在已分组的若干数据中,每组的频数是指______,每组的频率是指______。
(2) 一个公司共有 $N$ 名员工,下设一些部门,要采用样本量比例分配的分层随机抽样方法从全体员工中抽取样本量为 $n$ 的样本,如果某部门有 $m$ 名员工,那么从该部门抽取的员工人数是________。
5. 一家著名的全国性连锁服装店进行了一项关于当年秋季服装流行色的民意调查。调查者通过向顾客发放饮料,并让顾客通过挑选饮料杯上印着的颜色来对自己喜欢的服装颜色“投票”。根据这次调查结果,在某大城市A,服装颜色的众数是红色,而当年全国服装协会发布的调查结果是咖啡色。
(1) 这个结果是否代表A城市的人的看法?
(2) 你认为这两种调查的差异是由什么引起的?
## 综合运用
6. 从一本英语书中随机抽取100个句子,数出每个句子中的单词数,作出这100个数据的频率分布表,由此你可以作出什么估计?
7. 在一个文艺比赛中,12名专业人士和12名观众代表各组成一个评委小组,给参赛选手打分。下面是两组评委对同一名选手的打分:
小组A 42 45 48 46 52 47 49 55 42 51 47 45
小组B 55 36 70 66 75 49 46 68 42 62 58 47
(1) 选择一个可以度量每一组评委打分相似性的量,并对每组评委的打分计算度量值。
(2) 你能据此判断小组A与小组B中哪一个更像是由专业人士组成的吗?
<!--End Page231-->
<!--Begin Page232-->
8. 一名学生通过计步仪器,记录了自己100天每天走的步数,数据如下:
```
5 678 13 039 8 666 9 521 8 722 10 575 2 107 4 165 17 073 11 205
5 467 11 736 9 986 8 592 6 542 12 386 13 115 5 705 8 358 13 234
20 142 9 769 10 426 12 802 16 722 8 587 9 266 8 635 2 455 4 524
8 260 13 165 9 812 9 533 2 377 5 132 8 212 7 968 9 859 3 961
5 484 11 344 8 722 12 944 8 597 12 594 15 101 4 751 11 130 11 286
8 897 7 192 7 313 8 790 7 699 10 892 9 583 9 207 16 358 10 182
3 607 1 789 9 417 4 566 12 347 3 228 7 606 8 689 8 755 15 609
8 767 9 226 5 622 11 094 8 865 11 246 17 417 7 995 7 317 6 878
4 270 11 051 5 705 5 442 10 078 9 107 8 354 6 483 16 808 1 509
1 301 10 843 13 864 12 691 8 419 14 267 9 809 9 858 8 922 12 682
```
(1) 画出这组数据的频率分布直方图,并分析数据的分布特点;
(2) 计算这组数据的平均数、中位数和标准差,并根据这些数值描述这名学生的运动情况.
9. 一家水果店的店长为了解本店苹果的日销售情况,记录了过去30天苹果的日销售量(单位: kg),结果如下:
```
83 96 107 91 70 75 94 80 80 100
75 99 117 89 74 94 84 85 101 87
93 85 107 99 55 97 86 84 85 104
```
(1) 请计算该水果店过去30天苹果日销售量的中位数、平均数、极差和标准差.
(2) 一次进货太多,水果会变得不新鲜;进货太少,又不能满足顾客的需求,店长希望每天的苹果尽量新鲜,又能80%地满足顾客的需求(在100天中,大约有80天可以满足顾客的需求).请问,每天应该进多少千克苹果?
10. 一家保险公司决定对推销员实行目标管理,即给推销员确定一个具体的销售目标.确定的销售目标是否合适,直接影响到公司的经济效益.如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果目标定得太低,将不利于挖掘推销员的工作潜力,下面一组数据是部分推销员的月销售额(单位: 万元):
```
1.958 1.611 1.645 2.045 2.024 2.166 2.245 1.822 1.234
1.935 2.055 1.745 1.878 1.796 1.991 1.812 1.465 1.478
1.678 1.878 1.829 1.851 1.786 1.958 1.921 1.855 1.634
1.554 1.755 1.489 1.894 1.743 1.714 1.802 1.998 1.788
1.732 1.935 1.545 1.958 1.345 2.134 1.400 1.842 2.300
1.752 1.851 1.716 2.456 2.514
```
请根据这组样本数据提出使65%的职工能够完成销售指标的建议.
11. 为了解某市家庭用电量的情况,该市统计局调查了200户居民去年一年的月均用电量(单位: kW·h),数据从小到大排序如下:
```
8 18 22 31 42 48 49 50 51 56 57 57 60 61 61
61 62 62 63 63 65 66 67 69 70 70 71 72 72 74
76 77 77 78 78 80 80 82 82 82 83 84 84 88 88
```
<!--End Page232-->
<!--Begin Page233-->
89 90 91 93 93 94 95 96 96 96 97 98 98 98 99
100 100 100 101 101 101 105 106 106 106 107 107 107 107 108
108 109 109 110 110 110 111 112 113 113 114 115 116 118 120
120 120 121 123 124 127 127 127 130 130 130 131 131 132 132
132 133 133 134 134 134 135 135 135 135 136 137 137 138 139
139 140 141 142 144 146 146 147 148 149 151 152 154 156 159
160 162 163 163 164 165 167 169 170 170 172 174 174 177 178
178 180 182 182 187 189 191 191 192 194 194 200 201 201 202
203 203 206 208 212 213 214 216 223 224 237 247 250 250 251
253 254 258 260 265 274 274 283 288 289 304 319 320 324 339
462 498 530 542 626
为了既满足居民的基本用电需求, 又提高能源的利用效率, 市政府计划采用阶梯电价, 使
$75\%$的居民缴费在第一档, $20\%$的居民缴费在第二档, 其余$5\%$的居民缴费在第三档, 请确定
各档的范围.
## 拓广探索
12. 要了解全校学生的体重情况, 请你设计一个调查方案, 并实施调查, 完成一份统计调查分析报告.
<!--End Page233-->
<!--Begin Page234-->