2025-11-19 10:16:05 +08:00

113 KiB

Raw Permalink Blame History

第七章

随机变量及其分布

概率是随机事件发生可能性大小的度量。在必修课程的概率学习中，我们结合古典概型，研究了简单随机事件及其概率的计算方法，并讨论了概率的一些性质。本章将在此基础上，结合古典概型，研究随机事件的条件概率，建立概率的乘法公式和全概率公式，并用它们计算较复杂事件的概率。

为了利用数学工具，并以简洁、统一的形式研究随机试验的规律，本章我们还将把随机试验的结果数量化，引入随机变量的概念，对离散型随机变量，我们主要研究其分布列及数字特征，并对二项分布、超几何分布进行重点研究。对于连续型随机变量，我们只研究服从正态分布的情况，通过用随机变量描述和分析随机试验，解决一些简单的实际问题，进一步体会概率模型的作用及概率思想和方法的特点。

[图片描述: 一群学生或运动员在室内射击场练习射击，他们身着专业服装，手持步枪，瞄准远处的靶位。射击位上方有电子计分显示屏。场景明亮，地面和墙壁简洁。|标题: 室内射击训练场景|图片编号: 图1]

7.1 条件概率与全概率公式

在必修“概率”一章的学习中，我们遇到过求同一试验中两个事件$A$与$B$同时发生（积事件 $AB$）的概率的问题。当事件$A$与$B$相互独立时，有

P(AB)=P(A)P(B).

如果事件$A$与$B$不相互独立，如何表示积事件 AB 的概率呢？下面我们从具体问题入手。

7.1.1 条件概率

问题1 某个班级有45名学生，其中男生、女生的人数及团员的人数如表 7.1-1 所示。

表 7.1-1 单位:人

性别	团员	非团员	合计
男生	16	9	25
女生	14	6	20
合计	30	15	45

在班级里随机选择一人做代表， (1) 选到男生的概率是多少？ (2) 如果已知选到的是团员，那么选到的是男生的概率是多少？

随机选择一人做代表，则样本空间 \Omega 包含45个等可能的样本点。用$A$表示事件“选到团员”，$B$表示事件“选到男生”，根据表 7.1-1 中的数据可以得出，n(\Omega)=45, n(A)=30, $n(B)=25$。

(1) 根据古典概型知识可知，选到男生的概率

P(B)=\frac{n(B)}{n(\Omega)}=\frac{25}{45}=\frac{5}{9}.

(2) “在选到团员的条件下，选到男生”的概率就是“在事件$A$发生的条件下，事件$B$发生”的概率，记为 $P(B|A)$。此时相当于以$A$为样本空间来考虑事件$B$发生的概率，而在新的样本空间中事件$B$就是积事件$AB$，包含的样本点数 $n(AB)=16$。根据古典概型知识可知，

P(B|A)=\frac{n(AB)}{n(A)}=\frac{16}{30}=\frac{8}{15}.

问题 2 假定生男孩和生女孩是等可能的,现考虑有两个小孩的家庭。随机选择一个家庭,那么

(1) 该家庭中两个小孩都是女孩的概率是多大? (2) 如果已经知道这个家庭有女孩,那么两个小孩都是女孩的概率又是多大?

观察两个小孩的性别,用 b 表示男孩, g 表示女孩,则样本空间 \Omega = \{bb, bg, gb, gg\}, 且所有样本点是等可能的。用 A 表示事件“选择的家庭中有女孩”, B 表示事件“选择的家庭中两个小孩都是女孩”, 则 A=\{bg, gb, gg\}, $B={gg}$。

(1) 根据古典概型知识可知,该家庭中两个小孩都是女孩的概率 P(B)=\frac{n(B)}{n(\Omega)} = \frac{1}{4}.

(2) “在选择的家庭有女孩的条件下,两个小孩都是女孩”的概率就是“在事件 A 发生的条件下,事件 B 发生”的概率,记为 $P(B|A)$。此时 A 成为样本空间,事件 B 就是积事件 $AB$。根据古典概型知识可知, P(B|A)=\frac{n(AB)}{n(A)} = \frac{1}{3}.

在上面两个问题中,在事件 A 发生的条件下,事件 B 发生的概率都是 P(B|A)=\frac{n(AB)}{n(A)}.

这个结论对于一般的古典概型仍然成立。事实上,如图 7.1-1 所示,若已知事件 A 发生,则 A 成为样本空间。此时,事件 B 发生的概率是 AB 包含的样本点数与 A 包含的样本点数的比值,即 P(B|A)=\frac{n(AB)}{n(A)}.

因为 [图片描述:一个维恩图，显示了全集$\Omega$以及其子集A和B，其中AB代表A和B的交集。事件A被浅蓝色填充，事件B的一部分被浅紫色填充，交集AB被深蓝色填充。|标题:图7.1-1|图片编号:1] P(B|A)=\frac{n(AB)}{n(A)} = \frac{\frac{n(AB)}{n(\Omega)}}{\frac{n(A)}{n(\Omega)}} = \frac{P(AB)}{P(A)}.

所以,在事件 A 发生的条件下,事件 B 发生的概率还可以通过 \frac{P(AB)}{P(A)} 来计算。

一般地,设 A,B 为两个随机事件,且 P(A)>0,我们称 $P(B|A)=\frac{P(AB)}{P(A)}$ 为在事件 A 发生的条件下,事件 B 发生的条件概率,简称条件概率 (conditional probability).

探究

在问题1和问题2中，都有 $P(B|A) \ne P(B)$。一般地，P(B|A) 与 P(B) 不一定相等。如果 P(B|A) 与 P(B) 相等，那么事件 A 与 B 应满足什么条件？

直观上看，当事件 A 与 B 相互独立时，事件 A 发生与否不影响事件 B 发生的概率，这等价于 P(B|A)=P(B) 成立。事实上，若事件 A 与 B 相互独立，即 $P(AB)=P(A)P(B)$，且 $P(A)>0$，则

P(B|A) = \frac{P(AB)}{P(A)} = \frac{P(A)P(B)}{P(A)} = P(B)

反之，若 $P(B|A)=P(B)$，且 $P(A)>0$，则

P(B) = \frac{P(AB)}{P(A)} \Rightarrow P(AB) = P(A)P(B)

即事件 A 与 B 相互独立。因此，当 P(A)>0 时，当且仅当事件 A 与 B 相互独立时，有 $P(B|A)=P(B)$。

思考

对于任意两个事件 A 与 $B$，如果已知 P(A) 与 $P(B|A)$，如何计算 P(AB) 呢？

由条件概率的定义，对任意两个事件 A 与 $B$，若 $P(A)>0$，则

P(AB)=P(A)P(B|A)

我们称上式为概率的乘法公式。

例1 在5道试题中有3道代数题和2道几何题，每次从中随机抽出1道题，抽出的题不再放回。求： (1) 第1次抽到代数题且第2次抽到几何题的概率； (2) 在第1次抽到代数题的条件下，第2次抽到几何题的概率。

分析: 如果把“第1次抽到代数题”和“第2次抽到几何题”作为两个事件，那么问题(1)就是积事件的概率，问题(2)就是条件概率。可以先求积事件的概率，再用条件概率公式求条件概率；也可以先求条件概率，再用乘法公式求积事件的概率。

解: 设 $A$=“第1次抽到代数题”， $B$=“第2次抽到几何题”，则“第1次抽到代数题且第2次抽到几何题”就是事件 $AB$。

方法1 (1)从5道试题中每次不放回地随机抽取2道，试验的样本空间 \Omega 包含20个等可能的样本点，即 $n(\Omega) = A_5^2 = 5 \times 4 = 20$。因为 $n(AB) = A_3^1 \times A_2^1 = 3 \times 2 = 6$，所以

P(AB) = \frac{n(AB)}{n(\Omega)} = \frac{6}{20} = \frac{3}{10}

(2) “在第1次抽到代数题的条件下，第2次抽到几何题”的概率就是事件 A 发生的条件下，事件 B 发生的概率。显然 $P(A)=\frac{3}{5}$。利用条件概率公式，得

P(B|A) = \frac{P(AB)}{P(A)} = \frac{\frac{3}{10}}{\frac{3}{5}} = \frac{1}{2}

方法2 因为 n(A)=3 \times 4=12, $n(AB)=3 \times 2=6$，所以

P(B|A) = \frac{n(AB)}{n(A)} = \frac{6}{12} = \frac{1}{2}

又 $P(A)=\frac{3}{5}$，利用乘法公式可得

P(AB) = P(A)P(B|A) = \frac{3}{5} \times \frac{1}{2} = \frac{3}{10}.

例1求条件概率用了两种方法：一种是基于样本空间 $\Omega$，先计算 P(A) 和 $P(AB)$，再利用条件概率公式求 $P(B|A)$；另一种是根据条件概率的直观意义，增加了“A 发生”的条件后，样本空间缩小为 $A$，求 P(B|A) 就是以 A 为样本空间计算 AB 的概率。

在例1中，已知第1次抽到代数题，这时还余下4道试题，其中代数题和几何题各2道。显然，事件 A 发生的条件下，事件 B 发生的概率为 $P(B|A)=\frac{2}{4}=\frac{1}{2}$。这等价于将 A 中的12个样本点合并为4个等可能的样本点，通常用这种方法求 P(B|A) 更便捷。

条件概率只是缩小了样本空间，因此条件概率同样具有概率的性质。设 $P(A)>0$，则 (1) P(\Omega|A)=1; (2) 如果 B 和 C 是两个互斥事件，则 P(B \cup C|A)=P(B|A)+P(C|A); (3) 设 \bar{B} 和 B 互为对立事件，则 P(\bar{B}|A)=1-P(B|A).

例2 已知3张奖券中只有1张有奖，甲、乙、丙3名同学依次不放回地各随机抽取1张。他们中奖的概率与抽奖的次序有关吗？

分析: 要知道中奖概率是否与抽奖次序有关，只要考察甲、乙、丙3名同学的中奖概率是否相等，因为只有1张有奖，所以“乙中奖”等价于“甲没中奖且乙中奖”，“丙中奖”等价于“甲和乙都没中奖”，利用乘法公式可求出乙、丙中奖的概率。

解: 用 A, B, C 分别表示甲、乙、丙中奖的事件，则 B=\overline{A}B, C=\overline{A}\overline{B}.

P(A)=\frac{1}{3};

P(B) = P(\overline{A}B) = P(\overline{A})P(B|\overline{A}) = \frac{2}{3} \times \frac{1}{2} = \frac{1}{3}.

P(C)=P(\bar{A}B)=P(\bar{A})P(B|\bar{A})=\frac{2}{3} \times \frac{1}{2} = \frac{1}{3}. 因为 $P(A)=P(B)=P(C)$，所以中奖的概率与抽奖的次序无关。事实上，在抽奖问题中，无论是放回随机抽取还是不放回随机抽取，中奖的概率都与抽奖的次序无关。

例 3 银行储蓄卡的密码由 6 位数字组成。某人在银行自助取款机上取钱时，忘记了密码的最后 1 位数字。求: (1) 任意按最后 1 位数字，不超过 2 次就按对的概率； (2) 如果记得密码的最后 1 位是偶数，不超过 2 次就按对的概率。

分析: 最后 1 位密码“不超过 2 次就按对”等价于“第 1 次按对，或者第 1 次按错但第 2 次按对”。因此，可以先把复杂事件用简单事件表示，再利用概率的性质求解。

解: (1) 设 $A_i$=“第 i 次按对密码” (i=1, 2)，则事件“不超过 2 次就按对密码”可表示为 A=A_1 \cup \bar{A_1}A_2. 事件 A_1 与事件 \bar{A_1}A_2 互斥，由概率的加法公式及乘法公式，得 P(A)=P(A_1)+P(\bar{A_1}A_2)=P(A_1)+P(\bar{A_1})P(A_2|\bar{A_1}) = \frac{1}{10} + \frac{9}{10} \times \frac{1}{9} = \frac{1}{5}. 因此，任意按最后 1 位数字，不超过 2 次就按对的概率为 $\frac{1}{5}$。

(2) 设 $B$=“最后 1 位密码为偶数”，则 P(A|B)=P(A_1|B)+P(\bar{A_1}A_2|B)=\frac{1}{5} + \frac{4}{5} \times \frac{1}{4} = \frac{2}{5}. 因此，如果记得密码的最后 1 位是偶数，不超过 2 次就按对的概率为 $\frac{2}{5}$。

练习

设 $A \subseteq B$，且 P(A)=0.3, $P(B)=0.6$。根据事件包含关系的意义及条件概率的意义，直接写出 P(B|A) 和 P(A|B) 的值，再由条件概率公式进行验证。
从一副不含大小王的 52 张扑克牌中，每次随机抽出 1 张扑克牌，抽出的牌不再放回。已知第 1 次抽到 A 牌，求第 2 次抽到 A 牌的概率。
袋子中有 10 个除颜色外完全相同的小球，其中 7 个白球，3 个黑球。每次从袋子中随机摸出 1 个球，摸出的球不再放回。求: (1) 在第 1 次摸到白球的条件下，第 2 次摸到白球的概率； (2) 两次都摸到白球的概率。

7.1.2 全概率公式

在上节计算按对银行储蓄卡密码的概率时, 我们首先把一个复杂事件表示为一些简单事件运算的结果, 然后利用概率的加法公式和乘法公式求其概率。下面, 再看一个求复杂事件概率的问题。

❓ 思考从有 a 个红球和 b 个蓝球的袋子中, 每次随机摸出 1 个球, 摸出的球不再放回。显然, 第 1 次摸到红球的概率为 $\frac{a}{a+b}$。那么第 2 次摸到红球的概率是多大? 如何计算这个概率呢?

因为抽签具有公平性, 所以第 2 次摸到红球的概率也应该是 \frac{a}{a+b}, 但是这个结果并不显然, 因为第 2 次摸球的结果受第 1 次摸球结果的影响。下面我们给出严格的推导。

用 R_i 表示事件“第 i 次摸到红球”, B_i 表示事件“第 i 次摸到蓝球”, $i=1, 2$。如图 7.1-2 所示, 事件 R_2 可按第 1 次可能的摸球结果(红球或蓝球)表示为两个互斥事件的并, 即 $R_2 = R_1R_2 \cup B_1R_2$。利用概率的加法公式和乘法公式, 得

[图片描述: 这是一个概率树图，展示了从一个袋子中不放回地摸球两次的事件序列及其概率。图的起始点分支为第一次摸球的结果：

第一次摸到红球 (R_1)，其概率为 $P(R_1)$。
第一次摸到蓝球 (B_1)，其概率为 $P(B_1)$。从第一次摸到红球 (R_1) 的分支，进一步分支为第二次摸球的结果：
第二次摸到红球 (R_2)，在第一次摸到红球的条件下发生，条件概率为 $P(R_2|R_1)$。最终事件为 $R_1R_2$。
第二次摸到蓝球 (B_2)，在第一次摸到红球的条件下发生，条件概率为 $P(B_2|R_1)$。最终事件为 $R_1B_2$。从第一次摸到蓝球 (B_1) 的分支，进一步分支为第二次摸球的结果：
第二次摸到红球 (R_2)，在第一次摸到蓝球的条件下发生，条件概率为 $P(R_2|B_1)$。最终事件为 $B_1R_2$。
第二次摸到蓝球 (B_2)，在第一次摸到蓝球的条件下发生，条件概率为 $P(B_2|B_1)$。最终事件为 $B_1B_2$。该图清晰地展示了事件的顺序和条件概率的分解。|标题: 摸球实验的概率树图|图片编号: 1]

graph TD
    Start((开始)) --> |P(R1)| R1_Event(事件 R1: 第一次摸到红球);
    Start((开始)) --> |P(B1)| B1_Event(事件 B1: 第一次摸到蓝球);

    R1_Event --> |P(R2|R1)| R1R2_Outcome(事件 R1R2: 第一次红第二次红);
    R1_Event --> |P(B2|R1)| R1B2_Outcome(事件 R1B2: 第一次红第二次蓝);

    B1_Event --> |P(R2|B1)| B1R2_Outcome(事件 B1R2: 第一次蓝第二次红);
    B1_Event --> |P(B2|B1)| B1B2_Outcome(事件 B1B2: 第一次蓝第二次蓝);


\begin{aligned}
P(R_2) &= P(R_1R_2 \cup B_1R_2) \\
&= P(R_1R_2) + P(B_1R_2) \\
&= P(R_1)P(R_2|R_1) + P(B_1)P(R_2|B_1) \\
&= \frac{a}{a+b} \times \frac{a-1}{a+b-1} + \frac{b}{a+b} \times \frac{a}{a+b-1} \\
&= \frac{a}{a+b}
\end{aligned}

上述过程采用的方法是: 按照某种标准, 将一个复杂事件表示为两个互斥事件的并, 再由概率的加法公式和乘法公式求得这个复杂事件的概率。一般地, 设 A_1, A_2, \ldots, A_n 是一组两两互斥的事件, A_1 \cup A_2 \cup \cdots \cup A_n = \Omega, 且 P(A_i)>0, i=1, 2, \ldots, n, 则对任意的事件 B \subseteq \Omega, 有


P(B)=\sum_{i=1}^{n} P(A_i)P(B|A_i).

我们称上面的公式为全概率公式 (total probability formula)。全概率公式是概率论中最基本的公式之一。

例 4 某学校有 A, B 两家餐厅, 王同学第 1 天午餐时随机地选择一家餐厅用餐, 如果第 1 天去 A 餐厅, 那么第 2 天去 A 餐厅的概率为 0.6; 如果第 1 天去 B 餐厅, 那么第 2 天去 A 餐厅的概率为 0.8。计算王同学第 2 天去 A 餐厅用餐的概率。

分析: 第 2 天去哪家餐厅用餐的概率受第 1 天在哪家餐厅用餐的影响, 可根据第 1 天可能去的餐厅, 将样本空间表示为“第 1 天去 A 餐厅”和“第 1 天去 B 餐厅”两个互斥事件的并, 利用全概率公式求解。

解: 设 $A_1$=“第 1 天去 A 餐厅用餐”, $B_1$=“第 1 天去 B 餐厅用餐”, $A_2$=“第 2 天去 A 餐厅用餐”, 则 \Omega = A_1 \cup B_1, 且 A_1 与 B_1 互斥。根据题意得 P(A_1)=P(B_1)=0.5, P(A_2|A_1)=0.6, P(A_2|B_1)=0.8. 由全概率公式, 得

P(A_2)=P(A_1)P(A_2|A_1)+P(B_1)P(A_2|B_1)

=0.5 \times 0.6 + 0.5 \times 0.8

=0.7.

因此, 王同学第 2 天去 A 餐厅用餐的概率为 0.7。

例 5 有 3 台车床加工同一型号的零件, 第 1 台加工的次品率为 6%, 第 2, 3 台加工的次品率均为 5%, 加工出来的零件混放在一起。已知第 1, 2, 3 台车床加工的零件数分别占总数的 25%, 30%, 45%。 (1) 任取一个零件, 计算它是次品的概率; (2) 如果取到的零件是次品, 计算它是第 i(i=1, 2, 3) 台车床加工的概率。

分析: 取到的零件可能来自第 1 台车床, 也可能来自第 2 台或第 3 台车床, 有 3 种可能。设 $B$=“任取一零件为次品”, $A_i$=“零件为第 i 台车床加工”(i=1, 2, 3), 如图 7.1-3 所示, 可将事件 B 表示为 3 个两两互斥事件的并, 利用全概率公式可以计算出事件 B 的概率。

解: 设 $B$=“任取一个零件为次品”, $A_i$=“零件为第 i 台车床加工”(i=1, 2, 3), 则 \Omega = A_1 \cup A_2 \cup A_3, 且 A_1, A_2, A_3 两两互斥。根据题意得 P(A_1)=0.25, P(A_2)=0.3, P(A_3)=0.45,

[图片描述:一个维恩图，展示了样本空间 \Omega 被三个互斥事件 A_1, A_2, A_3 分割。事件 B 与每个 A_i 都有交集，分别标记为 $A_1B, A_2B, A_3B$。事件 B 包含了这三个交集区域，通过此图可直观理解全概率公式的构成要素。|标题:图7.1-3|图1]

P(B|A_1)=0.06, P(B|A_2)=P(B|A_3)=0.05. (1) 由全概率公式, 得

P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)

=0.25 \times 0.06 + 0.3 \times 0.05 + 0.45 \times 0.05

=0.0525.

(2) “如果取到的零件是次品, 计算它是第 i(i=1, 2, 3) 台车床加工的概率”, 就是

计算在 B 发生的条件下, 事件 A_i 发生的概率。

P(A_1|B) = \frac{P(A_1B)}{P(B)} = \frac{P(A_1)P(B|A_1)}{P(B)} = \frac{0.25 \times 0.06}{0.0525} = \frac{2}{7}

类似地，可得

P(A_2|B) = \frac{2}{7}, P(A_3|B) = \frac{3}{7}

❓ 思考

例5中 P(A_i), P(A_i|B) 的实际意义是什么？

P(A_i) 是试验之前就已知的概率，它是第 i 台车床加工的零件所占的比例，称为先验概率。当已知抽到的零件是次品 (B 发生)，P(A_i|B) 是这件次品来自第 i 台车床加工的可能性大小，通常称为后验概率。如果对加工的次品，要求操作员承担相应的责任，那么 \frac{2}{7}, \frac{2}{7}, \frac{3}{7} 就分别是第 1, 2, 3 台车床操作员应承担的份额。

将例5中的问题(2)一般化，可以得到贝叶斯公式。 *贝叶斯公式 (Bayes formula): 设 A_1, A_2, \dots, A_n 是一组两两互斥的事件，$A_1 \cup A_2 \cup \dots \cup A_n = \Omega$，且 $P(A_i)>0, i=1, 2, \dots, n$，则对任意的事件 B \subseteq \Omega, P(B)>0, 有

贝叶斯公式是由英国数学家贝叶斯(T. Bayes, 1702-1761)发现的，它用来描述两个条件概率之间的关系。

P(A_i|B) = \frac{P(A_i)P(B|A_i)}{P(B)} = \frac{P(A_i)P(B|A_i)}{\sum_{k=1}^{n} P(A_k)P(B|A_k)}, i=1, 2, \dots, n

例6 在数字通信中, 信号是由数字0和1组成的序列, 由于随机因素的干扰, 发送的信号0或1有可能被错误地接收为1或0. 已知发送信号0时, 接收为0和1的概率分别为0.9和0.1; 发送信号1时, 接收为1和0的概率分别为0.95和0.05. 假设发送信号0和1是等可能的. (1) 分别求接收的信号为0和1的概率; *(2) 已知接收的信号为0, 求发送的信号是1的概率.

分析: 设 $A=$“发送的信号为0”, $B=$“接收到的信号为0”. 为便于求解, 我们可将题目中所包含的各种信息用图7.1-4直观表示.

[图片描述:该图表示数字通信中的信号传输过程。图中有两个发送状态：“发送 0(A)”和“发送 1(A)”，以及两个接收状态：“接收 0(B)”和“接收 1(B)”。图中的箭头表示信号从发送状态到接收状态的传输路径，并标注了相应的条件概率。具体路径及概率为：从“发送 0(A)”到“接收 0(B)”的概率为 $P(B|A)=0.9$；从“发送 0(A)”到“接收 1(B)”的概率为 $P(\bar{B}|A)=0.1$；从“发送 1(A)”到“接收 0(B)”的概率为 $P(B|\bar{A})=0.05$；从“发送 1(A)”到“接收 1(B)”的概率为 $P(\bar{B}|\bar{A})=0.95$。|标题:图7.1-4|图片编号:1]

graph TD
    A["发送 0(A)"]
    A_bar["发送 1(A)"]
    B["接收 0(B)"]
    B_bar["接收 1(B)"]

    A -- "$P(B|A)=0.9$" --> B
    A -- "$P(\bar{B}|A)=0.1$" --> B_bar
    A_bar -- "$P(B|\bar{A})=0.05$" --> B
    A_bar -- "$P(\bar{B}|\bar{A})=0.95$" --> B_bar

标有*号的内容为选学内容, 不作考试要求.

解: 设 A= “发送的信号为 0”, B= “接收到的信号为 0”, 则 \bar{A}= “发送的信号为 1”, \bar{B}= “接收到的信号为 1”. 由题意得 P(A)=P(\bar{A})=0.5, P(B|A)=0.9, P(\bar{B}|A)=0.1, P(\bar{B}|\bar{A})=0.05, P(B|\bar{A})=0.95. (1) P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=0.5\times 0.9+0.5\times 0.05=0.475, P(\bar{B})=1-P(B)=1-0.475=0.525. (2) P(\bar{A}|\bar{B})=\frac{P(\bar{A})P(\bar{B}|\bar{A})}{P(\bar{B})}=\frac{0.5\times 0.05}{0.475}=\frac{1}{19}.

练习

现有 12 道四选一的单选题，学生张君对其中 9 道题有思路，3 道题完全没有思路，有思路的题做对的概率为 0.9，没有思路的题只好任意猜一个答案，猜对答案的概率为 0.25. 张君从这 12 道题中随机选择 1 题，求他做对该题的概率.
两批同种规格的产品，第一批占 40%，次品率为 5%；第二批占 60%，次品率为 4%. 将两批产品混合，从混合产品中任取 1 件. (1) 求这件产品是合格品的概率; *(2) 已知取到的是合格品，求它取自第一批产品的概率.

习题 7.1

复习巩固

为了研究不同性别学生患色盲的比例，调查了某学校 2000 名学生，数据如右表所示，从这 2000 人中随机选择 1 人.

单位: 人

性别色盲非色盲合计

男生 60 1140 1200

女生 2 798 800

合计 62 1938 2000

(1) 已知选到的是男生，求他患色盲的概率; (2) 已知选到的学生患色盲，求他是男生的概率.
从人群中随机选出 1 人，设 B= “选出的人患有心脏病”，C= “选出的人是年龄大于 50 岁的心脏病患者”，请你判断 P(B) 和 P(C) 的大小关系，并说明理由.
甲、乙两人向同一目标各射击 1 次，已知甲命中目标的概率为 0.6，乙命中目标的概率为 0.5. 已知目标至少被命中 1 次，求甲命中目标的概率.
甲和乙两个箱子中各装有 10 个球，其中甲箱中有 5 个红球、5 个白球，乙箱中有 8 个红球、2 个白球. 掷一枚质地均匀的骰子，如果点数为 1 或 2，从甲箱子中随机摸出 1 个球；如果点数为 3, 4, 5, 6，从乙箱子中随机摸出 1 个球. 求摸到红球的概率.

性别	色盲	非色盲	合计
男生	60	1140	1200
女生	2	798	800
合计	62	1938	2000

在 A, B, C 三个地区暴发了流感，这三个地区分别有 6%, 5%, 4% 的人患了流感。假设这三个地区的人口数的比为 5:7:8，现从这三个地区中任意选取一个人。 (1) 求这个人患流感的概率； *(2) 如果此人患流感，求此人选自 A 地区的概率。
已知 $P(A)>0$， $P(B)>0$， $P(B|A)=P(B)$，证明：$P(A|B)=P(A)$。

综合运用

一批产品共有 100 件，其中 5 件为不合格品。收货方从中不放回地随机抽取产品进行检验，并按以下规则判断是否接受这批产品：如果抽检的第 1 件产品不合格，则拒绝整批产品；如果抽检的第 1 件产品合格，则再抽 1 件，如果抽检的第 2 件产品合格，则接受整批产品，否则拒绝整批产品。求这批产品被拒绝的概率。
在孟德尔豌豆试验中，子二代的基因型为 DD, Dd, dd，其中 D 为显性基因，d 为隐性基因，且这三种基因型的比为 1:2:1。如果在子二代中任意选取 2 株豌豆进行随机交配，那么子三代中基因型为 dd 的概率是多大？
证明条件概率的性质 (1) 和 (2)。

拓广探索

证明：当 P(AB)>0 时，$P(ABC) = P(A) P(B|A)P(C|AB)$。据此你能发现计算 P(A_1A_2\cdots A_n) 的公式吗？

阅读与思考

贝叶斯公式与人工智能

人工智能 (Artificial Intelligence, 缩写为 AI) 是研究用于模拟和延伸人类智能的技术科学，目的是理解人类智能的实质，并制造以近似人类智能方式工作的机器，如机器人、语言识别、图像识别、自然语言处理、自动驾驶等。人工智能被认为是 21 世纪最重要的尖端科技之一，其理论和技术正在日益成熟，应用领域也在不断扩大。人工智能理论背后的一个基本原理就是本节的贝叶斯公式。

贝叶斯公式的思想最早出现于贝叶斯的论文《论有关机遇问题的求解》，发表于他去世后的 1763 年。后来法国数学家拉普拉斯 (P. -S. Laplace, 1749—1827) 独立地发现了这个公式。统计学家经过长期的努力，发展出了以贝叶斯公式为基础的系统的推理和决策方法，称为贝叶斯方法。该方法的基本程序是首先确定先验概率，然后利用贝叶斯公式计算得到后验概率，使先验概率得到修正和校对，再根据后验概率作出推理和决策。下面用一个例子说明这种方法。

在一个抽奖游戏中，主持人从编号为1, 2, 3的三个外观相同的空箱子中随机选择一个，放入一件奖品，再将三个箱子关闭。主持人知道奖品在哪个箱子里。游戏规则是主持人请抽奖人在三个箱子中选择一个，若奖品在此箱子里，则奖品由抽奖人获得。抽奖人当然希望选中有奖品的箱子！

假定你是抽奖人，不妨设你选择了1号箱。在打开1号箱之前，主持人先打开了另外两个箱子中的一个空箱子。按游戏规定，主持人只打开你的选择之外的空箱子，当两个都是空箱子时，他随机选择其中一个打开。不妨设主持人打开的是3号箱。现在给你一次重新选择的机会，你是坚持选1号箱，还是改选2号箱？

显然，由于随机性，你无法保证一定能够成功选中有奖品的箱子，因此，要不要改变选择是个风险决策问题，应以得到奖品的概率最大为准则。

对于是否应改选2号箱，人们有如下几种不同的观点： (1) 三个箱子中有奖品的概率都是 $\frac{1}{3}$，不必换号； (2) 既然3号是空箱，那么奖品在1号箱、2号箱中的概率都是 $\frac{1}{2}$，不必换号； (3) 奖品在1号箱中的概率是 $\frac{1}{3}$，当知道3号是空箱后，2号箱中有奖品的概率就变为 $\frac{2}{3}$，应该改选2号。

哪种观点是正确的呢？下面用两种方法进行分析：

分析1：选择1号箱，其中有奖品的概率为 $\frac{1}{3}$，无奖品的概率为 $\frac{2}{3}$。主持人打开了无奖品的3号箱，若决策是不换号，则你在1号箱里有奖品的情况下得奖，成功的概率为 $\frac{1}{3}$；若决策是换号，则你在1号箱里无奖品的情况下得奖，成功的概率为 $\frac{2}{3}$，所以改选2号是正确的决策。

分析2：利用全概率公式和贝叶斯公式，可以从条件概率的角度进行分析。用 A_1, A_2, A_3 分别表示1, 2, 3号箱子里有奖品，用 B_1, B_2, B_3 分别表示主持人打开1, 2, 3号箱子。如上所述，你初次选择了1号箱。因为你在做选择时不知道奖品在哪个箱子里，你的选择不影响奖品在三个箱子中的概率分配，所以事件 A_1, A_2, A_3 的概率仍为 $\frac{1}{3}$，此为先验概率。主持人打开1号箱之外的一个空箱子，有以下几种可能情况：

奖品在1号箱里，主持人可打开2, 3号箱，故 $P(B_3|A_1)=\frac{1}{2}$；
奖品在2号箱里，主持人只能打开3号箱，故 $P(B_3|A_2)=1$；
奖品在3号箱里，主持人只能打开2号箱，故 $P(B_3|A_3)=0$。

利用全概率公式，主持人打开3号箱的概率为

P(B_3) = \sum_{i=1}^3 P(A_i)P(B_3|A_i) = \frac{1}{3}(\frac{1}{2} + 1) = \frac{1}{2}

再根据贝叶斯公式，在3号箱打开的条件下，1号箱和2号箱里有奖品的条件概率分别为 P(A_1|B_3) = \frac{P(A_1)P(B_3|A_1)}{P(B_3)} = \frac{1}{3}, P(A_2|B_3) = \frac{P(A_2)P(B_3|A_2)}{P(B_3)} = \frac{2}{3}

这两个条件概率是后验概率，它们修正了前面的先验概率。通过比较后验概率不难发现，改选2号箱是正确的决策。现在想一想，观点(1)和观点(2)错在哪里？

前面分析1给出的方法简单直接，也比较容易理解，但是分析2中基于贝叶斯公式的方法具有更广泛的适用性。事实上，只要把三个箱子改为四个或更多，主持人还是每次打开一个空箱子，此时再用分析1中的方法就比较复杂了。利用贝叶斯公式的方法可以发现，对于上述多个箱子的抽奖游戏，在你第1次选择后，当主持人打开此外的一个空箱子，并给你重新选择的机会时，你同样可以通过改变选择提高成功的概率。而且，假如在你第2次选择后，主持人又打开此外的一个空箱子，并再次给你重新选择的机会时，你仍然应该改变自己的选择，以获得更大的成功概率。因此，这个策略也适用于多次选择的情况。

事实上，在上述多次选择的游戏中，主持人每打开一个空箱子都提供了新的有用信息，抽奖人需要不断根据这些信息，利用贝叶斯公式计算出(新)的后验概率，并据此修正自己的选择以提高成功的概率。这种不断改进和校正决策的过程非常近似于人类的学习和思维模式，也是贝叶斯方法许多应用的关键。正是由于这个特点，贝叶斯方法在人工智能领域发挥了非常重要的作用，已经成为学习型人工智能的理论基础。

曾经被人们津津乐道的围棋人工智能系统阿尔法围棋(AlphaGo)系列就是学习型人工智能成功应用的典型例子。在战胜人类高手之前，阿尔法围棋结合人类自古以来积累的数百万部棋谱，进行了几个月的自我学习训练，最终超越了世界顶尖棋手。作为阿尔法围棋的升级版，阿尔法元(AlphaGo Zero)则不再需要人类积累的围棋数据，它通过自我博弈进行学习。经过几天的训练后，阿尔法元就轻松地击败了此前所有版本的阿尔法围棋。阿尔法元之所以有如此强大的自学能力，是因为采用了一种叫做强化学习的新模式，它从一个对围棋技术一无所知的神经网络开始，结合一个强力搜索算法，在自我对弈中调整升级，循环往复，不断提高，在几天内就走完了人类几千年的围棋历史，并探索出了不少新的招法和策略。人们认为，围棋人工智能系统象征着计算机技术已进入人工智能的新信息技术时代，其特征就是大数据、大计算、大决策，三位一体。贝叶斯方法在当今最先进的科技领域中扮演着重要角色，你是否感到非常神奇？是否觉得现在的学习很有意义？

请你上网查阅有关资料，进一步了解人工智能方面的最新发展。

7.2 离散型随机变量及其分布列

求随机事件的概率时,我们往往需要为随机试验建立样本空间,并会涉及样本点和随机事件的表示问题。类似函数在数集与数集之间建立对应关系,如果我们在随机试验的样本空间与实数集之间建立某种对应,将不仅可以为一些随机事件的表示带来方便,而且能更好地利用数学工具研究随机试验。

有些随机试验的样本点与数值有关系,我们可以直接与实数建立对应关系。例如,掷一枚骰子,用实数$m(m=1, 2, 3, 4, 5, 6)$表示“掷出的点数为$m$”;又如,掷两枚骰子,样本空间为\Omega=\{(x,y)|x, y=1, 2, \dots,6\},用$x+y$表示“两枚骰子的点数之和”,样本点$(x,y)$就与实数$x+y$对应。

有些随机试验的样本点与数值没有直接关系,我们可以根据问题的需要为每个样本点指定一个数值。例如,随机抽取一件产品,有“抽到次品”和“抽到正品”两种可能结果,它们与数值无关。如果“抽到次品”用1表示,“抽到正品”用0表示,即定义

X = \begin{cases} 1, & \text{抽到次品} \\ 0, & \text{抽到正品} \end{cases}

那么这个试验的样本点与实数就建立了对应关系。

类似地,掷一枚硬币,可将试验结果“正面朝上”用1表示,“反面朝上”用0表示;随机调查学生的体育综合测试成绩,可将等级成绩优、良、中等、及格、不及格分别赋值5, 4, 3, 2, 1;等等。

对于任何一个随机试验,总可以把它的每个样本点与一个实数对应。即通过引入一个取值依赖于样本点的变量X,来刻画样本点和实数的对应关系,实现样本点的数量化。因为在随机试验中样本点的出现具有随机性,所以变量$X$的取值也具有随机性。

探究

考察下列随机试验及其引入的变量:

试验1:从100个电子元件(至少含3个次品)中随机抽取三个进行检验,变量$X$表示三个元件中的次品数；

试验2:抛掷一枚硬币直到出现正面为止,变量$Y$表示需要的抛掷次数。

这两个随机试验的样本空间各是什么？各个样本点与变量的值是如何对应的？变量$X, Y$有哪些共同的特征？

对于试验1,如果用0表示“元件为合格品”,1表示“元件为次品”,用0和1构成的长度为3的字符串表示样本点,则样本空间 $\Omega_1={000, 001, 010, 011, 100, 101, 110, 111}$。各样本点与变量$X$的值的对应关系如图7.2-1所示。

[图片描述:该图展示了试验1中样本空间$Ω_1$到变量$X$的映射关系。$Ω_1$包含八个长度为3的二进制字符串，代表三个元件的检验结果（0为合格品，1为次品）。变量$X$代表次品的数量。具体映射为：000 \rightarrow 0；001 \rightarrow 1；010 \rightarrow 1；011 \rightarrow 2；100 \rightarrow 1；101 \rightarrow 2；110 \rightarrow 2；111 \rightarrow 3。|标题:图7.2-1|图片编号:1]

[图片描述:该图包含两个部分。左侧是一个决策树图，表示抛掷硬币直到出现正面的过程，其中'h'代表正面，'t'代表反面。从起点开始，如果第一次是'h'则停止。如果是't'，则继续抛掷，直到出现'h'。右侧是试验2中样本空间$Ω_2$到变量$Y$的映射关系。$Ω_2$包含表示首次出现正面的抛掷序列（如h, th, tth, ttth等）。变量$Y$代表出现正面所需的抛掷次数。具体映射为：h \rightarrow 1；th \rightarrow 2；tth \rightarrow 3；ttth \rightarrow 4；以此类推。|标题:图7.2-2|图片编号:2]

对于试验2,如果用h表示“正面朝上”,t表示“反面朝上”,例如用tth表示第3次才出现“正面朝上”,则样本空间 \Omega_2=\{h, th, tth, ttth, \dots\}, $\Omega_2$包含无穷多个样本点,各样本点与变量$Y$的值的对应关系如图7.2-2所示。在上面两个随机试验中,每个样本点都有唯一的一个实数与之对应,变量$X, Y$有如下共同点: (1) 取值依赖于样本点; (2) 所有可能取值是明确的。

一般地,对于随机试验样本空间$Ω$中的每个样本点ω,都有唯一的实数$X(ω)$与之对应,我们称为随机变量 (random variable).试验1中随机变量$X$的可能取值为0, 1, 2, 3,共有4个值;试验2中随机变量$Y$的可能取值为1, 2, 3, …,有无限个取值,但可以一一列举出来.像这样,可能取值为有限个或可以一一列举的随机变量,我们称为离散型随机变量 (discrete random variable).通常用大写英文字母表示随机变量,例如X, Y, Z;用小写英文字母表示随机变量的取值,例如x, y, z.

随机变量的概念是俄国数学家切比雪夫(Chebyshev, 1821-1894)在19世纪中叶建立和提倡使用的.

不难发现,随机变量的定义与函数的定义类似,这里的样本点$ω$相当于函数定义中的自变量,而样本空间$Ω$相当于函数的定义域,不同之处在于$Ω$不一定是数集.随机变量的取值$X(ω)$随着试验结果$ω$的变化而变化,这使我们可以比较方便地表示一些随机事件.

现实生活中,离散型随机变量的例子有很多,例如,某射击运动员射击一次可能命中的环数X,它的可能取值为0, 1, 2, …, 10;某网页在24h内被浏览的次数Y,它的可能取值为0, 1, 2, …;等等。

现实生活中还有大量不是离散型的随机变量的例子，例如，种子含水量的测量误差 $X_1$；某品牌电视机的使用寿命 $X_2$；测量某一个零件的长度产生的测量误差 $X_3$。这些都是可能取值充满了某个区间、不能一一列举的随机变量。本节我们只研究取有限个值的离散型随机变量。

? 你能再举出一些离散型随机变量和不是离散型的随机变量的例子吗？

根据问题引入合适的随机变量，有利于我们简洁地表示所关心的随机事件，并利用数学工具研究随机试验中的概率问题。例如，掷一枚质地均匀的骰子，X 表示掷出的点数，则事件“掷出 m 点”可以表示为 \{X=m\} $(m=1, 2, 3, 4, 5, 6)$，事件“掷出的点数不大于 $2$”可以表示为 ${X\le2}$，事件“掷出偶数点”可以表示为 ${X=2} \cup {X=4} \cup {X=6}$，等等。由掷出各种点数的等可能性，可得 P(X=m)=\frac{1}{6}, m=1, 2, 3, 4, 5, 6. 这一规律可以用表 7.2-1 表示。

表 7.2-1

`X`	1	2	3	4	5	6
`P`	`\frac{1}{6}`	`\frac{1}{6}`	`\frac{1}{6}`	`\frac{1}{6}`	`\frac{1}{6}`	`\frac{1}{6}`

一般地，设离散型随机变量 X 的可能取值为 $x_1, x_2, \cdots, x_n$，我们称 X 取每一个值 x_i 的概率 P(X=x_i)=p_i, $i=1, 2, \cdots, n$ 为 X 的概率分布列，简称分布列。

与函数的表示法类似，离散型随机变量的分布列也可以用表格表示(表 7.2-2)，还可以用图形表示，例如，图 7.2-3 直观地表示了掷骰子试验中掷出的点数 X 的分布列，称为 X 的概率分布图。

表 7.2-2

`X`	`x_1`	`x_2`	`\cdots`	`x_n`
`P`	`p_1`	`p_2`	`\cdots`	`p_n`

[图片描述: 一个柱状图，横轴表示随机变量 X 的取值，从1到6；纵轴表示概率 $P$，刻度包括0和 $1/6$。在每个取值1到6处，都有一个高度为 1/6 的柱子，表示每个点数出现的概率相等。|标题: 图 7.2-3|图1]

根据概率的性质，离散型随机变量分布列具有下述两个性质： (1) p_i \ge 0, i=1, 2, \cdots, n; (2) p_1+p_2+\cdots+p_n=1.

利用分布列和概率的性质，可以计算由离散型随机变量表示的事件的概率，例如，在掷骰子试验中，由概率的加法公式，得事件“掷出的点数不大于 $2$”的概率为 P(X\le2)=P(X=1)+P(X=2)=\frac{1}{6}+\frac{1}{6}=\frac{1}{3}. 类似地，事件“掷出偶数点”的概率为 P(\{X=2\} \cup \{X=4\} \cup \{X=6\})

$=P(X=2)+P(X=4)+P(X=6)$ = \frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{1}{2}.

例1 一批产品中次品率为5%，随机抽取1件，定义 $X=\begin{cases} 1, & \text{抽到次品,} \ 0, & \text{抽到正品}. \end{cases}$ 求 X 的分布列。

解: 根据 X 的定义，${X=1}=“抽到次品”,{X=0}=“抽到正品”，X 的分布列为 P(X=0)=0.95, P(X=1)=0.05.

对于只有两个可能结果的随机试验，用$A$表示“成功”，$\overline{A}$表示“失败”，定义 $X=\begin{cases} 1, & A \text{ 发生,} \ 0, & \overline{A} \text{ 发生}. \end{cases}$ 如果$P(A)=p$，则 $P(\overline{A})=1-p$，那么 X 的分布列如表7.2-3所示。

表 7.2-3

X	0	1
P	`1-p`	`p`

我们称 X 服从两点分布 (two-point distribution) 或0-1分布，实际上，X 为在一次试验中成功 (事件$A$发生) 的次数 (0或1)。像购买的彩券是否中奖，新生婴儿的性别，投篮是否命中等，都可以用两点分布来描述。

例2 某学校高二年级有200名学生，他们的体育综合测试成绩分5个等级，每个等级对应的分数和人数如表7.2-4所示。

表 7.2-4

等级	不及格	及格	中等	良	优
分数	1	2	3	4	5
人数	20	50	60	40	30

从这200名学生中任意选取1人，求所选同学分数 X 的分布列，以及 $P(X \ge 4)$。

解: 由题意知，X 是一个离散型随机变量，其可能取值为1,2,3,4,5，且 ${X=1}=“不及格”, {X=2}=“及格”, {X=3}=“中等”, {X=4}=“良”, {X=5}=“优”.根据古典概型的知识，可得 X 的分布列，如表7.2-5所示。

表 7.2-5

X	1	2	3	4	5
P	`\frac{1}{10}`	`\frac{1}{4}`	`\frac{3}{10}`	`\frac{1}{5}`	`\frac{3}{20}`

P(X \ge 4) = P(X=4) + P(X=5) = \frac{1}{5} + \frac{3}{20} = \frac{7}{20}

例3 一批笔记本电脑共有10台, 其中A品牌3台, B品牌7台. 如果从中随机挑选2台, 求这2台电脑中A品牌台数的分布列.

解: 设挑选的2台电脑中A品牌的台数为X, 则X的可能取值为0, 1, 2. 根据古典概型的知识, 可得X的分布列为 $ P(X=0) = \frac{C_3^0 C_7^2}{C_{10}^2} = \frac{7}{15} $ $ P(X=1) = \frac{C_3^1 C_7^1}{C_{10}^2} = \frac{7}{15} $ $ P(X=2) = \frac{C_3^2 C_7^0}{C_{10}^2} = \frac{1}{15} $ 用表格表示 X 的分布列, 如表 7.2-6所示.

表 7.2-6

X	0	1	2
P	`\frac{7}{15}`	`\frac{7}{15}`	`\frac{1}{15}`

练习

举出两个离散型随机变量的例子.
下列随机试验的结果能否用离散型随机变量表示? 若能, 请写出各随机变量可能的取值, 并说明这些值所表示的随机试验的结果. (1) 抛掷2枚骰子, 所得点数之和; (2) 某足球队在5次点球中射进的球数; (3) 任意抽取一瓶标有1 500 mL的饮料, 其实际含量与规定含量之差.
篮球比赛中每次罚球命中得1分, 不中得0分, 已知某运动员罚球命中的概率为0.7, 求他一次罚球得分的分布列.
抛掷一枚质地均匀的硬币2次, 写出正面向上次数X的分布列.

习题 7.2

复习巩固

张同学从学校回家要经过4个红绿灯路口, 每个路口可能遇到红灯或绿灯. (1) 写出随机试验的样本空间; (2) 设他可能遇到红灯的次数为X, 写出 X的可能取值, 并说明这些值所表示的随机事件.

某位同学求得一个离散型随机变量的分布列为

X	0	1	2	3
P	0.2	0.3	0.15	0.45

试说明该同学的计算结果是否正确.

在某项体能测试中，跑1km时间不超过4 min为优秀，某位同学跑1km 所花费的时间 X 是离散型随机变量吗？如果只关心该同学是否能够取得优秀成绩，应该如何定义随机变量？
某位射箭运动员命中目标箭靶的环数 X 的分布列为

X	6	7	8	9	10
P	0.05	0.15	0.25	0.35	0.20

如果命中9环或10环为优秀，那么他一次射击成绩为优秀的概率是多少？

综合运用

老师要从10篇课文中随机抽3篇不同的课文让同学背诵，规定至少要背出其中2篇才能及格. 某位同学只能背诵其中的6篇，求: (1) 抽到他能背诵的课文的数量的分布列; (2) 他能及格的概率.
某种资格证考试，每位考生一年內最多有3次考试机会. 一旦某次考试通过，便可领取资格证书，不再参加以后的考试，否则就继续参加考试，直到用完3次机会. 李明决定参加考试，如果他每次参加考试通过的概率依次为0.6, 0.7, 0.8, 且每次考试是否通过相互独立，试求: (1) 李明在一年内参加考试次数$X$的分布列; (2) 李明在一年内领到资格证书的概率.

7.3 离散型随机变量的数字特征

离散型随机变量的分布列全面地刻画了这个随机变量的取值规律，但在解决有些实际问题时，直接使用分布列并不方便。例如，要比较不同班级某次考试成绩，通常会比较平均成绩；要比较两名射箭运动员的射箭水平，一般会比较他们射箭的成绩（平均环数或总环数）以及稳定性。因此，类似于研究一组数据的均值和方差，我们也可以研究离散型随机变量的均值和方差，它们统称为随机变量的数字特征。

7.3.1 离散型随机变量的均值

问题1 甲、乙两名射箭运动员射中目标箭靶的环数的分布列如表7.3-1 所示。

表 7.3-1

环数 X	7	8	9	10
甲射中的概率	0.1	0.2	0.3	0.4
乙射中的概率	0.15	0.25	0.4	0.2

如何比较他们射箭水平的高低呢？

类似两组数据的比较，首先比较击中的平均环数，如果平均环数相等，再看稳定性。

假设甲射箭 n 次，射中7环、8环、9环和10环的频率分别为 $\frac{n_1}{n}$，$\frac{n_2}{n}$，$\frac{n_3}{n}$，$\frac{n_4}{n}$。甲 n 次射箭射中的平均环数为


\bar{x}=7\times\frac{n_1}{n}+8\times\frac{n_2}{n}+9\times\frac{n_3}{n}+10\times\frac{n_4}{n}.

当 n 足够大时，频率稳定于概率，所以 \bar{x} 稳定于


7\times0.1+8\times0.2+9\times0.3+10\times0.4=9.

即甲射中平均环数的稳定值（理论平均值）为9，这个平均值的大小可以反映甲运动员的射箭水平。

同理，乙射中环数的平均值为


7\times0.15+8\times0.25+9\times0.4+10\times0.2=8.65.

从平均值的角度比较，甲的射箭水平比乙高。

一般地,若离散型随机变量 X 的分布列如表 7.3-2 所示,

X	`x_1`	`x_2`	...	`x_n`
P	`p_1`	`p_2`	...	`p_n`
标题: 表 7.3-2

则称

E(X)=x_1p_1 + x_2p_2 + \cdots + x_np_n

= \sum_{i=1}^{n}x_ip_i

为随机变量 X 的均值(mean)或数学期望(mathematical expectation),数学期望简称期望,均值是随机变量可能取值关于取值概率的加权平均数,它综合了随机变量的取值和取值的概率,反映了随机变量取值的平均水平.

例1 在篮球比赛中,罚球命中1次得1分,不中得0分,如果某运动员罚球命中的概率为0.8,那么他罚球1次的得分 X 的均值是多少?

分析: 罚球有命中和不中两种可能结果,命中时 X=1,不中时 X=0,因此随机变量 X 服从两点分布.$X$ 的均值反映了该运动员罚球1次的平均得分水平.

解: 因为 P(X=1)=0.8, P(X=0)=0.2, 所以 $E(X)=0\times0.2+1\times0.8=0.8.$ 即该运动员罚球1次的得分 X 的均值是 0.8.

一般地,如果随机变量 X 服从两点分布,那么 E(X)=0\times(1-p)+1\times p=p.

例2 抛掷一枚质地均匀的骰子,设出现的点数为 X,求 X 的均值.

分析: 先求出 X 的分布列,再根据定义计算 X 的均值.

解: X 的分布列为 $P(X=k)=\frac{1}{6}, k=1, 2, 3, 4, 5, 6.$ 因此, E(X)=\frac{1}{6}(1+2+3+4+5+6)=3.5.

观察

掷一枚质地均匀的骰子，掷出的点数 X 的均值为 $3.5$。随机模拟这个试验，重复 60 次和重复 300 次各做 6 次，观测出现的点数并计算平均数。根据观测值的平均数（样本均值）绘制统计图，分别如图 7.3-1(1) 和 (2) 所示。观察图形，在两组试验中，随机变量的均值与样本均值有何联系与区别？

[图片描述: 两个并排的散点图，图7.3-1(1)显示了重复60次实验的6个样本均值，纵轴范围是3到4，横轴是实验次数1到7，数据点在3.5上下波动。图7.3-1(2)显示了重复300次实验的6个样本均值，纵轴范围是3到4，横轴是实验次数1到7，数据点也在3.5上下波动，但波动幅度明显小于图(1)。两条图中的水平线都表示随机变量的均值3.5。|标题: 掷骰子样本均值分布图|图片编号: 图1]

图 7.3-1

观察图 7.3-1 可以发现：在这 12 组掷骰子试验中，样本均值各不相同，但它们都在掷出点数 X 的均值 3.5 附近波动，且重复掷 300 次的样本均值波动幅度明显小于重复 60 次的。事实上，随机变量的均值是一个确定的数，而样本均值具有随机性，它围绕随机变量的均值波动，随着重复试验次数的增加，样本均值的波动幅度一般会越来越小，因此，我们常用随机变量的观测值的均值去估计随机变量的均值。

探究

如果 X 是一个离散型随机变量，X 加一个常数或乘一个常数后，其均值会怎样变化？即 E(X+b) 和 E(aX) (其中 a,b 为常数)分别与 E(X) 有怎样的关系？

设 X 的分布列为

P(X=x_i)=p_i, i=1, 2, \dots, n.

根据随机变量均值的定义，

$E(X+b)=(x_1+b)p_1+(x_2+b)p_2+\cdots+(x_n+b)p_n$ $=(x_1p_1+x_2p_2+\cdots+x_np_n)+b(p_1+p_2+\cdots+p_n)$ =E(X)+b.

类似地，可以证明

E(aX)=aE(X).

你能给出证明吗？

一般地，下面的结论成立： E(aX+b)=aE(X)+b.

例3 猜歌名游戏是根据歌曲的主旋律制成的铃声来猜歌名。某嘉宾参加猜歌名节目，猜对每首歌曲的歌名相互独立，猜对三首歌曲 A, B, C 歌名的概率及猜对时获得相应的公益基金如表 7.3-3 所示。

表 7.3-3

歌曲	A	B	C
猜对的概率	0.8	0.6	0.4
获得的公益基金额/元	1 000	2 000	3 000

规则如下：按照 A, B, C 的顺序猜，只有猜对当前歌曲的歌名才有资格猜下一首。求嘉宾获得的公益基金总额 X 的分布列及均值。

分析： 根据规则，公益基金总额 X 的可能取值有四种情况：猜错 A，获得 0 元基金；猜对 A 而猜错 B，获得 1 000 元基金；猜对 A 和 B 而猜错 C，获得 3 000 元基金；A, B, C 全部猜对，获得 6 000 元基金。因此 X 是一个离散型随机变量，利用独立条件下的乘法公式可求分布列。

解：分别用 A, B, C 表示猜对歌曲 A, B, C 歌名的事件，则 A, B, C 相互独立。 P(X=0)=P(\bar{A})=0.2, P(X=1000)=P(A\bar{B})=0.8 \times 0.4=0.32, P(X=3000)=P(AB\bar{C})=0.8 \times 0.6 \times 0.6=0.288, P(X=6000)=P(ABC)=0.8 \times 0.6 \times 0.4=0.192.

X 的分布列如表 7.3-4 所示。

表 7.3-4

X	0	1 000	3 000	6 000
P	0.2	0.32	0.288	0.192

X 的均值为 E(X)=0 \times 0.2+1000 \times 0.32+3000 \times 0.288+6000 \times 0.192 =2336.

[图片描述: 提问框内包含一个关于改变猜歌顺序对公益基金均值影响的思考题。具体问题为：如果改变猜歌的顺序，获得公益基金的均值是否相同？如果不同，你认为哪个顺序获得的公益基金均值最大？|标题:思考题|图片编号:1]

例4 根据天气预报，某地区近期有小洪水的概率为 0.25，有大洪水的概率为 0.01。该地区某工地上有一台大型设备，遇到大洪水时要损失 60 000 元，遇到小洪水时要损失 10 000 元。为保护设备，有以下 3 种方案：

运走设备，搬运费为 3800 元;
建保护围墙，建设费为 2000 元，但围墙只能防小洪水;

方案3 不采取措施。工地的领导该如何决策呢？分析：决策目标为总损失(投入费用与设备损失之和)越小越好。根据题意，各种方案在不同状态下的总损失如表 7.3-5所示。

表 7.3-5 天气状况概率及各方案总损失（元）

项目/天气状况	大洪水	小洪水	没有洪水
概率	0.01	0.25	0.74
方案 1	3 800	3 800	3 800
方案 2	62 000	2 000	2 000
方案 3	60 000	10 000	0

方案2和方案3的总损失都是随机变量，可以采用期望总损失最小的方案。解：设方案1、方案2、方案3的总损失分别为$X_1, X_2, X_3$。采用方案1，无论有无洪水，都损失3800元，因此， $P(X_1=3800)=1$。

采用方案2，遇到大洪水时，总损失为$2000+60,000=62,000$元；没有大洪水时，总损失为2000元，因此， $P(X_2=62,000)=0.01, P(X_2=2,000)=0.99$。

采用方案3， $P(X_3=60,000)=0.01, P(X_3=10,000)=0.25, P(X_3=0)=0.74$。

于是， E(X_1)=3800, E(X_2)=62\,000 \times 0.01+2\,000 \times 0.99=2\,600, $E(X_3)=60,000 \times 0.01+10,000 \times 0.25+0 \times 0.74=3,100$。

因此，从期望损失最小的角度，应采取方案 2。值得注意的是，上述结论是通过比较“期望总损失”而得出的。一般地，我们可以这样来理解“期望总损失”：如果问题中的天气状况多次发生，那么采用方案2将会使总损失减到最小，不过，因为洪水是否发生以及洪水发生的大小都是随机的，所以对于个别的一次决策，采用方案2也不一定是最好的。

练习

已知随机变量$X$的分布列为

`X`	1	2	3	4	5
`P`	0.1	0.3	0.4	0.1	0.1

(1) 求$E(X)$;

(2) 求 E(3X+2). 2. 抛掷一枚硬币,规定正面向上得1分,反面向上得-1分,求得分 X 的均值. 3. 甲、乙两台机床生产同一种零件,它们生产的产量相同,在1h内生产出的次品数分别为 X_1, X_2, 其分布列分别为

甲机床次品数的分布列

`X_1`	0	1	2	3
`P`	0.4	0.3	0.2	0.1

乙机床次品数的分布列

`X_2`	0	1	2
`P`	0.3	0.5	0.2

哪台机床更好?请解释你所得出结论的实际含义.

7.3.2 离散型随机变量的方差

随机变量的均值是一个重要的数字特征,它反映了随机变量取值的平均水平或分布的“集中趋势”,因为随机变量的取值围绕其均值波动,而随机变量的均值无法反映波动幅度的大小,所以我们还需要寻找反映随机变量取值波动大小的数字特征.

问题2 从两名同学中挑出一名代表班级参加射击比赛,根据以往的成绩记录,甲、乙两名同学击中目标靶的环数 X 和 Y 的分布列如表7.3-6和表7.3-7所示.

表 7.3-6

`X`	6	7	8	9	10
`P`	0.09	0.24	0.32	0.28	0.07

表 7.3-7

`Y`	6	7	8	9	10
`P`	0.07	0.22	0.38	0.30	0.03

如何评价这两名同学的射击水平? 通过计算可得, E(X)=8, E(Y)=8. 因为两个均值相等,所以根据均值不能区分这两名同学的射击水平。评价射击水平,除了要了解击中环数的均值外,还要考虑稳定性,即击中环数的离散程度。图7.3-2和图7.3-3分别是 X 和 Y 的概率分布图,比较两个图形,可以发现乙同学的射击成绩更集中于8环,即乙同学的射击成绩更稳定。

[图片描述: 这是一个条形图，显示了随机变量X的概率分布。横轴表示X的取值（环数），从6到10。纵轴表示概率P，从0到0.4。条形的高度对应于每个X值对应的概率：X=6时P=0.09（图上约0.1），X=7时P=0.24（图上约0.2），X=8时P=0.32（图上约0.3），X=9时P=0.28（图上约0.3），X=10时P=0.07（图上约0.1）。|标题:图7.3-2|图片1] [图片描述: 这是一个条形图，显示了随机变量Y的概率分布。横轴表示Y的取值（环数），从6到10。纵轴表示概率P，从0到0.4。条形的高度对应于每个Y值对应的概率：Y=6时P=0.07（图上约0.1），Y=7时P=0.22（图上约0.2），Y=8时P=0.38（图上约0.4），Y=9时P=0.30（图上约0.3），Y=10时P=0.03（图上低于0.1）。|标题:图7.3-3|图片2]

③ 思考

怎样定量刻画离散型随机变量取值的离散程度?

我们知道，样本方差可以度量一组样本数据的离散程度，它是通过计算所有数据与样本均值的“偏差平方的平均值”来实现的。一个自然的想法是，随机变量的离散程度能否用可能取值与均值的“偏差平方的平均值”来度量呢？设离散型随机变量 X 的分布列如表 7.3-8 所示。

表 7.3-8

`X`	`x_1`	`x_2`	`\dots`	`x_n`
`P`	`p_1`	`p_2`	`\dots`	`p_n`

考虑 X 所有可能取值 x_i 与 E(X) 的偏差的平方 (x_1-E(X))^2, (x_2-E(X))^2, \dots, $(x_n-E(X))^2$。因为 X 取每个值的概率不尽相同，所以我们用偏差平方关于取值概率的加权平均，来度量随机变量 X 取值与其均值 E(X) 的偏离程度，我们称


D(X)=(x_1-E(X))^2 p_1+(x_2-E(X))^2 p_2+\dots+(x_n-E(X))^2 p_n \\
= \sum_{i=1}^n (x_i-E(X))^2 p_i

为随机变量 X 的方差 (variance)，有时也记为 $Var(X)$，并称 \sqrt{D(X)} 为随机变量 X 的标准差 (standard deviation)，记为 $\sigma(X)$。

随机变量的方差和标准差都可以度量随机变量取值与其均值的偏离程度，反映了随机变量取值的离散程度，方差或标准差越小，随机变量的取值越集中；方差或标准差越大，随机变量的取值越分散。

现在，可以用两名同学射击成绩的方差和标准差来刻画他们射击成绩的稳定性，由方差和标准差的定义，两名同学射击成绩的方差和标准差分别为


D(X) = \sum_{i=6}^{10} (i -8)^2 P(X=i) =1.16, \sqrt{D(X)} \approx 1.077;


D(Y) = \sum_{i=6}^{10} (i-8)^2 P(Y=i) =0.92, \sqrt{D(Y)} \approx 0.959.

因为 D(Y)<D(X) (等价地，\sqrt{D(Y)}<\sqrt{D(X)})，所以随机变量 Y 的取值相对更集中，即乙同学的射击成绩相对更稳定。

在方差的计算中，利用下面的结论经常可以使计算简化。


D(X) = \sum_{i=1}^n (x_i - E(X))^2 p_i \\
= \sum_{i=1}^n (x_i^2 - 2E(X)x_i +(E(X))^2)p_i

 = \sum_{i=1}^{n} x_i^2 p_i - 2E(X) \sum_{i=1}^{n} x_i p_i + (E(X))^2 \sum_{i=1}^{n} p_i

 = \sum_{i=1}^{n} x_i^2 p_i - (E(X))^2

方差描述随机变量取值的离散程度，了解方差的性质，除了简化计算外，还有助于更好地理解其本质。

💡 探究

离散型随机变量 X 加上一个常数，方差会有怎样的变化？离散型随机变量 X 乘以一个常数，方差又有怎样的变化？它们和期望的性质有什么不同？

离散型随机变量 X 加上一个常数 $b$，其均值也相应加上常数 $b$，故不改变 X 与其均值的离散程度，方差保持不变，即 D(X+b)=D(X). 而离散型随机变量 X 乘以一个常数 $a$，其方差变为原方差的 a^2 倍，即 D(aX)=a^2D(X). 一般地，可以证明下面的结论成立： D(aX+b)=a^2D(X).

例 5 抛掷一枚质地均匀的骰子，求掷出的点数 X 的方差。

解：随机变量 X 的分布列为 P(X=k)=\frac{1}{6}, k=1, 2, 3, 4, 5, 6.

因为 E(X)=\frac{7}{2}, \sum_{k=1}^{6} (k^2 \times \frac{1}{6}) = \frac{1}{6}(1^2+2^2+3^2+4^2+5^2+6^2) = \frac{91}{6}

所以 D(X) = \sum_{k=1}^{6} (k^2 \times \frac{1}{6}) - (\frac{7}{2})^2 = \frac{35}{12}

例 6 投资 A, B 两种股票，每股收益的分布列分别如表 7.3-9 和表 7.3-10 所示。

表 7.3-9 股票 A 收益的分布列

收益 X/元	-1	0	2
概率	0.1	0.3	0.6

表 7.3-10 股票 B 收益的分布列

收益 Y/元	0	1	2
概率	0.3	0.4	0.3

(1) 投资哪种股票的期望收益大？ (2) 投资哪种股票的风险较高？

分析： 股票投资收益是随机变量，期望收益就是随机变量的均值。投资风险是指收益的不确定性，在两种股票期望收益相差不大的情况下，可以用收益的方差来度量它们的投资风险高低，方差越大风险越高，方差越小风险越低。

解： (1) 股票 A 和股票 B 投资收益的期望分别为 E(X) = (-1) \times 0.1 + 0 \times 0.3 + 2 \times 0.6 = 1.1, E(Y) = 0 \times 0.3 + 1 \times 0.4 + 2 \times 0.3 = 1. 因为 $E(X) > E(Y)$，所以投资股票 A 的期望收益较大。

(2) 股票 A 和股票 B 投资收益的方差分别为 D(X) = (-1)^2 \times 0.1 + 0^2 \times 0.3 + 2^2 \times 0.6 - 1.1^2 = 1.29, D(Y) = 0^2 \times 0.3 + 1^2 \times 0.4 + 2^2 \times 0.3 - 1^2 = 0.6. 因为 E(X) 和 E(Y) 相差不大，且 $D(X) > D(Y)$，所以投资股票 A 比投资股票 B 的风险高。

在实际中，可以选择适当的比例投资两种股票，使期望收益最大或风险最小。

随机变量的方差是一个重要的数字特征，它刻画了随机变量的取值与其均值的偏离程度，或者说反映随机变量取值的离散程度。在不同的实际问题背景中，方差可以有不同的解释，例如，如果随机变量是某项技能的测试成绩，那么方差的大小反映了技能的稳定性；如果随机变量是加工某种产品的误差，那么方差的大小反映了加工的精度；如果随机变量是风险投资的收益，那么方差的大小反映了投资风险的高低；等等。

练习

已知随机变量 X 的分布列为

X 1 2 3 4

P 0.2 0.3 0.4 0.1

求 D(X) 和 $\sigma(2X+7)$。
若随机变量 X 满足 $P(X=c)=1$，其中 c 为常数，求 $D(X)$。
甲、乙两个班级同学分别目测数学教科书的长度，其误差 X 和 Y (单位: cm) 的分布列如下: 甲班的目测误差分布列

X -2 -1 0 1 2

P 0.1 0.2 0.4 0.2 0.1

乙班的目测误差分布列

Y -2 -1 0 1 2

P 0.05 0.15 0.6 0.15 0.05

先直观判断 X 和 Y 的分布哪一个离散程度大，再分别计算 X 和 Y 的方差，验证你的判断。

`X`	1	2	3	4
`P`	0.2	0.3	0.4	0.1

`X`	-2	-1	0	1	2
`P`	0.1	0.2	0.4	0.2	0.1

`Y`	-2	-1	0	1	2
`P`	0.05	0.15	0.6	0.15	0.05

习题 7.3

复习巩固

某品牌手机投放市场，每部手机可能发生按定价售出、打折后售出、没有售出而收回三种情况。按定价售出每部利润100元，打折后售出每部利润0元，没有售出而收回每部利润-300元。据市场分析，发生这三种情况的概率分别为0.6, 0.3, 0.1。求每部手机利润的均值和方差。
现要发行10000张彩票，其中中奖金额为2元的彩票1000张，10元的彩票300张，50元的彩票100张，100元的彩票50张，1000元的彩票5张。1张彩票中奖金额的均值是多少元？
随机变量$X$的分布列为P(X=0)=0.2, P(X=1)=a, $P(X=2)=b$。若E(X)=1, 求$a$和$b$。
在单项选择题中，每道题有四个选项，其中仅有一个选项正确。如果从四个选项中随机选一个，选对的概率为0.25。请给选对和选错分别赋予合适的分值，使得随机选择时得分的均值为0。
证明：$D(aX+b)=a^2D(X)$。

综合运用

有A和B两道谜语，张某猜对A谜语的概率为0.8，猜对得奖金10元；猜对B谜语的概率为0.5，猜对得奖金20元。规则规定：只有在猜对第一道谜语的情况下，才有资格猜第二道。如果猜谜顺序由张某选择，他应该选择先猜哪一道谜语？
甲、乙两种品牌的手表，它们的日走时误差分别为$X$和$Y$(单位: s)，其分布列为

甲品牌的走时误差分布列

X -1 0 1

P 0.1 0.8 0.1

乙品牌的走时误差分布列

Y -2 -1 0 1 2

P 0.1 0.2 0.4 0.2 0.1

试比较甲、乙两种品牌手表的性能。

`X`	-1	0	1
`P`	0.1	0.8	0.1

`Y`	-2	-1	0	1	2
`P`	0.1	0.2	0.4	0.2	0.1

拓广探索

设E(X)=\mu, $a$是不等于$\mu$的常数，探究$X$相对于$\mu$的偏离程度与$X$相对于$a$的偏离程度的大小关系，并说明结论的意义。

7.4 二项分布与超几何分布

前面我们学习了离散型随机变量的有关知识，本节将利用这些知识研究两类重要的概率模型——二项分布和超几何分布。

7.4.1 二项分布

在实际问题中，有许多随机试验与掷硬币试验具有相同的特征，它们只包含两个可能结果，例如，检验一件产品结果为合格或不合格，飞碟射击时中靶或脱靶，医学检验结果为阳性或阴性等，我们把只包含两个可能结果的试验叫做伯努利试验 (Bernoulli trials)。我们将一个伯努利试验独立地重复进行 n 次所组成的随机试验称为 n 重伯努利试验。显然，n 重伯努利试验具有如下共同特征：

(1) 同一个伯努利试验重复$^{\text{①}}$做 n 次； (2) 各次试验的结果相互独立。

① “重复”意味着各次试验成功的概率相同。

❓ 思考 下面3个随机试验是否为 n 重伯努利试验? 如果是, 那么其中的伯努利试验是什么? 对于每个试验, 定义“成功”的事件为 A, 那么 A 的概率是多大? 重复试验的次数是多少? (1) 抛掷一枚质地均匀的硬币10次. (2) 某飞碟运动员每次射击中靶的概率为0.8, 连续射击3次. (3) 一批产品的次品率为5%, 有放回地随机抽取20 件.

在伯努利试验中，我们关注某个事件 A 是否发生，而在 n 重伯努利试验中，我们关注事件 A 发生的次数 $X$。进一步地，因为 X 是一个离散型随机变量，所以我们实际关心的是它的概率分布列。例如，对产品抽样检验，随机抽取 n 件，我们关心样本中不合格品数的概率分布列。

💡 探究 某飞碟运动员每次射击中靶的概率为0.8。连续3次射击，中靶次数 X 的概率分布列是怎样的?

用$A_i$表示“第$i$次射击中靶”(i=1,2,3),用如图7.4-1的树状图表示试验的可能结果.

[图片描述:该树状图展示了三次独立射击试验的所有可能结果及其对应的中靶次数X。图从一个红色起始点开始，第一级分支表示第一次射击的结果，分为中靶$A_1$（概率0.8）和脱靶$\bar{A_1}$（概率0.2）。第二级分支表示第二次射击的结果，从每个第一级结果继续分为中靶$A_2$（概率0.8）和脱靶$\bar{A_2}$（概率0.2）。第三级分支表示第三次射击的结果，从每个第二级结果继续分为中靶$A_3$（概率0.8）和脱靶$\bar{A_3}$（概率0.2）。最终有8条路径，每条路径代表一个试验结果序列，例如：

$A_1A_2A_3$，对应的$X$值为3。
$A_1A_2\bar{A_3}$，对应的$X$值为2。
$A_1\bar{A_2}A_3$，对应的$X$值为2。
$A_1\bar{A_2}\bar{A_3}$，对应的$X$值为1。
$\bar{A_1}A_2A_3$，对应的$X$值为2。
$\bar{A_1}A_2\bar{A_3}$，对应的$X$值为1。
$\bar{A_1}\bar{A_2}A_3$，对应的$X$值为1。
$\bar{A_1}\bar{A_2}\bar{A_3}$，对应的$X$值为0。这些结果清晰地展示了每次射击的概率分支和最终中靶次数的累积。|标题:图7.4-1|图片编号:1]

由分步乘法计数原理,3次独立重复试验共有$2^3=8$种可能结果,它们两两互斥,每个结果都是3个相互独立事件的积,由概率的加法公式和乘法公式得

P(X=0)=P(\bar{A_1} \bar{A_2} \bar{A_3})=0.2^3,

P(X=1)=P(A_1 \bar{A_2} \bar{A_3})+P(\bar{A_1}A_2 \bar{A_3})+P(\bar{A_1} \bar{A_2}A_3)=3 \times 0.8 \times 0.2^2,

P(X=2)=P(A_1A_2 \bar{A_3})+P(A_1 \bar{A_2}A_3)+P(\bar{A_1}A_2A_3)=3 \times 0.8^2 \times 0.2,

P(X=3)=P(A_1A_2A_3)=0.8^3.

为了简化表示,每次射击用1表示中靶,用0表示脱靶,那么3次射击恰好2次中靶的所有可能结果可表示为011,110,101,这三个结果发生的概率都相等,均为0.8^2 \times 0.2,并且与哪两次中靶无关,因此,3次射击恰好2次中靶的概率为C_3^2 \times 0.8^2 \times 0.2.同理可求中靶0次、1次、3次的概率.于是,中靶次数 X 的分布列为

P(X=k)=C_3^k \times 0.8^k \times 0.2^{3-k}, k=0, 1, 2, 3.

? 思考如果连续射击4次,类比上面的分析,表示中靶次数 X 等于2的结果有哪些? 写出中靶次数 X 的分布列.

一般地,在$n$重伯努利试验中,设每次试验中事件A 发生的概率为p(0<p<1),用X 表示事件A 发生的次数, 则X 的分布列为

P(X=k)=C_n^k p^k (1-p)^{n-k}, k=0, 1, 2, \dots, n.

如果随机变量$X$的分布列具有上式的形式,则称随机变量 $X$服从二项分布 (binomial distribution),记作 X \sim B(n, p).

? 对比二项分布与二项式定理,你能看出它们之间的联系吗?

由二项式定理，容易得到

\sum_{k=0}^{n} P(X=k) = \sum_{k=0}^{n} C_{n}^{k} p^{k} (1-p)^{n-k} = [p + (1-p)]^{n} = 1.

例1 将一枚质地均匀的硬币重复抛掷10次，求： (1) 恰好出现5次正面朝上的概率； (2) 正面朝上出现的频率在$[0.4, 0.6]$内的概率。分析: 抛掷一枚质地均匀的硬币，出现“正面朝上”和“反面朝上”两种结果且可能性相等，这是一个10重伯努利试验。因此，正面朝上的次数服从二项分布。解: 设A=“正面朝上”，则$P(A)=0.5$。用$X$表示事件A发生的次数，则$X \sim B(10, 0.5)$。 (1) 恰好出现5次正面朝上等价于$X=5$，于是 $P(X=5)=C_{10}^{5} \times 0.5^{10} = \frac{252}{1024} = \frac{63}{256};$ (2) 正面朝上出现的频率在$[0.4, 0.6]$内等价于$4 \le X \le 6$，于是 P(4 \le X \le 6)=C_{10}^{4} \times 0.5^{10}+C_{10}^{5} \times 0.5^{10}+C_{10}^{6} \times 0.5^{10} = \frac{672}{1024} = \frac{21}{32}.

例2 图7.4-2 是一块高尔顿板的示意图，在一块木板上钉着若干排相互平行但相互错开的圆柱形小木钉，小木钉之间留有适当的空隙作为通道，前面挡有一块玻璃。将小球从顶端放入，小球下落的过程中，每次碰到小木钉后都等可能地向左或向右落下，最后落入底部的格子中。格子从左到右分别编号为$0, 1, 2, \dots, 10$，用$X$表示小球最后落入格子的号码，求$X$的分布列。

[图片描述:一个高尔顿板的示意图，展示了小球从顶部投入后，经过多层交错排列的圆柱形小木钉，最终落入底部不同编号的格子中。底部格子里的小球堆积高度呈现出类似正态分布的形状，中间部分最高，两边逐渐降低。|标题:图7.4-2|图片1]

分析: 小球落入哪个格子取决于在下落过程中与各小木钉碰撞的结果，设试验为观察小球碰到小木钉后下落的方向，有“向左下落”和“向右下落”两种可能结果，且概率都是$0.5$。在下落的过程中，小球共碰撞小木钉10次，且每次碰撞后下落方向不受上一次下落方向的影响，因此这是一个10重伯努利试验，小球最后落入格子的号码等于向右落下的次数，因此$X$服从二项分布。解: 设A=“向右下落”，则$\bar{A}$=“向左下落”，且$P(A)=P(\bar{A})=0.5$。因为小球最后落

[图片描述:一个条形图，显示了随机变量X在0到10之间的概率分布。x轴表示小球最终落入的格子编号X，y轴表示相应的概率P。最高的条形位于X=5，表明小球最有可能落入第5号格子，整体分布呈中间高两边低的对称形状，与二项分布B(10, 0.5)的概率质量函数相符。|标题:图7.4-3|图片2]

入格子的号码$X$等于事件$A$发生的次数，而小球在下落的过程中共碰撞小木钉10次，所以$X \sim B(10, 0.5)$。于是，$X$的分布列为 $P(X=k)=C_{10}^k \times 0.5^{10}, k=0, 1, 2, \ldots, 10.$ $X$的概率分布图如图7.4-3所示。

例3 甲、乙两选手进行象棋比赛，如果每局比赛甲获胜的概率为$0.6$，乙获胜的概率为$0.4$，那么采用3局2胜制还是采用5局3胜制对甲更有利？

分析: 判断哪个赛制对甲有利，就是看在哪个赛制中甲最终获胜的概率大。可以把“甲最终获胜”这个事件，按可能的比分情况表示为若干事件的和，再利用各局比赛结果的独立性逐个求概率；也可以假定赛完所有$n$局，把$n$局比赛看成$n$重伯努利试验，利用二项分布求“甲最终获胜”的概率。

解法1: 采用3局2胜制，甲最终获胜有两种可能的比分$2:0$或$2:1$，前者是前两局甲连胜，后者是前两局甲、乙各胜一局且第3局甲胜。因为每局比赛的结果是独立的，甲最终获胜的概率为 $p_1=0.6^2+C_2^1 \times 0.6^2 \times 0.4=0.648.$ 类似地，采用5局3胜制，甲最终获胜有3种比分$3:0, 3:1$或$3:2$。因为每局比赛的结果是独立的，所以甲最终获胜的概率为 p_2=0.6^3+C_3^1 \times 0.6^3 \times 0.4+C_4^2 \times 0.6^3 \times 0.4^2=0.68256.

解法2: 采用3局2胜制，不妨设赛满3局，用$X$表示3局比赛中甲胜的局数，则$X \sim B(3, 0.6)$。甲最终获胜的概率为 $p_1=P(X=2)+P(X=3)=C_3^2 \times 0.6^2 \times 0.4+C_3^3 \times 0.6^3=0.648.$ 采用5局3胜制，不妨设赛满5局，用$X$表示5局比赛中甲胜的局数，则$X \sim B(5, 0.6)$。甲最终获胜的概率为 $p_2=P(X=3)+P(X=4)+P(X=5)$ $=C_5^3 \times 0.6^3 \times 0.4^2+C_5^4 \times 0.6^4 \times 0.4+C_5^5 \times 0.6^5$ =0.68256.

[图片描述:一个带有问号的黄色提示框，框内提问为什么假定赛满3局或5局不影响甲最终获胜的概率。|标题:疑问|图1]

因为$p_2>p_1$，所以5局3胜制对甲有利。实际上，比赛局数越多，对实力较强者越有利。

归纳一般地，确定一个二项分布模型的步骤如下： (1) 明确伯努利试验及事件$A$的意义，确定事件$A$发生的概率$p$； (2) 确定重复试验的次数$n$，并判断各次试验的独立性； (3) 设$X$为$n$次独立重复试验中事件$A$发生的次数，则$X \sim B(n, p)$。

对于一个离散型随机变量，除了关心它的概率分布列外，我们还关心它的均值和方差等数字特征。因此，一个服从二项分布的随机变量，其均值和方差也是我们关心的。

探究

假设随机变量 X 服从二项分布 $B(n, p)$，那么 X 的均值和方差各是什么？

我们知道，抛掷一枚质地均匀的硬币，“正面朝上”的概率为 $0.5$。如果掷 100 次硬币，期望有 100 \times 0.5 = 50 次正面朝上。根据均值的含义，对于服从二项分布的随机变量 $X$，我们猜想 $E(X)=np$。

我们不妨从简单开始，先考察 n 较小的情况。

(1) 当 n=1 时，X 服从两点分布，分布列为 P(X=0)=1-p, P(X=1)=p. 均值和方差分别为 E(X)=p, D(X)=p(1-p).

(2) 当 n=2 时，X 的分布列为 P(X=0)=(1-p)^2, P(X=1)=2p(1-p), P(X=2)=p^2. 均值和方差分别为 E(X)=0 \times (1-p)^2+1 \times 2p(1-p)+2 \times p^2=2p. D(X)=0^2 \times (1-p)^2+1^2 \times 2p(1-p)+2^2 \times p^2-(2p)^2=2p(1-p).

一般地，可以证明：如果 $X \sim B(n,p)$，那么 E(X)=np, $D(X)=np(1-p)$。

下面我们对均值进行证明。令 $q=1-p$，由 k C_n^k = n C_{n-1}^{k-1} 可得

E(X) = \sum_{k=0}^{n} k C_n^k p^k q^{n-k} = \sum_{k=1}^{n} n C_{n-1}^{k-1} p^k q^{n-k} = np \sum_{k=1}^{n} C_{n-1}^{k-1} p^{k-1} q^{n-1-(k-1)}

令 $k-1=m$，则

E(X) = np \sum_{m=0}^{n-1} C_{n-1}^{m} p^{m} q^{n-1-m} = np (p+q)^{n-1} = np.

二项分布的应用非常广泛。例如，生产过程中的质量控制和抽样方案，都是以二项分布为基础的；参加某保险的人群中发生保险事故的人数，试制药品治愈某种疾病的人数，感染某种病毒的家禽数等，都可以用二项分布来描述。

练习

将一枚质地均匀的硬币连续抛掷 4 次，X 表示“正面朝上”出现的次数。 (1) 求 X 的分布列；

(2) E(X)=\_\_\_\_, D(X)=\_\_\_\_. 2. 鸡接种一种疫苗后, 有 80\% 不会感染某种病毒。如果5只鸡接种了疫苗, 求: (1) 没有鸡感染病毒的概率; (2) 恰好有1只鸡感染病毒的概率. 3. 判断下列表述正确与否, 并说明理由: (1) 12道四选一的单选题, 随机猜结果, 猜对答案的题目数 X \sim B(12, 0.25); (2) 100件产品中包含10件次品, 不放回地随机抽取6件, 其中的次品数 Y \sim B(6, 0.1). 4. 举出两个服从二项分布的随机变量的例子.

7.4.2 超几何分布

问题已知100件产品中有8件次品, 分别采用有放回和不放回的方式随机抽取4件。设抽取的4件产品中次品数为 X, 求随机变量 X 的分布列。

我们知道, 如果采用有放回抽样, 则每次抽到次品的概率为 0.08, 且各次抽样的结果相互独立, 此时 X 服从二项分布, 即 X \sim B(4, 0.08).

? 思考 如果采用不放回抽样, 那么抽取的4件产品中次品数 X 是否也服从二项分布? 如果不服从, 那么 X 的分布列是什么?

采用不放回抽样, 虽然每次抽到次品的概率都是 0.08, 但每次抽取不是同一个试验, 而且各次抽取的结果也不独立, 不符合 n 重伯努利试验的特征, 因此 X 不服从二项分布。

可以根据古典概型求 X 的分布列, 由题意可知, X 可能的取值为 0, 1, 2, 3, 4. 从100件产品中任取4件, 样本空间包含 C_{100}^4 个样本点, 且每个样本点都是等可能发生的。其中4件产品中恰有 k 件次品的结果数为 C_8^k C_{92}^{4-k}. 由古典概型的知识, 得 X 的分布列为


P(X=k) = \frac{C_8^k C_{92}^{4-k}}{C_{100}^4}, \quad k=0, 1, 2, 3, 4.

计算的具体结果(精确到 0.000~01)如表7.4-1 所示。

? 计算结果数时, 考虑抽取的次序和不考虑抽取的次序, 对分布列的计算有影响吗? 为什么?

表 7.4-1

`X`	0	1	2	3	4
`P`	0.712 57	0.256 21	0.029 89	0.001 31	0.000 02

一般地, 假设一批产品共有 N 件, 其中有 M 件次品, 从 N 件产品中随机抽取 n 件(不放回), 用 X 表示抽取的 n 件产品中的次品数, 则 X 的分布列为

P(X=k)=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}, k=m, m+1, m+2, \ldots, r.

其中n, N, M \in N^*, M \le N, n \le N, m=\max\{0, n-N+M\}, r=\min\{n, M\}. 如果随机变量$X$的分布列具有上式的形式, 那么称随机变量$X$服从超几何分布 (hypergeometric distribution).

例 4 从50名学生中随机选出5名学生代表, 求甲被选中的概率。

容易发现, 每个人被抽到的概率都是 \frac{1}{10}, 这个结论非常直观, 这里给出了严格的推导.

解：设$X$表示选出的5名学生中含甲的人数 (只能取0或1), 则$X$服从超几何分布, 且N=50, M=1, n=5. 因此甲被选中的概率为

P(X=1)=\frac{C_1^1 C_{49}^4}{C_{50}^5}=\frac{1}{10}.

例 5 一批零件共有30个, 其中有3个不合格. 随机抽取10个零件进行检测, 求至少有1件不合格的概率.

解：设抽取的10个零件中不合格品数为X, 则$X$服从超几何分布, 且N=30, M=3, n=10. $X$的分布列为

P(X=k)=\frac{C_3^k C_{27}^{10-k}}{C_{30}^{10}}, k=0, 1, 2, 3.

至少有1件不合格的概率为

P(X \ge 1)=P(X=1)+P(X=2)+P(X=3)

=\frac{C_3^1 C_{27}^9}{C_{30}^{10}} + \frac{C_3^2 C_{27}^8}{C_{30}^{10}} + \frac{C_3^3 C_{27}^7}{C_{30}^{10}} \approx 0.719\ 2.

也可以按如下方法求解:

P(X \ge 1)=1-P(X=0)=1-\frac{C_3^0 C_{27}^{10}}{C_{30}^{10}} \approx 0.719\ 2.

💡 探究

服从超几何分布的随机变量的均值是什么?

设随机变量$X$服从超几何分布, 则$X$可以解释为从包含$M$件次品的$N$件产品中, 不放回地随机抽取$n$件产品中的次品数. 令p=\frac{M}{N}, 则$p$是$N$件产品的次品率, 而$\frac{X}{n}$是抽取的$n$件产品的次品率, 我们猜想E\left(\frac{X}{n}\right)=p, 即E(X)=np. 实际上, 令m=\max\{0, n-N+M\}, r=\min\{n, M\}, 由随机变量均值的定义:

当$m>0$时,


E(X) = \sum_{k=m}^{r} k \frac{C_M^k C_{N-M}^{n-k}}{C_N^n} = M \sum_{k=m}^{r} \frac{C_{M-1}^{k-1} C_{N-M}^{n-k}}{C_N^n} \quad (1)

因为 \sum_{k=m}^{r} C_{M-1}^{k-1} C_{N-M}^{n-k} = C_{N-1}^{n-1}, 所以


E(X) = \frac{M}{C_N^n} \sum_{k=m}^{r} C_{M-1}^{k-1} C_{N-M}^{n-k} = \frac{M C_{N-1}^{n-1}}{C_N^n} = \frac{nM}{N} = np.

当$m=0$时, 注意到 (1) 式中间求和的第一项为0, 类似可以证明结论依然成立.

例6 一个袋子中有100个大小相同的球,其中有40个黄球、60个白球,从中随机地摸出20个球作为样本.用 X 表示样本中黄球的个数. (1) 分别就有放回摸球和不放回摸球,求 X 的分布列; (2) 分别就有放回摸球和不放回摸球,用样本中黄球的比例估计总体中黄球的比例,求误差的绝对值不超过0.1的概率.

分析: 因为只有两种颜色的球,每次摸球都是一个伯努利试验.摸出20个球,采用有放回摸球,各次试验的结果相互独立,$X \sim B(20, 0.4)$;而采用不放回摸球,各次试验的结果不独立,$X$ 服从超几何分布.

解:(1)对于有放回摸球,每次摸到黄球的概率为0.4,且各次试验之间的结果是独立的,因此X \sim B(20, 0.4),$X$的分布列为


P_{1k}=P(X=k)=C_{20}^k \times 0.4^k \times 0.6^{20-k}, \quad k=0, 1, 2, \dots, 20.

对于不放回摸球,各次试验的结果不独立,$X$服从超几何分布,$X$的分布列为


P_{2k}=P(X=k)=\frac{C_{40}^k C_{60}^{20-k}}{C_{100}^{20}}, \quad k=0, 1, 2, \dots, 20.

(2) 利用统计软件计算出两个分布列的概率值(精确到0.00001),如表 7.4-2 所示.

表 7.4-2

k	`P_{1k}`	`P_{2k}`	k	`P_{1k}`	`P_{2k}`
0	0.000 04	0.000 01	11	0.070 99	0.063 76
1	0.000 49	0.000 15	12	0.035 50	0.026 67
2	0.003 09	0.001 35	13	0.014 56	0.008 67
3	0.012 35	0.007 14	14	0.004 85	0.002 17
4	0.034 99	0.025 51	15	0.001 29	0.000 41
5	0.074 65	0.065 30	16	0.000 27	0.000 06
6	0.124 41	0.124 22	17	0.000 04	0.000 01
7	0.165 88	0.179 72	18	0.000 00	0.000 00
8	0.179 71	0.200 78	19	0.000 00	0.000 00
9	0.159 74	0.174 83	20	0.000 00	0.000 00
10	0.117 14	0.119 24

样本中黄球的比例 f_{20}=\frac{X}{20} 是一个随机变量，根据表 7.4-2，计算得：有放回摸球：$P (|f_{20}-0.4| \le 0.1)=P(6 \le X \le 10) \approx 0.746 9.$ 不放回摸球：P(|f_{20}-0.4| \le 0.1)=P(6 \le X \le 10) \approx 0.798 8.

由例6可以发现，在相同的误差限制下，采用不放回摸球估计的结果更可靠些。两种摸球方式下，随机变量 X 分别服从二项分布和超几何分布，虽然这两种分布有相等的均值(都是8)，但从两种分布的概率分布图(图7.4-4)看，超几何分布更集中在均值附近。

[图片描述:一个条形图，对比了二项分布和超几何分布的概率分布。横轴表示随机变量X的值从0到20，纵轴表示概率P，范围从0到0.25。图中“二项分布”和“超几何分布”分别用浅蓝色和深蓝色条形表示。图中显示，两种分布的概率峰值都集中在X=8附近，超几何分布的柱状图在峰值处略高于二项分布，且分布范围似乎更集中，表明其数据更紧密地围绕均值。|标题:图7.4-4|图片1]

二项分布和超几何分布都可以描述随机抽取的 n 件产品中次品数的分布规律，并且二者的均值相同。对于不放回抽样，当 n 远远小于 N 时，每抽取一次后，对 N 的影响很小，此时，超几何分布可以用二项分布近似。

练习

一箱24罐的饮料中4罐有奖券，每张奖券奖励饮料一罐，从中任意抽取2罐，求这2罐中有奖券的概率。
学校要从12名候选人中选4名同学组成学生会，已知有4名候选人来自甲班，假设每名候选人都有相同的机会被选到，求甲班恰有2名同学被选到的概率。
举出两个服从超几何分布的随机变量的例子。

习题 7.4

复习巩固

抛掷一枚骰子，当出现5点或6点时，就说这次试验成功，求在30次试验中成功次数 X 的均值和方差。
若某射手每次射击击中目标的概率为 $0.9$，每次射击的结果相互独立，则在他连续4次射击!

中,恰好有一次未击中目标的概率是多大? 3. 如图,一个质点在随机外力的作用下,从原点0出发,每隔1s等可能地向左或向右移动一个单位,共移动6次.求下列事件的概率.

[图片描述: 水平数轴，从-6到6，每个整数点上标有一个粉色圆圈，表示质点在不同时刻可能到达的位置。在数轴下方标注有"(第3题)"。|标题: 第3题示意图|图片编号:1]

(1) 质点回到原点; (2) 质点位于4的位置. 4. 从一副不含大小王的52张扑克牌中任意抽出5张,求至少有2张A牌的概率(精确到0.000 01).

综合运用

某射手每次射击击中目标的概率为0.8,共进行10次射击,求(精确到0.01): (1) 恰有8次击中目标的概率; (2) 至少有8次击中目标的概率.
有一个摸奖游戏,在一个口袋中装有10个红球和20个白球,这些球除颜色外完全相同,一次从中摸出5个球,至少摸到3个红球就中奖.求中奖的概率(精确到0.001).
一个车间有3台车床,它们各自独立工作.设在一段时间内发生故障的车床数为X,在下列两种情形下分别求$X$的分布列. (1) 假设这3台车床型号相同,它们发生故障的概率都是20\%; (2) 这3台车床中有A型号2台,B型号1台,A型车床发生故障的概率为10\%,B型车床发生故障的概率为20\%.

拓广探索

某药厂研制一种新药,宣称对治疗某种疾病的有效率为90\%.随机选择了10名患者,经过使用该药治疗后,治愈的人数不超过6人,你是否怀疑药厂的宣传?

探究与发现

二项分布的性质

设随机变量X \sim B(n,p),则$X$的分布列为 P(X=k)=C_n^k p^k (1-p)^{n-k}, k=0, 1, \dots, n. 对不同的$n$和p 的值,绘制的概率分布图如图1所示.

[图片描述:页面包含五幅条形图，展示了不同参数下的二项分布概率。每幅图的横轴表示成功次数X，纵轴表示概率P。图(1)展示了$n=9, p=0.3$时的二项分布，概率峰值出现在$X=2,3$附近，分布呈左偏态。图(2)展示了$n=9, p=0.5$时的二项分布，概率峰值出现在$X=4,5$附近，分布呈对称状。图(3)展示了$n=9, p=0.7$时的二项分布，概率峰值出现在$X=6,7$附近，分布呈右偏态。图(4)展示了$n=12, p=0.4$时的二项分布，概率峰值出现在$X=4,5$附近，分布呈左偏态。图(5)展示了$n=15, p=0.4$时的二项分布，概率峰值出现在$X=5,6$附近，分布呈左偏态。所有图的纵轴最大值均为0.3。这些图直观地展示了二项分布的形状如何随参数$n$和$p$的变化而改变，尤其是对称性、偏度和峰值位置。|标题:图1|图1]

观察图形，类比函数性质的研究，你能发现二项分布的哪些性质？提出你的猜想。

记 $p_k=P(X=k)$，观察图形我们发现：当 k 由0增大到 n 时，p_k 先增后减，在某一个(或两个)$k$值处达到最大，二项分布当 p=0.5 时是对称的，当 $p<0.5$时向左偏倚，当 $p>0.5$时向右偏倚。

下面，我们利用分布列的表达式来研究 p_k 的增减变化及最大值。


\frac{p_k}{p_{k-1}} = \frac{C_n^k p^k (1-p)^{n-k}}{C_n^{k-1} p^{k-1} (1-p)^{n-k+1}} = \frac{(n-k+1)p}{k(1-p)} \\
= \frac{k(1-p)+(n+1)p-k}{k(1-p)} = 1 + \frac{(n+1)p-k}{k(1-p)}

当 k<(n+1)p 时，$p_k>p_{k-1}$，p_k 随 k 值的增加而增加；当 k>(n+1)p 时，$p_k<p_{k-1}$，p_k 随 k 值的增加而减小。

如果 (n+1)p 为正整数，当 k=(n+1)p 时，$p_k=p_{k-1}$，此时这两项概率均为最大值。如果 (n+1)p 为非整数，而 k 取 (n+1)p 的整数部分，则 p_k 是唯一的最大值。

对你发现的二项分布的其他性质，你能给出证明吗？

7.5 正态分布

现实中，除了前面已经研究过的离散型随机变量外，还有大量问题中的随机变量不是离散型的，它们的取值往往充满某个区间甚至整个实轴，但取一点的概率为0，我们称这类随机变量为连续型随机变量 (continuous random variable).下面我们看一个具体问题。

问题自动流水线包装的食盐，每袋标准质量为400g.由于各种不可控制的因素，任意抽取一袋食盐，它的质量与标准质量之间或多或少会存在一定的误差(实际质量减去标准质量).用$X$表示这种误差，则$X$是一个连续型随机变量.检测人员在一次产品检验中，随机抽取了100袋食盐，获得误差 $X$(单位:g)的观测值如下:

-0.6 -1.4 -0.7  3.3 -2.9 -5.2  1.4  0.1  4.4  0.9
-2.6 -3.4 -0.7 -3.2 -1.7  2.9  0.6  1.7  2.9  1.2
 0.5 -3.7  2.7  1.1 -3.0 -2.6 -1.9  1.7  2.6  0.4
 2.6 -2.0 -0.2  1.8 -0.7 -1.3 -0.5 -1.3  0.2 -2.1
 2.4 -1.5 -0.4  3.8 -0.1  1.5  0.3 -1.8  0.0  2.5
 3.5 -4.2 -1.0 -0.2  0.1  0.9  1.1  2.2  0.9 -0.6
-4.4 -1.1  3.9 -1.0 -0.6  1.7  0.3 -2.4 -0.1 -1.7
-0.5 -0.8  1.7  1.4  4.4  1.2 -1.8 -3.1 -2.1 -1.6
 2.2  0.3  4.8 -0.8 -3.5 -2.7  3.8  1.4 -3.5 -0.9
-2.2 -0.7 -1.3  1.5 -1.5 -2.2  1.0  1.3  1.7 -0.9

(1) 如何描述这100个样本误差数据的分布? (2) 如何构建适当的概率模型刻画误差 X 的分布?

根据已学的统计知识，可用频率分布直方图描述这组误差数据的分布，如图7.5-1 所示.频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率，所有小矩形的面积之和为1.

[图片描述:该图片展示了一个频率分布直方图。水平轴表示误差值$X$，范围从-6到6，每隔2个单位标记一个刻度。垂直轴表示频率/组距，范围从0到0.20，每隔0.05个单位标记一个刻度。直方图的条形大致呈钟形分布，最高的条形位于$X=0$附近，显示在-2到2的区间内频率最高，两侧的条形高度逐渐降低，反映了误差值关于0大致对称分布的趋势。|标题:图 7.5-1|图片编号:1]

观察图形可知:误差观测值有正有负，并大致对称地分布在$X=0$的两侧，而且小误差比大误差出现得更频繁.

随着样本数据量越来越大, 让分组越来越多, 组距越来越小, 由频率的稳定性可知, 频率分布直方图的轮廓就越来越稳定, 接近一条光滑的钟形曲线, 如图 7.5-2 所示。

[图片描述: 左侧是一个频率分布直方图，横轴表示变量X，纵轴表示频率/组距。直方图上方叠加了一条平滑的钟形曲线，显示出数据分布的趋势。X轴范围从-6到6，频率/组距最高点接近0.20。|标题: 图7.5-2|图片编号: 图1] [图片描述: 右侧也是一个频率分布直方图，与左侧的图7.5-2类似，但其Y轴标注为f(x)。在图中的[-2, -1]区间内，有一个黄色的阴影区域，表示特定区间内的概率。X轴范围从-6到6，f(x)最高点接近0.20。|标题: 图7.5-3|图片编号: 图2]

根据频率与概率的关系, 可用图 7.5-3 中的钟形曲线 (曲线与水平轴之间的区域的面积为1) 来描述袋装食盐质量误差的概率分布。例如, 任意抽取一袋食盐, 误差落在 [-2, -1] 内的概率, 可用图中黄色阴影部分的面积表示。

由函数知识可知, 图 7.5-3 中的钟形曲线是一个函数, 那么, 这个函数是否存在解析式呢? 答案是肯定的, 在数学家的不懈努力下, 找到了以下刻画随机误差分布的解析式:

f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, x \in \mathbf{R}.

其中 \mu \in \mathbf{R}, \sigma > 0 为参数。

早在 1733 年, 法国数学家棣莫弗 (A. De Moivre, 1667—1754) 在研究二项概率的近似计算时, 已提出了正态密度函数的形式, 但当时只是作为一个数学表达式。直到德国数学家高斯 (C. F. Gauss, 1777—1855) 提出“正态误差”的理论后, 正态密度函数才取得“概率分布”的身份, 因此, 人们也称正态分布为高斯分布。

显然, 对任意的 x \in \mathbf{R}, f(x) > 0, 它的图象在 x 轴的上方, 可以证明 x 轴和曲线之间的区域的面积为 1。我们称 f(x) 为正态密度函数, 称它的图象为正态密度曲线, 简称正态曲线, 如图 7.5-4 所示。若随机变量 X 的概率分布密度函数为 f(x), 则称随机变量 X 服从正态分布 (normal distribution), 记为 $X \sim N(\mu, \sigma^2)$。特别地, 当 \mu = 0, \sigma = 1 时, 称随机变量 X 服从标准正态分布。

[图片描述: 一个正态分布的钟形曲线图。横轴表示变量x，纵轴表示f(x)。曲线的峰值处对应的f(x)值为$\frac{1}{\sigma\sqrt{2\pi}}$。图中标记了O, x, \mu, a, b等点。曲线下方有两个阴影区域：区域A是从O到x的面积，区域B是从a到b的面积。虚线表示$\mu$和x的垂直投影。|标题: 图7.5-4|图片编号: 图3]

若 X \sim N(\mu, \sigma^2), 则如图 7.5-4 所示, X 取值不超过 x 的概率 P(X \le x) 为图中区域 A 的面积, 而 P(a \le X \le b) 为图中区域 B 的面积。

P(X \le x) 只能通过数值积分近似计算, 可以查正态分布表或利用计算机软件计算。Excel 中对应的函数为 NORM. DIST。

正态分布在概率和统计中占有重要地位，它广泛存在于自然现象、生产和生活实践之中。在现实生活中，很多随机变量都服从或近似服从正态分布，例如，某些物理量的测量误差，某一地区同年龄人群的身高、体重、肺活量等，一定条件下生长的小麦的株高、穗长、单位面积产量，自动流水线生产的各种产品的质量指标（如零件的尺寸、纤维的纤度、电容器的电容），某地每年7月的平均气温、平均湿度、降水量等，一般都近似服从正态分布。

💡 观察

观察正态曲线及相应的密度函数，你能发现正态曲线的哪些特点？

由$X$的密度函数及图象可以发现，正态曲线还有以下特点： (1) 曲线是单峰的，它关于直线$x=\mu$对称； (2) 曲线在$x=\mu$处达到峰值$\frac{1}{\sigma\sqrt{2\pi}}$； (3) 当$|x|$无限增大时，曲线无限接近$x$轴。

❓ 思考

一个正态分布由参数$\mu$和$\sigma$完全确定，这两个参数对正态曲线的形状有何影响？它们反映正态分布的哪些特征？

我们知道，函数$y=f(x-\mu)$的图象可由$y=f(x)$的图象平移得到，因此，在参数$\sigma$取固定值时，正态曲线的位置由$\mu$确定，且随着$\mu$的变化而沿$x$轴平移，如图7.5-5 所示。

[图片描述:图7.5-5展示了三条正态分布曲线，它们均具有相同的标准差$\sigma=1$，但均值$\mu$不同。从左到右，曲线的均值分别为$\mu=-1$（蓝色曲线）、$\mu=0$（黑色曲线，峰值约0.4）和$\mu=1$（粉色曲线）。随着均值$\mu$的增加，曲线沿$x$轴向右平移，但形状保持不变。该图清晰地展示了均值$\mu$对正态分布曲线位置的影响。|标题:图7.5-5 不同均值$\mu$下（$\sigma=1$）的正态分布曲线|图片1]

[图片描述:图7.5-6展示了四条正态分布曲线，它们均具有相同的均值$\mu=0$，但标准差$\sigma$不同。从最“瘦高”的曲线到最“矮胖”的曲线，标准差分别为$\sigma=0.5$（蓝色曲线，峰值约0.8）、$\sigma=1$（黑色曲线，峰值约0.4）和$\sigma=2$（粉色曲线，峰值约0.2）。$\sigma$值越小，曲线越“瘦高”，表明数据越集中；$\sigma$值越大，曲线越“矮胖”，表明数据越分散。该图清晰地展示了标准差$\sigma$对正态分布曲线形状的影响。|标题:图7.5-6 不同标准差$\sigma$下（$\mu=0$）的正态分布曲线|图片2]

当$\mu$取定值时，因为正态曲线的峰值$\frac{1}{\sigma\sqrt{2\pi}}$与$\sigma$成反比，而且对任意的$\sigma > 0$，正态曲线与$x$轴之间的区域的面积总为1。因此，当$\sigma$较小时，峰值高，正态曲线“瘦高”，表示随机变量$X$的分布比较集中；当$\sigma$较大时，峰值低，正态曲线“矮胖”，表示随机变量$X$的分布比较分散，如图7.5-6所示。

观察图7.5-5和图7.5-6可以发现，参数$\mu$反映了正态分布的集中位置，$\sigma$反映了随机变量的分布相对于均值$\mu$的离散程度，实际上，我们有若$X \sim N(\mu, \sigma^2)$，则 $E(X)=\mu, D(X)=\sigma^2$。

在实际问题中，参数$\mu,\sigma$可以分别用样本均值和样本标准差来估计。

例李明上学有时坐公交车，有时骑自行车，他各记录了50次坐公交车和骑自行车所花的时间，经数据分析得到：坐公交车平均用时 30 min，样本方差为 36；骑自行车平均用时 34 min，样本方差为 4。假设坐公交车用时 X 和骑自行车用时 Y 都服从正态分布。

(1) 估计 X, Y 的分布中的参数； (2) 根据(1)中的估计结果，利用信息技术工具画出 X 和 Y 的分布密度曲线； (3) 如果某天有 38 min 可用，李明应选择哪种交通工具？如果某天只有 34 min 可用，又应该选择哪种交通工具？请说明理由。

分析: 对于第(1)问，正态分布由参数 \mu 和 \sigma 完全确定，根据正态分布参数的意义，可以分别用样本均值和样本标准差来估计。对于第(3)问，这是一个概率决策问题，首先要明确决策的准则，在给定的时间内选择不迟到概率大的交通工具；然后结合图形，根据概率的表示，比较概率的大小，作出判断。

解: (1) 随机变量 X 的样本均值为 30，样本标准差为 6；随机变量 Y 的样本均值为 34，样本标准差为 2。用样本均值估计参数 $\mu$，用样本标准差估计参数 $\sigma$，可以得到 X \sim N(30, 6^2), $Y \sim N(34, 2^2)$。

(2) X 和 Y 的分布密度曲线如图 7.5-7 所示。

(3) 应选择在给定时间内不迟到的概率大的交通工具。由图 7.5-7 可知， P(X \le 38) < P(Y \le 38), $P(X \le 34) > P(Y \le 34)$。所以，如果有 38 min 可用，那么骑自行车不迟到的概率大，应选择骑自行车；如果只有 34 min 可用，那么坐公交车不迟到的概率大，应选择坐公交车。

[图片描述: 坐标系中绘制了两条正态分布的密度曲线。横轴表示时间 $t/\text{min}$，纵轴表示密度 $y$。一条曲线（蓝色）较宽，峰值较低，中心位于 30 处，代表 X 的密度曲线。另一条曲线（红色）较窄，峰值较高，中心位于 34 处，代表 Y 的密度曲线。横轴上标记了 26, 30, 34, 38 等时间点，并有虚线从这些点引向曲线。|标题: 图7.5-7|图片编号: 1]

假设 $X \sim N(\mu, \sigma^2)$，可以证明：对给定的 k \in \mathbf{N}^*, P(\mu-k\sigma < X < \mu+k\sigma) 是一个只与 k 有关的定值。特别地， P(\mu-\sigma < X < \mu+\sigma) \approx 0.6827, P(\mu-2\sigma < X < \mu+2\sigma) \approx 0.9545, $P(\mu-3\sigma < X < \mu+3\sigma) \approx 0.9973$。上述结果可用图 7.5-8 表示。

[图片描述: 一个标准正态分布的钟形曲线图，横轴标有均值 \mu 和偏离均值的标准差倍数（如 $\mu-\sigma, \mu-2\sigma, \mu-3\sigma, \mu+\sigma, \mu+2\sigma, \mu+3\sigma$）。曲线下方的区域被分割并用不同颜色或阴影表示，展示了数据落在特定标准差范围内的概率。具体标注了：在 (\mu-\sigma, \mu+\sigma) 范围内的概率约为 68.27%；在 (\mu-2\sigma, \mu+2\sigma) 范围内的概率约为 95.45%；在 (\mu-3\sigma, \mu+3\sigma) 范围内的概率约为 99.73%。|标题: 图7.5-8|图片编号: 2]

由此看到，尽管正态变量的取值范围是 $(-\infty, +\infty)$，但在一次试验中，X 的取值几乎总是落在区间 [\mu-3\sigma, \mu+3\sigma] 内，而在此区间以外取值的概率大约只有 0.0027，通常认为这种情况几乎不可能发生。

在实际应用中, 通常认为服从于正态分布 N(\mu, \sigma^2) 的随机变量 X 只取 [\mu-3\sigma, \mu+3\sigma] 中的值, 这在统计学中称为 3\sigma 原则.

练习

设随机变量 X \sim N(0,1), 则 X 的密度函数为________, $P(|X|<1)$=, $P(X \le 1)$=, $P(X>1)$=, $P(X<0)$=.(精确到 0.000~1.)
设随机变量 X \sim N(0,2^2), 随机变量 Y \sim N(0,3^2), 画出分布密度曲线草图, 并指出 P(X \le -2) 与 P(X \le 2) 的关系, 以及 P(|X| \le 1) 与 P(|Y| \le 1) 之间的大小关系.
举出两个服从正态分布的随机变量的例子.

习题 7.5

复习巩固

对某地区数学考试成绩的数据分析, 男生成绩 X 服从正态分布 N(72,8^2), 女生成绩 Y 服从正态分布 N(74,6^2). 请你从不同角度比较男生、女生的考试成绩.
某市高二年级男生的身高 $X$(单位: cm)近似服从正态分布 N(170,5^2), 随机选择一名本市高二年级的男生, 求下列事件的概率: (1) {$165<X<175$}; (2) {$X \le 165$}; (3) {$X > 175$}.
若 X \sim N(\mu, \sigma^2), 则 X 位于区域[\mu, \mu+\sigma] 内的概率是多少?

综合运用

袋装食盐标准质量为 400g, 规定误差的绝对值不超过 4g 就认为合格. 假设误差服从正态分布, 随机抽取 100 袋食盐, 误差的样本均值为 0, 样本方差为 4. 请你估计这批袋装食盐的合格率.

信息技术应用

概率分布图及概率计算

利用 GeoGebra 动态教学软件, 可以画二项分布、超几何分布、正态分布等概率分布图, 计算随机变量取值于某区间内的概率. 打开软件, 进入 GeoGebra 的界面, 点击右侧边框中的小三角, 在显示的经典菜单中选择“概率统计”.

二项分布

选择二项分布，输入试验次数 n=20 及成功概率 $p=0.5$，即 $B(20, 0.5)$。如图1，绘图区显示二项概率分布图，右侧显示分布列。输入随机变量的取值范围，窗口底部显示随机变量落在该范围的概率，例如

P(8 \le X \le 12)=0.736 \ 8.

[图片描述: GeoGebra软件界面截图，显示了参数为$n=20$和$p=0.5$的二项分布的概率条形图。图表下方显示输入参数，右侧列表显示各取值对应的概率，底部显示$P(8 \le X \le 12) = 0.7368$的计算结果。|标题: 图1|图片编号: 1]

超几何分布

选择超几何分布，输入总体 $N=100$，M=10 及样本 $n=30$，即 $h(30, 100, 10)$。如图2，绘图区显示超几何概率分布图，右侧显示分布列。输入随机变量的取值范围，窗口底部显示随机变量落在该范围的概率，例如

P(1 \le X \le 5)=0.938 \ 3.

[图片描述: GeoGebra软件界面截图，显示了参数为总体$N=100$、成功元素$M=10$、样本$n=30$的超几何分布的概率条形图。图表下方显示输入参数，右侧列表显示各取值对应的概率，底部显示$P(1 \le X \le 5) = 0.9383$的计算结果。|标题: 图2|图片编号: 2]

正态分布

选择正态分布，输入均值 $\mu=0$，标准差 $\sigma=1$，即 $N(0, 1)$。如图3，绘图区显示正态密度曲线图。输入随机变量的取值范围，窗口底部显示随机变量落在该范围的概率，例如

P(-1 \le X \le 1)=0.682 \ 7,

P(-2 \le X \le 2)=0.954 \ 5,

P(-3 \le X \le 3)=0.997 \ 3.

[图片描述: GeoGebra软件界面截图，显示了参数为均值$\mu=0$和标准差$\sigma=1$的正态分布的概率密度曲线图。曲线下方的某个区间被阴影标记，代表该区间的概率。图表下方显示输入参数，右侧列表显示各种概率值，底部显示一个区间概率的计算结果，例如$P(-1 \le X \le 1) = 0.6827$。|标题: 图3|图片编号: 3]

通过窗口左下角的按钮，还可以求变量落在单边区间内的概率，例如

P(X \le 1.5)=0.933 \ 2.

请你再选择一些正态分布 $N(\mu, \sigma^2)$，分别计算 $P(\mu-\sigma \le X \le \mu+\sigma)$，$P(\mu-2\sigma \le X \le \mu+2\sigma)$，P(\mu-3\sigma \le X \le \mu+3\sigma) 的值，并总结这些值的规律。

小结

一、本章知识结构

graph LR
    subgraph 概率计算基础
        K[条件概率] --> L[加法公式]
        K --> M[乘法公式]
        L --> N[全概率公式, 贝叶斯公式]
        M --> N
    end

    subgraph 随机变量及其分布
        A[随机变量] --> B[离散型随机变量]
        A --> C[连续型随机变量]

        B --> D[分布列]
        B --> E[均值和方差]

        D --> F[二项分布]
        D --> G[超几何分布]

        C --> H[正态分布]

        H --> I[正态密度曲线]
        H --> J[3$\sigma$原则]
    end

二、回顾与思考

本章我们在已有概率学习的基础上，研究了在一个事件发生的条件下，求另一个事件发生的概率问题，从而得到了条件概率的计算方法。这一方法的基本思想是利用一些已知条件，通过缩小样本空间的方法计算概率。利用条件概率，我们得到了一般的概率乘法公式，特别地，当两个事件相互独立时，乘法公式就是求两个独立事件的积事件的概率公式。有了这些知识，当我们面对一个复杂事件时，就可以先把它表示为一些简单事件运算的结果，再利用概率的加法公式和乘法公式计算出复杂事件的概率。这是全概率公式蕴含的数学思想方法，体现了利用研究对象的性质探寻解决问题的方法、将复杂问题化归为简单问题的数学思想。

在古典概型的学习中我们发现，为了计算随机事件的概率，往往需要为不同背景的问题建立不同的样本空间，这样“单个地”处理问题显然是麻烦而不经济的。类似于引入函数概念，通过函数描述现实世界中变量关系和规律一样，本章我们先引入随机变量的概念，建立起样本空间到实数集的对应关系，为随机事件的表示带来方便；然后再引入分布列概念，建立起随机变量取值与其概率的对应关系。有了随机变量及其分布列的概念，就可以将不同背景的概率问题转化为统一的数学问题，从而为我们利用各种数学工具，系统、全面地研究随机现象的规律奠定基础。

本章的学习中，我们重点关注了随机变量的分布列和数字特征，分布列全面

彻底地刻画了随机变量的取值规律；均值和方差是随机变量的两个重要的数字特征，均值反映了随机变量取值的平均水平，而方差反映了随机变量取值的离散程度，它们在推断随机现象的规律进而作出决策中有重要作用。

在函数的学习中我们有这样的经验：通过学习幂函数、指数函数、对数函数、三角函数等基本函数类，不仅加深了对一般函数概念的理解，而且奠定了建立适当的函数模型解决不同类型实际问题的数学基础。类似地，我们通过研究二项分布、超几何分布等离散型随机变量的分布，以及正态分布这一连续型随机变量的分布，不仅进一步理解了随机变量在描述随机现象中的作用，而且对随机思想在解决实际问题中的作用也有了更深入的理解。

请你带着下面的问题，复习一下全章的内容吧！

两个随机事件的独立性和条件概率有什么关系？
用全概率公式求一个复杂事件的概率的思路是什么？
离散型随机变量的分布列与样本频率分布有什么联系与区别？
离散型随机变量的均值与方差的意义和作用是什么？它们与随机变量的观测值的平均值和方差的联系与区别是什么？
归纳二项分布模型的特征。有人说：“随机掷一枚质地均匀的硬币，出现正面的概率是 $0.5$。因此，随机抛掷 100 次硬币，出现 50 次正面的可能性也应该是 $0.5$。”你认为正确吗？为什么？
离散型随机变量的分布规律与服从正态分布的随机变量的分布规律的区别是什么？

复习参考题 7

复习巩固

举例说明 P(B) 与 P(B|A) 没有确定的大小关系。
抛掷两枚质地均匀的骰子，求： (1) 两个点数都出现偶数的概率； (2) 已知第一枚骰子的点数是偶数的条件下，第二枚骰子的点数也是偶数的概率。
假设有两箱零件，第一箱内装有 10 件，其中有 2 件次品；第二箱内装有 20 件，其中有 3 件次品。现从两箱中随意挑选一箱，然后从该箱中随机取 1 个零件。 (1) 求取出的零件是次品的概率； *(2) 已知取出的是次品，求它是从第一箱取出的概率。

已知离散型随机变量 X 的分布列如下表所示.

`X`	0	1	2
`P`	0.36	`1-2q`	`q^2`

求: (1) 常数 q 的值; (2) E(X) 和 D(X). 5. 已知随机变量 X 取所有的值 1,2,\dots,n 是等可能的, 且 E(X)=10, 求 n 的值. 6. 已知每门大炮击中目标的概率都是0.3, 现在 n 门大炮同时对某一目标各射击一次. (1) 当 n=10 时, 求恰好击中目标3次的概率 (精确到0.001); (2) 如果使目标至少被击中一次的概率超过95%, 至少需要多少门大炮?

综合运用

长时间玩手机可能影响视力. 据调查, 某校学生大约40%的人近视, 而该校大约有20%的学生每天玩手机超过1h, 这些人的近视率约为50%. 现从每天玩手机不超过1h的学生中任意调查一名学生, 求他近视的概率.
某商场要在国庆节开展促销活动, 促销活动可以在商场内举行, 也可以在商场外举行. 统计资料表明, 每年国庆节商场内的促销活动可获得利润2万元; 商场外的促销活动, 如果不遇到有雨天气可获得利润8万元, 如果遇到有雨天气则会带来经济损失3万元. 9月30日气象台预报国庆节当地的降水概率是40%, 商场应该选择哪种促销方式?
假设一份某种意外伤害保险费为20元, 每次赔付金额为50万元. 一家保险公司一年能销售10万份保单, 而每一份保单需要赔付的概率为 10^{-5}. 利用计算工具求 (精确到0.0001): (1) 这家保险公司在这个险种上亏本的概率; (2) 这家保险公司在这个险种上一年内获利不少于100万元的概率.

拓广探索

甲、乙、丙三人相互做传球训练, 第1次由甲将球传出, 每次传球时, 传球者都等可能地将球传给另外两个人中的任何一人, 求 n 次传球后球在甲手中的概率.
某单位有10000名职工, 想通过验血的方法筛查乙肝病毒携带者, 假设每人携带乙肝病毒的概率为5%, 如果对每人的血样逐一化验, 就需要化验10000次. 统计专家提出了一种化验方法: 随机地按5人一组分组, 然后将各组5人的血样混合再化验. 如果混合血样呈阴性, 说明这5人全部阴性; 如果混合血样呈阳性, 说明其中至少有一人的血样呈阳性, 就需要对每人再分别化验一次. (1) 按照这种化验方法能减少化验次数吗? (2) 如果每人携带乙肝病毒的概率为2%, 按照 k 人一组, k 取多大时化验次数最少?
某城市高中数学统考, 假设考试成绩服从正态分布 N(75,8^2). 如果按照16%, 34%, 34%, 16%的比例将考试成绩分为 A, B, C, D 四个等级, 试确定各等级的分数线 (精确到1).

113 KiB Raw Permalink Blame History Unescape Escape

第七章

随机变量及其分布

7.1 条件概率与全概率公式

7.1.1 条件概率

探究

思考

练习

7.1.2 全概率公式

练习

习题 7.1

复习巩固

综合运用

拓广探索

阅读与思考

贝叶斯公式与人工智能

7.2 离散型随机变量及其分布列

练习

习题 7.2

复习巩固

综合运用

7.3 离散型随机变量的数字特征

7.3.1 离散型随机变量的均值

观察

探究

练习

7.3.2 离散型随机变量的方差

③ 思考

💡 探究

练习

习题 7.3

复习巩固

综合运用

拓广探索

7.4 二项分布与超几何分布

7.4.1 二项分布

探究

练习

7.4.2 超几何分布

综合运用

拓广探索

探究与发现

二项分布的性质

7.5 正态分布

练习

习题 7.5

复习巩固

综合运用

信息技术应用

概率分布图及概率计算

小结

一、本章知识结构

二、回顾与思考

复习参考题 7

复习巩固

113 KiB

Raw Permalink Blame History