note/知识图谱/教科书-数学/all-back/problems-选择性必修第八章-成对数据的统计分析.json
2025-11-19 10:16:05 +08:00

521 lines
20 KiB
JSON
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"章节信息": {
"章": "第八章",
"节": "8.1 成对数据的统计相关性8.2 一元线性回归模型及其应用8.3 列联表与独立性检验",
"小节": "8.1.1 变量的相关关系8.1.2 样本相关系数8.2.1 一元线性回归模型8.2.2 一元线性回归模型参数的最小二乘估计8.3.1 分类变量与列联表8.3.2 独立性检验",
"页码范围": "98-154"
},
"problem_list": [
{
"编号": "P8-1-01",
"名称": "相关关系识别问题",
"类型": "概念理解题",
"难度": "基础",
"问题描述": "判断下列各对变量之间的关系是函数关系还是相关关系,并说明理由:\n(1) 正方形的边长与面积\n(2) 人的身高与体重\n(3) 圆的半径与周长\n(4) 学习时间与考试成绩\n(5) 产品的产量与总成本",
"考查目标": "区分函数关系与相关关系,理解相关关系的概念",
"解题思路": [
"分析两个变量之间是否存在确定的对应关系",
"判断一个变量能否完全决定另一个变量",
"若能完全确定则为函数关系,否则为相关关系"
],
"关联知识": ["K8-1-1-01 相关关系"],
"关联方法": ["M8-1-01 散点图绘制法"],
"解题步骤": [
"对于每对变量,分析变量间的数学关系",
"判断是否存在函数关系y = f(x)",
"若不存在函数关系,分析是否存在相关趋势",
"给出结论并说明判断依据"
],
"答案要点": [
"(1) 函数关系A = a²边长完全决定面积",
"(2) 相关关系:身高影响体重但不能完全决定",
"(3) 函数关系C = 2πr半径完全决定周长",
"(4) 相关关系:学习时间影响成绩但还有其他因素",
"(5) 相关关系:产量影响成本但还有固定成本等因素"
],
"易错点": ["误认为所有数值关系都是函数关系", "混淆因果关系与相关关系"]
},
{
"编号": "P8-1-02",
"名称": "正负相关判断问题",
"类型": "数据分析题",
"难度": "基础",
"问题描述": "根据下列数据,判断变量间的相关关系是正相关还是负相关:\n数据集某班学生身高(cm)与体重(kg)\n身高160, 165, 170, 175, 180\n体重55, 60, 65, 70, 75",
"考查目标": "识别正相关与负相关的特征",
"解题思路": [
"观察数据的变化趋势",
"分析一个变量增加时另一个变量的变化方向",
"得出相关方向的结论"
],
"关联知识": ["K8-1-1-02 正相关与负相关"],
"关联方法": ["M8-1-01 散点图绘制法"],
"解题步骤": [
"列出成对数据并观察变化趋势",
"身高从160cm增加到180cm",
"相应体重从55kg增加到75kg",
"两个变量同向变化,判断为正相关"
],
"答案要点": [
"数据变化:身高增加,体重也增加",
"相关方向:正相关",
"解释:身高较高的学生体重也较重"
],
"易错点": ["仅凭个别数据判断", "忽略整体趋势"]
},
{
"编号": "P8-1-03",
"名称": "线性相关识别问题",
"类型": "图形分析题",
"难度": "中等",
"问题描述": "根据给定的散点图模式,判断以下数据更适合线性相关还是非线性相关:\n(1) 点分布在一条直线附近,呈上升趋势\n(2) 点分布在抛物线附近\n(3) 点分布在指数曲线附近\n(4) 点分布杂乱,无明显模式",
"考查目标": "区分线性相关与非线性相关",
"解题思路": [
"观察散点图的整体分布模式",
"判断点是否集中在一条直线附近",
"识别其他可能的曲线模式"
],
"关联知识": ["K8-1-1-03 线性相关与非线性相关"],
"关联方法": ["M8-1-01 散点图绘制法"],
"解题步骤": [
"分析每种散点图模式",
"判断是否适合直线模型",
"识别具体的非线性模式",
"给出相关类型的判断"
],
"答案要点": [
"(1) 线性相关:点分布适合直线模型",
"(2) 非线性相关:适合抛物线模型",
"(3) 非线性相关:适合指数模型",
"(4) 无明显相关:点分布随机"
],
"易错点": ["强线性相关误认为非线性", "无明显相关误认为弱相关"]
},
{
"编号": "P8-1-04",
"名称": "相关系数计算问题",
"类型": "计算题",
"难度": "中等",
"问题描述": "计算下列数据的样本相关系数:\nX2, 4, 6, 8, 10\nY3, 5, 7, 9, 11\n(结果保留3位小数)",
"考查目标": "掌握样本相关系数的计算方法和步骤",
"解题思路": [
"计算X和Y的均值",
"计算偏差平方和及协方差",
"代入相关系数公式计算",
"解释结果的意义"
],
"关联知识": ["K8-1-2-01 样本相关系数"],
"关联方法": ["M8-1-02 样本相关系数计算法"],
"解题步骤": [
"计算均值:$\\bar{x} = 6, \\bar{y} = 7$",
"计算协方差:$S_{xy} = 40$",
"计算偏差平方和:$S_{xx} = 40, S_{yy} = 40$",
"计算相关系数:$r = \\frac{40}{\\sqrt{40 \\times 40}} = 1$",
"解释:完全线性正相关"
],
"答案要点": [
"样本相关系数r = 1.000",
"表示完全线性正相关",
"所有点完全落在一条直线上"
],
"易错点": ["计算过程中符号错误", "忽略相关系数的取值范围", "计算过程中精度损失"]
},
{
"编号": "P8-1-05",
"名称": "相关程度解释问题",
"类型": "解释题",
"难度": "基础",
"问题描述": "解释下列相关系数的含义:\n(1) r = 0.85\n(2) r = -0.92\n(3) r = 0.15\n(4) r = -0.38",
"考查目标": "理解相关系数的数值含义和相关强度判断",
"解题思路": [
"分析相关系数的符号确定相关方向",
"根据绝对值大小判断相关强度",
"给出实际意义的解释"
],
"关联知识": ["K8-1-2-01 样本相关系数"],
"关联方法": ["M8-1-02 样本相关系数计算法"],
"解题步骤": [
"分析每个相关系数的符号和绝对值",
"判断相关方向(正/负)",
"判断相关强度(强/中/弱)",
"给出实际意义的解释"
],
"答案要点": [
"(1) r = 0.85:强正相关,变量间有较强的同向线性关系",
"(2) r = -0.92:强负相关,变量间有很强的反向线性关系",
"(3) r = 0.15:弱正相关,变量间线性关系很弱",
"(4) r = -0.38:中度负相关,变量间有中等强度的反向线性关系"
],
"易错点": ["混淆相关强度与相关方向", "过度解释弱相关关系"]
},
{
"编号": "P8-2-01",
"名称": "回归模型理解问题",
"类型": "概念题",
"难度": "基础",
"问题描述": "解释一元线性回归模型$Y = bx + a + e$中各符号的含义,并说明模型的假设条件",
"考查目标": "理解一元线性回归模型的结构和假设",
"解题思路": [
"逐个解释模型中每个符号的含义",
"说明模型的基本假设",
"解释随机误差的作用"
],
"关联知识": ["K8-2-1-01 一元线性回归模型"],
"关联方法": ["M8-2-01 最小二乘估计法"],
"解题步骤": [
"解释因变量Y的含义",
"解释自变量x的含义",
"解释参数a和b的含义",
"解释随机误差e的含义和假设"
],
"答案要点": [
"Y因变量响应变量是被解释的变量",
"x自变量解释变量用于解释Y的变化",
"b斜率参数表示x每增加1单位Y的平均变化量",
"a截距参数表示x=0时Y的期望值",
"e随机误差包含其他影响因素和随机波动",
"假设E(e) = 0, D(e) = σ²,误差相互独立"
],
"易错点": ["混淆参数与变量", "忽略随机误差的作用", "误认为模型是确定性关系"]
},
{
"编号": "P8-2-02",
"名称": "最小二乘估计计算问题",
"类型": "计算题",
"难度": "中等",
"问题描述": "使用最小二乘法估计下列数据的回归方程:\nX1, 2, 3, 4, 5\nY2.1, 3.9, 6.2, 7.8, 10.1\n(结果保留2位小数)",
"考查目标": "掌握最小二乘估计的计算过程",
"解题思路": [
"计算X和Y的均值",
"计算偏差平方和及协方差",
"计算斜率和截距的估计值",
"写出回归方程"
],
"关联知识": ["K8-2-2-01 最小二乘估计"],
"关联方法": ["M8-2-01 最小二乘估计法"],
"解题步骤": [
"计算均值:$\\bar{x} = 3, \\bar{y} = 6.02$",
"计算$S_{xy} = 15.3, S_{xx} = 10$",
"计算斜率:$\\hat{b} = \\frac{15.3}{10} = 1.53$",
"计算截距:$\\hat{a} = 6.02 - 1.53 \\times 3 = 1.43$",
"回归方程:$\\hat{y} = 1.53x + 1.43$"
],
"答案要点": [
"斜率估计:$\\hat{b} = 1.53$",
"截距估计:$\\hat{a} = 1.43$",
"回归方程:$\\hat{y} = 1.53x + 1.43$"
],
"易错点": ["计算过程中小数位数处理不当", "均值计算错误", "公式记忆错误"]
},
{
"编号": "P8-2-03",
"名称": "回归方程解释问题",
"类型": "解释题",
"难度": "基础",
"问题描述": "某研究得到学生学习时间与考试成绩的回归方程为:$\\hat{y} = 2.5x + 45$其中x为学习时间小时y为考试成绩。解释该回归方程的实际意义",
"考查目标": "理解回归系数的实际含义",
"解题思路": [
"解释截距的含义",
"解释斜率的含义",
"说明如何使用回归方程进行预测",
"讨论回归方程的适用范围"
],
"关联知识": ["K8-2-1-01 一元线性回归模型", "K8-2-2-01 最小二乘估计"],
"关联方法": ["M8-2-01 最小二乘估计法"],
"解题步骤": [
"解释截距45的含义",
"解释斜率2.5的含义",
"说明预测方法",
"讨论适用条件"
],
"答案要点": [
"截距45学习时间为0小时时期望考试成绩为45分",
"斜率2.5学习时间每增加1小时考试成绩平均提高2.5分",
"预测学习6小时时预测成绩为$2.5×6+45=60$分",
"应用:用于在合理范围内预测不同学习时间的期望成绩"
],
"易错点": ["过度外推预测", "混淆相关与因果", "忽略预测的不确定性"]
},
{
"编号": "P8-2-04",
"名称": "残差分析问题",
"类型": "分析题",
"难度": "中等",
"问题描述": "根据下列数据建立回归方程并进行残差分析:\nX1, 2, 3, 4, 5\nY1.8, 3.1, 4.5, 5.9, 8.2\n要求(1)建立回归方程 (2)计算残差 (3)绘制残差图 (4)分析模型拟合效果",
"考查目标": "掌握残差分析的方法和意义",
"解题思路": [
"计算回归方程",
"计算预测值和残差",
"绘制残差图",
"分析残差分布特征"
],
"关联知识": ["K8-2-2-02 残差与残差分析"],
"关联方法": ["M8-2-02 残差分析法"],
"解题步骤": [
"计算回归方程:$\\hat{y} = 1.54x + 0.38$",
"计算预测值和残差",
"绘制残差图",
"分析残差分布模式"
],
"答案要点": [
"回归方程:$\\hat{y} = 1.54x + 0.38$",
"残差序列:-0.12, 0.02, 0.08, 0.04, 0.02",
"残差图特征残差随机分布在0附近无明显模式",
"拟合效果:模型拟合良好,线性关系假设合理"
],
"易错点": ["残差计算错误", "残差图解读错误", "忽视残差分析的诊断价值"]
},
{
"编号": "P8-2-05",
"名称": "决定系数计算与解释问题",
"类型": "计算解释题",
"难度": "中等",
"问题描述": "根据下列回归分析结果计算决定系数并解释:\nY的观测值10, 12, 15, 18, 20\nY的预测值10.5, 11.8, 15.2, 17.9, 19.6",
"考查目标": "掌握决定系数的计算和解释",
"解题思路": [
"计算Y的均值",
"计算总平方和SST",
"计算残差平方和SSE",
"计算决定系数R²",
"解释R²的实际意义"
],
"关联知识": ["K8-2-2-03 决定系数R²"],
"关联方法": ["M8-2-03 决定系数计算法"],
"解题步骤": [
"计算均值:$\\bar{y} = 15$",
"计算总平方和SST = 62",
"计算残差平方和SSE = 0.46",
"计算决定系数R² = 1 - 0.46/62 = 0.9926",
"解释模型解释力"
],
"答案要点": [
"决定系数R² = 0.9926",
"解释模型能解释因变量变异的99.26%",
"评价:拟合效果非常好",
"应用:模型具有很强的预测能力"
],
"易错点": ["平方和计算错误", "R²含义理解错误", "混淆R²与相关系数"]
},
{
"编号": "P8-3-01",
"名称": "列联表构造问题",
"类型": "数据整理题",
"难度": "基础",
"问题描述": "某医院统计了200名患者的性别与疾病类型数据\n男性患者甲病60人乙病30人\n女性患者甲病40人乙病70人\n请构造2×2列联表",
"考查目标": "掌握2×2列联表的构造方法",
"解题思路": [
"确定行变量和列变量",
"统计数据频数",
"填写列联表",
"计算边际频数"
],
"关联知识": ["K8-3-1-01 分类变量与2×2列联表"],
"关联方法": ["M8-3-01 2×2列联表构造法"],
"解题步骤": [
"设性别为行变量,疾病类型为列变量",
"统计四个组合的频数",
"填写列联表",
"计算行总和和列总和"
],
"答案要点": [
"列联表结构:\n| | 甲病 | 乙病 | 行总和 |\n|---|---|---|---|\n| 男性 | 60 | 30 | 90 |\n| 女性 | 40 | 70 | 110 |\n| 列总和 | 100 | 100 | 200 |"
],
"易错点": ["行列变量位置混淆", "边际频数计算错误", "频数统计错误"]
},
{
"编号": "P8-3-02",
"名称": "独立性检验问题",
"类型": "计算判断题",
"难度": "中等",
"问题描述": "对上题的列联表进行独立性检验(检验水平α = 0.05),判断性别与疾病类型是否独立",
"考查目标": "掌握卡方独立性检验的实施步骤",
"解题思路": [
"建立假设",
"计算期望频数",
"计算卡方统计量",
"查找临界值",
"做出统计判断",
"得出结论"
],
"关联知识": ["K8-3-2-01 独立性检验", "K8-3-2-02 临界值与检验水平"],
"关联方法": ["M8-3-02 卡方独立性检验法", "M8-3-03 期望频数计算法"],
"解题步骤": [
"假设H₀性别与疾病类型独立H₁不独立",
"计算期望频数E₁₁=45, E₁₂=45, E₂₁=55, E₂₂=55",
"计算卡方统计量:χ² = 20.91",
"查找临界值:χ²₀.₀₅ = 3.841",
"比较20.91 > 3.841拒绝H₀",
"结论:性别与疾病类型不独立"
],
"答案要点": [
"卡方统计量:χ² = 20.91",
"临界值:χ²₀.₀₅ = 3.841",
"统计判断:拒绝零假设",
"实际结论:性别与疾病类型存在关联关系"
],
"易错点": ["期望频数计算错误", "卡方统计量公式错误", "临界值查找错误", "结论表述不准确"]
},
{
"编号": "P8-3-03",
"名称": "期望频数计算问题",
"类型": "计算题",
"难度": "基础",
"问题描述": "给定下列2×2列联表计算在独立性假设下的期望频数\n| | A | B | 行总和 |\n|---|---|---|---|\n| X | 30 | 20 | 50 |\n| Y | 40 | 60 | 100 |\n| 列总和 | 70 | 80 | 150 |",
"考查目标": "掌握期望频数的计算方法",
"解题思路": [
"应用独立性假设下的期望频数公式",
"逐个计算四个格子的期望频数",
"验证期望频数总和"
],
"关联知识": ["K8-3-1-01 2×2列联表"],
"关联方法": ["M8-3-03 期望频数计算法"],
"解题步骤": [
"使用公式Eᵢⱼ = (行i总和 × 列j总和) / 总样本量",
"计算E₁₁ = (50 × 70) / 150 = 23.33",
"计算E₁₂ = (50 × 80) / 150 = 26.67",
"计算E₂₁ = (100 × 70) / 150 = 46.67",
"计算E₂₂ = (100 × 80) / 150 = 53.33"
],
"答案要点": [
"期望频数表:\n| | A | B |\n|---|---|---|\n| X | 23.33 | 26.67 |\n| Y | 46.67 | 53.33 |",
"验证:期望频数总和 = 150 = 观测频数总和"
],
"易错点": ["期望频数公式记忆错误", "边际频数使用错误", "计算精度问题"]
},
{
"编号": "P8-3-04",
"名称": "临界值查找问题",
"类型:查询应用题",
"难度": "基础",
"问题描述": "查找下列检验水平对应的卡方临界值自由度为1\n(1) α = 0.10\n(2) α = 0.05\n(3) α = 0.01\n(4) α = 0.001",
"考查目标": "掌握卡方分布临界值的查找和使用",
"解题思路": [
"确定自由度为1",
"根据检验水平查找标准卡方分布表",
"记录对应的临界值",
"说明临界值的含义"
],
"关联知识": ["K8-3-2-02 临界值与检验水平"],
"关联方法": ["M8-3-02 卡方独立性检验法"],
"解题步骤": [
"明确自由度df = 1",
"查找卡方分布临界值表",
"根据不同检验水平查找对应值",
"记录并解释临界值含义"
],
"答案要点": [
"(1) α = 0.10:χ²₀.₁ = 2.706",
"(2) α = 0.05:χ²₀.₀₅ = 3.841",
"(3) α = 0.01:χ²₀.₀₁ = 6.635",
"(4) α = 0.001:χ²₀.₀₀₁ = 10.828",
"含义:当统计量≥临界值时拒绝零假设"
],
"易错点": ["自由度确定错误", "临界值表查找错误", "检验水平与临界值对应关系错误"]
},
{
"编号": "P8-4-01",
"名称": "综合分析问题",
"类型": "综合应用题",
"难度": "困难",
"问题描述": "某教育研究机构调查了100名学生的学习时间与考试成绩以及性别与是否通过考试的情况。要求\n(1) 分析学习时间与考试成绩的相关关系\n(2) 建立回归方程预测考试成绩\n(3) 检验性别与是否通过考试是否独立\n(4) 综合分析学习效果的影响因素",
"考查目标": "综合运用第八章的统计方法分析实际教育数据",
"解题思路": [
"第一步:相关分析 - 计算相关系数判断相关关系",
"第二步:回归分析 - 建立回归模型并进行模型诊断",
"第三步:独立性检验 - 构造列联表检验性别与考试结果的关系",
"第四步:综合分析 - 结合统计结果提出教育建议"
],
"关联知识": ["K8-1-2-01 样本相关系数", "K8-2-2-01 最小二乘估计", "K8-3-2-01 独立性检验"],
"关联方法": ["M8-1-02 样本相关系数计算法", "M8-2-01 最小二乘估计法", "M8-3-02 卡方独立性检验法"],
"解题步骤": [
"计算学习时间与考试成绩的相关系数",
"建立回归方程并计算决定系数",
"构造性别与考试结果的2×2列联表",
"进行卡方独立性检验",
"综合分析统计结果的实际意义"
],
"答案要点": [
"相关系数反映学习时间与成绩的正相关程度",
"回归方程提供成绩预测模型",
"独立性检验判断性别对考试结果的影响",
"综合结论:学习时间、性别都是影响考试成绩的因素",
"教育建议:加强学习时间管理,关注性别差异"
],
"易错点": ["分析方法选择不当", "统计结果解释过度", "忽视实际应用背景", "结论缺乏统计依据"]
}
]
}