note/知识图谱/教科书-数学/all-back/knowledge-选择性必修第八章-成对数据的统计分析.json
2025-11-19 10:16:05 +08:00

464 lines
16 KiB
JSON
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"章节信息": {
"章": "第八章",
"节": "8.1 成对数据的统计相关性8.2 一元线性回归模型及其应用8.3 列联表与独立性检验",
"小节": "8.1.1 变量的相关关系8.1.2 样本相关系数8.2.1 一元线性回归模型8.2.2 一元线性回归模型参数的最小二乘估计8.3.1 分类变量与列联表8.3.2 独立性检验",
"页码范围": "98-154"
},
"knowledge_list": [
{
"编号": "K8-1-1-01",
"层次": "二级",
"名称": "相关关系",
"类型": "概念/定义",
"核心内容": {
"定义": "两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系",
"特征": "变量间存在关联,但不能用一个变量精确确定另一个变量的值",
"举例": "人的体重与身高之间存在相关关系,但身高不能完全决定体重"
},
"原理说明": {
"为什么这样定义": "现实世界中许多变量之间存在关联但不是函数关系,需要用相关关系来描述这种不完全确定的依赖关系",
"核心特征": [
"变量间存在相互影响",
"一个变量不能完全决定另一个变量",
"受其他因素影响"
]
},
"适用条件": {
"必要性": "研究变量间关系的基础概念",
"特殊说明": "相关关系不同于函数关系,后者可以由自变量精确确定因变量"
},
"前置知识": ["函数概念", "变量关系"],
"关联内容": {
"包含的子知识点": ["K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
"相关方法": ["散点图分析", "相关性判断"],
"教材位置": "选择性必修第8章8.1.1节 P98-100"
},
"重要程度": "核心",
"考查方式": ["相关关系识别", "与函数关系的区分", "实际例子分析"]
},
{
"编号": "K8-1-1-02",
"层次": "二级",
"名称": "正相关与负相关",
"类型": "概念/分类",
"核心内容": {
"正相关": "当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势",
"负相关": "当一个变量的值增加时,另一个变量的相应值呈现减小的趋势"
},
"原理说明": {
"为什么这样分类": "通过散点图可以直观观察变量间相关关系的方向,为定量分析提供基础",
"核心特征": [
"正相关:同向变化趋势",
"负相关:反向变化趋势",
"可通过散点图直观判断"
]
},
"适用条件": {
"必要性": "描述相关关系的基本方向",
"特殊说明": "需要通过散点图或数据验证"
},
"前置知识": ["K8-1-1-01 相关关系"],
"关联内容": {
"包含的子知识点": ["K8-1-2-01 样本相关系数"],
"相关方法": ["散点图分析", "趋势判断"],
"教材位置": "选择性必修第8章8.1.1节 P100-101"
},
"重要程度": "核心",
"考查方式": ["正负相关判断", "散点图分析", "实际应用"]
},
{
"编号": "K8-1-1-03",
"层次": "三级",
"名称": "线性相关与非线性相关",
"类型": "概念/分类",
"核心内容": {
"线性相关": "散点落在一条直线附近的相关关系",
"非线性相关": "散点落在某条曲线附近但不是直线附近的相关关系"
},
"原理说明": {
"为什么这样区分": "不同类型的相关关系需要用不同的数学模型来描述和拟合",
"核心特征": [
"线性相关:可用直线模型拟合",
"非线性相关:需要曲线模型拟合",
"通过散点图分布特征判断"
]
},
"适用条件": {
"必要性": "选择合适统计模型的基础",
"特殊说明": "有些情况下可能没有明显相关性"
},
"前置知识": ["K8-1-1-01 相关关系", "K8-1-1-02 正相关与负相关"],
"关联内容": {
"包含的子知识点": [],
"相关方法": ["模型选择", "曲线拟合"],
"教材位置": "选择性必修第8章8.1.1节 P100-101"
},
"重要程度": "重要",
"考查方式": ["相关性类型判断", "模型选择", "散点图分析"]
},
{
"编号": "K8-1-2-01",
"层次": "二级",
"名称": "样本相关系数",
"类型": "概念/公式",
"核心内容": {
"定义": "描述成对样本数据线性相关程度的数字特征",
"公式": "$r = \\frac{\\sum_{i=1}^{n} (x_i - \\bar{x})(y_i - \\bar{y})}{\\sqrt{\\sum_{i=1}^{n} (x_i - \\bar{x})^2} \\sqrt{\\sum_{i=1}^{n} (y_i - \\bar{y})^2}}$",
"取值范围": "$-1 \\le r \\le 1$"
},
"原理说明": {
"为什么这样建立": "通过标准化处理消除度量单位影响,构造出能够定量刻画线性相关程度的统计量",
"核心特征": [
"取值范围在[-1,1]之间",
"r>0时为正相关r<0时为负相关",
"|r|越接近1线性相关程度越强"
]
},
"适用条件": {
"必要性": "定量分析变量间线性相关程度的重要工具",
"特殊说明": "只反映线性相关程度,不反映非线性相关"
},
"前置知识": ["均值概念", "标准差概念", "K8-1-1-02 正相关与负相关"],
"关联内容": {
"包含的子知识点": [],
"相关方法": ["相关性分析", "统计推断"],
"教材位置": "选择性必修第8章8.1.2节 P102-108"
},
"重要程度": "核心",
"考查方式": ["相关系数计算", "相关程度判断", "统计推断"]
},
{
"编号": "K8-2-1-01",
"层次": "二级",
"名称": "一元线性回归模型",
"类型": "概念/模型",
"核心内容": {
"模型": "$\\begin{cases} Y = bx + a + e \\\\ E(e) = 0, D(e) = \\sigma^2 \\end{cases}$",
"变量说明": "Y为因变量响应变量x为自变量解释变量e为随机误差",
"参数说明": "a为截距参数b为斜率参数"
},
"原理说明": {
"为什么这样建立": "当变量间存在线性相关关系时,用线性函数刻画一个变量对另一个变量的影响,其他因素作为随机误差处理",
"核心特征": [
"线性关系描述",
"考虑随机误差",
"参数需要估计"
]
},
"适用条件": {
" necessity": "研究线性相关变量间统计关系的基础",
"特殊说明": "要求变量间存在线性相关关系"
},
"前置知识": ["K8-1-1-03 线性相关", "随机变量概念"],
"关联内容": {
"包含的子知识点": ["K8-2-2-01 最小二乘估计"],
"相关方法": ["回归分析", "参数估计"],
"教材位置": "选择性必修第8章8.2.1节 P110-112"
},
"重要程度": "核心",
"考查方式": ["模型理解", "参数解释", "应用分析"]
},
{
"编号": "K8-2-2-01",
"层次": "二级",
"名称": "最小二乘估计",
"类型": "方法/公式",
"核心内容": {
"原理": "使残差平方和$Q = \\sum_{i=1}^{n} (y_i - bx_i - a)^2$达到最小",
"参数估计公式": "$\\hat{b} = \\frac{\\sum_{i=1}^{n} (x_i - \\bar{x})(y_i - \\bar{y})}{\\sum_{i=1}^{n} (x_i - \\bar{x})^2}$$\\hat{a} = \\bar{y} - \\hat{b}\\bar{x}$",
"经验回归方程": "$\\hat{y} = \\hat{b}x + \\hat{a}$"
},
"原理说明": {
"为什么这样建立": "通过使观测值与预测值偏差的平方和最小,找到最佳拟合直线",
"核心特征": [
"残差平方和最小化",
"参数有明确的计算公式",
"提供最佳线性拟合"
]
},
"适用条件": {
"必要性": "估计一元线性回归模型参数的标准方法",
"特殊说明": "适用于线性相关关系的变量"
},
"前置知识": ["K8-2-1-01 一元线性回归模型", "极值概念"],
"关联内容": {
"包含的子知识点": ["K8-2-2-02 残差分析"],
"相关方法": ["参数估计", "模型拟合"],
"教材位置": "选择性必修第8章8.2.2节 P113-119"
},
"重要程度": "核心",
"考查方式": ["参数计算", "回归方程建立", "最小二乘原理应用"]
},
{
"编号": "K8-2-2-02",
"层次": "三级",
"名称": "残差与残差分析",
"类型": "概念/方法",
"核心内容": {
"残差定义": "观测值减去预测值,即$e_i = y_i - \\hat{y}_i$",
"残差图": "以自变量为横坐标,残差为纵坐标的散点图",
"残差分析目的": "检验模型拟合效果,判断模型假设是否满足"
},
"原理说明": {
"为什么需要残差分析": "通过分析残差的分布特征可以评价模型的好坏,发现模型改进的方向",
"核心特征": [
"残差反映模型拟合误差",
"残差图检验模型假设",
"用于模型诊断和改进"
]
},
"适用条件": {
"必要性": "评价回归模型拟合效果的重要工具",
"特殊说明": "残差应满足模型假设条件"
},
"前置知识": ["K8-2-2-01 最小二乘估计"],
"关联内容": {
"包含的子知识点": [],
"相关方法": ["模型诊断", "假设检验"],
"教材位置": "选择性必修第8章8.2.2节 P116-119"
},
"重要程度": "重要",
"考查方式": ["残差计算", "残差图分析", "模型评价"]
},
{
"编号": "K8-3-1-01",
"层次": "二级",
"名称": "分类变量与2×2列联表",
"类型": "概念/表示",
"核心内容": {
"分类变量": "取值于有限个类别的随机变量,通常用数值作为编号",
"2×2列联表": "整理成对分类变量数据的交叉分类频数表",
"表格结构": "包含两个分类变量的四个组合的频数统计"
},
"原理说明": {
"为什么需要列联表": "列联表系统地整理了分类变量的联合分布信息,便于分析变量间的关联性",
"核心特征": [
"交叉分类统计",
"频数分布展示",
"为独立性检验提供数据基础"
]
},
"适用条件": {
"必要性": "研究分类变量间关联关系的基础工具",
"特殊说明": "适用于取值为两个类别的分类变量"
},
"前置知识": ["分类变量概念", "频数分布"],
"关联内容": {
"包含的子知识点": ["K8-3-2-01 独立性检验"],
"相关方法": ["频数分析", "关联性研究"],
"教材位置": "选择性必修第8章8.3.1节 P129-133"
},
"重要程度": "核心",
"考查方式": ["列联表制作", "频数分析", "分类变量处理"]
},
{
"编号": "K8-3-2-01",
"层次": "二级",
"名称": "独立性检验",
"类型": "方法/检验",
"核心内容": {
"零假设": "$H_0$: 分类变量X和Y相互独立",
"检验统计量": "$\\chi^2 = \\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$",
"检验规则": "当$\\chi^2 \\ge \\chi^2_\\alpha$时,拒绝零假设,认为变量不独立"
},
"原理说明": {
"为什么这样建立": "基于小概率原理,比较观测频数与期望频数的差异,判断变量间是否独立",
"核心特征": [
"基于卡方统计量",
"使用小概率原理",
"控制犯错误概率"
]
},
"适用条件": {
"必要性": "检验分类变量间关联性的统计方法",
"特殊说明": "需要样本容量充分大"
},
"前置知识": ["K8-3-1-01 2×2列联表", "假设检验概念"],
"关联内容": {
"包含的子知识点": [],
"相关方法": ["假设检验", "统计推断"],
"教材位置": "选择性必修第8章8.3.2节 P133-141"
},
"重要程度": "核心",
"考查方式": ["独立性检验", "统计推断", "结论解释"]
},
{
"编号": "K8-1-1-04",
"层次": "三级",
"名称": "散点图",
"类型": "概念/工具",
"核心内容": {
"定义": "用直角坐标系中的点表示成对样本数据的统计图",
"作用": "直观描述两个变量之间的关系和分布特征",
"制作方法": "以一个变量为横轴,另一个变量为纵轴,将成对数据表示为坐标点"
},
"原理说明": {
"为什么使用散点图": "散点图能够直观展示变量间的关系类型、相关程度和异常值,为后续分析提供直观依据",
"核心特征": [
"直观展示变量关系",
"识别相关性类型",
"发现异常值"
]
},
"适用条件": {
"必要性": "分析成对数据关系的基础工具",
"特殊说明": "适用于数值型变量"
},
"前置知识": ["坐标系概念", "成对数据"],
"关联内容": {
"包含的子知识点": [],
"相关方法": ["数据可视化", "探索性数据分析"],
"教材位置": "选择性必修第8章8.1.1节 P99-101"
},
"重要程度": "重要",
"考查方式": ["散点图制作", "关系判断", "数据特征识别"]
},
{
"编号": "K8-2-2-03",
"层次": "三级",
"名称": "决定系数R²",
"类型": "概念/指标",
"核心内容": {
"定义": "$R^2 = 1 - \\frac{\\sum_{i=1}^n (y_i - \\hat{y}_i)^2}{\\sum_{i=1}^n (y_i - \\bar{y})^2}$",
"意义": "反映回归模型对数据变异的解释程度",
"取值范围": "0 ≤ R² ≤ 1越接近1拟合效果越好"
},
"原理说明": {
"为什么这样定义": "决定系数量化了回归模型解释因变量变异的比例,是评价模型拟合优度的重要指标",
"核心特征": [
"衡量模型拟合优度",
"取值范围[0,1]",
"值越大拟合效果越好"
]
},
"适用条件": {
"必要性": "评价回归模型拟合效果的重要指标",
"特殊说明": "在线性回归中等于样本相关系数的平方"
},
"前置知识": ["K8-2-2-01 ", ""],
"": {
"": [],
"": ["", ""],
"": "88.2.2 P123-124"
},
"": "",
"": ["R²", "", ""]
},
{
"": "K8-3-2-02",
"": "",
"": "",
"": "/",
"": {
"α": "0.1, 0.05, 0.01",
"x_α": "P(χ² x_α) = α",
"": "x.=2.706, x.=3.841, x.=6.635"
},
"": {
"": "",
"": [
"",
"",
""
]
},
"": {
"": "",
"": "α"
},
"": ["K8-3-2-01 ", ""],
"": {
"": [],
"": ["", ""],
"": "88.3.2 P135-136"
},
"": "",
"": ["", "", ""]
}
]
}