464 lines
16 KiB
JSON
464 lines
16 KiB
JSON
{
|
||
"章节信息": {
|
||
"章": "第八章",
|
||
"节": "8.1 成对数据的统计相关性,8.2 一元线性回归模型及其应用,8.3 列联表与独立性检验",
|
||
"小节": "8.1.1 变量的相关关系,8.1.2 样本相关系数,8.2.1 一元线性回归模型,8.2.2 一元线性回归模型参数的最小二乘估计,8.3.1 分类变量与列联表,8.3.2 独立性检验",
|
||
"页码范围": "98-154"
|
||
},
|
||
|
||
"knowledge_list": [
|
||
{
|
||
"编号": "K8-1-1-01",
|
||
"层次": "二级",
|
||
"名称": "相关关系",
|
||
"类型": "概念/定义",
|
||
|
||
"核心内容": {
|
||
"定义": "两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系",
|
||
"特征": "变量间存在关联,但不能用一个变量精确确定另一个变量的值",
|
||
"举例": "人的体重与身高之间存在相关关系,但身高不能完全决定体重"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样定义": "现实世界中许多变量之间存在关联但不是函数关系,需要用相关关系来描述这种不完全确定的依赖关系",
|
||
"核心特征": [
|
||
"变量间存在相互影响",
|
||
"一个变量不能完全决定另一个变量",
|
||
"受其他因素影响"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "研究变量间关系的基础概念",
|
||
"特殊说明": "相关关系不同于函数关系,后者可以由自变量精确确定因变量"
|
||
},
|
||
|
||
"前置知识": ["函数概念", "变量关系"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": ["K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
|
||
"相关方法": ["散点图分析", "相关性判断"],
|
||
"教材位置": "选择性必修第8章8.1.1节 P98-100"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["相关关系识别", "与函数关系的区分", "实际例子分析"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-1-1-02",
|
||
"层次": "二级",
|
||
"名称": "正相关与负相关",
|
||
"类型": "概念/分类",
|
||
|
||
"核心内容": {
|
||
"正相关": "当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势",
|
||
"负相关": "当一个变量的值增加时,另一个变量的相应值呈现减小的趋势"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样分类": "通过散点图可以直观观察变量间相关关系的方向,为定量分析提供基础",
|
||
"核心特征": [
|
||
"正相关:同向变化趋势",
|
||
"负相关:反向变化趋势",
|
||
"可通过散点图直观判断"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "描述相关关系的基本方向",
|
||
"特殊说明": "需要通过散点图或数据验证"
|
||
},
|
||
|
||
"前置知识": ["K8-1-1-01 相关关系"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": ["K8-1-2-01 样本相关系数"],
|
||
"相关方法": ["散点图分析", "趋势判断"],
|
||
"教材位置": "选择性必修第8章8.1.1节 P100-101"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["正负相关判断", "散点图分析", "实际应用"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-1-1-03",
|
||
"层次": "三级",
|
||
"名称": "线性相关与非线性相关",
|
||
"类型": "概念/分类",
|
||
|
||
"核心内容": {
|
||
"线性相关": "散点落在一条直线附近的相关关系",
|
||
"非线性相关": "散点落在某条曲线附近但不是直线附近的相关关系"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样区分": "不同类型的相关关系需要用不同的数学模型来描述和拟合",
|
||
"核心特征": [
|
||
"线性相关:可用直线模型拟合",
|
||
"非线性相关:需要曲线模型拟合",
|
||
"通过散点图分布特征判断"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "选择合适统计模型的基础",
|
||
"特殊说明": "有些情况下可能没有明显相关性"
|
||
},
|
||
|
||
"前置知识": ["K8-1-1-01 相关关系", "K8-1-1-02 正相关与负相关"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["模型选择", "曲线拟合"],
|
||
"教材位置": "选择性必修第8章8.1.1节 P100-101"
|
||
},
|
||
|
||
"重要程度": "重要",
|
||
"考查方式": ["相关性类型判断", "模型选择", "散点图分析"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-1-2-01",
|
||
"层次": "二级",
|
||
"名称": "样本相关系数",
|
||
"类型": "概念/公式",
|
||
|
||
"核心内容": {
|
||
"定义": "描述成对样本数据线性相关程度的数字特征",
|
||
"公式": "$r = \\frac{\\sum_{i=1}^{n} (x_i - \\bar{x})(y_i - \\bar{y})}{\\sqrt{\\sum_{i=1}^{n} (x_i - \\bar{x})^2} \\sqrt{\\sum_{i=1}^{n} (y_i - \\bar{y})^2}}$",
|
||
"取值范围": "$-1 \\le r \\le 1$"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样建立": "通过标准化处理消除度量单位影响,构造出能够定量刻画线性相关程度的统计量",
|
||
"核心特征": [
|
||
"取值范围在[-1,1]之间",
|
||
"r>0时为正相关,r<0时为负相关",
|
||
"|r|越接近1,线性相关程度越强"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "定量分析变量间线性相关程度的重要工具",
|
||
"特殊说明": "只反映线性相关程度,不反映非线性相关"
|
||
},
|
||
|
||
"前置知识": ["均值概念", "标准差概念", "K8-1-1-02 正相关与负相关"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["相关性分析", "统计推断"],
|
||
"教材位置": "选择性必修第8章8.1.2节 P102-108"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["相关系数计算", "相关程度判断", "统计推断"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-2-1-01",
|
||
"层次": "二级",
|
||
"名称": "一元线性回归模型",
|
||
"类型": "概念/模型",
|
||
|
||
"核心内容": {
|
||
"模型": "$\\begin{cases} Y = bx + a + e \\\\ E(e) = 0, D(e) = \\sigma^2 \\end{cases}$",
|
||
"变量说明": "Y为因变量(响应变量),x为自变量(解释变量),e为随机误差",
|
||
"参数说明": "a为截距参数,b为斜率参数"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样建立": "当变量间存在线性相关关系时,用线性函数刻画一个变量对另一个变量的影响,其他因素作为随机误差处理",
|
||
"核心特征": [
|
||
"线性关系描述",
|
||
"考虑随机误差",
|
||
"参数需要估计"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
" necessity": "研究线性相关变量间统计关系的基础",
|
||
"特殊说明": "要求变量间存在线性相关关系"
|
||
},
|
||
|
||
"前置知识": ["K8-1-1-03 线性相关", "随机变量概念"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": ["K8-2-2-01 最小二乘估计"],
|
||
"相关方法": ["回归分析", "参数估计"],
|
||
"教材位置": "选择性必修第8章8.2.1节 P110-112"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["模型理解", "参数解释", "应用分析"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-2-2-01",
|
||
"层次": "二级",
|
||
"名称": "最小二乘估计",
|
||
"类型": "方法/公式",
|
||
|
||
"核心内容": {
|
||
"原理": "使残差平方和$Q = \\sum_{i=1}^{n} (y_i - bx_i - a)^2$达到最小",
|
||
"参数估计公式": "$\\hat{b} = \\frac{\\sum_{i=1}^{n} (x_i - \\bar{x})(y_i - \\bar{y})}{\\sum_{i=1}^{n} (x_i - \\bar{x})^2}$,$\\hat{a} = \\bar{y} - \\hat{b}\\bar{x}$",
|
||
"经验回归方程": "$\\hat{y} = \\hat{b}x + \\hat{a}$"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样建立": "通过使观测值与预测值偏差的平方和最小,找到最佳拟合直线",
|
||
"核心特征": [
|
||
"残差平方和最小化",
|
||
"参数有明确的计算公式",
|
||
"提供最佳线性拟合"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "估计一元线性回归模型参数的标准方法",
|
||
"特殊说明": "适用于线性相关关系的变量"
|
||
},
|
||
|
||
"前置知识": ["K8-2-1-01 一元线性回归模型", "极值概念"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": ["K8-2-2-02 残差分析"],
|
||
"相关方法": ["参数估计", "模型拟合"],
|
||
"教材位置": "选择性必修第8章8.2.2节 P113-119"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["参数计算", "回归方程建立", "最小二乘原理应用"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-2-2-02",
|
||
"层次": "三级",
|
||
"名称": "残差与残差分析",
|
||
"类型": "概念/方法",
|
||
|
||
"核心内容": {
|
||
"残差定义": "观测值减去预测值,即$e_i = y_i - \\hat{y}_i$",
|
||
"残差图": "以自变量为横坐标,残差为纵坐标的散点图",
|
||
"残差分析目的": "检验模型拟合效果,判断模型假设是否满足"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么需要残差分析": "通过分析残差的分布特征可以评价模型的好坏,发现模型改进的方向",
|
||
"核心特征": [
|
||
"残差反映模型拟合误差",
|
||
"残差图检验模型假设",
|
||
"用于模型诊断和改进"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "评价回归模型拟合效果的重要工具",
|
||
"特殊说明": "残差应满足模型假设条件"
|
||
},
|
||
|
||
"前置知识": ["K8-2-2-01 最小二乘估计"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["模型诊断", "假设检验"],
|
||
"教材位置": "选择性必修第8章8.2.2节 P116-119"
|
||
},
|
||
|
||
"重要程度": "重要",
|
||
"考查方式": ["残差计算", "残差图分析", "模型评价"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-3-1-01",
|
||
"层次": "二级",
|
||
"名称": "分类变量与2×2列联表",
|
||
"类型": "概念/表示",
|
||
|
||
"核心内容": {
|
||
"分类变量": "取值于有限个类别的随机变量,通常用数值作为编号",
|
||
"2×2列联表": "整理成对分类变量数据的交叉分类频数表",
|
||
"表格结构": "包含两个分类变量的四个组合的频数统计"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么需要列联表": "列联表系统地整理了分类变量的联合分布信息,便于分析变量间的关联性",
|
||
"核心特征": [
|
||
"交叉分类统计",
|
||
"频数分布展示",
|
||
"为独立性检验提供数据基础"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "研究分类变量间关联关系的基础工具",
|
||
"特殊说明": "适用于取值为两个类别的分类变量"
|
||
},
|
||
|
||
"前置知识": ["分类变量概念", "频数分布"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": ["K8-3-2-01 独立性检验"],
|
||
"相关方法": ["频数分析", "关联性研究"],
|
||
"教材位置": "选择性必修第8章8.3.1节 P129-133"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["列联表制作", "频数分析", "分类变量处理"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-3-2-01",
|
||
"层次": "二级",
|
||
"名称": "独立性检验",
|
||
"类型": "方法/检验",
|
||
|
||
"核心内容": {
|
||
"零假设": "$H_0$: 分类变量X和Y相互独立",
|
||
"检验统计量": "$\\chi^2 = \\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$",
|
||
"检验规则": "当$\\chi^2 \\ge \\chi^2_\\alpha$时,拒绝零假设,认为变量不独立"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样建立": "基于小概率原理,比较观测频数与期望频数的差异,判断变量间是否独立",
|
||
"核心特征": [
|
||
"基于卡方统计量",
|
||
"使用小概率原理",
|
||
"控制犯错误概率"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "检验分类变量间关联性的统计方法",
|
||
"特殊说明": "需要样本容量充分大"
|
||
},
|
||
|
||
"前置知识": ["K8-3-1-01 2×2列联表", "假设检验概念"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["假设检验", "统计推断"],
|
||
"教材位置": "选择性必修第8章8.3.2节 P133-141"
|
||
},
|
||
|
||
"重要程度": "核心",
|
||
"考查方式": ["独立性检验", "统计推断", "结论解释"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-1-1-04",
|
||
"层次": "三级",
|
||
"名称": "散点图",
|
||
"类型": "概念/工具",
|
||
|
||
"核心内容": {
|
||
"定义": "用直角坐标系中的点表示成对样本数据的统计图",
|
||
"作用": "直观描述两个变量之间的关系和分布特征",
|
||
"制作方法": "以一个变量为横轴,另一个变量为纵轴,将成对数据表示为坐标点"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么使用散点图": "散点图能够直观展示变量间的关系类型、相关程度和异常值,为后续分析提供直观依据",
|
||
"核心特征": [
|
||
"直观展示变量关系",
|
||
"识别相关性类型",
|
||
"发现异常值"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "分析成对数据关系的基础工具",
|
||
"特殊说明": "适用于数值型变量"
|
||
},
|
||
|
||
"前置知识": ["坐标系概念", "成对数据"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["数据可视化", "探索性数据分析"],
|
||
"教材位置": "选择性必修第8章8.1.1节 P99-101"
|
||
},
|
||
|
||
"重要程度": "重要",
|
||
"考查方式": ["散点图制作", "关系判断", "数据特征识别"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-2-2-03",
|
||
"层次": "三级",
|
||
"名称": "决定系数R²",
|
||
"类型": "概念/指标",
|
||
|
||
"核心内容": {
|
||
"定义": "$R^2 = 1 - \\frac{\\sum_{i=1}^n (y_i - \\hat{y}_i)^2}{\\sum_{i=1}^n (y_i - \\bar{y})^2}$",
|
||
"意义": "反映回归模型对数据变异的解释程度",
|
||
"取值范围": "0 ≤ R² ≤ 1,越接近1拟合效果越好"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么这样定义": "决定系数量化了回归模型解释因变量变异的比例,是评价模型拟合优度的重要指标",
|
||
"核心特征": [
|
||
"衡量模型拟合优度",
|
||
"取值范围[0,1]",
|
||
"值越大拟合效果越好"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "评价回归模型拟合效果的重要指标",
|
||
"特殊说明": "在线性回归中等于样本相关系数的平方"
|
||
},
|
||
|
||
"前置知识": ["K8-2-2-01 最小二乘估计", "方差概念"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["模型评价", "拟合优度检验"],
|
||
"教材位置": "选择性必修第8章8.2.2节 P123-124"
|
||
},
|
||
|
||
"重要程度": "重要",
|
||
"考查方式": ["R²计算", "模型评价", "拟合效果比较"]
|
||
},
|
||
|
||
{
|
||
"编号": "K8-3-2-02",
|
||
"层次": "三级",
|
||
"名称": "临界值与检验水平",
|
||
"类型": "概念/参数",
|
||
|
||
"核心内容": {
|
||
"检验水平α": "预先设定的小概率值,通常取0.1, 0.05, 0.01等",
|
||
"临界值x_α": "满足P(χ² ≥ x_α) = α的值",
|
||
"常用临界值": "x₀.₁=2.706, x₀.₀₅=3.841, x₀.₀₁=6.635等"
|
||
},
|
||
|
||
"原理说明": {
|
||
"为什么需要临界值": "临界值为统计推断提供判断标准,控制犯第一类错误的概率",
|
||
"核心特征": [
|
||
"基于小概率原理",
|
||
"控制错误概率",
|
||
"提供明确判断标准"
|
||
]
|
||
},
|
||
|
||
"适用条件": {
|
||
"必要性": "进行假设检验的必要参数",
|
||
"特殊说明": "α越小,检验标准越严格"
|
||
},
|
||
|
||
"前置知识": ["K8-3-2-01 独立性检验", "小概率原理"],
|
||
|
||
"关联内容": {
|
||
"包含的子知识点": [],
|
||
"相关方法": ["假设检验", "统计推断"],
|
||
"教材位置": "选择性必修第8章8.3.2节 P135-136"
|
||
},
|
||
|
||
"重要程度": "重要",
|
||
"考查方式": ["临界值查找", "检验水平选择", "统计推断"]
|
||
}
|
||
]
|
||
} |