note/知识图谱/教科书-数学/all-back/method-选择性必修第八章-成对数据的统计分析.json
2025-11-19 10:16:05 +08:00

361 lines
15 KiB
JSON
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"章节信息": {
"章": "第八章",
"节": "8.1 成对数据的统计相关性8.2 一元线性回归模型及其应用8.3 列联表与独立性检验",
"小节": "8.1.1 变量的相关关系8.1.2 样本相关系数8.2.1 一元线性回归模型8.2.2 一元线性回归模型参数的最小二乘估计8.3.1 分类变量与列联表8.3.2 独立性检验",
"页码范围": "98-154"
},
"method_list": [
{
"编号": "M8-1-01",
"名称": "散点图绘制法",
"类型": "可视化方法",
"目的": "直观展示两个变量之间的关系特征和分布模式",
"步骤": [
"建立直角坐标系,通常以自变量为横轴,因变量为纵轴",
"将成对数据$(x_i, y_i)$表示为坐标系中的点",
"观察点的分布特征,识别关系模式"
],
"原理依据": {
"理论基础": "K8-1-1-04 散点图",
"核心思想": "通过几何直观展示变量间的统计关系",
"数学依据": "坐标几何原理"
},
"应用条件": {
"数据要求": "成对的数值型数据",
"样本容量": "至少需要5-10个数据点才能看出趋势",
"变量类型": "连续型或离散型数值变量"
},
"结果解释": {
"正相关模式": "点分布从左下到右上的趋势",
"负相关模式": "点分布从左上到右下的趋势",
"线性相关": "点分布在一条直线附近",
"非线性相关": "点分布在曲线附近",
"无明显相关": "点分布杂乱无章"
},
"关联知识": ["K8-1-1-01 相关关系", "K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
"注意事项": [
"坐标轴比例要适当,避免压缩或拉伸过度",
"注意识别异常值对整体趋势的影响",
"散点图只能展示关系,不能确定因果关系"
]
},
{
"编号": "M8-1-02",
"名称": "样本相关系数计算法",
"类型": "计算方法",
"目的": "定量描述两个变量线性相关的程度和方向",
"步骤": [
"计算变量X的样本均值$\\bar{x} = \\frac{1}{n}\\sum_{i=1}^{n}x_i$",
"计算变量Y的样本均值$\\bar{y} = \\frac{1}{n}\\sum_{i=1}^{n}y_i$",
"计算协方差$S_{xy} = \\sum_{i=1}^{n}(x_i - \\bar{x})(y_i - \\bar{y})$",
"计算X的偏差平方和$S_{xx} = \\sum_{i=1}^{n}(x_i - \\bar{x})^2$",
"计算Y的偏差平方和$S_{yy} = \\sum_{i=1}^{n}(y_i - \\bar{y})^2$",
"代入公式计算相关系数$r = \\frac{S_{xy}}{\\sqrt{S_{xx}S_{yy}}}$"
],
"原理依据": {
"理论基础": "K8-1-2-01 样本相关系数",
"核心思想": "通过标准化处理消除量纲影响,构造相关程度指标",
"数学依据": "柯西不等式保证|r|≤1"
},
"应用条件": {
"数据要求": "成对的数值型数据",
"样本容量": "一般要求n≥3",
"变量特征": "变量应该是连续的,无明显异常值"
},
"结果解释": {
"取值范围": "-1 ≤ r ≤ 1",
"相关方向": "r > 0为正相关r < 0为负相关",
"相关强度": "|r| > 0.8为强相关0.5 < |r| ≤ 0.8为中度相关,|r| ≤ 0.5为弱相关",
"无线性相关": "r = 0表示无线性相关可能有非线性相关"
},
"关联知识": ["K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
"注意事项": [
"相关系数只反映线性相关程度,不反映非线性相关",
"异常值会对相关系数产生较大影响",
"相关不等于因果,需结合专业知识判断"
]
},
{
"编号": "M8-2-01",
"名称": "最小二乘估计法",
"类型": "参数估计方法",
"目的": "估计一元线性回归模型的参数,找到最佳拟合直线",
"步骤": [
"建立残差平方和函数$Q(a,b) = \\sum_{i=1}^{n}(y_i - bx_i - a)^2$",
"对Q关于a求偏导并令其为0$\\frac{\\partial Q}{\\partial a} = -2\\sum_{i=1}^{n}(y_i - bx_i - a) = 0$",
"对Q关于b求偏导并令其为0$\\frac{\\partial Q}{\\partial b} = -2\\sum_{i=1}^{n}x_i(y_i - bx_i - a) = 0$",
"解方程组得到:$\\hat{b} = \\frac{\\sum_{i=1}^{n}(x_i - \\bar{x})(y_i - \\bar{y})}{\\sum_{i=1}^{n}(x_i - \\bar{x})^2}$",
"计算:$\\hat{a} = \\bar{y} - \\hat{b}\\bar{x}$",
"写出经验回归方程:$\\hat{y} = \\hat{b}x + \\hat{a}$"
],
"原理依据": {
"理论基础": "K8-2-2-01 最小二乘估计",
"核心思想": "使观测值与预测值偏差的平方和最小",
"数学依据": "微积分极值理论,二次函数性质"
},
"应用条件": {
"模型假设": "变量间存在线性相关关系",
"数据要求": "成对的数值型数据样本容量n≥2",
"误差假设": "随机误差相互独立期望为0方差相等"
},
"结果解释": {
"斜率$\\hat{b}$": "表示x每增加一个单位y的平均变化量",
"截距$\\hat{a}$": "表示x=0时y的预测值",
"回归方程": "描述y随x变化的平均趋势",
"拟合效果": "可通过残差图和决定系数评价"
},
"关联知识": ["K8-2-1-01 一元线性回归模型", "K8-2-2-02 残差与残差分析"],
"注意事项": [
"最小二乘估计对异常值敏感",
"只适用于线性关系,非线性关系需要变换",
"外推预测要谨慎,超出数据范围可能不准确"
]
},
{
"编号": "M8-2-02",
"名称": "残差分析法",
"类型": "模型诊断方法",
"目的": "检验回归模型的拟合效果和模型假设的满足程度",
"步骤": [
"计算每个观测点的预测值$\\hat{y}_i = \\hat{b}x_i + \\hat{a}$",
"计算每个观测点的残差$e_i = y_i - \\hat{y}_i$",
"绘制残差图以自变量x为横坐标残差e为纵坐标",
"观察残差图的分布模式",
"分析残差的随机性和方差齐性"
],
"原理依据": {
"理论基础": "K8-2-2-02 残差与残差分析",
"核心思想": "通过分析预测误差的特征评价模型质量",
"统计依据": "如果模型合适,残差应具有随机性"
},
"应用条件": {
"前提条件": "已经建立回归模型并获得参数估计",
"数据要求": "原始观测数据和对应的预测值",
"分析工具": "散点图,统计图表"
},
"结果解释": {
"理想模式": "残差随机分布在0线上下无明显模式",
"方差齐性": "残差的变异程度在x的不同取值范围内基本一致",
"非线性模式": "残差呈现曲线分布,说明需要非线性模型",
"方差非齐性": "残差变异随x变化需要方差稳定化变换",
"异常值": "个别残差绝对值过大,需要检查数据质量"
},
"关联知识": ["K8-2-2-01 最小二乘估计", "K8-2-2-03 决定系数R²"],
"注意事项": [
"残差分析是模型诊断的重要工具,不能省略",
"要注意残差图的尺度,避免误判",
"结合其他诊断指标综合评价模型"
]
},
{
"编号": "M8-2-03",
"名称": "决定系数计算法",
"类型": "模型评价方法",
"目的": "量化回归模型对因变量变异的解释程度",
"步骤": [
"计算总平方和$SST = \\sum_{i=1}^{n}(y_i - \\bar{y})^2$",
"计算残差平方和$SSE = \\sum_{i=1}^{n}(y_i - \\hat{y}_i)^2$",
"计算回归平方和$SSR = SST - SSE$",
"计算决定系数$R^2 = 1 - \\frac{SSE}{SST} = \\frac{SSR}{SST}$",
"解释R²的统计意义"
],
"原理依据": {
"理论基础": "K8-2-2-03 决定系数R²",
"核心思想": "用回归平方和占总平方和的比例衡量模型解释力",
"数学依据": "方差分解原理:总变异=回归变异+残差变异"
},
"应用条件": {
"适用模型": "一元线性回归模型",
"数据要求": "有因变量的观测值和预测值",
"计算基础": "基于最小二乘估计的结果"
},
"结果解释": {
"取值范围": "0 ≤ R² ≤ 1",
"含义": "R²表示因变量变异中能被自变量解释的比例",
"评价标准": "R² > 0.7为拟合较好0.4 < R² ≤ 0.7为中等R² ≤ 0.4为拟合较差",
"特殊情况": "在一元线性回归中R²等于相关系数的平方"
},
"关联知识": ["K8-1-2-01 样本相关系数", "K8-2-2-01 最小二乘估计"],
"注意事项": [
"R²越大不一定表示模型越好要考虑实际意义",
"增加自变量个数会提高R²需要用调整R²进行比较",
"R²不能反映预测的准确性需要结合其他指标"
]
},
{
"编号": "M8-3-01",
"名称": "2×2列联表构造法",
"类型": "数据整理方法",
"目的": "系统整理成对分类变量的数据,为独立性检验提供基础",
"步骤": [
"确定两个分类变量X和Y及其类别",
"设计2×2表格行表示变量X的两个类别列表示变量Y的两个类别",
"统计数据频数:统计$(X_1,Y_1)$, $(X_1,Y_2)$, $(X_2,Y_1)$, $(X_2,Y_2)$的频数",
"填写列联表:\n| | Y₁ | Y₂ | 行总和 |\n|---|---|---|---|\n| X₁ | a | b | a+b |\n| X₂ | c | d | c+d |\n| 列总和 | a+c | b+d | n=a+b+c+d |",
"计算边际频数(行总和和列总和)"
],
"原理依据": {
"理论基础": "K8-3-1-01 分类变量与2×2列联表",
"核心思想": "通过交叉分类统计展示变量的联合分布",
"统计依据": "频数统计原理,概率分布理论"
},
"应用条件": {
"变量要求": "两个分类变量,每个变量恰好有两个类别",
"数据要求": "成对的分类观测数据",
"样本容量": "总样本量n≥4每个格子期望频数≥5"
},
"结果解释": {
"频数含义": "每个格子表示相应类别组合出现的频数",
"边际分布": "行总和和列总和反映单个变量的分布",
"关联模式": "通过频数分布可初步观察变量间的关联模式",
"数据基础": "为独立性检验提供观测频数数据"
},
"关联知识": ["K8-3-2-01 独立性检验"],
"注意事项": [
"确保分类的互斥性和完备性",
"注意样本容量要求,避免期望频数过小",
"准确统计频数,避免分类错误"
]
},
{
"编号": "M8-3-02",
"名称": "卡方独立性检验法",
"类型": "假设检验方法",
"目的": "检验两个分类变量是否相互独立",
"步骤": [
"建立假设:\n 零假设 $H_0$变量X和Y相互独立\n 备择假设 $H_1$变量X和Y不独立",
"选择检验水平α通常取0.05或0.01",
"根据自由度df=1和检验水平α查找临界值$\\chi^2_\\alpha$",
"计算卡方统计量:$\\chi^2 = \\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$",
"做出判断:\n 若$\\chi^2 \\ge \\chi^2_\\alpha$,拒绝$H_0$\n 若$\\chi^2 < \\chi^2_\\alpha$,不能拒绝$H_0$",
"得出结论并解释实际意义"
],
"原理依据": {
"理论基础": "K8-3-2-01 独立性检验",
"核心思想": "基于小概率原理,比较观测频数与期望频数的差异",
"统计依据": "卡方分布理论,大样本条件下的极限分布",
"概率原理": "P(拒绝H₀|H₀为真) = α"
},
"应用条件": {
"数据要求": "2×2列联表数据",
"样本条件": "总样本量n≥4各格子期望频数≥5",
"检验假设": "变量相互独立时的期望频数计算",
"理论基础": "大样本条件下的卡方近似"
},
"结果解释": {
"拒绝H₀": "有统计学意义证据表明两个变量不独立,存在关联关系",
"不能拒绝H₀": "没有足够证据表明两个变量不独立,不能排除独立性",
"统计显著性": "结果具有统计学意义,但要注意实际意义",
"关联强度": "检验只判断是否独立,不反映关联强度"
},
"关联知识": ["K8-3-1-01 2×2列联表", "K8-3-2-02 临界值与检验水平"],
"注意事项": [
"确保满足样本容量条件,否则需要精确检验",
"检验结果只能说明是否独立,不能说明因果关系",
"要注意检验水平的选择,平衡两类错误",
"结合专业知识解释统计结果的实际意义"
]
},
{
"编号": "M8-3-03",
"名称": "期望频数计算法",
"类型": "计算方法",
"目的": "在独立性假设下计算列联表的期望频数,为卡方检验提供基础",
"步骤": [
"根据独立性假设P(X=i,Y=j) = P(X=i)×P(Y=j)",
"估计边际概率:$\\hat{P}(X=i) = \\frac{行i总和}{n}$$\\hat{P}(Y=j) = \\frac{列j总和}{n}$",
"计算期望频数:$E_{ij} = n \\times \\hat{P}(X=i) \\times \\hat{P}(Y=j) = \\frac{行i总和 \\times 列j总和}{n}$",
"具体计算:\n $E_{11} = \\frac{(a+b)(a+c)}{n}$\n $E_{12} = \\frac{(a+b)(b+d)}{n}$\n $E_{21} = \\frac{(c+d)(a+c)}{n}$\n $E_{22} = \\frac{(c+d)(b+d)}{n}$"
],
"原理依据": {
"理论基础": "概率独立性理论",
"核心思想": "独立性下联合概率等于边际概率的乘积",
"统计依据": "最大似然估计,频率估计概率",
"概率原理": "事件独立性定义"
},
"应用条件": {
"前提条件": "假设变量相互独立",
"数据要求": "已知列联表的观测频数和边际频数",
"计算基础": "基于观测数据的边际分布"
},
"结果解释": {
"期望频数含义": "在独立性假设下,各格子应有的理论频数",
"与观测频数比较": "差异越大,独立性假设越不可信",
"应用价值": "为卡方统计量计算提供期望值",
"诊断作用": "检查小期望频数问题"
},
"关联知识": ["K8-3-2-01 独立性检验", "K8-3-1-01 2×2列联表"],
"注意事项": [
"期望频数是基于独立性假设的理论值",
"小期望频数(<5会影响卡方近似的效果",
"期望频数总和等于观测频数总和",
"期望频数用于计算卡方统计量,不是实际观测值"
]
}
]
}