361 lines
15 KiB
JSON
361 lines
15 KiB
JSON
{
|
||
"章节信息": {
|
||
"章": "第八章",
|
||
"节": "8.1 成对数据的统计相关性,8.2 一元线性回归模型及其应用,8.3 列联表与独立性检验",
|
||
"小节": "8.1.1 变量的相关关系,8.1.2 样本相关系数,8.2.1 一元线性回归模型,8.2.2 一元线性回归模型参数的最小二乘估计,8.3.1 分类变量与列联表,8.3.2 独立性检验",
|
||
"页码范围": "98-154"
|
||
},
|
||
|
||
"method_list": [
|
||
{
|
||
"编号": "M8-1-01",
|
||
"名称": "散点图绘制法",
|
||
"类型": "可视化方法",
|
||
|
||
"目的": "直观展示两个变量之间的关系特征和分布模式",
|
||
|
||
"步骤": [
|
||
"建立直角坐标系,通常以自变量为横轴,因变量为纵轴",
|
||
"将成对数据$(x_i, y_i)$表示为坐标系中的点",
|
||
"观察点的分布特征,识别关系模式"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-1-1-04 散点图",
|
||
"核心思想": "通过几何直观展示变量间的统计关系",
|
||
"数学依据": "坐标几何原理"
|
||
},
|
||
|
||
"应用条件": {
|
||
"数据要求": "成对的数值型数据",
|
||
"样本容量": "至少需要5-10个数据点才能看出趋势",
|
||
"变量类型": "连续型或离散型数值变量"
|
||
},
|
||
|
||
"结果解释": {
|
||
"正相关模式": "点分布从左下到右上的趋势",
|
||
"负相关模式": "点分布从左上到右下的趋势",
|
||
"线性相关": "点分布在一条直线附近",
|
||
"非线性相关": "点分布在曲线附近",
|
||
"无明显相关": "点分布杂乱无章"
|
||
},
|
||
|
||
"关联知识": ["K8-1-1-01 相关关系", "K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
|
||
|
||
"注意事项": [
|
||
"坐标轴比例要适当,避免压缩或拉伸过度",
|
||
"注意识别异常值对整体趋势的影响",
|
||
"散点图只能展示关系,不能确定因果关系"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-1-02",
|
||
"名称": "样本相关系数计算法",
|
||
"类型": "计算方法",
|
||
|
||
"目的": "定量描述两个变量线性相关的程度和方向",
|
||
|
||
"步骤": [
|
||
"计算变量X的样本均值$\\bar{x} = \\frac{1}{n}\\sum_{i=1}^{n}x_i$",
|
||
"计算变量Y的样本均值$\\bar{y} = \\frac{1}{n}\\sum_{i=1}^{n}y_i$",
|
||
"计算协方差$S_{xy} = \\sum_{i=1}^{n}(x_i - \\bar{x})(y_i - \\bar{y})$",
|
||
"计算X的偏差平方和$S_{xx} = \\sum_{i=1}^{n}(x_i - \\bar{x})^2$",
|
||
"计算Y的偏差平方和$S_{yy} = \\sum_{i=1}^{n}(y_i - \\bar{y})^2$",
|
||
"代入公式计算相关系数$r = \\frac{S_{xy}}{\\sqrt{S_{xx}S_{yy}}}$"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-1-2-01 样本相关系数",
|
||
"核心思想": "通过标准化处理消除量纲影响,构造相关程度指标",
|
||
"数学依据": "柯西不等式保证|r|≤1"
|
||
},
|
||
|
||
"应用条件": {
|
||
"数据要求": "成对的数值型数据",
|
||
"样本容量": "一般要求n≥3",
|
||
"变量特征": "变量应该是连续的,无明显异常值"
|
||
},
|
||
|
||
"结果解释": {
|
||
"取值范围": "-1 ≤ r ≤ 1",
|
||
"相关方向": "r > 0为正相关,r < 0为负相关",
|
||
"相关强度": "|r| > 0.8为强相关,0.5 < |r| ≤ 0.8为中度相关,|r| ≤ 0.5为弱相关",
|
||
"无线性相关": "r = 0表示无线性相关(可能有非线性相关)"
|
||
},
|
||
|
||
"关联知识": ["K8-1-1-02 正相关与负相关", "K8-1-1-03 线性相关与非线性相关"],
|
||
|
||
"注意事项": [
|
||
"相关系数只反映线性相关程度,不反映非线性相关",
|
||
"异常值会对相关系数产生较大影响",
|
||
"相关不等于因果,需结合专业知识判断"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-2-01",
|
||
"名称": "最小二乘估计法",
|
||
"类型": "参数估计方法",
|
||
|
||
"目的": "估计一元线性回归模型的参数,找到最佳拟合直线",
|
||
|
||
"步骤": [
|
||
"建立残差平方和函数$Q(a,b) = \\sum_{i=1}^{n}(y_i - bx_i - a)^2$",
|
||
"对Q关于a求偏导并令其为0:$\\frac{\\partial Q}{\\partial a} = -2\\sum_{i=1}^{n}(y_i - bx_i - a) = 0$",
|
||
"对Q关于b求偏导并令其为0:$\\frac{\\partial Q}{\\partial b} = -2\\sum_{i=1}^{n}x_i(y_i - bx_i - a) = 0$",
|
||
"解方程组得到:$\\hat{b} = \\frac{\\sum_{i=1}^{n}(x_i - \\bar{x})(y_i - \\bar{y})}{\\sum_{i=1}^{n}(x_i - \\bar{x})^2}$",
|
||
"计算:$\\hat{a} = \\bar{y} - \\hat{b}\\bar{x}$",
|
||
"写出经验回归方程:$\\hat{y} = \\hat{b}x + \\hat{a}$"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-2-2-01 最小二乘估计",
|
||
"核心思想": "使观测值与预测值偏差的平方和最小",
|
||
"数学依据": "微积分极值理论,二次函数性质"
|
||
},
|
||
|
||
"应用条件": {
|
||
"模型假设": "变量间存在线性相关关系",
|
||
"数据要求": "成对的数值型数据,样本容量n≥2",
|
||
"误差假设": "随机误差相互独立,期望为0,方差相等"
|
||
},
|
||
|
||
"结果解释": {
|
||
"斜率$\\hat{b}$": "表示x每增加一个单位,y的平均变化量",
|
||
"截距$\\hat{a}$": "表示x=0时y的预测值",
|
||
"回归方程": "描述y随x变化的平均趋势",
|
||
"拟合效果": "可通过残差图和决定系数评价"
|
||
},
|
||
|
||
"关联知识": ["K8-2-1-01 一元线性回归模型", "K8-2-2-02 残差与残差分析"],
|
||
|
||
"注意事项": [
|
||
"最小二乘估计对异常值敏感",
|
||
"只适用于线性关系,非线性关系需要变换",
|
||
"外推预测要谨慎,超出数据范围可能不准确"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-2-02",
|
||
"名称": "残差分析法",
|
||
"类型": "模型诊断方法",
|
||
|
||
"目的": "检验回归模型的拟合效果和模型假设的满足程度",
|
||
|
||
"步骤": [
|
||
"计算每个观测点的预测值$\\hat{y}_i = \\hat{b}x_i + \\hat{a}$",
|
||
"计算每个观测点的残差$e_i = y_i - \\hat{y}_i$",
|
||
"绘制残差图:以自变量x为横坐标,残差e为纵坐标",
|
||
"观察残差图的分布模式",
|
||
"分析残差的随机性和方差齐性"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-2-2-02 残差与残差分析",
|
||
"核心思想": "通过分析预测误差的特征评价模型质量",
|
||
"统计依据": "如果模型合适,残差应具有随机性"
|
||
},
|
||
|
||
"应用条件": {
|
||
"前提条件": "已经建立回归模型并获得参数估计",
|
||
"数据要求": "原始观测数据和对应的预测值",
|
||
"分析工具": "散点图,统计图表"
|
||
},
|
||
|
||
"结果解释": {
|
||
"理想模式": "残差随机分布在0线上下,无明显模式",
|
||
"方差齐性": "残差的变异程度在x的不同取值范围内基本一致",
|
||
"非线性模式": "残差呈现曲线分布,说明需要非线性模型",
|
||
"方差非齐性": "残差变异随x变化,需要方差稳定化变换",
|
||
"异常值": "个别残差绝对值过大,需要检查数据质量"
|
||
},
|
||
|
||
"关联知识": ["K8-2-2-01 最小二乘估计", "K8-2-2-03 决定系数R²"],
|
||
|
||
"注意事项": [
|
||
"残差分析是模型诊断的重要工具,不能省略",
|
||
"要注意残差图的尺度,避免误判",
|
||
"结合其他诊断指标综合评价模型"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-2-03",
|
||
"名称": "决定系数计算法",
|
||
"类型": "模型评价方法",
|
||
|
||
"目的": "量化回归模型对因变量变异的解释程度",
|
||
|
||
"步骤": [
|
||
"计算总平方和$SST = \\sum_{i=1}^{n}(y_i - \\bar{y})^2$",
|
||
"计算残差平方和$SSE = \\sum_{i=1}^{n}(y_i - \\hat{y}_i)^2$",
|
||
"计算回归平方和$SSR = SST - SSE$",
|
||
"计算决定系数$R^2 = 1 - \\frac{SSE}{SST} = \\frac{SSR}{SST}$",
|
||
"解释R²的统计意义"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-2-2-03 决定系数R²",
|
||
"核心思想": "用回归平方和占总平方和的比例衡量模型解释力",
|
||
"数学依据": "方差分解原理:总变异=回归变异+残差变异"
|
||
},
|
||
|
||
"应用条件": {
|
||
"适用模型": "一元线性回归模型",
|
||
"数据要求": "有因变量的观测值和预测值",
|
||
"计算基础": "基于最小二乘估计的结果"
|
||
},
|
||
|
||
"结果解释": {
|
||
"取值范围": "0 ≤ R² ≤ 1",
|
||
"含义": "R²表示因变量变异中能被自变量解释的比例",
|
||
"评价标准": "R² > 0.7为拟合较好,0.4 < R² ≤ 0.7为中等,R² ≤ 0.4为拟合较差",
|
||
"特殊情况": "在一元线性回归中,R²等于相关系数的平方"
|
||
},
|
||
|
||
"关联知识": ["K8-1-2-01 样本相关系数", "K8-2-2-01 最小二乘估计"],
|
||
|
||
"注意事项": [
|
||
"R²越大不一定表示模型越好,要考虑实际意义",
|
||
"增加自变量个数会提高R²,需要用调整R²进行比较",
|
||
"R²不能反映预测的准确性,需要结合其他指标"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-3-01",
|
||
"名称": "2×2列联表构造法",
|
||
"类型": "数据整理方法",
|
||
|
||
"目的": "系统整理成对分类变量的数据,为独立性检验提供基础",
|
||
|
||
"步骤": [
|
||
"确定两个分类变量X和Y及其类别",
|
||
"设计2×2表格,行表示变量X的两个类别,列表示变量Y的两个类别",
|
||
"统计数据频数:统计$(X_1,Y_1)$, $(X_1,Y_2)$, $(X_2,Y_1)$, $(X_2,Y_2)$的频数",
|
||
"填写列联表:\n| | Y₁ | Y₂ | 行总和 |\n|---|---|---|---|\n| X₁ | a | b | a+b |\n| X₂ | c | d | c+d |\n| 列总和 | a+c | b+d | n=a+b+c+d |",
|
||
"计算边际频数(行总和和列总和)"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-3-1-01 分类变量与2×2列联表",
|
||
"核心思想": "通过交叉分类统计展示变量的联合分布",
|
||
"统计依据": "频数统计原理,概率分布理论"
|
||
},
|
||
|
||
"应用条件": {
|
||
"变量要求": "两个分类变量,每个变量恰好有两个类别",
|
||
"数据要求": "成对的分类观测数据",
|
||
"样本容量": "总样本量n≥4,每个格子期望频数≥5"
|
||
},
|
||
|
||
"结果解释": {
|
||
"频数含义": "每个格子表示相应类别组合出现的频数",
|
||
"边际分布": "行总和和列总和反映单个变量的分布",
|
||
"关联模式": "通过频数分布可初步观察变量间的关联模式",
|
||
"数据基础": "为独立性检验提供观测频数数据"
|
||
},
|
||
|
||
"关联知识": ["K8-3-2-01 独立性检验"],
|
||
|
||
"注意事项": [
|
||
"确保分类的互斥性和完备性",
|
||
"注意样本容量要求,避免期望频数过小",
|
||
"准确统计频数,避免分类错误"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-3-02",
|
||
"名称": "卡方独立性检验法",
|
||
"类型": "假设检验方法",
|
||
|
||
"目的": "检验两个分类变量是否相互独立",
|
||
|
||
"步骤": [
|
||
"建立假设:\n 零假设 $H_0$:变量X和Y相互独立\n 备择假设 $H_1$:变量X和Y不独立",
|
||
"选择检验水平α(通常取0.05或0.01)",
|
||
"根据自由度df=1和检验水平α查找临界值$\\chi^2_\\alpha$",
|
||
"计算卡方统计量:$\\chi^2 = \\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$",
|
||
"做出判断:\n 若$\\chi^2 \\ge \\chi^2_\\alpha$,拒绝$H_0$\n 若$\\chi^2 < \\chi^2_\\alpha$,不能拒绝$H_0$",
|
||
"得出结论并解释实际意义"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "K8-3-2-01 独立性检验",
|
||
"核心思想": "基于小概率原理,比较观测频数与期望频数的差异",
|
||
"统计依据": "卡方分布理论,大样本条件下的极限分布",
|
||
"概率原理": "P(拒绝H₀|H₀为真) = α"
|
||
},
|
||
|
||
"应用条件": {
|
||
"数据要求": "2×2列联表数据",
|
||
"样本条件": "总样本量n≥4,各格子期望频数≥5",
|
||
"检验假设": "变量相互独立时的期望频数计算",
|
||
"理论基础": "大样本条件下的卡方近似"
|
||
},
|
||
|
||
"结果解释": {
|
||
"拒绝H₀": "有统计学意义证据表明两个变量不独立,存在关联关系",
|
||
"不能拒绝H₀": "没有足够证据表明两个变量不独立,不能排除独立性",
|
||
"统计显著性": "结果具有统计学意义,但要注意实际意义",
|
||
"关联强度": "检验只判断是否独立,不反映关联强度"
|
||
},
|
||
|
||
"关联知识": ["K8-3-1-01 2×2列联表", "K8-3-2-02 临界值与检验水平"],
|
||
|
||
"注意事项": [
|
||
"确保满足样本容量条件,否则需要精确检验",
|
||
"检验结果只能说明是否独立,不能说明因果关系",
|
||
"要注意检验水平的选择,平衡两类错误",
|
||
"结合专业知识解释统计结果的实际意义"
|
||
]
|
||
},
|
||
|
||
{
|
||
"编号": "M8-3-03",
|
||
"名称": "期望频数计算法",
|
||
"类型": "计算方法",
|
||
|
||
"目的": "在独立性假设下计算列联表的期望频数,为卡方检验提供基础",
|
||
|
||
"步骤": [
|
||
"根据独立性假设:P(X=i,Y=j) = P(X=i)×P(Y=j)",
|
||
"估计边际概率:$\\hat{P}(X=i) = \\frac{行i总和}{n}$,$\\hat{P}(Y=j) = \\frac{列j总和}{n}$",
|
||
"计算期望频数:$E_{ij} = n \\times \\hat{P}(X=i) \\times \\hat{P}(Y=j) = \\frac{行i总和 \\times 列j总和}{n}$",
|
||
"具体计算:\n $E_{11} = \\frac{(a+b)(a+c)}{n}$\n $E_{12} = \\frac{(a+b)(b+d)}{n}$\n $E_{21} = \\frac{(c+d)(a+c)}{n}$\n $E_{22} = \\frac{(c+d)(b+d)}{n}$"
|
||
],
|
||
|
||
"原理依据": {
|
||
"理论基础": "概率独立性理论",
|
||
"核心思想": "独立性下联合概率等于边际概率的乘积",
|
||
"统计依据": "最大似然估计,频率估计概率",
|
||
"概率原理": "事件独立性定义"
|
||
},
|
||
|
||
"应用条件": {
|
||
"前提条件": "假设变量相互独立",
|
||
"数据要求": "已知列联表的观测频数和边际频数",
|
||
"计算基础": "基于观测数据的边际分布"
|
||
},
|
||
|
||
"结果解释": {
|
||
"期望频数含义": "在独立性假设下,各格子应有的理论频数",
|
||
"与观测频数比较": "差异越大,独立性假设越不可信",
|
||
"应用价值": "为卡方统计量计算提供期望值",
|
||
"诊断作用": "检查小期望频数问题"
|
||
},
|
||
|
||
"关联知识": ["K8-3-2-01 独立性检验", "K8-3-1-01 2×2列联表"],
|
||
|
||
"注意事项": [
|
||
"期望频数是基于独立性假设的理论值",
|
||
"小期望频数(<5)会影响卡方近似的效果",
|
||
"期望频数总和等于观测频数总和",
|
||
"期望频数用于计算卡方统计量,不是实际观测值"
|
||
]
|
||
}
|
||
]
|
||
} |