《计量地理学》笔记
描述统计
众数
- 一组数据中出现次数最多的变量值。
- 一组数据中出现次数最多的变量值。
- 适合于数据量较多时使用。
- 不受极端值的影响。
- 一组数据可能没有众数或有几个众数。
- 主要用于分类数据,也可用于顺序数据和数值型数据。
中位数
- 排序后处于中间位置上的值。
- 不受极端值的影响。
- 主要用于顺序数据,也可用数值型数据,但不能用于分类数据。
- 位置确定:
四分位数
- 排序后处于
和 位置上的值。 - 不受极端值的影响。
- 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。
- 位置确定:
- 排序后处于
平均数
- 集中趋势的最常用测度值。
- 一组数据的均衡点所在。
- 体现了数据的必然性特征。
- 易受极端值的影响。
- 用于数值型数据,不能用于分类数据和顺序数据。
- 算术平均数:
- 几何平均数:
。 - 几何平均数适用于比率数据的平均,主要用于计算平均增长率。
样本均值的估计标准误差
- 本部分内容参考文献:
维基百科编者. 标准误差[G/OL]. 维基百科, 2020(20201231)[2020-12-31]. https://zh.wikipedia.org/w/index.php?title=%E6%A0%87%E5%87%86%E8%AF%AF%E5%B7%AE&oldid=63513250.
,请注意甄别。 - 简称平均值(数)标准误差,注意在简称的背后总是意指“样本的”。
- 是描述对应的样本平均数抽样分布的离散程度及衡量对应样本平均数抽样误差大小的尺度。
- 如果已知总体的标准差为
,那么抽取无限多份大小为 的样本,每个样本各有一个平均值,所有这个大小的样本之平均值的标准差可证明为 。 称为样本平均值的标准“差”。 - 但由于通常
为未知,此时可以用研究中取得样本的标准差 来估计 : ,其中 为样本的标准差, 为样本数量(大小)。 称为样本平均值的标准“误”。
- 本部分内容参考文献:
- 异众比率
- 对分类数据离散程度的测度
- 非众数组的频数占总频数的比例
- 用于衡量众数的代表性
- 极差
- 一组数据的最大值与最小值之差
- 离散程度的最简单测度值
- 易受极端值影响
- 未考虑数据的分布
- 计算公式:
- 平均差
- 各变量值与其平均数离差绝对值的平均数
- 能全面反映一组数据的离散程度
- 数学性质较差,实际中应用较少
- 计算公式:
方差
- 总体:
- 样本:
- 总体:
标准差
- 总体:
- 样本:
- 总体:
标准分数
- 也称标准化值
- 对某一个值在一组数据中相对位置的度量
- 可用于判断一组数据是否有离群点
- 用于对变量的标准化处理
- 计算公式:
离散系数
- 也叫变异系数
- 标准差与其相应的均值之比
- 对数据相对离散程度的测度
- 消除了数据水平高低和计量单位的影响
- 用于对不同组别数据离散程度的比较
- 计算公式:
偏态系数
- 数据分布偏斜程度的测度
- 计算公式:
为对称分布 为右偏分布 为左偏分布 - 偏度的标准误计算公式:
- 偏度标准得分计算公式:
峰态系数
- 数据分布扁平程度的测度
- 计算公式:
扁平峰度适中 为扁平分布 为尖峰分布 - 峰度的标准误计算公式:
- 峰度标准得分计算公式:
- 取显著性水平为
,若偏、峰度标准得分绝对值均小于 ,则可认为此分布服从正态分布。其中 可在Excel中利用公式 =NORM.S.INV(1-alpha/2)
计算。
- SPSS操作
- 步骤
- 选择主菜单【分析】→【描述统计】→【描述】。
- 点击【统计量】,在弹出的对话框中选择需要的统计量。
- 解读
- 【描述统计量】
- 表内包含了所选择的统计量信息。
- 【描述统计量】
- 步骤
推断统计
总体均值的区间估计(以小样本为例)
- 检验量:
- 统计量:
- 置信区间:
- 大样本:
- SPSS操作
- 步骤
- 选择主菜单【分析】→【比较均值】→【单样本T检验】。
- 选择【检验变量】,保持下方【检验值】为
0
(或改变该值以检验总体均值是否等于该值)。 - 点击【选项】,在弹出的对话框中设置需要的【置信区间百分比】。
- 解读
- 【单个样本检验】
- 若【Sig.(双侧)】小于设定的显著性水平则表示拒绝总体均值等于【检验值】的假设,否则接受该假设。
- 当设定的【检验值】为
时,【下限】和【上限】构成总体均值的估计区间。
- 【单个样本检验】
- 步骤
- 检验量:
总体方差的区间估计(总体均值已知)
- 检验量:
- 统计量:
- 置信区间 :
- 检验量:
总体方差的区间估计(总体均值未知)
- 检验量:
- 统计量:
- 置信区间 :
- 检验量:
两个总体均值之差的区间估计(总体方差已知)
- 检验量:
- 统计量:
- 置信区间 :
- 检验量:
两个总体均值之差的区间估计(总体方差未知但相等)
- 检验量:
- 总体方差的合并估计量:
- 总体均值之差
估计量的抽样标准差: - 统计量:
- 置信区间:
- SPSS操作
- 步骤
- 选择主菜单【分析】→【比较均值】→【独立样本T检验】。
- 选择【检验变量】和【分组变量】。
- 点击选定的【分组变量】,点击【定义组】,在弹出的对话框中选择分组方式(【割点】方式下右侧符号为大于等于)。
- 点击【选项】,在弹出的对话框中设置需要的【置信区间百分比】。
- 解读
- 【独立样本检验】
- 若【Sig.】小于设定的显著性水平则表示拒绝两总体方差相等的假设,否则接受该假设,并据此进行后续检验。
- 若【Sig.(双侧)】小于设定的显著性水平则表示拒绝两总体均值相等的假设,否则接受该假设。
- 【独立样本检验】
- 步骤
- 检验量:
两个总体均值之差的区间估计(总体方差未知且不相等)
- 检验量:
- 自由度:
- 统计量:
- 置信区间:
。
- 检验量:
两个总体均值之差的区间估计(匹配样本、以小样本为例)
- 符号说明:
为样本对应差值的均值;为 样本对应差值的标准差。 - 检验量:
- 统计量:
- 置信区间:
- 大样本:
- SPSS操作
- 步骤
- 选择主菜单【分析】→【比较均值】→【配对样本T检验】。
- 依次选择两个【成对变量】。
- 点击【选项】,在弹出的对话框中设置需要的【置信区间百分比】。
- 解读
- 【成对样本检验】
- 若【Sig.(双侧)】小于设定的显著性水平则表示拒绝两总体均值之差为零(两总体均值相等)的假设,否则接受该假设。
- 【成对样本检验】
- 步骤
- 符号说明:
两个总体方差之比的区间估计(总体均值已知)
- 统计量:
- 置信区间:
。
- 统计量:
两个总体方差之比的区间估计(总体均值未知)
- 统计量:
- 置信区间:
- 统计量:
方差分析
引论
- 术语
- 因素(因子):所要检验的对象称为因素,是影响因变量变化的客观条件,用分类变量表示,取有限的离散值。
- 水平(处理):因素的不同等级或表现称作水平。水平值取有限的离散值。
- 观测值:每个因子水平下得到的样本数据称为观测值。
- 两类误差
- 组内误差:来自水平内部的数据误差。组内差异只含有随机误差。
- 组间误差:来自不同水平之间的数据误差。组间误差既包含随机误差,也包含系统误差。
- 误差平方和
- 组内平方和
:也称误差项平方和,反映组内误差大小的平方和。组内平方和只包含随机误差。 - 组间平方和
:也称水平项平方和,反映组间误差大小的平方和。组间平方和既包括随机误差,也包括系统误差。 - 总误差平方和
:反映全部数据误差大小的平方和。 - 三者关系:
- 组内平方和
- 基本思想与原理
- 比较两类误差,以检验均值是否相等,比较的基础是方差之比
- 若样本均值相等,则组间平方和与组内平方和经过平均后的数值(称为均方或方差)就应该很接近,它们的比值就会接近
。 - 若样本均值不全相等,则组间平方和平均后的数值就会大于组内平方和平均后的数值,它们之间的比值就会大于
。 - 当这个比值大到某种程度时,就认为不同水平之间存在着显著差异,也就是自变量对因变量有影响。
- 基本假定
- 每个总体都应服从正态分布:对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。
- 各个总体的方差必须相同:各组观察数据是从具有相同方差的总体中抽取的。
- 观察值是独立的
- 提出假设
- 原假设
:各 均相等,即自变量对因变量没有显著影响。 - 备择假设
:各 不全相等,即自变量对因变量有显著影响。
- 原假设
- 术语
单因素方差分析
- 数据结构描述
- 共有
个水平 - 第
个水平下有 个观察值 - 第
个水平下的第 个观察值记为
- 共有
- 统计量
- 水平的均值:
- 各观察值的总均值:
- 总误差平方和(自由度为
): - 组间平方和(自由度为
): - 组内平方和(自由度为
): - 组间方差(组间平方和的均方):
- 组内方差(组内平方和的均方):
- 检验统计量:
- 水平的均值:
- 统计决策(显著性水平取
)- 若
,则拒绝原假设 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响。 - 若
,则不拒绝原假设 ,无证据表明所检验的因素对观察值有显著影响。
- 若
- 关系强度
- 变量间关系的强度用组内平方和占总误差平方和的比例大小来反映,记为
,即 。 - 其算术平方根
就可以用来测量两个变量之间的关系强度。 - 自变量对因变量的影响效应占总效应的百分比(能解释的差异比例)为
,残差效应占 。
- 变量间关系的强度用组内平方和占总误差平方和的比例大小来反映,记为
- SPSS操作
- 步骤
- 选择主菜单【分析】→【比较均值】→【单因素ANOVA】。
- 选择【因变量列表】和【因子】。
- 点击【两两比较】,在弹出的对话框中设置需要的【假定方差齐性】(一般勾选【LSD】)以及【显著性水平】。
- 点击【选项】,在弹出的对话框中设置需要的【描述性】统计。
- 解读
- 【单因素方差分析】
- 若【显著性】小于设定的显著性水平则表示拒绝因子对因变量没有显著影响的假设,否则接受该假设。
- 【多重比较】
- 【均值差 (I-J)】打星号(同行【显著性】小于设定的显著性水平)的表示两者之间存在显著差异。
- 【单因素方差分析】
- 步骤
- 数据结构描述
- 双因素方差分析
- SPSS操作
- 步骤
- 选择主菜单【分析】→【一般线性模型】→【单变量】。
- 选择【因变量】和【固定因子】。
- 点击【模型】,在弹出的对话框中选择【指定模型】。
- 点击【选项】,在弹出的对话框中设置需要的【置信区间百分比】。
- 解读
- 【主体间效应的检验】
- 若【Sig.】小于设定的显著性水平则表示拒绝因子及其交互作用对因变量没有显著影响的假设,否则接受该假设。
- 【主体间效应的检验】
- 步骤
- SPSS操作
相关与回归分析
相关系数
- 分类
- 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
。 - 若是根据样本数据计算的,则称为样本相关系数,记为
。
- 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
- 计算
- 取值与意义
- 取值范围:
- 经验分级
:高度相关 :中度相关 :低度相关 :极弱或不相关
- 取值范围:
- 显著性检验
- 目的:检验两个变量之间是否存在线性相关关系
- 提出假设:
- 计算统计量:
- 作出决策:若
则拒绝原假设,否则不能拒绝原假设。 - SPSS操作
- 步骤
- 选择主菜单【分析】→【相关】→【双变量】。
- 选择【变量】和【相关系统】。
- 解读
- 【相关性】
- 【Pearson 相关性】表示相关系数。
- 若【显著性(双侧)】小于设定的显著性水平则表示拒绝该对变量之间不存在线性相关关系的假设,否则接受该假设。
- 【相关性】
- 步骤
- 分类
一元线性回归
- 模型
- 表达式:
- 参数:
- 误差项
是随机变量,反应除 之间的线性关系之外的随机因素对 的影响(不能由线性关系所解释的变异性)。
- 表达式:
- 基本假定
- 因变量
与自变量 之间具有线性关系。 - 误差项
是一个期望值为 的随机变量,即 ;对于一个给定的 值, 的期望值为 。 - 对于所有的
值, 的方差 都相同。 - 误差项
是一个服从正态分布的随机变量,且相互独立,即 。
- 因变量
- 回归方程
- 表达式:
- 是描述
的期望值如何依赖于 的方程。 - 方程的图示是一条直线,也称为直线回归方程。
是回归直线在 轴上的截距,是当 时 的期望值。 是直线的斜率,称为回归系数,表示当 每变动一个单位时, 的平均变动值。
- 表达式:
- 估计的回归方程
- 用样本统计量
和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程。 - 一元线性回归中估计的回归方程为
。 是估计的回归直线在 轴上的截距。 是直线的斜率,它表示 每变动一个单位时, 的平均变动值。
- 用样本统计量
- 最小二乘估计
- 是使因变量的观察值与估计值之间的离差平方和达到最小来求得
和 的方法,即 。 - 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
- 参数求解
- 是使因变量的观察值与估计值之间的离差平方和达到最小来求得
- 拟合优度
- 因变量
的取值是不同的,这种取值的波动称为变差。 - 变差来源于两个方面:由于自变量
的取值不同造成的;除 以外的其他因素(如 对 的非线性影响、测量误差等)的影响。 - 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差
来表示。 - 离差平方和的分解
- 总平方和:
- 回归平方和:
- 残差平方和:
- 三者关系:
- 判定系数:
- 总平方和:
- 度量拟合优度的统计量可以用判定系数
。 在数值上等于相关系数的平方,即 在数值上等于相关系数。
- 因变量
- 线性关系检验
- 目的:检验自变量与因变量之间的线性关系是否显著。
- 提出假设:
- 计算统计量:
- 作出决策:若
则拒绝原假设,否则不能拒绝原假设。
- 回归系数的检验
- 目的:检验自变量对因变量的影响是否显著。
- 提出假设:
- 计算统计量:
- 作出决策:若
则拒绝原假设,否则不能拒绝原假设。
- 点估计
- 对于自变量
的一个给定值 ,根据回归方程得到因变量 的一个估计值 。 - 直接将
代入拟合的方程即可。
- 对于自变量
- 置信区间估计
- 利用估计的回归方程,对于自变量
的一个给定值 ,求出因变量 的平均值的估计区间 ,这一估计区间称为置信区间。 的置信区间: 为估计标准误差
- 利用估计的回归方程,对于自变量
- 预测区间估计
- 利用估计的回归方程,对于自变量
的一个给定值 ,求出因变量 的一个个别值的估计区间 ,这一估计区间称为预测区间。 的预测区间: 为估计标准误差
- 利用估计的回归方程,对于自变量
- 对于两个区间的理解
- 构建一个回归方程,其公式为
。其中 为误差,指的是 的变异之中不可以由 解释的部分。而实际上该模型能做到的仅仅是估计 的值,而非对应的 值,因为误差是不可测量的、未知的。 - 因此,这里引出了置信区间和预测区间的区别:置信区间指的是
在某个信度下的可能范围,而预测区间指的是 在某个信度下的可能范围。 - 在同样的信度下,预测区间的上下值大于置信区间,即预测区间的范围大于置信区间,因为预测
时多了不可消除的误差项。 - 更具体来说,当需要根据一个
值去预测一个点的 值时,使用预测区间;当需要预测模型在该点处的期望值时(多次抽样后的理论均值),则是对 的估计,使用置信区间。
- 构建一个回归方程,其公式为
- SPSS操作
- 步骤
- 选择主菜单【分析】→【回归】→【线性】。
- 选择【因变量】和【自变量】。
- 点击【统计量】,在弹出的对话框中需要的统计量,一般勾选【置信区间】并设置相应的【水平】。
- 若需要区间估计,在数据末尾加上对应的自变量的值(因变量留空),点击【保存】,勾选【预测值】中的【未标准化】,按需勾选【预测区间】中的内容(【均值】:置信区间、【单值】:预测区间)并设置相应的【置信区间】。
- 解读
- 【模型汇总】
- 【R方】表示判定系数,【R】为【R方】的算术平方根。
- 【调整R方】的计算公式参考修正多重判定系数,公式为
。
- 【ANOVA】
- 若【Sig.】小于设定的显著性水平则表示拒绝的自变量与因变量之间的线性关系不显著的假设,否则接受该假设。
- 【系数】
- 【B】表示回归系数(或常数)。
- 若【Sig.】小于设定的显著性水平则表示拒绝的自变量对因变量的影响不显著的假设,否则接受该假设。
- 【下限】和【上限】构成该项系数的置信区间。
- 数据视图
- 若进行了区间估计,则【PRE_1】变量表示该值的点估计,【LI CI_1】和【UI CI_1】构成该值的置信(或预测)区间。
- 【模型汇总】
- 步骤
- 模型
多元线性回归
- 模型
- 表达式:
- 参数:
是被称为误差项的随机变量。 是 的线性函数加上误差项 。 包含在 里面但不能被k个自变量的线性关系所解释的变异性。
- 表达式:
- 基本假定
- 误差项
是一个期望值为 的随机变量,即 。 - 对于自变量
的所有值, 的方差 都相同。 - 误差项
是一个服从正态分布的随机变量,即 ,且相互独立。
- 误差项
- 多元回归方程
- 表达式:
- 是描述因变量
的平均值或期望值如何依赖于自变量 的方程。 称为偏回归系数,其每个都表示假定其他偏回归系数不变,当对应的自变量每变动一个单位时, 的平均变动值。
- 表达式:
- 估计的多元回的方程
- 用样本统计量
估计回归方程中的参数 时得到的方程。 - 一般形式:
- 用样本统计量
- 多重判定系数
- 计算公式:
- 是回归平方和占总平方和的比例
- 表示因变量取值的变差中能被估计的多元回归方程所解释的比例
- 计算公式:
- 修正多重判定系数
- 计算公式:
- 避免增加自变量而高估
- 意义与
类似但数值上小于
- 计算公式:
- 线性关系检验(总体的显著性检验)
- 目的:检验因变量与所有自变量之间的线性关系是否显著。
- 提出假设:
- 计算统计量:
- 作出决策:若
则拒绝原假设,否则不能拒绝原假设。
- 回归系数的检验
- 目的:检验因变量与某个自变量之间的线性关系是否显著。
- 提出假设:
- 计算统计量:
- 作出决策:若
则拒绝原假设,否则不能拒绝原假设。
- 多重共线性
- 概念:回归模型中两个或两个以上的自变量彼此相关。
- 问题:可能会使回归的结果造成混乱,甚至会把分析引入歧途;可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反。
- 识别:检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
- 暗示:模型中各对自变量之间显著相关;当模型的线性关系检验(
检验)显著时,几乎所有回归系数的 检验却不显著;回归系数的正负号与预期的相反。 - 处理:将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;如果要在模型中保留所有的自变量,则应避免根据
统计量对单个参数进行检验,并对因变量值的推断(估计或预测)限定在自变量样本值的范围内。
- 变量选择
- 选择过程
- 在建立回归模型时,对自变量进行筛选。
- 选择自变量的原则是对统计量进行显著性检验。
- 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和
有显著减少。如果增加一个自变量使 的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型。 - 确定引入自变量是否使
有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。
- 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和
- 变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。
- 向前选择
- 从模型中没有自变量开始。
- 对
个自变量分别拟合对因变量的一元线性回归模型,共有 个,然后找出 统计量的值最高的模型及其自变量,并将其首先引入模型。 - 分别拟合引入模型外的
个自变量的线性回归模型。 - 如此反复进行,直至模型外的自变量均无统计显著性为止。
- 向后剔除
- 先对因变量拟合包括所有
个自变量的回归模型。然后考察 ( )个去掉一个自变量的模型(这些模型中每一个都有 个自变量),使模型的 值减小最少的自变量被挑选出来并从模型中剔除。 - 考察个再去掉一个自变量的模型(这些模型中每一个都有
个的自变量),使模型的 值减小最少的自变量被挑选出来并从模型中剔除 - 如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使
显著减小为止。
- 先对因变量拟合包括所有
- 逐步回归
- 将向前选择和向后剔除两种方法结合起来筛选自变量。
- 在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。
- 按照以上方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致
显著减少。 - 在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。
- 选择过程
- SPSS操作
- 步骤
- 选择主菜单【分析】→【回归】→【线性】。
- 选择【因变量】和【自变量】,以及逐步回归的【方法】(【进入】:不进行逐步回归、【逐步】:逐步回归、【删除】:不常用、【向前】:向前选择、【向后】:向后剔除)。
- 点击【统计量】,在弹出的对话框中需要的统计量,一般勾选【置信区间】并设置相应的【水平】,以及【共线性诊断】。
- 若设定了非进入的变量选择方法,点击【选项】,在弹出的对话框中设置相应的【步进方法标准】。
- 若需要区间估计,在数据末尾加上对应的自变量的值(因变量留空),点击【保存】,勾选【预测值】中的【非标准化】,按需勾选【预测区间】中的内容(置信区间勾选【均值】、预测区间勾选【单值】)并设置相应的【置信区间】。
- 解读
- 【模型汇总】
- 【R方】表示判定系数,【R】为【R方】的算术平方根。
- 【调整R方】的计算公式参考修正多重判定系数,公式为
。
- 【ANOVA】
- 若【Sig.】小于设定的显著性水平则表示拒绝的自变量与因变量之间的线性关系不显著的假设,否则接受该假设。
- 【系数】
- 【B】表示回归系数(或常数)。
- 若【Sig.】小于设定的显著性水平则表示拒绝的自变量对因变量的影响不显著的假设,否则接受该假设。
- 【下限】和【上限】构成该项系数的置信区间。
- 【已排除的变量】
- 【模型】下方列出了根据设置的规则所排除的变量。
- 数据视图
- 若进行了区间估计,则【PRE_1】变量表示该值的点估计,【LI CI_1】和【UI CI_1】构成该值的置信(或预测)区间。
- 【模型汇总】
- 步骤
- 模型
聚类与判别分析
聚类分析
- 理论
- 概念:是根据事物本身的特性研究个体分类的方法,是研究“物以类聚”的一种多元统计分析方法。
- 基本思想:根据对象间的相关程度进行类别的聚合。
- 原则:同一类中的个体有较大的相似性,不同类中的个差异很大。
- 分类
- 样本聚类:根据每个样本的各种特征,对观测量(Case)进行聚类。又称Q型聚类。
- 变量聚类:对变量(Variable)进行聚类。又称R型聚类。
- 数据结构描述
- 共有
个样本 - 每个样本测得
项指标(变量) - 第
个样本的第 项指标记为
- 共有
- 数据变换处理
- 标准差标准化:
- 极大值标准化:
- 极差的标准化:
- 标准差标准化:
- 统计量
- 距离
- 将一个样本看作
维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。通常用于样本聚类分析。 - 明氏(Minkowski)距离:样本
之间的距离
- 将一个样本看作
- 相似系数
- 性质越接近的变量,它们的相似系数的绝对值越接近
,而彼此无关的变量,它们的相似系数的绝对值越接近于 。比较相似的变量归为一类,不怎么相似的变量归为不同的类。通常用于变量聚类分析。 - 夹角余弦:样本
之间的夹角余弦 - 相关系数:样本
之间的相关系数
- 性质越接近的变量,它们的相似系数的绝对值越接近
- 距离
- 方法
- 直接距离法
- 把各个分类对象单独视为一类。
- 根据距离最小的原则,依次选出一对分类对象,并成新类。
- 如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行。
- 那么,经过
次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
- 最短距离聚类法
- 在原来的
距离矩阵的非对角元素中找出 ,把分类对象 和 归并为一新类 。 - 则其余类
与新类 的距离计算公式 ,并组成新的 的距离矩阵。 - 再找非对角线最小元素的两类并类,直至所有的样本全归为一类为止。
- 在原来的
- 最远距离聚类法
- 与最短距离聚类法类似,但
。
- 与最短距离聚类法类似,但
- 直接距离法
- SPSS操作
- 步骤
- 选择主菜单【分析】→【分类】→【系统聚类】。
- 选择【变量】和【标注个案】,选择【聚类】方式(【个案】:一行一个样本、【变量】:一列一个样本)。
- 点击【统计量】,在弹出的对话框中按需选择【聚类成员】方法与数量。
- 点击【绘制】,在弹出的对话框中勾选【树状图】。
- 点击【方法】,在弹出的对话框中选择【标准化】方法以及下方的方式(【按照变量】:一行一个样本、【按个案】:一列一个样本)。
- 解读
- 【聚类表】
- 【群集组合】依次列出了进行合并的类别号。
- 【使用某聚类方法的树状图】
- 聚类谱系图。
- 【聚类表】
- 步骤
- 理论
判别分析
- 理论
- 定义
- 是根据表明事物特点的变量值和它们所属的类,求出判别函数,并根据判别函数对未知所属类别的事物进行分类的一种分析方法。
- 是一种利用已知类别的样本训练模型,为未知样本进行判类的统计方法。
- 特点
- 根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
- 当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。、
- 定义
- 方法
- Fisher判别法
- 数据结构描述
- 有两类已分类的样本集
和 且分别包含了 和 个样本 - 样本集中的每个样本都具有
个指标 - 第
个样本集中第 个样本的第 个指标记为 - 待测样本构成与任一样本集中任一样本相同
- 有两类已分类的样本集
- 基本思想
- 根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,该判别方法对总体的分布不做任何要求。
- 从两个总体中抽取具有
个指标的样本观测数据,借助于方差分析的思想构造一个线性判别函数: 。 - 当建立了判别式以后,将一个新样本值的
个指标值代入判别式中求出 值,然后与某个临界值比较,就可以将该样本归某类。 - 判别式系数
确定的原则:使两组间的组间离差最大,而每个组的组内离差最小。
- 实现步骤
- 计算平均数:
- 计算两类样本特征的平均数的差:
- 计算两类样本的矩阵系数:
- 构造矩阵求解判别式系数:
- 代入平均值:
- 定义临界点:
- 判别准则:若
,则属于第一类;否则属于第二类。
- 计算平均数:
- 数据结构描述
- 距离判别法(以马氏距离为例)
- 数据结构描述
- 样本集
包含了 个样本 - 样本集中的每个样本都具有
个指标 - 第
个样本的第 个指标记为 - 待测样本
构成与样本集中任一样本相同 - 样本集类别总数为
- 样本集
- 基本思想
- 某点离哪个中心距离最近,就属于哪一类。
- 实现步骤
- 对每个指标计算样本集特征平均数:
- 计算样本集的协方差矩阵:
- 待测样本
与样本集 的马氏距离: - 判别准则:
- 对每个指标计算样本集特征平均数:
- 数据结构描述
- 贝叶斯方法
- 把数据分成几类或几组
- 算出未知类归属于各已知类的概率
- 把它划归于概率值最大的类中
- Fisher判别法
- SPSS操作
- 步骤
- 选择主菜单【分析】→【分类】→【判别】。
- 选择【分组变量】和【自变量】。
- 点击选定的【分组变量】,点击【定义范围】,在弹出的对话框中选择分组编号的范围。
- 点击【统计量】,在弹出的对话框中需要的统计量,一般勾选【Fisher】和【非标准化】。
- 点击【分类】,在弹出的对话框中按需勾选【个案结果】。
- 若需要将判别结果输出到表中,点击【保存】,在弹出的对话框中勾选【预测组成员】以及其他输出内容。
- 解读
- 【分类函数系数】
- 表示Fisher的线性判别式函数的系数。
- 【按照案例顺序的统计量】
- 【预测组】表示判别结果。
- 数据视图
- 【Dis_1】表示判别结果。
- 【分类函数系数】
- 步骤
- 理论
主成分分析
基本原理
- 正交变换
- 假设有
个样本,每个样品有两个指标,即在二维空间中讨论主成分的几何意义。设 个样品在二维空间的分布大致为一个椭圆。 - 当坐标轴和椭圆的长短轴平行,那么长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。
- 而坐标轴通常并不和椭圆的长短轴平行,需要进行变换。
- 如果长轴代表了数据包含的大部分信息,就用该变量代替原先的两个变量,降维就完成了。
- 考虑多维的情况:与二维相似,也有高维的椭球。
- 找出高维椭球的主轴,再用代表大多数数据信息的最长的几个轴作为新变量,这样主成分分析就完成了。
- 高维椭球的主轴也是相互垂直的。相互正交的新变量是原先变量的线性组合,叫做主成分。
- 如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量就有几个主成分。
- 选择的主成分越少,降维就越好。
- 假设有
- 形式化表述
- 设有
个样本,每个样本有 个变量,构成一个 阶的数据矩阵,第 个样本的第 个变量记为 。 - 记
为原变量指标, ( )为新变量指标。 - 主成分分析通常的做法,是寻求原指标的线性组合
。 - 该线性组合满足下列条件:
- 每个主成分的系数平方和为
(否则其方差可能为无穷大),即 。 - 主成分之间相互无关(无重叠的信息),即
。 - 主成分的方差依次递减(重要性依次递减),即
。
- 每个主成分的系数平方和为
- 则新变量指标
分别称为原变量指标 的第 主成分。
- 设有
- 正交变换
推导
- 线性代数的引论
- 若
是 阶实对称矩阵,则一定存在正交阵 ,使下式成立,其中 为 的特征根。 - 记上述矩阵的特征根所对应的单位特征向量为
,如下构造矩阵 ,则 为正交矩阵,即有 。
- 若
- 第一主成分
- 设
的协方差矩阵如下: - 由于
为非负定的对称阵,所以存在正交矩阵 ,使下式成立。其中 为 的特征根,不妨设 ; 是由特征根相对应的特征向量所组成的正交阵。 - 下面证明,由
的第一列元素所构成的原始变量的线性组合有最大的方差。 - 设有
维单位向量 , ,则有: - 当且仅当
时, 有最大方差 。
- 设
- 第二主成分
- 增加约束条件
,即
- 增加约束条件
- 线性代数的引论
性质
的均值为 。- 原总体的总方差(或称为总惯量)等于不相关的主成分的方差之和,即
- 主成分
与原始变量 之间的相关系数 称为因子负荷量(因子负荷量),且 。 - 贡献率指第
个主成分的方差在全部方差中所占比重,即 。 - 累积贡献率指前
个主成分的方差和在全部方差中所占比重,即 。 - 前
个主成分 对原始变量 的贡献率为 与 之间的相关系数的平方,即 。 - 标准化后的随机变量的协方差矩阵就是原随机向量的相关矩阵
。
计算步骤
- 主成分计算
- 对样本进行标准化处理,得到标准化矩阵:
- 计算标准化后的每两个指标间的相关关系,得到相关系数矩阵
,即 个指标的协方差矩阵: - 计算矩阵
的特征根及相应的特征向量: - 得到
个非负特征根: - 将这些特征根对应的单位化特征向量构成一个正交矩阵:
- 第
个样本的主成分为: - 全部
个样本的主成分为: - 上式整理得:
- 样本主成分选择
- 第
个主成分的贡献率: - 前
个主成分的累计贡献率:
- 第
- 原指标对主成分的回归
- 主成分计算
SPSS操作
- 步骤
- 选择主菜单【分析】→【描述统计】→【描述】。
- 勾选【将标准化得分另存为变量】。
- 选择主菜单【分析】→【降维】→【因子分析】。
- 选择标准化后的【变量】。
- 点击【描述】,在弹出的对话框中选择需要的描述统计量,一般勾选【系数】。
- 点击【抽取】,在弹出的对话框中选择【方法】为【主成分】,选择【相关性矩阵】,勾选【碎石图】,选择【抽取】的方法。
- 解读
- 【相关矩阵】
- 表示两两变量之间的相关系数。
- 【解释的总方差】
- 【合计】表示该主成分解释的方差。
- 【方差的 %】表示该主成分解释的方差的占比。
- 【累积 %】表示该主成分及其前面的主成分总共解释的方差的占比。
- 【合计】下的数值表示按设定的抽取方法所提取的特征根。
- 【碎石图】
- 该图描述了不同主成分对应的特征根的大小。
- 【成分矩阵】
- 【成分】下每一列表示一个主成分的各个因子载荷,因子载荷除以对应特征值的算术平方根可以得到相应的主成分系数。
- 【相关矩阵】
- 步骤
时间序列分析与预测
SPSS操作
- 步骤
- 季节性
- 选择主菜单【数据】→【定义日期】。
- 选择【年份、季度】,在右侧输入起始【年】和【季度】。
- 选择主菜单【分析】→【预测】→【季节性分解】。
- 选择待季节分解的【变量】,并设置【模型类型】(以【乘法】模型为例)。
- 长期趋势
- 选择主菜单【转换】→【计算变量】。
- 【目标变量】输入
TCI
,【数字表达式】输入TSD / SAF_1
,其中TSD
表示原始序列数据的变量。 - 选择主菜单【数据】→【定义日期】。
- 选择【年份】,在右侧输入起始【年】为
1
。 - 选择主菜单【分析】→【回归】→【线性】。
- 【因变量】选择原始序列数据的变量,【自变量】选择定义的年份变量。
- 选择主菜单【转换】→【计算变量】。
- 【目标变量】输入
T
,并按回归模型输入【数字表达式】。
- 周期性
- 选择主菜单【转换】→【计算变量】。
- 【目标变量】输入
CI
,【数字表达式】输入TCI / T
。 - 选择主菜单【转换】→【创建时间序列】。
- 选择变量【CI】,【名称】输入
C
,【函数】选择【中心移动平均】,【跨度】输入3
,点击【更改】。
- 随机性
- 选择主菜单【转换】→【计算变量】。
- 【目标变量】输入
I
,【数字表达式】输入CI / C
。
- 预测
- 在原始数据的末尾添加待预测的时间编号。
- 按【长期趋势】中的方法计算待预测时间的【T】值。
- 选择主菜单【转换】→【计算变量】。
- 【目标变量】输入
PRE
,【数字表达式】输入T * SAF_1
,其中PRE
表示预测结果。
- 季节性
- 解读
- 【季节性因素】
- 【季节性因素】下给出了四个季度(节)的季节性指数的百分比形式。
- 【季节性因素】
- 步骤
AHP决策分析
概念
- 美国运筹学家A.L.Saaty于本世纪70年代提出的层次分析法(Analytical Hierar-chy Process,简称AHP方法),是一种定性与定量相结合的决策分析方法。它是一种将决策者对复杂系统的决策思维过程模型化、数量化的过程。
- 应用这种方法,决策者通过将复杂问题分解为若干层次和若干因素,在各因素之间进行简单的比较和计算,就可以得出不同方案的权重,为最佳方案的选择提供依据。
基本原理
- AHP法首先把问题层次化,按问题性质和总目标将此问题分解成不同层次,构成一个多层次的分析结构模型,分为最低层(供决策的方案、措施等),相对于最高层(总目标)的相对重要性权值的确定或相对优劣次序的排序问题。
特点
- 分析思路清楚,可将系统分析人员的思维过程系统化、数学化和模型化。
- 分析时需要的定量数据不多,但要求对问题所包含的因素及其关系具体而明确。
- 这种方法适用于多准则、多目标的复杂问题的决策分析,广泛用于地区经济发展方案比较、科学技术成果评比、资源规划和分析以及企业人员素质测评。
具体步骤
- 明确问题
- 在分析社会、经济的以及科学管理等领域的问题时,首先要对问题有明确的认识,弄清问题的范围,了解问题所包含的因素,确定出因素之间的关联关系和隶属关系。
- 递阶层次结构的建立
- 根据对问题分析和了解,将问题所包含的因素,按照是否共有某些特征进行归纳成组,并把它们之间的共同特性看成是系统中新的层次中的一些因素,而这些因素本身也按照另外的特性组合起来,形成更高层次的因素,直到最终形成单一的最高层次因素。
- 最高层是目标层,中间层是准则层,最低层是方案层或措施层。
- 建立两两比较的判断矩阵
- 判断矩阵表示针对上一层次某单元(元素),本层次与它有关单元之间相对重要性的比较。该判断矩阵记为
,且 。 - 在层次分析法中,为了使判断定量化,关键在于设法使任意两个方案对于某一准则的相对优越程度得到定量描述。一般对单一准则来说,两个方案进行比较总能判断出优劣,层次分析法采用
到 标度方法,对不同情况的评比给出数量标度。 - 判断矩阵中的
是根据资料数据、专家的意见和系统分析人员的经验经过反复研究后确定。应用层次分析法保持判断思维的一致性是非常重要的,只要矩阵中的各元素满足上述两条关系式时,就说明判断矩阵具有完全的一致性。 - 判断矩阵一致性指标为
。 - 一致性指标
的值越大,表明判断矩阵偏离完全一致性的程度越大,值越小,表明判断矩阵越接近于完全一致性。一般判断矩阵的阶数 越大,人为造成的偏离完全一致性指标 的值便越大; 越小,值便越小。 - 对于多阶判断矩阵,引入平均随机一致性指标
。该值可以通过查表得到。 - 当
时,判断矩阵永远具有完全一致性。判断矩阵一致性指标 与同阶平均随机一致性指标 之比称为随机一致性比率 ,即 。 - 当
时,便认为判断矩阵具有可以接受的一致性。当 时,就需要调整和修正判断矩阵,使其满足 ,从而具有满意的一致性。
- 判断矩阵表示针对上一层次某单元(元素),本层次与它有关单元之间相对重要性的比较。该判断矩阵记为
- 层次单排序
- 层次单排序就是把本层所有各元素对上一层来说,排出评比顺序,这就要计算判断矩阵的最大特征向量,最常用的方法是和积法和方根法。
- 和积法具体计算步骤
- 将判断矩阵的每一列元素作归一化处理,其元素的一般项为
。 - 将每一列经归一化处理后的判断矩阵按行相加为
。 - 对向量
归一化处理: 。 - 向量
即为所求的特征向量的近似解。 - 计算判断矩阵最大特征根:
。
- 将判断矩阵的每一列元素作归一化处理,其元素的一般项为
- 方根法具体计算步骤
- 将判断矩阵的每一行元素相乘:
。 - 计算
的 次方根: 。 - 向量
即为所求的特征向量的近似解。 - 计算判断矩阵最大特征根:
。
- 将判断矩阵的每一行元素相乘:
- 层次综合排序
- 利用层次单排序的计算结果,进一步综合出对更上一层次的优劣顺序,就是层次总排序的任务。
- 明确问题
- 本文标题:《计量地理学》笔记
- 本文作者:myetyet
- 创建时间:2021-05-26 21:53:54
- 本文链接:https://myetyet.github.io/posts/af5b8159/
- 版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
评论