《地理信息科学-B》笔记
地理信息科学前沿
GIS的内涵与发展历程
- GIS定义
- 获取、存储、管理、处理与分析与地理空间分布相关的数据,并提取信息和发现知识的计算机系统。
- GIS基本功能
- 采集、管理、查询、输出多种地理空间信息的能力。
- 以地理模型方法为手段,开展多要素综合分析能力。
- 借助科学计算与可视化,辅助政府、机构、个体决策。
- GIS内涵的变化
- 地理信息系统
- 起步:1960-1980,数据输入、数据管理、数据统计、机助制图
- 巩固:1980-1990,混合模型、空间分析、专业软件、地学应用
- 专业应用:1990-1995,系列化软件、专业化应用、大型数据库、网络化发展
- 地理信息科学
- 科学体系:1995-2005,时空认知、数据挖掘、系统模拟、WebGIS
- 地理信息服务
- 社会服务:2005至今,云计算、大数据、位置服务、虚拟环境
- 地理信息系统
- GIS应用快速拓展
- 阳春白雪:1960-1995,高投入、单一平台、政府应用
- 百舸争流:1995-2002,低投入、多种平台、行业推广
- 润物无声:2002-2008,稳步发展、接触大众
- 无处不在:2008至今,服务至上、融入生活
- GIS定义
- 当前形势与业界成果回顾
- 国际关注:人口-资源-环境问题
- 国家需求:社会发展与国防建设
- 资源调查、生态保护、灾害防治
- 市政管理、智能交通、社会分析
- 反恐维稳、嫌犯跟踪、作战协同
- 武器升级、无人装备、精确打击
- 大众期待:现代化生活方式(社交So、位置Lo、移动Mo)
- 信息易得、智能导航、自动驾驶
- 电子商务、快递配单、亲情关爱
- 出行便捷、移动社交、广告定投
- 面向智慧地球的地理信息科技进展
- 对地观测手段多样,高分辨率成为主流
- 无人机迅猛发展降低了遥感应用门槛
- 夜光遥感等新兴遥感技术大放异彩
- 遥感从观测自然要素过渡到观测人与社会
- 移动定位技术发展如火如荼
- 室内导航定位技术五彩缤纷
- 地理信息技术全方位渗透
- 应用领域拓展到自然与社会科学诸多学科
- 以位置服务(LBS)为核心的地理信息服务产业迅速发展
- 对地观测手段多样,高分辨率成为主流
- 地理信息科技发展前沿
- 大数据背景下的地理信息泛化
- 大数据本质:刻画时空粒度更为精细,注重细节关联和逻辑,为科学分析熟视无睹的行为、格局与过程提供了极大的便利。
- 采集手段:人人都是传感器。
- 数据类型:自然环境、社会环境、商业。
- 替代价值:大数据分析就是榨取各种数据的替代性价值,使其功效转移。
- 学科条件:GIS已经由设备依赖过渡到数据依赖和用户依赖,学科交叉更为迫切。
- 核心理念:以位置为核心的大数据动态关联。
- 新时代的地理信息科学特征
- 精细时空尺度下研究自然与社会系统格局及演化过程越发需要GIS
- 新的特征
- 自然与社会环境实时感知、大数据成为主流
- 云环境下的普适计算成为新的支撑技术体系
- 知识服务开始主导地理信息的网络应用模式
- 新的目标
- 地理空间大数据采集、管理与分析方法
- 从聚焦几何形态,到侧重语义关联
- 助力从地理计算到社会计算的形态转变
- 地理信息科学前沿研究主题
- 地理数据采集与表达:地理空间认知、大数据有偏性与影响测度、稀疏地理空间大数据插值、地理信息不确定性、地理信息传输误差规律等。
- 地理数据存储与处理:异构地理空间大数据管理与查询、数据压缩变换、变化发现与数据更新、数据交换共享、数据安全与隐私保护、知识图谱等。
- 数据挖掘与知识发现:时空聚类与模式识别、空间统计推断、空间规则提取、可解释空间智能、地理知识表达与推理、地理过程的尺度依赖性等。
- 地理信息科学关键技术瓶颈
- 数据采集与处理
- 测绘遥感新技术+社会环境大数据感知
- 多源遥感追求立体成像,实时处理、自动理解
- 移动定位追求稳定、低成本、普适、智能混合
- 社会感知追求泛在、跨界、群体智慧、语义关联
- 数据采集与处理的目标:时空场景重构
- 打造精细化、全空间、全过程的自然场景数字孪生环境,并实现时空场景对象级要素信息动态更新与维护,为高精度智能计算提供数据与可视化平台支撑。
- 测绘遥感新技术+社会环境大数据感知
- 数据管理与集成
- 多源数据集成:室内外地图、影像、视频、移动对象轨迹、社交网络、网络文本、个性化信息,强调信息的动态关联。
- 移动对象管理:室内外一体化、空间索引与查询。
- 全息位置地图与知识图谱:语义网+图搜索。
- 云/端协同计算:NoSQL、数据仓库、云服务。
- 地理信息用户隐私保护
- 数据分析与模拟
- 移动对象轨迹数据挖掘
- 网络文本和音视频分析
- 空间场景实时构建与推理
- 动态复杂网络分析技术
- 基于场景知识图谱的推荐
- 时空大数据机器学习算法
- 人机交互方式
- 自然语言查询过程
- 自适应推送式信息服务
- 三维模型轻量化与交互
- 三维场景VR与AR
- 数据采集与处理
- 地理信息科学研究前沿总结
- GIS已跨越了传统测绘地理信息的范畴,大数据时代的泛在地理信息处理,需要全新的数据表达、管理和分析方法论。
- 数据采集:现代测绘、计算机视觉、群智感知及异构数据融合技术为时空场景快速构建奠定了基础。场景要素间的动态语义关联亟需可智能更新的领域知识图谱。
- 数据管理:地理空间大数据管理需要新型的时空数据引擎与高性能计算环境的支撑。
- 数据分析:机器学习和知识图谱相结合,是泛在地理信息智能分析的必然需求。
- 大数据背景下的地理信息泛化
普适GIS与地理空间智能
普适GIS的基本特征
- 普适/广义GIS
- 实时自然环境、社会环境监测日趋多样,时空大数据快速增长,地理空间信息大量隐式存在, 动态性、非专业性、非结构化和个性化更加突出,地理信息在泛化。
- 针对政府智能管理、企业商业决策、大众现代生活的时空数据处理需求,很多已经超越了传统GIS的能力范畴。泛化地理信息背景下,GIS的概念也在泛化。
- 处理时空大数据的GIS软件(Big geo-data enabled GIS software)
- 可处理位置信息的专业软件(Location enabled software)
- 行业案例
- 阿里巴巴:多源异构时空大数据引擎
- 京东:智慧城市时空大数据引擎
- 美团:地理位置赋能的商业推荐引擎
- 普适/广义GIS
- 面向大数据的GIS平台技术
- 空间大数据存储技术
- 空间大数据存储需求:经典空间数据库侧重解决数据“深度”问题,空间大数据还需考虑数据的“广度”与“密度”问题。
- 空间大数据“深度”:单领域数据汇聚规模与维度
- 空间大数据“广度”:多领域异构数据汇聚与关联
- 空间大数据“密度”:实时汇聚有价值数据的比例
- 空间大数据存储方案
- 专业GIS软件服务商(超图、易智瑞、航天宏图):依赖开源工具,提供地理空间大数据汇聚与访问能力,并提供处理、存储、分析一体化全流程管理手段。
- 阿里巴巴:空天网格码模型
- 京东:JUST时空数据模型
- 空间大数据存储需求:经典空间数据库侧重解决数据“深度”问题,空间大数据还需考虑数据的“广度”与“密度”问题。
- 空间大数据规整技术
- 针对地理空间大数据的审核、纠错、筛选、排序等,包括数据清理、数据集成、数据转换和数据归约等。
- 空间大数据访问技术
- 查询实现策略为计算与存储分离的共享存储架构。有效降低I/O延迟,引入跨节点空间并行查询处理框架,采用布隆过滤器/动态分区加速查询,提高查询效率。
- 空间大数据计算环境
- 现状特征:时空大数据与高性能计算/云计算融合。
- 发展趋势:面向多源数据集成的时空分析AI框架。
- 空间大数据计算面临挑战:AI算法多为“黑箱”模型,隐藏底层数据挖掘过程,算法扩展性不佳,并行化受到诸多限制。
- 空间大数据分析技术
- 环境动态感知与推理
- 场景与个体动态画像
- 全息地图数据聚合
- 经典空间数据挖掘拓展
- 知识图谱与深度学习
- 空间大数据可视技术
- 直接可视化
- 特征可视化
- 聚集可视化
- 空间大数据存储技术
- 地理空间智能基础知识
- 地理空间分析
- 地表数据采集/处理:采样、插值、地理空间信息抽取、场景画像、空间范围标定等
- 地表要素聚类/分类:地理区划、风险评估等
- 地表过程刻画/预测:地理学第1/2/3定律、地理归因等
- 地表过程模拟/控制:地理情景模拟、地理过程控制等
- 地理空间分析的科学范式变革
- 主观意识
- 智慧:基于已有知识进行分析与演绎,提出解决方案的能力。
- 知识:沉淀并与已有知识库进行结构化整合的有价值的信息。
- 客观存在
- 信息:经过加工、具有一定含义、逻辑性和时效性的数据流。
- 数据:对客观事物数量、属性、位置及相互关系的抽象表示。
- 主观意识
- 地理空间分析
空间抽样与统计推断
参考文献
Wang J F, Zhang T L, Fu B J. A measure of spatial stratified heterogeneity[J]. Ecological Indicators, 2016, 67: 250-256.
Wang J, Gao B, Stein A. The spatial statistic trinity: A generic framework for spatial sampling and inference[J]. Environmental Modelling & Software, 2020, 134: 104835.
概念解释
- Population
- 解释:总体,所有研究的单元
- 举例:2022年9月6日中国的日温分布
- Element/Unit/Individual/Point/Supp.
- 解释:最小刻画单元
- 举例:2022年9月6日中国区域内某一点的日温
- Sample
- 解释:样本,总体中的一部分单元
- 举例:2022年9月6日中国749个气象站点的日温
- Estimator, Estimate, Estimation
- 解释:估计值
- Population
空间统计三位一体
- Population
- i.i.d.(
):independence and identically distributed,互相独立并且同一分布 - SAC(
):spatial autocorrelation,空间自相关性 - 符号定义
:研究区域包含的单元(总体)数量 :总体中第 个单元(的值) :第 个单元和第 个单元之间的空间权重
- 统计量
- 总体均值:
- 所有空间权重的聚合:
- 总体均值:
- 全局莫兰指数(Moran’s I)
- 空间自相关性的显著性检验
- 原假设:没有显著的空间自相关性
- 备择假设:存在显著的空间自相关性
- 期望:
- 方差:
- 统计量:
- 拒绝域:
- 符号定义
- SSH(
):spatial stratified heterogeneity,空间分层异质性 - 符号定义
:研究区域包含的单元(总体)数量 :研究区域分层数量 :第 ( )个分层包含的单元数量 :总体中第 个单元(的值) :第 个分层中第 个单元
- 第
个分层的统计量 - 均值:
- 方差:
- 均值:
- 总体的统计量
- 均值:
- 方差:
- 均值:
统计量 - 层内平方和:
- 总体平方和:
统计量的判读 - 总体具有
的空间分层异质性 时表示总体没有空间分层异质性 时表示总体具有完全空间分层异质性
- 空间分层异质性的显著性检验
- 假定条件:
- 原假设:没有显著的空间分层异质性
- 备择假设:存在显著的空间分层异质性
- 统计量:
(非中心 分布) - 非中心参数
- 拒绝域:
- 假定条件:
- 符号定义
- i.i.d.(
- Sampling
- R:random,随机采样
- T:system,系统采样
- S:strata,分层采样
- Estimator
- i.i.d.
- 简单平均
- 普通最小二乘法(OLS)
- SSH
- 三明治估计法
- SAC
- 克里金估计法
- SSH和SAC的混合
- MSN(Mean of Surface with Nonhomogeneity,非均匀表面平均法)
- B-shade(Biased-Sentinel Hospital Area Disease Estimation)
- SPA(Single Point Areal Estimation,单点区域估计法)
- i.i.d.
- 总结:如果总体是……
- 无空间分层异质性(
)且…… - 无空间自相关性(
):简单平均 - 有空间自相关性(
):克里金
- 无空间自相关性(
- 有空间分层异质性(
)且…… - 无空间自相关性(
)且样本…… - 无偏:三明治
- 有偏:Heckman
- 有空间自相关性(
)且样本…… - 无偏:MSN
- 有偏:B-shade或SPA
- 无空间自相关性(
- 无空间分层异质性(
- Population
空间分异及地理探测器
参考文献
Wang J F, Li X H, Christakos G, et al. Geographical detectors‐based health risk assessment and its application in the neural tube defects study of the Heshun Region, China[J]. International Journal of Geographical Information Science, 2010, 24(1): 107-127.
空间分层异质性指标的计算
- 见上一节“SSH(
)”部分。
- 见上一节“SSH(
案例分析
- 输入数据
- 来源
- 预览
- 字段说明
- incidence:数值型,平均发病率
- type:分类型,土壤类型
- region:分类型,流域类型
- level:分类型,高程类型
- 结果分析
- 风险探测器
- 土壤类型对平均发病率的影响
- 风险探测器
- 输入数据
知识图谱
知识图谱概念及演化
- 概念
- 知识图谱是一个结构化的语义知识库,用于以符号形式描述物理世界中的概念及其关系。它的基本单位是“实体-关系-实体”和“实体-属性-属性值”的三要素。实体通过关系相互连接,形成一个网络化的知识结构。
- 演化
- 1960年:语义网(Semantic Networks)作为知识表示的一种方法被提出,主要用于然语言理解领域。
- 1980年:哲学概念“本体(Ontology)”被引入人工智能领域来刻画知识。
- 1989年:Tim Berners-Lee在欧洲高能物理研究中心发明了万维网。
- 1998年:Tim Berners-Lee提出了语义互联网(The Semantic Web)的概念。
- 2006年:Tim Berners-Lee定义了在互联网上链接数据(Linked Data)的四条原则。
- 2012年:谷歌发布了其基于知识图谱(Knowledge Graph)的搜索引擎产品。
- 不同视角
- Web视角:像建立文本之间的超链接一样,建立数据之间的语义链接,将各种结构化、半结构化、非结构化数据关联和导航,并且提供语义搜索。
- NLP视角:怎样从文本中抽取实体关系、实体属性值,提取术语、标签的关系,实现语义理解。
- KR视角:怎样利用计算机符号和采取何种数据结构来表示知识以及对知识进行推理。
- DB视角:怎么高效地进行知识存储和检索。
- ML视角:怎么挖掘知识并且将知识作为特征融入到机器学习模型中提升机器学习模型的有效性。
- 相关领域的发展
- 数据库:RDF数据库系统、数据集成、知识融合
- 自然语言处理:信息抽取、语义解析
- 知识工程:知识库构建、基于规则的推理
- 机器学习:知识图谱数据的知识表示
- 语义知识图谱与科学知识图谱的异同
- 相同点
- 两类知识图谱都是以图( Graph) 为基础构建网络模型,在网络分析的基础上服务于知识管理。
- 不同点
- 概念
- 科学知识图谱:在科学计量学的范畴中,知识图谱的定义是以科学文献知识为对象,以科学研究范式为基础,以引文分析方法和信息可视化技术为手段,显示学科发展进程与结构关系的一种图形,主要是对文献和文献内容的知识单元进行可视化。
- 语义知识图谱:谷歌公司于2012 年提出“知识图谱(Knowledge Graph)”的概念,旨在描述真实世界中存在的各种实体或概念及其关系,以构建巨大的语义网络图,因此知识图谱提供了从关系的角度去发现知识、分析问题的能力,逐渐发展成为以语义网为基础的新型海量知识管理和服务模式。
- 数据类型
- 科学知识图谱主要建立在对科学文献和科研相关数据进行分析,重要研究数据包括引文数据(如科学引文索引,SCI)、科研论文、合作关系、项目资助、关键词、数据库(如PubMed)等。
- 语义知识图谱所用的数据类型广泛得多,而且尤其适用于解决关系复杂、类型繁多、结构多变的数据。比如在金融领域,既有来自互联网舆情、监管机构的合规要求、内部报告等非结构化文本数据,也有财务、报告等半结构化数据,以及上百个业务系统产生的海量结构化数据;医学领域数据有电子病历、临床医学知识库、医学主题词表(如MESH)、国际疾病分类(如ICD-10)等。
- 构建方法
- 应用领域
- 科学知识图谱:研究内容智能检索和分析;发现学科发展脉络和趋势;辅助科研评价与决策;支持科研合作和管理。
- 语义知识图谱:在自然语言处理、语义标注、智能搜索、知识问答、关联分析、决策支持、知识推理等方面有了广泛的应用。此外,在医疗、教育、交通等重要领域也有应用研究。
- 概念
- 相同点
- 概念
知识图谱技术体系
- 知识表示
- 本体建模
- 本体定义:“本体”概念来源于哲学领域,指的是对客观存在系统的解释和说明。计算机科学中,“本体”用于面向特定领域的形式化地对于共享概念体系的明确而又详细的说明。它提供了面向特定领域的概念、对象类型、上下位语义关系等以及它们的属性等,是对特定领域之中概念及其相互之间关系的形式化表达,从而方便地进行自动推理等功能。
- 本体语言:DARPA提出的DAML(DARPA Agent Markup Language)、w3c提出DAML+OIL3以及目前知识图谱数据集常用w3c所定义的RDF(S)和OWL语言等。
- 本体工具:Progege和WebOnto
- 知识图谱数据模型
- RDF(Resource Description Framework)
- RDF定义了一个简单的模型,用于描述资源、属性和值之间的关系。资源是可以用URI标识的所有事物,属性是资源的一个特定的方面或特征,值可以是另一个资源,也可以是字符串。总的来说,一个RDF描述就是一个三元组:<主语,谓词,宾语>。
- RDFs
- 在RDF数据层的基础上引入模式层,定义类、属性、关系的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下文推理。
- RDF(Resource Description Framework)
- 本体建模
- 知识抽取
- 概念
- 从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。
- 关键技术与难点
- 从结构化数据库中获取知识
- 技术:D2R
- 难点:复杂表数据的处理
- 从链接数据中获取知识
- 技术:图映射
- 难点:数据对齐
- 从半结构化(网站)数据中获取知识
- 技术:包装器
- 难点:方便的包装器定义方法、包装器自动生成、包装器的更新与维护
- 从文本中获取知识
- 技术:信息抽取
- 难点:结果的准确率与覆盖率
- 从结构化数据库中获取知识
- 概念
- 实体识别
- 概念
- 从文本中识别出实体的命名性指称项,并标明其类别。
- 类别
- 三大类:实体类、时间类、数字类
- 七小类:人名、机构名、地名、时间、日期、货币和百分比
- 命名实体识别方法
- 基于规则的实体识别方法
- 解释:采用字符串完全匹配或者部分匹配的方式,从文本中找出与词典最相似的短语完成实体识别。
- 优点:规则简单。
- 缺点:需要构建词典和规则;性能受词典规模和质量的影响。
- 基于机器学习的实体识别方法
- 解释:利用预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值。若大于某一阈值,则识别为命名实体。包括最大熵模型和条件随机场模型(CRF)。
- 难点:实体消歧与共指消解。
- 基于规则的实体识别方法
- 概念
- 关系抽取
- 概念
- 自动识别实体之间具有的某种语义关系。可分为句子级关系抽取和语料(篇级)关系抽取。
- 难点
- 同一个关系可以具有多种不同的词汇表达方式。
- 同一个短语或者词可能表达不同的关系。
- 同一对实体之间可能存在不止一种关系需要结合上下文。
- 关系有时在文本中找不到任何明确表示,隐含在文本中。
- 关系抽取依赖词法、句法分析等基本的自然语言处理工具,但该工具性能并不高。
- 方法
- 基于模板的方法
- 分类:基于触发词/字符串的Pattern、基于依存句法的Pattern
- 优点:在小规模数据集上容易实现,构建简单。
- 缺点:特定领域的模板需要专家构建,难以维护,可移植性差,规则集合小的时候,召回率很低。
- 监督学习方法
- 分类:机器学习方法、深度学习方法
- 步骤:预先定义好关系的类别→人工标注一些数据→设计特征表示→选择一个分类方法 (SVM、NN、Naive Bayes)→评估结果
- 优点:准确率高,标注数据越多越准确。
- 缺点:标注数据成本太高,不能扩展新的关系。
- 弱监督学习方法
- 适用情况
- 数据量特别大
- 没有足够多标注数据
- 远程监督方法
- 概念:知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。
- 步骤:从知识库中抽取存在关系的实体对→从非结构化文本中抽取含有实体对的句子作为训练样例
- 优点:利用丰富的知识库信息,减少一定的人工标注。
- 缺点:假设过于肯定,引入大量噪声,存在语义漂移现象;很难发现新的关系。
- Bootstrapping
- 概念:通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组
- 步骤:给定种子集合→从文档中抽取出包含种子实体的新闻→将抽取出的Pattern去文档集中匹配→根据Pattern抽取出的新文档如种子库并迭代多轮直到不符合条件
- 优点:构建成本低,适合大规模构建,可以发现新的关系(隐含的)。
- 缺点:对初始给定的种子集敏感,存在语义漂移问题,结果准确率较低,缺乏对每一个结果的置信度的计算。
- 适用情况
- 基于模板的方法
- 概念
- 事件抽取
- 概念
- 从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。
- 任务
- 识别事件触发词及事件类型
- 抽取事件元素同时判断其角色
- 抽出描述事件的词组或句子
- 事件属性标注
- 事件共指消解
- pipeline方法分类器
- 事件触发次分类器 (Trigger Classifier):用于判断词汇是否是是事件触发词,以及事件的类别
- 元素分类器 (Argument Classifier):判别词组是否是事件的元素
- 元素角色分类器 (Role Classifier):判定元素的角色类别
- 属性分类器 (attribute classifier):判定事件的属性
- 可报告性分类器 (Reportable-Event Classifier):判定是否存在值得报告的事件实例
- 概念
- 知识存储
- 图数据库的概念
- 图数据库源起欧拉和图理论(graph theory),也可称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快速解决复杂的关系问题。
- 图的特征
- 包含节点和边
- 节点上有属性(键值对)
- 边有名字和方向,并总是有一个开始节点和一个结束节点
- 边也可以有属性
- 图数据库的概念
- 知识融合
- 概念
- 指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。
- 主要技术挑战
- 数据质量的挑战:命名模糊,数据输入错误,数据丢失,数据格式不一致,缩写等。
- 数据规模的挑战:数据量大(并行计算),数据种类多样性,不再仅仅通过名字匹配,多种关系,更多链接等。
- 基本技术流程
- 数据预处理:对数据进行归一化处理是提高后续链接精确度的重要步骤,包括语法正规化和数据正规化。
- 记录链接:假设两个实体的记录
和 , 和 在第 个属性上的值是 和 ,通过属性相似度和实体相似度进行记录链接。 - 属性相似度计算
- 编辑距离:Levenstein、Wagner and Fisher、Edit Distance with Affine Gaps
- 集合相似度:Jaccard系数、Dice
- 基于向量的相似度计算:Cosine相似度、TFIDF相似度
- 实体相似度计算
- 聚合:加权平均、手动制定规则、分类器等
- 聚类:层次聚类、相关性聚类、Canopy+K-means
- 表示学习:知识嵌入(TransE模型)
- 属性相似度计算
- 负载均衡(Load Balance)来保证所有块中的实体数目相当,从而保证分块对性能的提升程度。最简单的方法是多次Map-Reduce操作。
- 结果评估:评估准确率、召回率、
值,以及整个算法的运行时间。
- 概念
- 知识推理
- 概念
- 通过各种方法获取新的知识或者结论,这些知识和结论满足语义。
- 任务
- 可满足性(satisfiability)
- 分类(classification)
- 实例化(meterialization)
- 方法
- OWL本体推理:基于Tableaux运算的方法
- 使用场合:检查某一本体的可满足性,以及实例检测。
- 基本思想:通过一系列规则构建Abox,以检测可满足性,或者检测某一实例是否存在于某概念。
- ABox解释:TBox定义了特定知识领域的结构并包含一系列公理,可以通过已有概念构成新的概念。ABox包含了TBox中概念的实例。
- 基于逻辑编程改写的方法:规则推理
- 由于本体推理仅支持预定义的本体公理上的推理,用户无法定义自己的推理过程,因此引入规则推理,可以根据特定的场景制定规则,以实现用户自定义的推理过程。
- 基于产生式规则的方法
- 产生式系统:一种向前推理系统,可以按照一定机制执行规则从而达到某些目标,与一阶逻辑类似。
- 产生式系统的组成:事实集合(Working Memory)、产生式/规则集合、推理引擎。
- 应用:自动规划、专家系统。
- 基于并行技术的方法
- 单机环境下多核、多处理器技术
- 多机环境下基于网络通信的分布式技术
- OWL本体推理:基于Tableaux运算的方法
- 概念
- 语义搜索
- 技术流程(todo)
- 知识问答
- 基本要求
- 可用性高:支持自然语言查询
- 高查询表现力:路径、连接词、非连接词、聚合、条件
- 准确和全面的语义匹配:高精确度和召回率
- 低可维护性:易于在不同领域的数据集之间传输(最小的适应努力/低适应时间)
- 低查询执行时间:适用于交互式查询
- 高可扩展性:可扩展到大量的数据集(组织规模、网络规模)
- 主流方法
- 基于模板的方法:模板定义、模板生成、模板匹配
- 基于语义解析的方法:资源映射、Logic Form、候选答案生成、排序
- 深度学习方法
- 基本要求
- 知识表示
文本挖掘
研究背景
- 文本挖掘与分析
- 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。
- 文本挖掘
- 文本挖掘,也称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取事先未知的、可理解的、有潜在实用价值的模式和知识。
- 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
- 文本挖掘由三部分组成:底层是文本挖掘的基础领域,包括机器学习、数理统计、自然语言处理;中间是文本挖掘的基本技术,包括信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;顶层是两个主要应用领域:信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
- 自然语言处理
- 自然语言处理NLP (Natural Language Processing) ,是计算机科学、人工智能和语言学的交叉学科,目的是让计算机处理或“理解”自然语言。
- 文本挖掘与分析
基于Web文本的灾害信息获取
- 技术架构
- 灾害数据源:以新闻报道、官方灾害机构网站、微博、论坛等Web页面为主
- 灾害主题网页抓取:针对某一灾害事件或某类灾种,从海量网页中提取灾害主题页面
- 灾害事件信息解析抽取:对灾害事件时间信息、空间信息、属性信息的解析与提取
- 灾害事件信息空间展示:灾害事件时空与属性信息进行二、三维可视化展示,时空特征分布图。
- 关键技术
- 灾害主题页面抓取
- 概念:现有研究主要通过构建灾害领域关键词词典,借助搜索引擎或者社交媒体API,采用主题网络爬虫与关键词识别匹配技术,实现灾害主题页面的抓取。主题网络爬虫是根据一定的网页分析算法,判断网页与设定主题的相关程度,尽可能多地抓取与主题相关网页。
- 现有问题:关键词覆盖度不够,忽略灾害文本语义特征,准确度不高等问题。
- 其他方法探索:基于本体语义灾害主题爬虫框架;时间、位置、主题为要素的事件表达模板;基于机器学习(支持向量机、朴素贝叶斯)等。
- 中文分词
- 概念:中文通用的分词方法主要有机械匹配、语义分词和人工智能3种方法。但在各类型领域中,需要根据使用情况分别设计有效的分词方法。目前,直接针对灾害信息进行分词还缺乏研究。
- 工具:中科院ICTCLAS分词软件、IKAnalyzer分词器
- 命名实体抽取
- 命名实体分类:时间、地点、属性
- 基于规则的方法:主要利用命名实体描述特征,通过归纳总结建立识别规则进行识别,适用于小规模语料,速度快,但规则构建困难,系统可移植性差,难以解决语义多样性问题。
- 利用统计模型方法:对大规模语料库内的命名实体以及上下文进行统计分析,构建统计模型来进行命名实体的识别,如隐马尔可夫模型、最大熵模型、条件随机场模型等等。
- 基于机器学习的方法:以训练语料作为学习用例和测试用例,与特定的语言无关,可以减少人工干预的过程,并且可移植性较好,但对训练语料依赖性较大,必须对语料库进行准确标注。
- 空间信息展示
- 灾害主题页面抓取
- 技术架构
灾害事件下社交媒体数据分析
- 灾害事件检测与跟踪
- 将微博、Twitter等社交媒体用户看作为传感器,采用自然语言处理、文本挖掘、机器学习等技术对灾害相关文本进行识别、分类、挖掘、聚类,实现对灾害事件的检测、实时预警,以提高态势感知以及对灾害的应急响应能力。
- 客观灾害信息获取与分析
- 灾害地理空间信息识别:基于命名实体抽取等方法进行灾害地理空间信息(VGI)识别,包括受灾人群位置识别、社区识别、地理编码、空间可视化等。
- 灾害信息抽取与分类:通过基于规则词典、基于机器学习等方法,对灾害损失数据抽取和灾情信息分类,或在短文本抽取方法上创新。
- 灾情感知与损失评估:将社交媒体数据与传统遥感地理数据相结合,对灾情及损失进行评估。如洪水淹没范围估计等等。
- 现有问题:社交媒体数据主观性强,具有非理性、盲从性特点,客观灾害数据可靠性、数据质量存在问题。
- 主观用户行为的获取与分析
- 灾害事件下的用户行为是指公众通过分享自己的行动、想法、观点、感受、情绪等来表达灾害事件的反应,不仅指实际的行动,还包括认知和感知的因素。
- 社交媒体丰富的用户内容数据、自带时空属性,文本挖掘等技术的快速发展使得从海量社交媒体数据中获取用户的行为成为可能。
- 用户行为指标形式多样,例如用户的发文数量、话题观点、情绪、转发、点赞、评论等等。
- 本研究将现有用户行为研究总结以下四个方面:情绪与情感的分析、话题抽取与分析、使用动机和传播行为、研究框架与理论模型探索。
- 用户情绪与情感的分析:情感分析(sentiment analysis)是指带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程。现有研究借助自然语言处理的方法识别灾害事件下用户社交媒体内容表现出的情感倾向、情绪指数、情感类别。并结合社交媒体时间、空间、网络等属性,分析灾害事件下用户情绪情感的时空分布、不同阶段的变化特征、地理-社会分布不均性、社交网络传播特征、与灾害事件空间分布的关系等等。
- 用户话题抽取与分析:从社交媒体文本中挖掘灾害事件下用户的话题观点,发现灾害期间民众的话题热点,对其进行时空统计分析、时空分布特征分析、话题分布与灾害事件的关系,增强对灾害情景的感知和舆情的监测。
- 用户动机和传播行为研究:用户动机和传播行为是指灾害事件下社交媒体用户的发文频率、转发、评论、点赞等行为。
- 综合研究框架与理论模型探索:大部分研究主要集中在社交媒体数据的应用方面,对数据本身特征关注度不足。部分学者关注社交媒体数据多维度特征,进行用户行为的研究框架和理论模型方面的创新研究。
网络分析方法进阶
地理网络分析基础
- 图的基本概念
- 图的定义
- $G=\left
$ :节点集合 :联线集合
- $G=\left
- 图的定义
- 网络与地理网络
- 网络:从实际问题中抽象出来,用图论表达的一种模型,即按一定拓扑结构连接在一起的节点和联线集合,是表示对象及其相互联系的加权图。本质是承载物质、能量和信息流动的一维受限空间。
- 地理网络:相互连接及作用的线状地理实体结构形式地理网络要素的相互作用及物质、能量在网络上的传输,形成了丰富的地理现象。
- 地理网络表达的基本要素
- 联线/边(Link/Arc/Edge):资源传输的通道,如交通线路、市政管线、河道等。
- 节点(Node/Vertex):通道端点或汇合点,如交叉路口、河流交汇点等。
- 附属点(Point)
- 障碍(Barrier):阻碍弧段上能量流动的点。
- 中心(Center:接受或分配资源的点,如商业店铺、物流仓库,状态属性包括资源容量、限制条件等。
- 站点(Stop):路径中资源增减点,如公交车站。
- 地理网络度量指标计算
- 网络统计与拓扑指标(从统计或拓扑角度出发以描述
网络的完整性、复杂性和联通性)- 网络密度:
- 联线频率:
- 完整性系数:
- 网络连接度:
- 网络密度:
- 网络几何形态指标(从几何形态度量网络结构)
- 曲折度:
- 迂回度:
- 曲折度:
- 网络节点地位度量指标
- 接近中心性
- 中介中心性
- PageRank
- 接近中心性
- 网络统计与拓扑指标(从统计或拓扑角度出发以描述
- 最优路径算法
- 搜索策略
- 自由式搜索:无信息辅助,采用穷举搜索策略,不对搜索进行控制。
- 启发式搜索:利用知识或经验(rule of thumb)进行搜索,通过选定评估函数,在搜索的每一步,寻找评估函数得分值最高的节点作为扩展搜索节点。可将搜索限定在一定规模内。基于启发式策略的最短路径算法例如A*算法。
- Dijkstra
- 历史:1959年由荷兰计算机与数学家E.W.Dijkstra提出。
- 作用:可以求出某节点到连通网络中任何一个节点的最短路径及其长度;同时适用于求解有向图或无向图上的最短路径问题。
- 条件:图中不存在负权边。
- 基本思想
- 对于图
,记源节点为 、已标记节点集 、从 到 的距离为 ,令数组 记录 到 的最短距离、 记录从 到 路径上 前面的一个节点。 - 步骤一:从
中选择使 值最小的节点 ,将 加入到 中。 - 步骤二:更新与
直接相邻节点的 值,其中 。 - 重复执行步骤一和步骤二,直到
,算法停止。
- 对于图
- 特点
- 通用性好
- 效率依赖于具体的实现方法或运行结构
- 提升
- 设计优先级队列,提升
集合上的提取最小值操作的效率。 - 采用
叉堆、二项堆或Fibonacci堆优先级队列实现Dijkstra算法,时间复杂度为 或 。 - 采用桶结构基数堆实现Dijkstra算法,在假定弧段整数权值前提下,复杂度为
,其中 为最大整数权值。 - 基数堆和F堆相结合的Dijkstra算法复杂度仅为
。
- 设计优先级队列,提升
- 搜索策略
- 图的基本概念
交通网络分析算法进阶
- 最优路径算法
- 搜索空间约束算法
- 特点
- 节点搜索过程中引入地理网络空间分布特征,将搜索限制在一定范围内,加速搜索过程。
- 思想
- 设置条件
。 的临界点构成以 、 为焦点,以 为长轴的椭圆。即使在 与 、 与 之间存在直线路径,由于二者之和已经大于所估计的 至 的最短路径的极大值 ,在运行过程中不考虑此节点。 - 在网络中系统抽样构造节点集合
与 。则其笛卡尔集 中的每个元素可看成待求最短路径的起终节点,其欧氏距离为 ,网络最短路径长度为 ,则比值系数 。 - 对于抽取样本得到比值系数集合
,统计后可得到某一特定值 ,使得 中总数为满足一定置信水平的元素,其值不大于 。每一对起终节点的欧氏距离乘以 ,可得椭圆长轴 。 - 判断每个新扩展出的节点是否落在限定椭圆内需大量乘积与开方计算。采用椭圆最小包含矩形限制搜索区域,在继承搜索规模限制条件下,提高搜索效率。
- 由起、终节点
、 坐标构建椭圆方程: - 对
、 求偏导数后得到两者的极值:
- 由起、终节点
- 设置条件
- 特点
- 搜索方向约束——A*算法
- 历史:1968年由Peter Hart等提出。
- 思想:根据当前节点到目标节点的估计距离,引导途经节点的选择。形式化表达为
,其中 表示起点到节点 的代价, 表示节点 到终点的评估代价。 - 时间复杂度:依赖于启发式策略。
- 搜索层次约束——导航路径规划
- 导航路网的分层分区组织
则路径算法 - 历史:1959年由Hoffman和Pavley提出。
- 思想:按照指定标准,寻找起点和终点间的多条最优路径。
- 旅行商问题(TSP)
- 历史:1930年由Merrill Flood提出。
- 目的:寻找由起点出发,仅通过给定点一次,再回到起点的成本最小路径。
- 解空间大小:
- 精确算法:搜索最优解(穷举搜索、动态规划、分支定界、分支裁剪算法)
- 有损算法:牺牲有限精度换取效率、近似最优(禁忌搜索、遗传、模拟退火、蚁群算法等)
- 多车送货问题(VRP)
- 历史:1959年由Dantzig和Ramser提出。
- 目的:针对不同地理位置上多个客户的货物需求,为一个车队规划适当的行车路线,在特定约束下为客户送货。
- 解空间大小:
- 问题形态:顾及时间窗口限制的VRP、最佳服务时间的VRP、多车种VRP、考虑同时收集货物的VRP等
- 解决方案:数学解析法、插入法、交换法、数学规划近似法
- 路径寻优算法的现代技术
- 对OD间最短路径进行实例化编码,将部分最短路径计算转变为子图间路径的直接查询。
- 采用智能优化方法近似求解NP类路径寻优问题。
- 动态路径寻优(行程时间切片算法、完全随机动态算法、历史数据经验推理、个体/部分/全局式路径规划与诱导;动态TSP、动态VRP)。
- 采用并行、任务分解、GPU等HPC方法,支持互联网超大规模路径搜索应用。
- 搜索空间约束算法
- 资源分配算法
- 资源分配问题
- 也称为选址与分配(Location-Allocation)问题。选址问题是指依据资源需求点的分布,确定最优的供应点配置;分配问题是根据供应点配置状态,将资源需求点分配给合适的供应点。
-中心问题 - 在
个候选点中选择 个供应点为 个需求点服务,使得为这几个需求点服务的总成本(距离、时间或费用)最小(或最大成本最小)。 - 假设
记为需求点 的需求量, 记为从候选点 到需求点 的成本,则问题可描述为 。 - 其中
为分配系数且满足 ( )。如果需求点 接受供应点 服务,则 为 ,否则为 。 - 约束条件保证了每个需求点仅接受一个供应点服务,并且只有
个供应点。
- 在
-中心问题不同类型 - 实际应用中,在选择供应点时,并不只是要使总加权距离最小,有时需要使总的服务范围为最大,有时又限定服务的最大距离不能超过一定的值。
- 建立图书馆、医院等公共设施:希望各居民区到这些设施的路途最短(Optimal meeting point problem)。
- 建立消防站、急救中心:不仅需要路途最短,而且常常规定到最远的居民区,必须在2-3分钟以内到达。
- 设计有线电视中转站或通讯中心交换站:不仅要节省布线成本,而且还要使服务范围尽可能大(Maximum coverage problem)。
- 资源分配问题
- 可达性分析方法
- 可达性
- 字面含义:某一地点到达其他地点、或其他地点到达这一地点的便利程度。
- 实际含义:一种对点与线、点与点地理要素进行空间关系分析的过程,包括空间阻隔、机会累积、空间相互作用方法。
- 基于空间阻隔(space separation):从几何形态角度分析空间上两点间的阻隔程度。
- 基于机会累积(cumulative opportunity):某点在确定时空范围内所能接触到的机会累积量。
- 基于空间相互作用(spatial interaction):某点和周边不同规模兴趣点之间的加权相互作用规模。
- 多层面涵义
- 客观层面(交通运输的便利性)
- 主观层面(服务获取的难易度)
- 主观层面(地理区位的优劣性)
- 可达性度量涉及指标
- 地点与其周边兴趣点之间的距离
- 不同兴趣点对地点的潜在吸引力
- 吸引力距离衰减特征(线性衰减、指数衰减等)
- 不同区域需求规模(享受兴趣点服务的机会)
- 交通出行便捷性
- 交通便捷性:通过衡量机动车在确定时间内的出行范围大小,衡量某地点的地面交通便捷程度。
- 区位优势度评价
- 空间相互作用
:两点间势能 :两点的规模 :两点间路径 :距离衰减系数 :常数项
- 区位优势度
- 模型影响因素
- 吸引点数量或质量规模,如地铁站数量、商业区名气与声誉、大型公园/绿地质量、工业区就业岗位数等,与吸引力成正比。
- 到吸引点的距离d,与吸引力成反比。
- 距离衰减函数
- 线性衰减
- 指数衰减
- 空间相互作用
- 服务便利性评价
- 服务便利性:通过与周边某种类型服务设施的供给及某地点需求量的加权均值,衡量该地点的居民服务可达性。
- 两步搜寻法
- 步骤一:对每个供应点
,通过距离衰减函数 折现,将所有需求点 ( )的周边需求 相加,计算供需比 。 - 步骤二:对每个需求点
,将所有供应点 ( )的距离衰减函数 折现的比率 相加,获得需求点 的可达性 。 - 输出:可达性的加权均值(以需求量为权重)等于区域总供给量与总需求量的比值。
- 步骤一:对每个供应点
- 可达性
- 最优路径算法
复杂地理网络分析方法
- 现实网络中的现象
- 小世界现象:WS模型
- 无标度现象:BA模型
- 复杂网络
- 定义
- 介于规则网络和随机网络之间,统计特征与它们截然不同的的网络形态。
- 特征
- 具有小世界、无标度、自组织、自相似中部分或全部性质。
- 大量真实复杂系统的拓扑抽象,开展研究有助于理解“复杂系统复杂性”。
- 基本度量指标
- 平均路径长度
:网络中所有节点间最短距离的平均值,描述网络中节点间的分离程度。 - 聚集系数
:描述网络中节点的聚集情况,即邻接节点间也邻接的比率。
- 平均路径长度
- 结构度量方法
- 整体结构特征:平均最短路径,聚集系数、网络直径,网络密度、层次性、网络效率、最大独立子团等
- 节点关系:同配指数、节点互惠性、富人俱乐部特性等
- 网络类型:幂律分布、小世界商
、归一化指数 、小世界指数 等
- 节点重要性度量方法
- 基于节点邻接关系:度值、
核分解法等 - 基于最优路径计算:节点离心率、接近中心性、中介中心性等
- 基于特征向量计算:特征向量中心性,PageRank算法,HITs算法等
- 基于节点移除效应:节点删除后的最短距离度量、生成树度量等
- 基于节点邻接关系:度值、
- 社区探测
- 揭示复杂网络中固有的团聚(Community)结构(若干联系紧密的节点集合),发现复杂网络中隐藏的规律,辅助理解复杂网络功能,预测复杂网络行为。
- 模块度
(Modularity):针对某种聚类规则,将网络划分成 个群落,定义一个 的矩阵 , 表示 、 两个群落的邻接边在所有边中的占比,则有 ,其中 。
- 定义
- 现实网络中的现象
轨迹数据挖掘与位置服务
移动对象管理技术
- 移动对象轨迹定义
- 移动对象随时间推移的坐标序列集合。记第
个位置点为 ,则移动对象轨迹表示为 。
- 移动对象随时间推移的坐标序列集合。记第
- 移动对象轨迹数据价值
- 个体轨迹数据反映了个体在不同地理单元出没的时空模式,也隐含表达了个体间、个体与地理单元间、个体与社会之间的交互。
- 单一对象移动轨迹反映个体自身行为特征,群体移动轨迹反映群体共同的行为特征。地理单元大量移动对象轨迹,反映该区域的自然、社会、经济活动总体特征。
- 轨迹蕴含知识对认识人地关系、优化决策意义重大。通过轨迹数据挖掘探求深层次的因果关系或作用机制,是解决诸多重大社会问题的有效手段
- 移动对象数据库技术
- 地图服务应用激发了大量移动对象轨迹查询需求。移动对象数据库MOD(Moving Objects Databases)技术应运而生。
- 移动对象数据管理需求
- 空间表达
- 支持自适应地理空间剖分
- 支持移动对象位置和轨迹表达
- 时间表达
- 支持连续时间表达
- 支持移动对象全时态轨迹表达
- 关系表达
- 移动对象运动过程时变属性
- 支持移动对象专题语义关系
- 时空查询
- 支持移动对象时态查询
- 地理空间查询
- 支持联合查询
- 空间表达
- 移动对象轨迹空间模型
- 欧几里得同质空间
- 受约束的欧几里德空间
- 时空水族馆
- 异质场空间
- 不规则方块
- 网络空间
- 移动对象轨迹表达方式
- 拉格朗日方式:移动对象轨迹以笛卡尔坐标序列连续表达(随波逐流)。拉格朗日方式表述侧重于“点”,把移动对象的性质定义为点坐标的函数。
- 欧拉方式:移动对象轨迹以途经地理单元(固定锚点邻域)离散表达(岿然不动)。欧拉方式表述侧重于“场”,把移动对象的性质定义为地理单元+时间的函数。
- 移动对象轨迹定义
轨迹数据挖掘技术
- 轨迹数据挖掘研究主题
- 轨迹数据预处理:噪声滤波,分割、停留点语义识别和地图匹配
- 轨迹数据管理/个体隐私保护:MOD、大数据管理平台、分布式计算、匿名化与位置加密
- 轨迹不确定性/插值与位置预测:轨迹误差处理或缺失轨迹填补,未来出现位置推断
- 模式识别/对象分类与异常检测:轨迹模式识别(聚集模式、序贯模式、周期模式)、移动对象分类与状态识别(分段特征提取——对象状态推断)、轨迹异常检测(识别异常轨迹,发现异常事件)
- 轨迹数据挖掘基本框架
- 轨迹数据挖掘重点任务
- 地图匹配
- 概念:将通过各种定位技术获取的道路网络上的移动对象坐标序列拟合到道路网络上的技术方法。
- 轨迹重构
- 概念:处理轨迹中的异常坐标,或者对缺失轨迹点或轨迹段进行推断的技术方法。
- 研究重点:考虑轨迹点时空缺失规律的移动对象运动频繁模式挖掘,解决数据稀疏性与问题精细化求解之间的矛盾。
- 轨迹聚类
- 概念:基于轨迹的时空相似性,将具有相似行为的移动对象进行聚类。
- 时序分析
- 移动对象轨迹数据所附带的时间标签,使得轨迹数据的时序分析演化为流数据分析过程,可推断网络的运行状态。
- 轨迹预测
- 概念:通过挖掘轨迹时间序列或者历史数据,预测移动对象未来某个时间可能的位置。
- 异常检测
- 概念:根据历史和实时轨迹信息挖掘统计模式,判断是否出现异常轨迹。
- 原理:对比实时轨迹与历史轨迹特征参数,判断轨迹异常发生的位置及程度,如交通异常与人群移动异常
- 地图匹配
- 轨迹数据挖掘研究主题
基于位置的信息服务
- 位置服务(LBS)定义
- 集成移动定位、地理信息系统、无线通讯等技术,基于移动终端的实时位置,在地图平台支持下,提供地理信息服务的技术系统或增值服务业务。位置服务涉及出行导航、社交网络、监控关爱、广告推送、企业管理等多个领域。
- 位置服务的地图表达新需求
- 交通网络表达:从单模式到多模式
- 拓扑关系表达:从二维到三维拓扑
- 地图形态需求:从固化地图到SLAM
- 位置服务(LBS)定义
数字地形分析
数字高程模型DEM
- DEM及相关概念
- DEM:数字高程模型
- DSM:数字表面模型=高程+表面高度
- DTM:数字地形模型=高程+坡度+曲率+河网+流域边界+……
- DTA所用的DEM数据结构
- DEM生产:高程点/点云、等高线
- DTA:三角网、栅格(正方形为主)
- DEM数据源(现代地形测量)
- 地面控制测量(用于航空摄影测量)
- GPS测量
- 大区域DEM多采用航空测量
- SRTM
- ASTER
- LiDAR(Light Detection And Ranging)
- DEM中的研究问题
- 更高质量的DEM
- DEM生成算法、算法评价
- 数据结构转换:高程点/点云→TIN、TIN→栅格
- 分辨率变换:插值、重采样
- DEM预处理/修正:去除地表附着物、去噪声、填充空值区、多数据集合并等
- DEM产品评价
- 基于参考数据(地表控制点等)
- 无参考数据(根据DTA应用结果合理性等)
- DEM生成算法、算法评价
- DEM数据更高的应用功效
- DEM误差信息作为DEM的一个组分
- 多尺度DEM——服务于各种具特定尺度的应用
- 更高质量的DEM
- DEM及相关概念
数字地形分析DTA
- DTM
- 地形信息
- 地形属性:场→多表达为栅格
- 地形特征:点/线/多边形/边界→常表达为矢量
- 地形属性、地形特征之间可相互转换
- 地形信息
- 地形属性
- 坡度(Slope gradient,
):海拔高度的最大变化率 - 坡向(Aspect):坡度最大变化率的罗盘方向
- 曲率(Curvatures):高程的二阶导数
- 单位汇水面积(Specific Catchment Area):
- 地形湿度指数(Topographic Wetness Index):
- 水流强度指数(Stream Power Index):
- 坡长因子(Length-slope factor in the Revised Universal Soil Loss Equation):
- 坡度(Slope gradient,
- 数字地形分析算法
- 根据所得DTM目标的分类
- 基本地形属性的算法
- 派生地形属性的算法
- 地形特征提取算法
- DEM预处理算法
- 根据计算时每点对应支撑域特点(local、focal、regional、global)的分类
- 局域计算DTA算法
- 区域DTA算法
- 根据算法设计特点的分类
- 迭代算法
- 递归算法
- 根据所得DTM目标的分类
- DTA中的方法研究问题
- 已有地形属性的新算法研究
- 单流向算法(SFD)
- D8算法
- 多流向算法(MFD)
- FD8算法
:第 个邻域像素中的水流分配比例 :水流分配指数 :第 个邻域像素的有效等高线长度 - 存在的问题:常数
忽视了地形特征对水流分配的不同作用
- FD8算法
- 新的MFD算法(MFD-md)
- 基本思想:水流分配应符合当地的局域地形条件。
- 模型:随局域地形条件自适应的水流分配策略根据局域地形变量
建立水流分配函数 ,用以确定下坡方向的水流分配比例。 - 公式:
- 单流向算法(SFD)
- DTA算法的评价
- 目的
- 评估DTA算法的可用性
- 角度
- 准确性
- 不确定性
- 目的
- 新的地形信息
- 坡位空间渐变信息
- 多尺度DTA
- 对具体的应用确定适宜尺度:DEM分辨率所体现的尺度并非都适合于实际应用条件
- 多尺度地形信息的定量化:不同尺度下的结果综合为一个单一的多尺度指标
- 已有地形属性的新算法研究
- DTM
- 本文标题:《地理信息科学-B》笔记
- 本文作者:myetyet
- 创建时间:2022-10-24 14:57:53
- 本文链接:https://myetyet.github.io/posts/69ed51f5/
- 版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
评论