ISSN: 2319 - 9873
2印度安得拉邦海得拉巴JNT大学卡里姆纳加尔瓦格斯瓦里工程学院。
3.印度安得拉邦海得拉巴JNT大学卡里姆纳加尔瓦格斯瓦里工程学院。
收到:01/02/2013修改后:17/02/2013接受:26/06/2013
更多相关文章请访问研究与评论:工程与技术雷竞技苹果下载杂志
数据仓库(DW)是面向主题的、集成的、用于支持决策的静态数据集。在海量时空数据管理和应用的约束下,时空数据仓库(STDW)被提出,并受到了世界各地研究者的广泛关注。虽然STDW的研究正在深入,但在设计原理、系统框架、时空数据模型(STDM)、时空数据处理(STDP)、空间数据挖掘(SDM)等方面仍有许多关键难点有待解决。本文讨论了STDW的概念,分析了时空数据的组织模型。在此基础上,提出了由数据层、管理层和应用层组成的STDW框架。STDW的功能除了数据处理和数据存储外,还应包括数据分析。当用户应用某种数据服务时,STDW通过元数据管理系统识别出合适的数据,然后启动数据处理工具,形成服务于数据挖掘和OLAP的数据产品。STDW的数据源由各种分布式数据库(DDBs)组成,其中包括数字高程模型(DEM),诊断相关组(DRG),数据定位器组(DLG),数据对象管理(DOM)、地名等数据库。管理层实现异构数据处理、元数据管理和时空数据存储。应用层提供数据产品服务、多维数据立方体、数据挖掘工具和在线分析流程。
Dw, stdp, stdm, olap, dom
STDW基于数据仓库技术,将时间和空间数据导入数据仓库。利用该仓库,从不同时空尺度的各种GIS、空间数据库和历史数据库中,根据应用主题提取信息,通过数据处理提供时空信息,为科学研究、区域经济决策、资源政策制定等提供依据。在大规模数据仓库需求和数据仓库技术进步的推动下,数据仓库应运而生。近年来,世界各地的许多研究者都将精力集中在这方面,并取得了许多成果。虽然STDW的研究正在深入,但仍有许多关键问题有待解决,如设计原理、系统框架、STDM、STDP、SDM等。本文在简要介绍数据流的基础上,讨论了STDW的概念,并分析了时空数据的组织模型[1].在此基础上,提出了一个由数据源、管理系统和应用工具组成的STDW框架。
研究地理实体的时间特征涉及到两个时间概念,即世界时间和系统时间。过去是指实体在现实中发生变化的时间,最后是指数据库中记录该实体变化的时间。在GIS中,一般只考虑系统时间。在STDW中,我们还使用系统时间来标记实体的历史变化。有三种方法来描述这些变化。当一个或多个对象在某个场合发生变化时,第一种方法通过创建与这些对象相关的所有表的新版本来记录变化,第二种方法通过创建已更改对象的新版本来记录变化,第三种方法仅通过向相关数据库表添加已更改对象属性字段的新记录来记录这些变化。通过比较两种方法,第一种方法冗余度最大,第二种方法存在版本控制问题,第三种方法冗余度最小,且同一记录中有历史数据,便于查询和分析操作,是比较理想的方法。近年来,关于STDM的研究取得了很大进展。
采用STDW的目的是为了在最广泛的范围内实现海量数据的共享。由于用户有各种各样的数据需求,他们对STDW也有各种各样的请求。为了满足大多数用户的需求并实现快速响应,采用了一种多层次的时空信息存储策略。通常有三个层次:数据市场、百货仓库和整仓。数据市场是较低层次的查询结果数据集,主要满足一般用户的需求。基于部门主题的部门仓库可以满足部门领导的需求。Whole Warehouse是为高级决策而建立的。
STDW的功能除了数据处理和数据存储外,还应包括数据分析。当用户应用某种数据服务时,STDW通过元数据管理系统定位合适的数据,然后启动数据处理工具,形成数据产品或发现多维数据立方体,为数据挖掘和OLAP服务。因此,我们认为STDW的框架由数据源、管理系统和应用工具组成。图1为STDW的框架。
分布式时空关系数据库
这些数据库是STDW的信息源,包括现有的各种DEM、DRG、DLG、DOM、地名等数据库。这些数据库不仅运行在各种硬件和软件平台上,而且其编码规范、投影系统、数据格式等也各不相同。
非凡数据库通过与时空数据相关联,存储特殊部门内部数据,用于完成OLAP和空间OLAP,如警察群众数据、财政收入统计数据等[3.,4].
数据处理
由于现有的数据库提供了多种多样的应用,因此在数据捕获方法、编码规范、投影系统、数据组织标准和数据格式等方面存在很多差异,有些数据库甚至存在数据错误[2].因此在放入STDW之前必须进行一些数据处理,包括数据转换、空间转换和数据。数据交换意味着统一数据编码和结构,增加数据集的时间标记、操作和语义交换。空间变换意味着数据坐标和尺度的统一。数据清理是指数据的抽取,主要包括数据字段的重组、无用信息的删除、字段的翻译解码、缺失信息的补充和数据完整性的验证。STDW应该为各种用户提供数据产品。由于用户众多,需求各异,我们必须针对不同的需求对数据进行不同的处理。面向用户的数据处理主要包括数据集成、数据并集和数据分解。数据集成是指多个数据的叠加,叠加后所有数据都保持各自的特征,例如使用DOM和数字地图生成图像地图。与数据集成相比,数据联合可以创建一种新的数据类型,例如伪彩色合成图像。 Data decomposition means the organization of various geographic features, for an example, the city frame data for the department of estate management which is composed of boundary, street and
关于数据的数据是元数据,是解释数据的内容、优点、状况和其他适当特征的背景信息。元数据是一种简单的机制,用于通知其他人数据集的存在、它们的目的和范围。空间元数据标准的主要发展是ISO STANDARD 15046-15元数据,联邦地理数据委员会的数字地理空间元数据内容(FGDC)标准,负责标准CEN/TC 287的欧洲组织。根据这些标准,空间元数据应包括识别、数据质量、维护、空间表示、参考系统、实体和属性、分布、元数据引用、引用、时间段和联系信息等11类信息。雷竞技网页版
现有的数据经过处理后会储存在时空数据仓库内。在仓库中,我们采用多维机制对海量数据进行组织和管理,包括时间维度(一维)、空间维度(三维,X、Y、Z)和属性维度(多维,名称、类型、地址等)。每个维度都有不同的粒度,如时间维度可以划分为年、月、日、时、分、秒,空间维度可以划分为国家、省、市、县、镇。因此,用户可以从不同的角度利用时空数据。
数据产品服务
STDW可以通过数据集成、数据联合、数据衰减等方式提供多种数据产品服务,如数据产品的在线查询、扫描和显示,数据产品的在线订购和分发等。由于STDW在组织和管理中采用多维方法,可以方便地找到多维数据立方体或超级立方体数据模型,为数据挖掘和OLAP服务。立方体是由时间的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的、纵向的维度组成的。例如,在分析人口流动时,我们可以构建一个数据立方体,它由temporal, X, Y, Z和人口统计五个维度组成
数据挖掘是一门通过从数据库中提取事实来支持决策的新知识。全世界有许多研究者致力于此。基于MapInfo实现了一个原型系统,该系统包含了空间比较、空间关联、空间聚类、空间分类等多种数据挖掘分析方法。人们可以从GIS数据库中提取空间信息、空间关系、属性关系等知识。我们认为时空数据包含三种元素:时间信息、空间信息和属性信息,因此空间数据挖掘可以划分为四种:用于变化过程模拟与检索的时间场数据挖掘,用于主题信息地理分布的空间场数据挖掘,用于区域经济决策的空间相关性与聚类的属性场数据挖掘,用于政府决策的多场关联挖掘。
联机分析处理(OLAP)技术使用户能够快速地研究大量数据。OLAP系统通常基于三层架构,包括具有集成数据的数据仓库、用于维度视图的OLAP服务器和OLAP客户端,即用于快速轻松地探索数据的用户界面。根据数据分析的多维方法,建立了空间联机分析过程(SOLAP)系统,以支持时空分析和数据挖掘。在OLAP和SOLAP中,有时时空数据与特殊数据之间可以通过唯一的关键字进行关联,即时空数据与特殊数据中的组织机构、地名、项目号等。OLAP和SOLAP通过在多维数据立方体上应用旋转、钻取、嵌套、切片、可视化等分析技术,使用户能够从多个侧面观察时空数据,发现数据之间的潜在关系,最终辅助决策。
由于时空数据的高难度和动态性,现有的数据仓库技术并不能完全解决数据仓库的问题。STDW的研究还处于初级阶段。本文将STDW的框架分为数据层、管理层和应用层,涵盖了从建立仓库到提供服务的全过程。对STDW技术包括数据处理、元数据管理、数据存储、数据挖掘等方面进行了深入研究,并在实施中完善了框架。