地质大数据体系建设的总体框架研究
谭永杰
中国地质调查局发展研究中心,国土资源部地质信息技术重点实验室,北京 100037

作者简介: 谭永杰(1964—),男,博士,教授级高级工程师(二级),中国地质调查局发展研究中心总工程师,现为地质大数据与信息服务工程首席专家,主要从事地质信息化建设、资料与数据信息服务、地质调查综合研究及技术管理工作。Email: tan-yj@263.net

摘要

基于大数据、云计算等现代信息技术与理念,结合地质调查工作实际,系统论述了建设地质大数据体系的总体框架和实现的技术途径。提出了地质大数据体系建设的5项任务组成: 建设地质数据采集体系,推进地质数据快速规范采集; 建设地质大数据汇聚体系,实现地质数据快速有效汇聚; 建设地质数据与信息服务产品体系,丰富地质数据与信息社会化服务产品; 建设地质数据与信息服务体系,推进地质数据与信息协同服务; 建设地质大数据支撑平台(“地质云”),提升地质数据与信息服务的能力和水平。论述了5项任务的主要内容及其面临的关键技术问题,并简要提出了建设地质大数据体系对其他相关工作的影响和要求。

关键词: 地质大数据; 体系框架; 云计算; 信息服务
中图分类号:P537;TP311 文献标志码:A 文章编号:2095-8706(2016)03-0001-06
Architecture investigation of the construction of geological big data system
TAN Yongjie
Development and Research Center, China Geological Survey, Key Laboratory of Geological Information technology,Ministry of Land Resources, Beijing 100037, China
Abstract

Based on the cutting-edge research paradigm “big data” and the advanced information technology “cloud computing”, this paper introduced the overall big data framework of China Geological Survey (CGS) and the related technical approaches. Five projects and related aims were proposed respectively for construction of CGS big data: (1) construction of collecting and processing system for first-hand geological data, aiming at boosting data acquisition efficiency and increasing data quality; (2) construction of efficient geological big data submission system, aiming at promoting data validity and instantaneity; (3) construction of product system for geological data and extracted information, aiming at enriching data products and information services; (4) construction of service system for geological data and related information, aiming at advancing data and information cooperative services; (5) construction of CGS big data platform (also called CGS geological cloud), aiming at enhancing the service capability. The challenges and critical technologies for these five projects were discussed, and then auxiliary efforts and further requirements for other CGS projects were also proposed in this research.

Keyword: geological big data; system architecture; cloud coputing; informational service
0 引言

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合, 正在快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析, 从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态[1, 2, 3]。大数据发展已成为国家战略, 国务院于2015年8月印发了《促进大数据发展行动纲要》, 系统提出了我国大数据发展的方针策略、主要任务和措施[4, 5, 6]。地质工作是调查和研究地球物质组成和演化规律的一项基础性工作, 地质数据是地质工作的真实记录和成果的最终表达载体, 是人类研究了解生存环境、开发利用自然资源所必需的数据, 具有海量、类型多和应用广等特点。地质数据的广泛应用已经促使它成为国家大数据的重要组成部分, 具备了大数据的本身特点和社会广泛应用的属性。地质调查作为地质工作的重要组成部分, 主要内容是采集地质数据和提供信息服务。“ 地质大数据与信息服务工程” 列入中国地质调查局近期组织实施的地质调查“ 九大计划” 的“ 地质数据更新与应用服务” 计划中, 其核心内容就是建设地质大数据, 实现地质数据的稳定汇聚和共享服务[7]。地质大数据建设是一项系统性大工程, 因此研究确定地质大数据建设的体系构成和技术途径就成为该工程实施的关键, 为此, 本文选择该主题进行研究和论述。

1 总体目标与技术思路
1.1 总体目标任务

紧密围绕经济社会发展和生态文明建设对地质数据信息的需求, 以提供更为全面、权威、及时、便捷的地质数据与信息服务为目标, 依托地质调查项目的实施和全国地质资料的汇交, 不断丰富地质数据源, 开发服务产品, 建立地质数据汇聚体系、产品体系和服务体系, 建设地质大数据支撑平台(以下简称“ 地质云” ), 为地质数据的采集、传输、处理和共享服务提供信息技术支持, 提升地质数据与信息社会化服务的深度、广度和水平, 提高地质调查工作对经济社会发展的贡献率和社会认知度。

1.2 建设技术路线

以地质数据与信息服务为目标, 以提升数据采集能力和形成有效的地质数据汇聚体系为基础, 以建立地质数据与信息服务体系为抓手, 以信息技术为手段, 以大数据支撑平台为支撑, 以制度标准建设和机制形成为保障, 丰富地质数据资源和服务产品, 全面提升地质数据信息共享服务的能力和水平。图1为地质大数据体系建设的总体架构。

图1 地质大数据体系建设的总体架构Fig.1 Architecture of the construction of geological big data system

1.3 建设阶段安排

按照中国地质调查局实施地质调查“ 九大计划” , 全面提升地质调查创新能力和服务水平的总体部署, 地质大数据体系建设可以分2个阶段进行: 2016年初步形成地质大数据采集处理体系、汇聚体系、产品体系、服务体系和地质云的雏形, 使地质大数据及其信息服务工作取得较明显成效; 到2018年, 形成比较完善的地质大数据体系, 实现地质大数据与信息服务局面的根本改变。

2 主要内容
2.1 建设地质调查数据采集体系, 推进地质数据快速规范采集工作

在已有的地质调查信息化建设基础上[8], 不断完善数字地质调查系统, 协调推进各专业领域以项目为基本单元的野外调查数据采集、数据分析处理和成果表达等软件系统的开发和推广应用。继续完善区域地质调查和矿产资源调查评价领域的数字地质调查系统, 大力推进该系统向三维化、智能化、智慧化方向发展, 并不断扩展其在地质灾害、地下水资源调查评价和地质环境等领域的应用, 最终实现在地质调查各应用领域的全覆盖。

统筹地质调查各工作手段的数据采集工具软件, 包括野外调查与监测、物探、化探、遥感、分析测试、钻探和综合研究等手段, 规范采集数据模型, 实现不同手段采集数据的兼容。

开展数据分析处理软件工具研发。继续完善野外地质调查采集数据处理系统、物化遥数据处理系统, 统筹区域地质调查、能源与矿产资源调查评价、水工环地质调查评价与监测、综合研究等各领域数据处理与成果综合工具软件, 规范成果数据模型和数据库建设标准, 实现不同地质工作领域成果数据的兼容。

建设完善的地质调查数据采集体系, 为地质调查项目的实施提供数据采集、处理和成果表达等方面的信息工具支持, 促进各地质调查工程、项目数据采集工作的有序开展, 提高数据采集的时效性、规范性和可靠性, 夯实地质大数据体系建设的数据基础。

2.2 建设地质大数据汇聚体系, 实现地质数据快速有效汇聚

完善地质调查数据汇聚架构和渠道, 建立地质调查汇聚机制; 以地质调查单项成果为基本单元, 明确地质调查成果认定、发布的相关规定; 开发地质调查数据管理系统, 依托地质大数据支撑平台, 实现地质调查各专业手段原始数据、地质环境与灾害监测数据、地质调查各单项阶段成果和最终成果数据的实时汇聚与共享。

依托全国地质资料(包括原始地质资料、成果地质资料和实物地质资料)汇交管理工作机制, 完善地质资料的汇交监管平台, 加强汇交监管, 促进地质资料的有效汇交; 继续开展公开版地质图件产品制作和文件级地质资料数据保密清理工作, 奠定精细化服务的基础; 完善数字地质资料馆系统和库房智能管理系统, 依托地质大数据支撑平台, 实现全国地质资料数据的顺畅汇聚和有效管理。

采用建设地质钻孔数据库、油气地质钻孔数据库、耕地地球化学调查数据库和重要成矿区带地质矿产数据库等典型数据库的方式, 汇聚应用价值高的零散地质数据; 开展地学文献的采集和汇聚管理工作, 完善地学文献数据库, 丰富地学文献数据源。

开展地质数据的整理、整合和存储保管工作; 开展地质数据汇聚质量管理研究, 建立数据汇聚质量控制体系。

通过全面推进地质数据的汇聚工作, 整合已有的地质数据库, 建设形成国家地质数据中心。

2.3 建设地质数据与信息服务产品体系, 丰富地质数据与信息社会化服务产品

完善地质数据与信息服务产品体系设计。围绕能源资源保障、生态环境建设、防灾减灾、城镇化建设以及国土资源管理等需求, 面向政府部门、专业机构和社会公众, 充分利用现代服务理念和信息技术, 完善地质数据与信息服务产品体系设计, 构建由基础调查类、专题调查类、综合集成类等组成的多层次、全方位的地质资料信息服务产品体系。

开展地质调查数据综合研究, 编制国家系列区域地质图和专题地质图, 形成基本的地质数据与信息产品, 并建立定期动态更新机制; 开发面向不同受众的图书、期刊、游戏、数字产品和影视作品等社会化服务产品。面向需求, 基于大数据理念和技术, 开展地质资料信息的深度融合、信息提取和知识挖掘, 加强地质资料的二次开发和深度利用, 设计和开发典型数据与信息服务产品。

发现和培育有巨大社会影响的地质数据与信息服务产品, 形成具有特色的地质数据与信息服务品牌产品, 及时向全国推广。

开发和建设地质数据与信息服务产品库, 为加强服务产品的科学管理, 向社会各界提供更加丰富、便利、优质的地质信息产品服务打牢基础。

2.4 建设地质数据与信息服务体系, 推进地质数据与信息协同服务

完善地质数据与信息服务体系设计, 通过制度建设和制定标准规范, 构建覆盖全领域的多部门、多层次的协同服务体系。

建立地质调查成果管理与服务子体系。协助开展地质调查成果评价与共享服务机制研究, 建立地质调查成果服务机制; 构建覆盖中国地质调查局下属28家单位, 由综合服务主结点、区域服务结点和专业服务结点组成的地质调查成果服务子体系, 实现地质调查成果及时、有效和便捷服务; 建立完善的地质调查成果共享、服务机制。

完善地质资料服务子体系。全面整合各类国家级、省级及其他类地质数据与信息资源, 形成国家级统一的资源目录; 强化地质资料社会化服务政策、标准与共享机制研究; 建成由全国馆藏机构、省级馆藏机构、委托馆藏机构等组成的多层次服务子体系。

创新服务方式。强化主动服务意识, 探索多种方式的社会化服务; 大力发展以数字化、网络化、智能化为主要特征的现代地质资料信息服务, 不断创新和优化服务模式; 延伸地质数据与信息服务的产业链, 不断提高地质数据与信息服务的规模和社会广泛性。

开发地质数据与信息服务平台, 依托地质云, 建立统一的地质数据与信息服务系统, 提高地质数据与信息服务的便利性和权威性。

建设和完善地质调查网站群, 并依托学术期刊、报纸、新媒体等平台, 传播地质调查成果信息, 促进成果的转化与推广应用。

组织开展多种形式的地质数据与信息的协同服务, 不断提升地质数据与信息服务的数量、质量和水平。

2.5 建设地质大数据支撑平台(“ 地质云” ), 提升地质数据与信息服务的能力和水平

基于地质调查内网(业务网)和地质调查外网(互联网), 建设“ 地质云” , 实现全局系统的计算资源、存储资源、网络资源、软件资源和地质数据资源的共享和统一管理, 为地质数据的采集、传输、处理、共享服务和业务管理提供信息技术支持(图2)。

图2 “ 地质云” (地质大数据支撑平台)总体功能示意图Fig.2 Schematic map for general function of geological cloud (geological big data support platform)

“ 地质云” 建设包括“ 1个平台” 、“ 2张网” 、“ 1+3个结点” 等。

“ 1个平台” : 开发建设地质云管理平台, 统一管理计算资源、存储资源、网络资源、软件资源和地质数据资源。

“ 2张网” : 包括地质调查内网和地质调查外网。基于现有的地质调查业务网建设物理隔离的内网, 各结点间通过专线或裸光纤链接, 所有的对内业务管理系统、软件系统、数据均部署在内网上, 面向28个局属单位和正在实施中的350多个地质调查项目用户提供服务; 依托公共网络建设地质调查外网, 将地质调查业务管理系统、地质数据信息服务系统和可公开的地质数据部署在外网上, 面向社会用户提供地质数据与信息服务。地质调查内网和外网间可通过单向光闸进行数据审核、推送和交换。

“ 1+3个结点” : 1个主结点建设在中国地质调查局发展研究中心; 3个专业中心结点, 包括海洋结点、地质环境结点、航空物探与遥感结点, 分别建设在相应专业中心。每个结点配置相应的服务器、存储设备、网络设备、管理平台、大型专业数据处理软件系统和应用订制服务系统, 存储大量的地质专业数据, 并按照三级等保标准进行安全体系建设, 确保数据的存储和应用安全; 主结点和专业结点之间使用光纤互联。主结点建设计划达到200个计算节点、3 PB存储能力, 并配备较齐全的地质数据处理软件系统, 筹建中等规模的超算中心, 为三维地震勘探数据处理等大型运算提供支持。3个专业结点近期保持已有规模, 依托“ 地质云” 平台, 实现IT资源和数据资源的合理调度和有效利用。

开发地质调查业务管理与辅助决策系统, 集成项目与实施管理、财务预算管理、装备管理、人力资源管理等功能, 并部署在外网上, 实现对地质调查人财物和项目实施进度的实时跟踪与管理。

主要用户包括局属单位用户、地质调查项目用户和社会用户。局属单位用户通过地质调查业务网将已有地质数据库和新采集的数据存储到地质云端, 并能够按照需要从云端获取其他单位的地质数据。地质调查项目用户在野外通过4G或卫星线路调用云端地质背景数据, 采用数据采集系统采集数据, 通过网络链路上传、存储到云端; 还可通过客户端和网络链路, 调用云端计算资源、软件资源等对数据进行处理和成果综合, 结果实时存储到云端。社会用户可通过互联网发送需求或指令, 在规定权限内及时获得所需要的地质数据或信息服务。

3 地质大数据体系建设的关键技术

建设地质大数据体系, 充分利用现在比较成熟的云计算、大数据、物联网、互联网和移动互联网等现代信息技术, 但是, 在和地质结合过程中也会遇到技术难题需要研究和攻克。地质数据从采集方式角度, 有野外调查数据、钻探与其他工程勘探数据、物化遥探测数据、分析测试数据及综合研究数据等; 从成果综合的应用领域角度, 有区域地质调查成果数据、能源与矿产资源调查评价与勘查成果数据、地质灾害调查监测与预警数据、地质环境调查与评价成果数据、海洋地质调查与评价数据等; 从格式角度, 有图件数据、文字报告数据、表格数据和图片数据等。这些数据又由不同单位采集形成。建设大数据中心, 必然涉及到数据集中, 就要研究多源多类型海量地质数据的快速清洗、整理与质量控制技术; 对地质大数据实施有效管理, 就要研究多源地质数据的组织方式和快速整合技术, 研究基于语义的地质大数据搜索技术, 提升搜索的效率和准确度; 建设“ 地质云” , 关键是要研究确定一个技术先进、适合地质实际情况的技术架构和主要技术指标, 研究“ 地质云” 平台安全防护技术, 最大限度降低建设成本、降低能耗、提高效率、保证平台与数据安全; 建设地质大数据, 核心是要扩大地质数据的应用范围, 提升地质数据的应用水平, 要围绕地质数据的综合分析处理进行攻关, 尤其是要引入人工智能技术和智慧分析模型[9], 系统分析吸收老地质学家的经验和地质勘查案例, 研究设计针对不同领域的应用场景和业务模型, 开发建设一系列有效的、带有智能或智慧功能的分析应用系统, 例如基于地质大数据和云计算理念的智能地质调查系统、智慧地质编图系统、智慧地质矿产评价系统、智慧地质灾害监测与预警系统等, 还要研究基于大数据的地质分析结果的可视化技术。这些都是地质大数据建设要必须解决和应该解决的主要科学和技术问题。

4 相关影响和要求

地质大数据体系建设的核心是数据, 实现数据的快速采集和有效汇聚是基础, 推进地质数据与信息的服务是目的。“ 地质云” 建设能够实现地质数据、信息化基础设施和公用软件的集中和共享, 可以大大减少各单位的重复建设和运行成本。因此, “ 地质云” 的建设和运行必然要统一部署、统一协调、各相关单位共同参与。要以“ 地质云” 主结点为核心, 各单位、各项目分工负责, 可能的影响和要求如下:

(1)各地质调查项目按照推荐的数据采集系统采集数据, 按照中国地质调查局发布的数据库建设标准组织数据, 建设相关地质数据库。

(2)各单位和相关的地质调查项目应将已有地质数据(库)和项目采集的数据实时上传到“ 地质云” 进行管理, 并负责对数据进行更新、维护和应用支持。

(3)“ 地质云” 中心负责为局属各单位提供所需要的计算资源、存储资源、网络资源、工具软件和地质数据处理软件资源; 各单位用户则可直接访问和使用“ 地质云” 资源, 不宜再建设大规模的机房和IT基础设施。

(4)各单位基于地质调查项目的实施, 依托地质大数据支撑平台, 承担相应领域的地质数据与信息服务职责, 根据专业特色和社会需求开发订制数据服务应用模型, 并将开发的应用模型和系统及时部署到云端, 为社会提供更高水平的服务。

(5)涉密项目和涉密地质数据不包含在“ 地质云” 中, 各单位可采用保密机或自建保密组网的方式进行管理。

致谢: 该研究是在地质大数据与信息服务工程多次论证和实施推进的基础上,经作者思考、归纳、总结形成的,是集体研究成果的结晶。在研究论证过程中,中国地质调查局总工程师室始终给予悉心指导,中国地质调查局发展研究中心、国土资源实物地质资料中心、中国地质图书馆相关人员参加了具体工作,尤其是该文吸纳了最近“地质云”建设实施方案论证的相关内容,在此一并表示感谢。

The authors have declared that no competing interests exist.

参考文献
[1] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代——生活、工作与思维的大变革[M]. 盛杨燕, 周涛, 译. 杭州: 浙江人民出版社, 2013. [本文引用:1]
[2] 史蒂夫·洛尔. 大数据主义[M]. 胡小锐, 朱胜超, 译. 北京: 中信出版集团, 2015. [本文引用:1]
[3] 《大数据领导干部读本》编写组. 大数据领导干部读本[M]. 北京: 人民出版社, 2015. [本文引用:1]
[4] 国务院. 国务院关于印发促进大数据发展行动纲要的通知[Z]. 国发〔2015〕50号, 2015. [本文引用:1]
[5] 国务院. 国务院关于促进云计算创新发展培育信息产业新业态的意见[Z]. 〔2015〕5号, 2015. [本文引用:1]
[6] 国务院. 国务院关于积极推进“互联网+”行动的指导意见[Z]. 国发〔2015〕40号, 2015. [本文引用:1]
[7] 谭永杰. 地质大数据与信息服务工程技术框架[J]. 地理信息世界, 2016, 23(1): 1-9. [本文引用:1]
[8] 谭永杰, 施俊法, 张阳明. 中国地质调查局发展研究中心1999—2010成果巡礼[M]. 北京: 地质出版社, 2011. [本文引用:1]
[9] 安东尼·汤森. 智慧城市——大数据、互联网时代的城市未来[M]. 赛迪研究院专家组, 译. 北京: 中信出版社, 2014. [本文引用:1]