自20世纪70年代至今,我国的海洋环境监测体系已基本形成,建成了国家(海区)、省(直辖市、自治区)、市、县四级海洋环境监测网络,开展约8000多个监测站位的现场监测,在我国管辖的300万km2海域开展岸基站、船舶、飞机、卫星、浮标、雷达、智能终端等多种手段监测工作,每年获得各类监测数据(结构化数据)约200余万条,此外还包括:遥感数据(仅国家海洋环境监测中心近几年遥感影像加工产品就接近70TB),其它业务化系统、实验室、数值模型、档案系统的长尾科学数据,虽然每个数据集合在规模上并不大(一般不会超过1TB),但这种小数据集合数众多且异构性强,它们汇聚后的规模和复杂性都不容小觑。海量的海洋环境监测数据(以下简称:监测数据),加上其多源性、多态性、多时相的特性,使监测数据成为了大数据。
但是,海洋数据数据来源众多、数据类型多、获取难度大、获取成本高以及历史积淀量大等问题,造成目前海洋大数据管理分散且多以纸质资料形式存放的现象出现,不利于数据检索且复用率低,整合难度较大。而从海洋大数据平台的角度来看,对数据的需求量和时效性要求也更高。
针对此类问题,海洋大数据平台建设必须实现多设备、多类型、多格式数据等整合,实现资料元数据管理,空间数据模型统一,基准的统一;必须缩短后处理时长,提高自动化程度;实现各类观测平台各类观察设备数据获取的无缝接入;充分利用5G网络、岸基自组网、海上平台自组网,提高数据接入的时效性。
但是想要真正解决海洋大数据所带来的困惑,必须要三个方面入手。一是如何对不同部门的海量数据进行有效挖掘、分析和应用;二是解决“信息孤岛”,建立数据资源共享机制,实现数据跨部门、跨系统使用;三是数据如何应用到海洋资源开发、海洋环境监测等具体问题,为政府决策提供真正支持。因此,行业企业在发展过程中,能够对数据和用户需求了解充分将成为其他企业无法企及的竞争壁垒。
大数据时代的一个重要任务是监测数据集成,其意义如下:
(1)从数据分析及管理角度来看,这些分散的结构化、半结构化、非结构化的监测数据,蕴藏着大量的信息和知识,但是,目前的海洋监测系统集成一般只是系统的集成,针对数据集成的很少,即使有也只是用传统的关系型数据为主导的集成方案,这种方式不能满足多源异构数据集成和共享的需求,容易导致分析结果缺乏权威性、科学性,最终使管理者的决策缺乏可靠性。网格技术在实现更深层次、更大范围的资源共享,以及消除数据孤岛方面发挥了重要作用,但对组织成一体的资源如何共享使用上着力不多,在易用性上存在不足[1],云计算和大数据技术采用分布式计算模式,克服了网络计算的缺陷,为海量多源异构数据收集、存储、集成、共享、分析、决策提供了技术保障。
(2)从科研者的角度来看,大数据时代科研工作者已经不再满足利用单一的数据源和分析方法进行研究,而是希望整合来自不同渠道的数据,从而得到一个更加全面与宏观的认识,这意味着数据集成对科学研究至关重要的需求。
(3)从大数据的价值链—大数据的发现(采集、准备、组织)、集成(数据源管理、通用数据表示)、数据探索(数据分析、可视化、决策)[2]来看,大数据集成(BigDataIntegration,BDI)起着承上启下的作用,具有非常重要的作用,是目前研究热点之一。