数据驱动下的地球系统科学与机器学习深度融合展望

发布时间: 2019-12-19     来源: 自然资源部第一海洋研究所 宋振亚

 
    当前地球系统数据量已经超过100PB,并且以每年5PB以上的数据量在增长。同时,随着科学与技术的发展,各种观测、模拟手段的突破,数据种类在不断增加、数据质量在不断提高。地球系统数据已经具备了大数据的典型特征(4V),即数据量大(Volume)、获取数据速度快(Velocity)、数据类型多样性(Variety)、和数据真实性(Veracity)。可以说,地球系统数据正在迈入“大数据”时代(图1)。如何从这些数据中获取有效信息、增加对地球系统的认识,最终提高预报预测能力是一个新的挑战。
 
图1地球科学范畴下的大数据挑战(引自Reichstein et al., Nature, 2019)
 
    2019年2月14日,国际著名期刊《Nature》刊发了题为《数据驱动地球系统科学的深度学习与过程理解》(Deep learning and process understanding for data-driven Earth system science)的文章。来自德国、西班牙、葡萄牙和美国等国家的研究人员通过回顾机器学习在地球科学领域的应用,分析了深度学习在地球系统科学中的机遇和挑战,并认为数据驱动下的地球系统科学与机器学习深度融合是未来的趋势。在此基础上提出了两者深度融合的可能的5个途径:①参数化方案优化(Improving parameterizations,图2中①),包括了参数选择和参数化方案改进,即采用机器学习的方法获取更好的参数或参数化方案;②替换部分物理模式(Replacing a physical sub-model with a machine learning model,图2中②),即采用机器学习的方法获取并替代原模式中某部分的功能;③模式偏差分析(Analysis of model-observation mismatch,图2中③),即采用机器学习的方法分析模式与观测之间的偏差进而改进模式;④强迫约束性子模式(Constraining submodels,图2中④),即在②的基础上,采用机器学习的方法对②中机器学习替代的子模式结果进行修正,进而将修正后的结果代入到模式中进行后续运输;⑤替代模式(Surrogate modelling or emulation,图2中⑤),即采用机器学习的方法获取并替代原模式的功能。
 
图2物理模型与机器学习的联系(引自Reichstein et al., Nature, 2019)
 
    与该工作同期,区域海洋动力学与数值模拟功能实验室宋振亚等通过回顾海洋数值模式的发展现状,探讨、展望了当前海量数据驱动下海洋数值模式的发展趋势,提出了海洋科学与机器学习深度融合的6个途径(图3):①新型统计预报,即与统计预报类似,通过机器学习替代科学家对观测数据进行统计分析,寻找模拟或预报量时空上的关联,最终建立一个统计模型,进而开展模拟或预报;②复杂机理探测,即通过机器学习自动地从海量数据中寻找物理量之间的关联,特别是高维数据中的复杂关系,发现和认识海洋物理现象和规律,提高对海洋过程的认知,进而推动海洋模式的发展与完善;③参数化方案优化,包括了参数选择和参数化方案改进,即采用机器学习的方法获取更好的参数或参数化方案;④模式结果订正,即通过机器学习的方法从海洋模式已有模拟和预报结果与观测之间的偏差中寻找偏差的规律,建立偏差预测模型,进而修正海洋模式新的模拟和预报,减少模式结果与观测之间的偏差;⑤模式过程替代,即采用机器学习的方法获取并替代原模式中某部分的功能,将复杂的非线性函数求解过程替换为快速的计算过程,有效降低计算开销;⑥数值模式仿真,与新型统计模型类似,即采用机器学习的方法获取并替代原模式的功能,但是其根本是基于数值模式结果建立机器学习模型。
 
图3海洋科学与机器学习融合框架示意图(改编自宋振亚等,海洋科学进展,2019)
 
    当前,随着海量数据的出现,科学研究已经从实验归纳、模型推演和仿真模拟进入到以数据驱动科学发展为特征的第四范式,这为海洋科学和计算机科学带来了和新的发展机遇和巨大的挑战。在目前阶段,数据驱动的机器学习还不会替代物理模型,只是起到补充和丰富的作用,两者结合应是机器学习与海洋科学融合的发展趋势。同时需要注意的是,针对海洋具有时空连续性特点,在特征提取方法和深度学习神经网络发展方面仍处于探索阶段,需要进一步完善和发展。
 
中韩海洋科学共同研究中心版权所有
地址: 青岛市崂山区仙霞岭路6号    电话: +86-532-8896-4987    传真: +86-532-8896-4779    邮箱: newsletter@ckjorc.org

鲁公网安备 37021202000364号

  

鲁ICP备12001454号-17