기사내용

데이터에 기반한 지구 시스템 과학과 머신러닝의 심화 융합 전망

게시일: 2020-01-15     출 처: 한중센터

송진아 박사
중국 자연자원부 제1해양연구소
 
  현재 지구 시스템 데어터량이 100PB를 초과하였고 매년 5PB 이상 증가 하고 있다. 동시에각종 모니터링과 모의 방법의 발전에 의한 데이터 종류와 품질도 개선되고 있다. 빅데이터의 전형적인 특징(4 V), 즉 데이터량 많음(Volume), 확보 속도 빠름(Velocity), 종류 다양함(Variety), 진실성(Veracity)을 갖추게 된 지구 시스템 데이터가 점점 “빅 데이터”의 시대를 내딛고 있다.(그림 1) 이런 데이터에서 어떻게 유용한 정보를 확보해서 지구 시스템에 대한 인식을 강화하고 최종적으로 예보·예측 능력을 제고하는 것이 새로운 도전이 되고 있다.
 
그림1. 지구과학 분야의 빅데이터 도전(Reichstein et al., Nature, 2019)
 
  2019년 2월 14일, 국제 저명 학술지인 에서 <데이터에 기반한 지구 시스템 과학의 심화 학습과 과정 이해>(Deep learning and process understanding for data-driven Earth system science)란 논문이 게재됐는데 독일, 스페인, 포르투갈, 미국 등의 과학자들이 지구 과학 분야의 머신러닝 응용을 되돌아보면서 지구 시스템 과학에서의 머신러닝의 발전계기와 도전을 분석하고, 데이터에 기반한 지구 시스템 과학과 머신러닝의 심도 융합이 미래의 추세라고 제시하였다. 분석한 결과를 기초로 해서 5가지의 심도 융합 방법, 즉 ①Improving parameterizations,②Replacing a physical sub-model with a machine learning model,③Analysis of model-observation mismatch,④Constraining submodels,⑤Surrogate modelling or emulation 을 제시하였다. (①은 매개 변수 선택과 모수화 방안 개선 포함. 즉 머신러싱의 방법으로 보다 나은 매개 변수와 모수화 방안 확보. ②는 머신러닝의 방법으로 원래 모델 중의 일부분 기능을 확보 및 교체. ③은 머신러닝의 방법으로 모델과 모니터링 간의 오차를 분석하여 모델 개선. ④는 ②를 기초로 머신러닝의 방법으로 교체된 결과에 대해 수정 및 입력. ⑤는 머신러닝의 방법으로 원래 모델의 기능을 확보 및 교체. 그림2 참고.)
 
그림2. 물리 모델과 머신러닝의 연관성(Reichstein et al., Nature, 2019)
 
  같은 시기에, 중국 자연자원부 제1해양연구소 지역해양역동학과 수치모의기능실험실 송진아 박사가 해양 수치 모델의 발전 현황을 돌이켜보고 빅데이터에 기반한 해양수치모델의 발전 추세를 전망하면서 해양 과학과 머신러닝의 심화 융합 6가지의 방법(그림3)을 제시하였다. ①은 신형 통계예보, 즉 통계예보와 같이, 과학자를 대신하여 머신러닝을 통해 관측된 데이터를 통계·분석하여모의나 예보를 실시한다. ②는 복잡한 매커니즘 탐지, 즉 머신러닝을 통해 자동적으로 거대한 데이터에서 물리량 간의 연관성, 특히 고차원 데이터에서의 복잡한 관계 모색을 통해 해양물리 현상과 규칙을 발견하고 해양 과정에 대한 인지를 제고하여 해양 모델을 발전 및 개선시킨다. ③은 모수화 방안 보완인데 매개 변수 선택과 모수화 방안 개선, 즉 머신러싱의 방법으로 보다 나은 매개 변수와 모수화 방안을 확보한다. ④는 모델 결과 수정, 즉 머신러닝의 방법으로 확보된 모의·예보 결과와 관측된 데어터 간의 오차 규칙을 분석하여해양 모델의 오차를 줄인다. ⑤는 모델 과정 교체, 즉 머신러닝의 방법으로 원래 모델에서의 일부분 기능을 확보·교체함으로 복잡한 계산 과정을 단순화시켜 계산 비용이 줄어든다. ⑥은 수치 모델 모의, 즉 신형 통계 모형과 같이 머신러닝의 방법으로 원래 모델의 기능을 확보·교체하는데 본질은 수치모델 결과를 기반하여 머신러닝 모델을 구축하는 것이다.
 
그림3. 해양 과학과 머신 러닝의 융합 틀(송진아, 해양과학진전, 2019)
 
  거대한 데이터가 나타남에 따라, 과학 연구는 이미 실험 귀납, 모델 추적, 모의 등에서 데이터에 기반한 과학 발전 추진이 특징인 제4시대에 진입하였다. 이로 인하여 해양과학과 컴퓨터 과학의 새로운 발전 계기와 도전이 되고 있다. 현재 데이터에 기반한 머신러닝은 물리모델을 대체하지 않고 보조역할을 할 것이며 양자의 결합이 머신러닝과 해양과학 융합의 발전추세이다. 동시에 해양은 시간과 공간 상 연속성이 있기 때문에 향후 특징 추출방법과 심도 이해 신경망 기술도 이러한 연속성을 고려하는 방향으로 발전시켜야 한다.
 
Copyright © CKJORC. All Rrights Reserved.
주소: 중국 청도시 선하령로 6호    Tel: +86-532-8896-4987    Fax: +86-532-8896-4779    E-mail: newsletter@ckjorc.org