|
气象大数据与机器学习联合实验室 |
大数据和气象的“联姻” |
|
■本报记者 沈春蕾
我们每天都在看天气预报,大家会发现天气预报基本准确,但也有那么几天不靠谱。近年来,随着技术水平的提升,人们对气象服务水平的需求越来越高,因此气象的精准预报成为气象部门追求的目标。
“气象的精准预报需要行业内外的结合,而创新可能在行业之外,比如引入新思想和新方法。”中国科学院自动化研究所研究员张文生告诉《中国科学报》记者,“比如,用大数据的观点来重新审视气象数据,就可以改变我们处理气象数据的方式和方法,解决之前气象预报没有关注的问题。”
相识机缘巧合
2013年,张文生的一名博士生进入国家气象卫星中心工作,“这个学生的博士毕业论文主题是热带风暴形成与台风眼路径预测,据说是世界难题。”通过几次交流,张文生意识到计算机信息技术可以在辅助气象预报方面发挥作用。然而,要撮合这两者还要靠人牵线搭桥。
不久后,张文生应邀前往国家气象卫星中心做讲座,讲座围绕气象数据是否是大数据展开。因为张文生多年从事大数据相关工作,邀请方希望他能用大数据的观点看看气象数据是否具备大数据特点。
张文生记得:“那次交流座无虚席,原来搞气象的人对我们搞机器学习、人工智能和大数据的人很感兴趣,并且希望我们能帮他们解决一些具体问题。”
随后,国家气象局组织人员来到张文生的实验室做进一步讨论交流,这次的焦点不再是气象数据是不是大数据,而是围绕如何利用气象大数据进行降水预报展开。“他们希望我们通过采集到的气象雷达大数据,找与降水量之间更为精准的对应关系。”2015年,张文生团队进行了尝试,效果很好。
于是,2015年6月25日,中国科学院自动化研究所和中国气象局公共气象服务中心签署协议,共建气象大数据与机器学习联合实验室,张文生任联合实验室主任。
实验室成立的总体目标是希望建设研究气象大数据机器学习、数据分析技术和开发公共气象服务平台,推动气象突发公共事件预警及专业气象服务等业务发展,培养具备气象领域知识和掌握机器学习方法的跨学科人才,助力公共气象服务领域技术持续性创新。
创新在行业外
为实现上述目标,张文生派出一名副研究员和三名博士生常驻公共气象服务中心,通过深入合作,他们的创新成果在公共气象服务中心取得了较高的认可度。
张文生团队针对气象雷达获取的多源、异构、稀疏并带有降水标记的全空间大数据,提出了“结构+统计”的大数据机器学习新模型与算法,精准表达了雷达反射率因子和降水量之间的关系,解决了气象雷达大数据在线、增量、半监督机器学习难题,实现了气象雷达大数据超短临定量降水估计,取得了分钟级降水估计的创新成果。
在雷达分钟级定量降水估计算法的基础上,张文生团队还设计了大数据分布计算架构,开发出高分辨率分钟级降水估计的业务产品,该产品对比国内外传统产品的各项指标取得显著提高。
关于“结构+统计”,张文生列举了一个简单的例子:骑自行车时对面汽车开过来,人脑里形成的结构是首先不让对面车撞来,而后是根据采集到危险的信息作出决策。提炼气象大数据的规律就是结合已有模型的结构进行新的统计,以作出迅速精准的预报。
联合实验室近期正在大力研究面向气象大数据的实时降水估测算法和模型,以提高基于雷达回波信息的定量降水估计准确度,同时探索时空精细化气象预测条件下的模型精度评价标准,研发时空精细化实时降水估测工程化产品。
“雷达扫的空间很多,一般是圆锥形的区域,这些空间的区域每隔一些点就有反射因子,参数在空中形成密密麻麻的点,随着距离地面高度、温度和压力不同,采集到了冰晶-雪-雨-雾的信息,从变化中找到规律。”张文生补充道,“虽然建立这样的模型,需要处理的数据量巨大,对我们来说也是一个挑战,不过我们还是成功做到了。”
应用回行业内
目前,张文生团队提出的“结构+统计”大数据机器学习模型与算法,以及研发的高分辨率分钟级降水估计产品,已经在全国100多部气象雷达上业务化试运行/推广,实现了1KM×1KM空间分辨率分钟级降水估计。
2015年7月28日,张文生团队的研究成果在中国气象局门户网站——中国天气网上试运行,在气象部门以及各行业领域产生了广泛影响力。
不久前,微信应用“中国天气网雷达分钟降水”也上线提供降雨预测服务。中国气象局专业的雷达分钟降水估计版本已在内部上线,将季节、区域的影响加入,在大数据处理、模型与算法、结果可视化等方面都有进一步的改进空间,相关改进成果正在内部测试。
张文生指出:“我们不仅取得了国内高分辨超短临降水估计的方法突破,实现了1公里分辨率5分钟精准降水估计,还为中国气象在国际公共气象服务超短临降水领域的讨论和对话提供了科学依据。”
《中国科学报》 (2017-02-13 第6版 院所)