邬贺铨
■本报记者 陆琦
“大数据挖掘对智慧城市的经济发展和社会管理是无形的生产资料,大数据价值的合理共享和利用将创造巨大财富。”中国工程院院士邬贺铨在1月11日举行的2013中国智慧城市年会上说。
邬贺铨认为,智慧城市是城镇化进程的下一阶段,是城市信息化的新高度,是现代城市发展的愿景。智慧城市在产生大数据的同时,大数据也支撑着智慧城市的建设和发展。
何谓大数据?邬贺铨援引维基百科的定义说,大数据指没有办法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。
大数据目前的标准是,单一数据集的大小在几十个TB(万亿字节)和几个PB(千万亿字节)之间。
大数据究竟有多大?比如,淘宝网每天交易达数千万笔,其单日数据产生量超过50TB,存储量超过40PB;百度每天大约要处理60亿次搜索请求,数据量达到几十PB;中国联通用户上网记录达每秒83万条,即每月1万亿条,对应数据量为每月300TB。
“大数据虽然孕育于信息通信技术的日渐普遍和成熟,但它对经济社会生活产生的影响绝不仅限于技术层面。”
邬贺铨举了几个有趣的例子。美国印第安纳大学利用谷歌提供的心情分析工具,从网民的上千万条留言中分类出6种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。又如,美国Target超市选出孕妇常常购买的25种典型商品,建立“怀孕预测指数”,针对性地派送孕妇用品优惠广告,正因为利用了大数据分析技术来细分客户群,2002年到2010年间,其销售额从440亿美元增长到670亿美元。
此外,利用搜索关键词,疾控部门可以预测、判断某地流感暴发情况;通过关注社交网络上“糖友”的交流与感悟,医院和医生可以获得更好的糖尿病诊疗和康复经验……邬贺铨表示,大数据的应用领域很广泛,在医疗健康、财务管理、物流管理、国土安全等各个领域都有巨大的利用空间。
“物联网也好,智慧城市也好,数据挖掘是重点。”邬贺铨说,“获得数据后,不是简单的数据分析,还需要建立模型进行仿真,得出直观的可视化结果。”
邬贺铨以太湖蓝藻监测为例指出,通过传感器捕获太湖水质情况,可以得到溶解氧、水温、电导率、氨氮、pH值等参数作为参考。但仅仅这些还不够,还需要结合视频图像、人工采集和卫星遥感的数据一起分析。“多源异构的数据才能保证判断的可靠性。”邬贺铨说。
收集到各类数据之后,到后台进行分析挖掘,建立模型,跟历史数据进行对比,同时利用3S技术、云计算等,最终实现对污染的处理。
“装几十万个摄像头,并不表示就是智慧城市。”邬贺铨直言,“大数据的收集、存储、分析处理及使用,对智慧城市是很大的挑战。这不仅是技术也是政策和法律需要关注的问题。”
邬贺铨说,无线城市、数字城市、宽带城市、感知城市都是智慧城市的必要条件,创新城市、绿色城市、宜居城市、平安城市、健康城市、幸福城市等更是智慧城市的应有之义。
《中国科学报》 (2013-01-17 第1版 要闻)