作者:赵广立 来源:中国科学报 发布时间:2025/1/21 22:47:02
选择字号:
揭秘“腾讯混元”诞生背后的“生产车间”

 

在国内的头部人工智能大模型研发队伍中,腾讯混元大模型率先采用“混合专家(MoE)”结构,模型参数规模突破万亿,处于中国大模型第一梯队。

许多人可能不知道,在锻造“混元”的过程中,腾讯选择的是从零开始的自研路线。

大模型的锻造,是一个在约束条件下高效地把工程、算法、数据以及业务应用整个串联起来的工作,其对组织能力的要求非常高。腾讯如何在短时间内搭建出万亿参数规模的模型?又如何突破算力极限、在训练和推理上下功夫,高效产出多款业界领先的模型?

2个多月前的2024年世界互联网大会乌镇峰会给出了答案。在乌镇峰会发布的20项世界互联网大会领先科技奖中,由腾讯公司、北京大学、北京科技大学共同申报的关键技术项目“Angel大规模机器学习平台关键技术与应用”赫然在列。

Angel机器学习平台获选世界互联网大会领先科技奖。腾讯 供图,下同

  ?

针对大模型训练和推理场景,腾讯机器学习平台Angel主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分。腾讯机器学习平台部总监陶阳宇近日接受《中国科学报》专访时表示,面对大模型训练这个复杂且庞大的任务,在“数据Ready”和“算力Ready”的基础上,Angel机器学习平台提供了一个“超级流水线”。

“集团作战”的秘密武器

训练大模型,对算力的要求是“多多益善”。因此模型训练的算力支撑,往往是成千上万张算力卡的“集团军作战”。集团作战,首重通信。陶阳宇介绍说,在解决高速网络互联方面,腾讯Angel的秘密武器是“星脉网络”。

“星脉网络是一套软硬件协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,支持超10万卡大规模组网。”陶阳宇说,全链路自研硬件、拥塞控制路由算法等不仅提升了网络性能,也使成本显著下降70%。

如果把大模型训练比作一场一级方程式赛车比赛,“星脉网络”就是专为其设计的高性能算力网络“赛道”。陶阳宇告诉记者,腾讯还自研了相应的网络协议作为“赛车指挥中心”,它们共同让高性能计算集群发挥最大算力性能。

此外,算力底层架构还面临着“异构混合计算”的难题:如何做好对不同款型芯片的协同支持和兼容,将其共同构建为一个强大的算力平台。

陶阳宇介绍说,为了让参差不齐的算力设备为同一个计算任务“出力”,一方面星脉网络可以通过兼容不同厂家芯片的通信协议实现芯片间的通信,另一方面,他们还提出了一种非均匀的负载切分混合训练技术,按照芯片的不同算力对计算任务中的神经网络进行不同层次切分。

“简单来说,就是让算力强的芯片多承载一些计算任务;算力弱一些的芯片少承载一些计算任务,从而使得整个计算任务没有‘木桶短板效应’,高效地完成计算。”陶阳宇说。

“让每一滴资源都被榨干”

“算力Ready”的下一步,就是如何“榨干”算力。

“算力组网连起来后,如何调度是个技术活。”陶阳宇说,让大模型训练任务、推理任务快速地用上这些算力,正是框架层需要解决的问题。

现有的算力条件下,模型达到TB级,而现有GPU的显存只有80GB,参数存储存在瓶颈。为减少显存浪费,腾讯Angel机器学习平台提出了显存主存统一视角存储管理机制。

“我们通过统一编存的方式,把显存跟主存统一打通,使得一个机器上能够放FC碰碰胡老虎机法典-提高赢钱机率的下注技巧的参数,包括一些中间的临时变量,使得整个效率进一步提升。”陶阳宇介绍道,Angel机器学习平台通过显存+主存一体化管理技术,实现模型存储与通信的调度优化,帮助大模型任务实现灵活调度,来达到“每一滴资源都被榨干利用”的效果。

此外,Angel机器学习平台还通过模型并行、数据并行、流水并行、上下文并行等实现算力和通信的并行,再加上算子融合等优化,整个训练框架的整体性能得到有效提升。据测算,相比微软的开源框架,Angel机器学习平台训练性能提升2.6倍,推理速度提升2.3倍。

混元生成的大熊猫。

  ?

高效率“拥抱”多模态

大模型要向通用模型发展,离不开对多模态数据的处理支持。

“文字、图片、音频、视频等不同模态数据的对齐融合理解难度很大,怎么把蕴藏于其中的知识提取出来、融合在一个大模型里面,我们也做了很多工作。”陶阳宇介绍道。

具体来说,他们提出了“自适应预采样训练技术”以及“不确定性感知机制”,来实现多模态数据的融合。

其中,“自适应预采样”技术,是将训练过程和采样动作进行解耦。“传统的训练方法需要先采样、然后训练;训练之后再去采样、再训练,如此反复迭代。”陶阳宇解释道,这种串行的流程,训练跟采样不能分开,影响训练效率。而通过自适应预采样,模型训练跟预采样是分开的,训练过程中可以进行下一轮的采样,这种方式不仅更适于多模态数据融合,还可显著提升训练效率。

“不确定性感知机制”则是一种通过概率表达形式高效实现多模态知识融合的方式。陶阳宇说,传统上对不同模态数据硬性分类,忽视了知识可能同时存在于文字、图片、语音等多个模态数据中的因素,这时通过一种概率感知的方式将不同模态知识进行融合,不仅高效,而且节能降耗。Angel平台已支持腾讯混元、广告等多个场景的多模态模型的训练生产。

立足当下,面向未来

据介绍,基于腾讯Angel机器学习平台,腾讯混元大模型目前已经构建了从5亿(0.5B)到700亿参数(70B)以及万亿参数的不同尺寸通用模型和专用领域模型,涵盖了语言模型、多模态理解模型和文生图/视频模型等。这些模型已被应用于700多个腾讯业务场景,展现了其强大的应用潜力和价值。对外,Angel平台通过腾讯云输出,广泛应用在大模型、广告、推荐、社交、金融等领域,服务30万行业客户,助力实体行业进行数智化升级。

腾讯内部已有700+业务接入混元。

  ?

“现在大模型训练已经是‘万卡时代’了,未来的规模可能超过万卡。我们现在的研发方向之一,就是针对更大规模的训练场景,如何提高效率和稳定性。”陶阳宇展望说道。

腾讯机器学习平台部总经理、混元大模型负责人王迪表示,大模型训练存在“线性加速比”的问题,从万卡到十万卡,需要考虑的不光是训练规模的问题,还需要考虑交换机、路由器等通信能力方面的问题,“这是一个很值得持续探索和实践的方向”。

与此同时,陶阳宇还披露,目前他们还在探索跨数据中心的大规模训练技术。

“我们已经有了初步探索,在相隔120公里的两座数据中心之间,我们完成了千卡规模的训练任务,其效率能达到单集群的98%左右,从逻辑上看就好像一个集群。”他说,这其中会用到许多优化技术,“非常有趣”。

陶阳宇还表示,在FC碰碰胡老虎机法典-提高赢钱机率的下注技巧支持异构算力特别是国产芯片方面,未来仍有发力点。“如何把这些异构芯片更大规模地集中起来去做训练和推理,我们已经有些探索经验了,接下来要做更灵活、更有效的国产化支持。”

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:[email protected]
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
罕见!七大行星要排队了 拉尼娜姗姗来迟,但不会持续太久
安眠药干扰大脑清除废物 2024年大气二氧化碳水平实现迄今最大增幅
>>FC碰碰胡老虎机法典-提高赢钱机率的下注技巧
 
一周新闻排行
 
编辑部推荐博文