作者:喻琰 来源:澎湃新闻 发布时间:2025/1/29 14:32:39
选择字号:
搭建算力、语料公共服务平台,上海为大模型基础底座赋能

 

“到2025年底,建成世界级人工智能产业生态;力争全市智能算力规模突破100EFLOPS;形成50个左右具有显著成效的行业开放语料库示范应用成果;建设3—5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。”2024年12月,上海发布《关于人工智能“模塑申城”的实施方案》(以下简称《实施方案》),在方案中提出了一系列有关人工智能产业发展的目标。

在先后经历了信息化、数字化革新后,上海正在积极投入城市“数智化”建设,为以大模型为代表的新一代人工智能产业的发展添瓦加砖,为强化大模型基础底座赋能。

在今年1月举行的上海市“人工智能+”行动推进大会暨中国—金砖国家人工智能发展与合作中心基地启用仪式上,“模塑申城”五大公共服务平台正式亮相,包括由上海仪电集团运营上海智能算力公共服务平台、库帕思牵头“模塑申城”语料普惠计划、上海人工智能实验室运营大模型评测与验证中心、上海创智学院牵头“百人百项”青年科学家计划,以及上海国投—徐汇融资服务中心。

作为大模型最重要的燃料,算力和语料直接关系着大模型产业落地的进展。经过并不算长的时间的跨越式发展,这两大关键平台目前不仅为上海的基础模型企业提供保障,同时也正在顺应垂类应用蓬勃发展的趋势,为企业创新提供高性价比、高质量的算力与语料支持。

国资扛起算力供给重任

曾经参与筹办了以往七届世界人工智能大会的孙跃在2024年7月有了新的身份——上海仪电智算科技公司总经理。

“2023年,随着国产大模型的蓬勃发展,市里意识到建设完善支撑大模型发展的智能算力功能性公共服务设施的重要性。”与以往超算中心以CPU为主的算力不同,大模型的训练和推理都需要由GPU支撑,且算力需求呈现指数级增长。“缺卡缺算力”成为大模型创新的一个关键掣肘,业内预计这种供需不平衡可能在未来三五年都会持续存在,人工智能日新月异的迭代速度决定了抓住产业发展窗口期的迫切性。

上海仪电(集团)有限公司作为大股东承担起了上海仪电智算科技公司的牵头建设工作。

  ?


为此上海决定设立一个国资的算力平台,为上海的大模型企业和科研单位提供基础的人工智能算力保障,降低创新成本。这一意见很快得到落实,上海仪电(集团)有限公司作为大股东承担起了上海仪电智算科技公司的牵头建设工作,当年即投入运营。

“经过两年时间,我们已经建成投产了多个万卡集群。”孙跃介绍说,目前上海仪电智算科技公司正在为上海的重要大模型企业以及研究机构提供算力服务,支持他们的科研和大模型开发,包括上海算法创新研究院、大模型创业企业阶跃星辰等。

相对于自建集群来说,租用算力可以免去承担巨额硬件资产的投入成本。“我们的目标是通过相对低成本的规模化运营为上海的人工智能创新企业和战略客户提供灵活的公共算力服务。”

除了成为公共算力服务商,打造国产算力软硬件生态也是上海仪电智算科技公司作为国资功能性平台的另一个重要使命。

“作为上海市智能算力公共服务平台,要发挥国产智算产业链生态链接和引领作用,通过国产芯片软硬件和解决方案适配来降低国产芯片的使用门槛,让国产算力能够更好地服务大模型发展。”

孙跃介绍,上海仪电智算科技公司从2024年初开始建设国产化AI算力适配测试中心,目前已完成十余款国产芯片的适配测试,并开展国产软硬件平台的适配和新技术验证,有力支撑了我国自主创新生态的构建。

伴随着人工智能技术的深入发展和大规模应用,模型后训练和推理需求可能很快会超过预训练算力需求,而在此之前,作为上海仪电智算科技公司来说,需要为新一轮产业和技术革命的到来提前做好算力保障和稳定供应的准备。目前,上海市智能算力公共服务平台一方面进一步强化规模化的智算集群工程建设运营能力。同时,着力推动基础设施IaaS、软件工具平台PaaS、语料数据层DaaS及模型层MaaS能力整合,提供“训推一体、混合部署”的智算云服务,加速向国内一流的智算云公共服务商转型,支撑本市大模型行业垂类应用和千行百业数字化转型。

语料供给有了正规军

在AI应用中,语料质量直接决定了模型的性能。高质量的训练数据能够有效减少模型在推理过程中的错误率,提高模型在实际应用中的创作能力和生成质量。

近两年,随着AI技术的快速发展,产业界也越发意识到数据质量管理的重要性。不过,数据市场普遍存在授权难、成本高和版权风险大的问题。

授权难是指模型公司难以通过合规渠道获取语料,有碍于基础模型和垂类模型的商业化应用推广和技术迭代创新。成本高则体现在当前购买语料的价格大部分是以版权计价的方式进行,授权周期通常为1年,到期还需销毁,继续使用需要再次收费。而在版权方面,近两年,人工智能版权纠纷的问题让大模型公司经常处于“风口浪尖”上。

“之前语料数据管理市场没有方法论,俗称‘乱炖’式,找来的数据对提升模型能力究竟有没有帮助,效果未知。”上海库帕思科技有限公司(以下简称“库帕思”)董事长山栋明日前在接受澎湃科技采访时坦言当前数据市场存在的“难言之隐”。

库帕思成立于2024年3月下旬,是按照上海市委、市政府部署,由上海联和(信投)牵头,协同相关数据资源方和大模型相关企业组建的中国第一家人工智能语料公司,专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。

库帕思定位是带有功能性的语料服务专业化运营平台,提供一站式的高质量语料服务,推进多层次语料体系建设。“通俗理解,我们有三个角色,一是数据标注施工队,二是语料处理总包商,三是语料专业开发商。”山栋明介绍说。

库帕思定位是带有功能性的语料服务专业化运营平台。

  ?

经过近一年的实践,库帕思围绕服务万亿级参数模型训练持续扩容基础语料库,去年9月完成第二批语料采购和交付任务,已经启动第三批语料清单方案。目前已经实现成品语料输出约200TB,链接生态主体超100家,直接服务器机构数量超30家。同时围绕打造中国版Sora,推动高质量多模态语料供给,与众多内容供给企业形成合作。

在语料服务模式上,库帕思也改变硬盘拷贝、云端传输等传统数据交付方式,根据基础模型、垂类模型、端侧模型不同需求,提供语料动态配比、知识修正、价值对齐、快速封装等“一站式”交付服务。库帕思提出的系统化清洗流程,涵盖了从数据预处理到语法纠正的多个步骤。这种方法不仅提高了标注数据的准确性,还大大减少了人工干预的频率,从而提升了数据处理的整体效率。山栋明介绍,传统数据公司只提供原始数据,而库帕思提供清洗标注后的语料,可直接用于模型训练。

此外,针对业内缺乏统一的高质量数据集定义标准,导致不同公司、不同机构或平台即便有了高质量数据,但仍要耗费人力和时间重新处理数据标注的情况,库帕思自成立以来也在推动语料工作的标准创新。

在2024世界人工智能大会语料主题论坛上,库帕思公司同覆盖多模态数据资源供应、加工、应用和运营全链在内的近二十家企业共同发布了团体标准《语料库建设导则》。在语料数据清洗方面,库帕思在国家知识产权局申请了一项名为“语料数据的清洗和质检方法、设备、存储介质及程序产品”的专利。该专利公开号为CN119128385A,申请日期为2024年9月。专利的核心在于有效提升语料数据的质量,这对于AI领域尤其是自然语言处理(NLP)和知识图谱等应用具有深远影响。

“我们把自己定位为人工智能拼图中的生态链接者,致力于制定行业标准,构建AI生态。”山栋明说。

为垂类模型企业降低创新成本

伴随着大模型行业发展需求的变化,上海仪电智算科技公司从去年开始也在逐步转型,“起初我们主要任务是保障基础大模型用户,现在随着大模型行业应用的发展,我们的服务对象扩展至各类垂类大模型企业。”孙跃说。

和基础大模型相对量大、稳定的算力需求相比,垂类模型的算力需求更加灵活,“可能每次需要的量不多,频率也不稳定,这就需要我们有更加灵活的应对方案。”为此,从2024年起,上海仪电智算科技公司不仅提供自己的算力,还在打造一个算力的灵活调度平台,通过平台协调其他社会算力资源,来共同服务垂类大模型的算力需求。“资源集中化、规模化后,才能提高资源的有效利用率,从而降低成本。”孙跃介绍说。

山栋明也表示,自成立以来,库帕思也在一路探索模型公司对语料需求的变化。和上海智算公司一样,库帕思在创立之初也主要服务于基础大模型,随着产业不断演进,模型未来的核心不仅仅是基础大模型能力本身,而与应用紧密挂钩。在应用领域,过往选模型的逻辑并不适用现在,“某些模型整体表现不错,但在特定应用场景中,表现未必最好”,其中差异的关键在于用于模型训练语料的不同。

库帕思的目标是大幅降低居高不下的AI应用成本,让开发垂类模型的中小企业能够零门槛使用数据,实现“开箱即用”。此外,在垂类领域上,已聚焦“5+6”垂类领域(金融领域、医疗领域、制造领域、教育领域、文旅领域、城市治理领域)按照“一业一方法”建设行业语料库。

库帕思聚焦“5+6”垂类领域按照“一业一方法”建设行业语料库。

此外,库帕思也在发力具身智能、机器人等前沿垂类领域的高维语料需求市场,目前该公司已经联合上海国地中心、智元、傅利叶、开普勒、21所编制发布《具身智能语料库建设导则》,下一步库帕思将推动具身智能真机数据采集上规模和上质量,在世界人工智能大会前将发布更大规模、FC碰碰胡老虎机法典-提高赢钱机率的下注技巧样场景的具身智能语料库。此外,进一步增强语料智能清洗与质量保障、智能合成和模型价值对齐、智能配比和知识修正等方面的技术能力。

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学网给您拜年了! 詹姆斯—韦伯望远镜捕捉到蓝色恒星群
石油开采可能引发了英国100多起地震 赠书|用数学思维理解世界
>>FC碰碰胡老虎机法典-提高赢钱机率的下注技巧
 
一周新闻排行
 
编辑部推荐博文