中国电商物流网-电子商务与物流行业融合媒体!电子商务物流行业门户网站!
快递网点 邮编查询 行政区划 高铁时刻 高铁票价 高铁车次
贸易资讯
免费注册 登录
中国电商物流网
企 业
产 品
商 务

百川智能携手鹏城实验室 突破国产算力大模型长窗口技术

来源:中国经济网  发布时间:2023-11-20 9:51

  11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。

  百川智能携手鹏城实验室助力国产算力大模型创新

  众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

  虽然国内诸多企业在通用AI芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

  百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

  国产算力最长上下文窗口,“鹏城-百川·脑海33B”率先实现国产算力技术突破

  百川智能和鹏城实验室共同研发的“鹏城-百川·脑海33B”128K长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。

  上下文窗口长度是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

  “鹏城-百川·脑海33B”在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术,对Transformer模块进行深度优化;此外,还在全生命周期的模型工具集中,首创了带安全约束的RLHF对齐技术,有效提升了模型内容生成质量和安全性。

  未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

Copyright © 2012-2024 sd56.net.cn All Rights Reserved 中国电商物流网 版权所有