获取邀请码
申请VIP
发布器
商务合作
交易中心
公告
活动推广
新手
成人BT
美图
文学
信息
在线视频
休闲娱乐
资源共享
管理
注册
登录
一元夺宝
搜索
标签
虚拟足彩
帮助
界面风格
繁體中文
申请赞助
广告合作
SiS001! Board - [第一会所 关闭注册]
»
IT home | IT之家
» [一代综师]华为AI存储如何快速“喂饱”大模型? [6P]
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[资讯]
[一代综师]华为AI存储如何快速“喂饱”大模型? [6P]
raven9sun
LEVEL 9
积分
716
金币
11534 枚
威望
97 点
金镑
0 个
银币
133 枚
舍利
0 枚
注册时间
2011-2-27
最后登录
2025-3-10
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2023-7-18 22:04
只看该作者
0
[一代综师]华为AI存储如何快速“喂饱”大模型? [6P]
AI大模型正在倒逼国内数字基础设施产业加速跃迁。
随着“百模大战”打响,近日,ICT龙头华为继推出了盘古大模型3.0、昇腾AI云服务等产品后,又进一步推出了面向大模型的全新AI存储产品。
存储的重要性不言而喻,它与算力、网络并列为“数据中心三大件”,为大模型生产提供数据底座,支持大模型中的信息快速、无延迟地读写。
如果将大模型比作孩子,那么数据就是菜肴。孩子只有吃得好,才能长得高,数据存储正是烹饪这些菜肴的大厨,是大模型成长的“第一道关口”。
华为此次面向基础、行业大模型及细分场景模型,推出了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机两款新品。据称,其在密度、容量等性能指标上高于业界60%,能大大提高大模型生产中的数据处理效率,以便高效快速地将“菜肴”喂给正在茁壮成长的大模型。
数据“存得下、用得好”在小模型时期已经是企业标配需求。那么相比于小模型时代,大模型场景下的存储需求发生了什么重要改变?华为推出的AI存储新品是基于什么考虑?数据存储又将如何影响我国大模型产业的发展进程?
通过对话华为数据存储产品线总裁周跃峰、华为分布式存储领域副总裁韩振兴等专家,本文对此进行了深入探讨。
一、数据资产升值,存好数据成“炼模”第一关
众所周知,算法、算力和数据是AI的核心三要素。
今天看中国乃至全球AI发展,大模型软件算法已有众多部署,比如清华大学与智谱AI联合推出的ChatGLM、中科院自动化所推出的紫东.太初、科大讯飞推出的星火认知大模型等;在算力方面,我们也看到英伟达之外,华为昇腾、寒武纪等新秀飞速发展;而当我们把视线投向数据,则发现了一大“凹陷”地带。
多位大模型公司专业人士称,国内大模型与GPT-4仍有一定距离,背后的一大原因是英文类大模型在训练时,所调用的记录资料远多于中文。国内大模型缺乏海量和高价值的数据,已成为限制大模型产业发展的一大桎梏。
根据投资机构ARK Invest预算,到2030年,产业有望训练出比GPT-3多57倍参数、多720倍Token的AI模型,成本将从今天的170亿美元降至60万美元。随着计算价格降低,数据将成为大模型生产的主要限制因素。
面对数据桎梏问题,不少企业已经开始进行前瞻性布局。华为分布式存储领域副总裁韩振兴告诉智东西等媒体,国内已有十几家大模型客户、厂商与华为展开合作,比如前文提到的科大讯飞、中科院等,还有一些海外客户,都纷纷关注到了大模型场景下数据存储的升级需求。
华为数据存储产品线总裁周跃峰说,“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。”他谈道,过去几年,国内大力建设了很多算力中心,而随着大模型推进,各地的存力中心也开始加紧建设。与此同时,大模型的训练需要快速的数据采集和加载,因此也呼唤产业打造出更高性能的存储产品。
中金公司研究部计算机行业首席分析师、副总经理于钟海在近期的一次演讲中也谈道,数据应该成为企业AI战略的核心。随着头部大模型企业投入,大模型算法本身的接入成本将不断变低,行业大模型成为行业发展的趋势。企业私有数据,蕴含不可湮灭的价值;数据壁垒,也成为竞争对手无法完整复制的策略。
可以看到在大模型时代,数据资产正在升值。数据存储作为大模型生产中的“第一关”,重要性将随着时间推移更加凸显。
二、迈过四道坎,攻克大模型的“饥饿状态”
相比于小模型训练,大模型的显著特征是“大”。
这决定了小模型的数据处理与大模型存在区别。从产业实际来看,在小模型兴起时,很多企业会用一些服务器的本地磁盘来存储数据,用以加载到显存里做训练。但随着大模型兴起,服务器本地磁盘难以带动海量数据,如果继续扩充此类存储设施,则有可能出现问题。
这就要提到模型生产面临的第一重挑战:在大模型的数据准备环节,数据准备和预处理过程复杂,耗时长。
由于数据来源分散、归集慢,且预处理百TB数据大概需要10天左右,从而影响了整个系统的高效运转。这就需要在数据存储环节快速进行数据归集和预处理,以此缓解算力“饥饿”问题。
同时,企业不仅需要把数据喂给大模型,还需要让数据存储和训练计算打配合。
这里就指向了大模型训练中的第二重挑战:在大模型的训练环节,数据集的加载效率往往难以满足需求。当下大模型已达到百亿到万亿参数,多模态大模型以海量文本、图片为训练集,需要我们将大量小文件传送到训练器。而小文件的读取速度是一个业界难题,就像传输一个G的电影远比传输多个1k的小文件快一样,当前海量小文件的加载速度不足100MB/s,这就限制了整个系统的效率。
还有第三重挑战,那就是在AI大模型训练中,训练中断后的断点恢复面临难处。由于大模型参数需要频繁调优,训练出现中断是高频事件,需要高效地恢复训练过程。尤其在训练复杂的模型结构时,如果数据加载不顺畅、易出错则会增加巨大的工作开销。
此外,还有第四重挑战,那就是在大模型实施部署环节,大模型落地门槛往往较高。对于绝大多数企业而言,使用大模型需要专业的知识储备、人才储备和专业系统实施能力,且企业传统的IT系统会为每个应用预留一定的GPU资源,单个应用独占GPU,资源利用率通常不到40%,这些问题对企业来说也比较棘手。
总的来说,在大模型生产中的数据采集、数据预处理、模型训练、模型推理任一环节,如果数据存储跟不上计算的节奏,都可能造成大模型的“饥饿”。只有解决上述关键难题,才能解决大模型的“饥饿”状态。
纵观当下全国数据中心布局,算力相对充足,但缺乏相应的存力。如果算力过多、存力过少,就会导致数据在归集、预处理、训练、推理的流程中耗时过多,算力就会被闲置等待,从而造成资源浪费,更影响大模型生产的质量。“存算比”成为更加需要科学考量的关键指标。
三、面向多种大模型场景,华为打造数据“加速包”和“保护舱”
解决瓶颈问题,需要产业头部玩家牵头。
作为全球领先的高端存储设备公司,华为在两三年前预判到AI大趋势,提前筹备两款AI存储产品。据称,这两款产品在密度、容量等性能指标上高于业界60%,并通过灵活的扩展性,帮助大模型客户更好地预置和部署大模型。
首先来看看第一款产品,OceanStor A310深度学习数据湖存储。
正如前文提到,面对大模型时代的数据采集、处理等各环节的问题,过去将数据归集、预处理、训练、推理分别建在不同的数据中心的方式可能不再高效。大模型会加速存储在各个环节的融合,形成类似数据湖的存储。
OceanStor A310是面向基础、行业大模型场景,涵盖从数据归集、预处理到模型训练、推理应用的AI全流程深度学习数据湖存储。据悉,OceanStor A310是当前全球性能密度最高的一款存储,支持96闪存盘,带宽可达400GB/s,IOPS达到1200万,可线性扩展至4096节点,实现多协议无损互通。其内置的全局文件系统GFS可实现跨地域智能数据编织,简化数据归集流程,并支持近存计算,以实现近数据预处理,减少数据搬移,预处理效率提升30%。
此外,OceanStor A310不仅可用于AI大模型,它的同源数据的处理能力在客户做超算和大数据应用时同样适用。当未来客户系统需要升级融合成AI大模型的时候,数据也无需再迁移,该产品有很好的未来演进能力。
再来看看第二款产品,FusionCube A3000训/推超融合一体机。
正如前文提到,很多企业在搭建AI时,如何降低这一系统化工程的落地门槛?答案是超融合。
FusionCube A3000训/推超融合一体机集成了高性能存储节点、训推节点、网络交换设备、AI平台软件。据悉,这一新品面向百亿级模型应用,客户可以一站式部署,开箱即用,能大幅降低AI大模型的前期使用、部署门槛与投入。
FusionCube A3000 还支持两种商业模式,为客户提供更多样的配置选择。第一种昇腾一站式方案是华为集成了自研的OceanStor A300高性能存储节点、网络、昇腾计算与管理运维软件,为客户提供全国产化的昇腾一站式方案。第二种是第三方GPU一站式方案,其底座是华为OceanStor A300高性能存储节点,其余GPU服务器、交换机、AI平台软件向伙伴开放,为大模型伙伴提供拎包入住的部署体验,实现一站式交付。
FusionCube A3000已与多家战略伙伴进行合作试用与联合创新,今后将持续赋能更多中小企业、研究所和高校的AI大模型训练推理。
除了让大模型“吃得饱”,我们不得不提数据安全的问题,这也是几乎所有大模型厂商极其关注的问题。
就像我们关注钱的安全,首先就是希望钱包和家里的保险箱安全,数据存储的安全与之类似。
华为苏黎士研究所数据存储首席科学家张霁谈道:“数据存储是我们数据安全的第一道防线。”在AI大模型的第一个阶段,将数据安全地归集是十分具有挑战性的。为此华为正在研究一种数据方舱技术,将数据在流转的过程中把相关凭证、隐私、权限等信息跟数据放在一起进行流转。这些数据到达数据归集地后,都在数据方舱中安全的执行和保护,从而做到数据安全。
只有数据能够安全流转,AI大模型未来才可以得到长久、持续的发展。
总的来说,面向多种大模型场景,华为正在打造数据的“加速包”和“保护舱”,并带领数据存储行业建立大模型时代下的新标准。
结语:大模型推动数据资产升值,存好数据成“炼模”必备
随着大模型推进,存好数据成“炼模”必备,数据存储出现了新的趋势。大模型的训练需要快速地采集和加载数据,因此也需要更高性能的存储产品。与此同时,大模型会加速存储在各个环节的融合,提升整个系统的效率。
过往几年,国内建设了很多的算力中心。而随着大模型的加速狂飙,我们有望看到更多省份开始建设大量存力中心,存力产业将与算力产业一同实现新的迭代升级。
搜索更多相关主题的帖子:
一代综师
UID
10356981
帖子
893
精华
0
积分
716
金币
11534 枚
原创
0 帖
威望
97 点
金镑
0 个
感谢
37 度
银币
133 枚
舍利
0 枚
阅读权限
45
在线时间
0 小时
注册时间
2011-2-27
最后登录
2025-3-10
查看详细资料
TOP
作者的其他主题:
[一代综师]孟海葬礼,洪金宝拄拐伤心送别,17岁女儿捧遗照亲友泪流不止 [23P]
[一代综师]好友证实!王菲谢霆锋不领证结婚的真相,竟与前妻有关联 [9P]
[一代综师]Nancy Kwai - Count to Three
[一代综师]Jeffrey Ngai 魏浚笙 - Never Say Never
[一代综师]《 葫 芦 娃 今 天 不 在 家 》
[一代综师]《喜欢你是我的敌蜜~》
‹‹ 上一主题
|
下一主题 ››
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
升级赞助会员
VIP专用风格
青青家园
手机版本
公告区
悔过区
回收站
English
管理申请
虚拟足彩
道具商店
新手导航
投诉建议
第一会所新片
原创培训
亚无原创
亚无转贴
亚有原创
亚有转贴
欧无原创
欧无转贴
动漫原创
动漫转贴
新手原创
分流宣传
自拍原创
产品交易购买
使用经验交流区
男女性健康
成人两性保健品推荐区
足球竞猜
有奖竟猜
娱乐明星新闻
IT新闻科技
Dota Defense
大杂烩
秘密趣事
体育博彩
打卡签到
人工智能(AI)
华山论剑
成人网盘
正规影视
成人影视
小说打包
A V 交流
资源悬赏
资源售卖
原创超市
原创打包
新手原创
东方靓女
西洋靓女
精品套图
星梦奇缘
高跟丝袜
丝魅鉴赏
熟女乱伦
卡通贴图
网友自拍
若兰居
自拍VIP
唯美图文
东方唯美
西方唯美
景致唯美
生活百态
另类拾趣
恐怖殿堂
魅惑瞬间
网红前沿
偷拍分享
作者会宾室
文学作者
原创人生
评论推荐
文学交流
征文活动
旧文展览
收集藏书馆
电子书馆
五味书斋
北京信息
良家情感
东北华北
西北西南
华中华东
华南港澳台
海外信息
性技学习
男女性健康
经验交流
楼凤信息
毕业区
新贴审核
在水一方
征文大赛现场
今夜不设防
上传视频
观看短视频
新帖发布
明星三级
成人视频
居家自拍
成人卡通
论坛总制区
综区事务所
副管超版理区
管理团队室
BT版主事务区
图区事务区
文区事务区
信区事务区
娱乐休闲
论坛活动
勋章申请
人才招募
论坛 Board
美图区 Gallery
视频区 Tube
HTTP区 Downloads
影视区
娱乐休闲
文学区
信息区
新手区
当前时区 GMT+8, 现在时间是 2025-3-11 07:21
Taiwan Cute Girl
!!!全体会员请注意!!!
任何VIP优惠活动,都是骗人的!
切勿上当受骗!
请大家记住并收藏备用访问地址:
地址一
地址二
地址三
地址四
地址五
忘记地址,请发email索取:
getsisurl#gmail.com(#换成@)