IEEE是全球最大的专业方面技能安排,其间CyberSciTech已成为衡量技能立异与学术价值的重要标尺。作为聚集人工智能、核算机与网络技能的中高级世界会议,IEEE CyberSciTech每年招引全球上千名顶尖专家学者参加。论文录用率苛刻,仅有三十余篇效果能经过前沿性与打破性两层评定,被录入至IEEE Xplore和EI数据库。这些论文大多在业界被广泛引证,具有深远的世界影响力。
此次联想被录入的论文提出了一项立异性的RNL技能,经过多维感知、途径负载均衡优化与增量流量搬迁,有用处理了AI练习与推理场景中RoCE网络负载均衡的长时刻难题。这一效果不只获得了世界学术界的认可,更标志着联想在AI异构核算网络范畴的技能实力步入全球前沿。
跟着大言语模型参数规划爆发式增加,AI集群规划逐渐扩展,RoCEv2(RDMA over Converged Ethernet v2)已成为AI网络的干流协议。但是,AI练习与推理根据通讯原语(如all-gather、all-reduce)进行数据传输,这种形式容易形成网络流量出现“低熵、大象流”特征,极易引发负载不均和链路拥塞,严峻限制带宽利用率与全体功能。
面临AI事务对低推迟、高吞吐的苛刻需求,传统厂商首要经过专用硬件交流设备感知衔接联系,完成负载均衡优化,但方案高度依靠本身硬件生态,本钱昂扬且灵活性缺乏。因而,职业亟需一种通用、高效且经济的处理方案。
针对上述痛点,联想万全异构智算研制团队立异性提出的RNL技能,能够构建“多维感知+途径负载均衡+增量搬迁”闭环系统,兼具算法立异与实用价值:
首先是多维感知机制,能够实时感知网络拓扑结构、AI使命网络需求及RoCE链路负载状况,为动态调度供给数据根底。
其次是途径负载均衡优化,经过虚拟-物理网络映射与途径评分算法,智能挑选最优数据传输途径,最大化带宽利用率。
第三是增量流量搬迁,该技能选用增量搬迁战略,在链路流量调整时防止瞬时推迟,保证事务连续性。
与传统方案不同,RNL根据通用RoCE交流机完成AI网络优化,无需绑定专用硬件,显着下降了布置本钱。其中心立异在于交融AI事务通讯带宽与时延评价算法,结合多维链路拥塞评价机制,完成对AI负载的精准调度与网络途径的智能编列。
在实测环境中,RNL技能不只展示出高可靠性,更体现出在提高AI事务功率与下降总具有本钱(TCO)方面的两层优势。在功能提高方面,调集通讯原语功能提高50%,带宽利用率达85%,负载均衡离散度下降90%;AI推理场景下,TPS(每秒处理事务数)提高26%,TTFT(首字节时刻)时长削减 30%,TPOT(每输出令牌时刻)时长削减 22%;全体布置本钱下降60%,为AI集群的规划化落地供给了经济高效的网络根底。
RNL技能奇妙完成了本钱与灵活性的双赢。经过纯算法立异,该技能在通用RoCE交流机上完成了平等乃至更优的功能体现。这一打破不只打破了传统厂商的技能独占,更为用户更好的供给了超高的性价比、易布置的替代挑选,助力企业在AI比赛中快速构建竞赛优势。
现在,RNL技能已归入联想万全异构智算渠道的落地规划,这将进一步稳固联想万全异构智算渠道在AI异构核算商场的技能壁垒,提高其职业影响力与中心竞赛力。此前,联想万全异构智算渠道已在教育科研、工业/制作、云核算、大数据等范畴打造一系列标杆事例:例如,在职业级&科研级智算场景,联想与北大深度合作,一起打造了严重科学技能根底设施算力渠道,削减运维本钱50%,GPU资源利用率从70%提高至90%;在制作业,联想与吉祥一起打造了标杆级的智能算力集群,完成企业混合算力场景下的本钱优化。
未来,联想方案将RNL技能扩展至高功能存储、HPC等场景,并引进深度学习算法优化拥塞猜测才能。一起,联想将在千卡、万卡节点的大型AI集群中验证其归纳功能,继续推进AI网络技能的立异与迭代。
此次联想万全异构智算研制团队的立异效果,不只是其科研实力的会集展示,更是联想在前沿技能范畴不断寻求、不断打破的生动描写。在AI大模型迈向万卡级集群的布景下,联想将继续以技能立异为中心,继续打造安稳、高效的智算引擎,助力AI技能的规划化落地,推进AI算力普惠新时代。
下一篇:工控系统
现场直播斯诺克比赛:0535-6936668
地址:烟台经济技术开发区衡山路正海大厦南100米京宝来珠宝
丁俊晖比赛现场直播:0535-6389809
地址:烟台经济技术开发区万达广场一楼京宝来珠宝
CCTV5斯诺克世锦赛直播:0535-3607165
地址:烟台福山区福海路与永安街交汇口美迎美家一楼
微信公众号
微商城二维码