当前,国内 AI Infra 领域公司围绕 DeepSeek 带来的一系列启发,也正在思考下一步大模型训推优化更好的解决方案,驿心科技便是其中之一。
上周 DeepSeek 开源 3FS 等一系列组件,充分说明了从存储到网络往 GPU 里面传输数据的能力是 AI 训练和推理中最重要的问题,这也正是驿心科技想解决的核心技术问题。
据了解,驿心科技于 2023 年 9 月由前旷视科技创始合伙人吴文昊成立,致力于从基础架构做研发,基于 GPU 服务器本地存储与通用以太网络,提供与传统智算基于 RDMA 的存储网络、单独部署商业训练存储同等的能力,大幅降低模型落地成本与加速部署,方便后续在 DeepSeek 等通用模型层面做优化,加速模型的运行效率。
值得注意的是,驿心所用的硬件完全是使用标准企业服务器以及标准网络,不需要任何的定制硬件、网络和软件。相比之下,过去 AI Infra 部署使用的传统高性能文件存储往往需要使用定制硬件服务器,特定网络交换,以及定制的操作系统内核和客户端。
换言之,驿心所提出的 AI Infra 整体解决方案效率更高、性价比更高。
在常规视野中,AI Infra 包含供应链和云两层,但经过两年的 AGI 技术跃进,大模型逐渐成为基础设施的趋势已然明朗,许多观点认为模型甚至可能成为新的“OS”。
架构方面,HPC、云和 AI 所需要的 Infra 均存在差异。首先,云的计算、网络和存储并非专门为 AI 或者 HPC 设计优化的,当中的不匹配会带来价值差:云围绕网络而生,通过 CPU、网络、存储资源的超卖解决利润问题,不能超卖则没有利润来源。
随着 AI Infra 的大规模兴起,这个价值点已经被重构了,因为 AI Infra 以 GPU 为中心,基于此,云大厂很难提供最为优化的底层 Infra,因为其还需要照顾到自身云原生应用的 Infra 需求。
此外,AI 虽然从 HPC 孵化而来,二者也都追求千卡万卡的规模,但从计算范式上看存在差距:本质在于 HPC 聚焦于做仿真、模拟世界的运行,追求确定性,需要高精度计算,而 AI 追求概率,需要的是 next token 够准确。
除技术架构外,国内芯片供应链重构也正在催生巨大的 AI Infra 机会,DeepSeek 无疑进一步推动了重构的发生。
在重构发生的同时,算力设备、能耗、机房空间和资金四大瓶颈也限制了 AI 算力的发展。对此,驿心依托 GPU 服务器本地存储与通用以太网络,构建了一套独具优势的一体化解决方案:
首先是 AI 集群一体化方案技术创新:驿心的 Tier-0 存储方案能有效利用 GPU 服务器内部存储,在搭建AI基础集群设施时,不需要再构建专属的存储集群以及存储网络,大幅削减了模型落地成本,显著加速了部署进程。
这不仅为企业和科研机构减轻了经济负担,更让先进的人工智能模型能够以更快的速度从理论走向实践,赋能千行百业。
其次在 AI 存储层面,驿心科技能支持多云多数据中心的全局文件系统(Global Namespace),让大模型的上载与更新完全无缝进行,提供统一的存储管理,让 AI 数据访问更高效。
不仅能够支持传统的文件和对象存储,也能利用好 DeepSeek 刚刚开源的 3FS 并行文件系统;具备智能的数据分层和缓存机制,可快速响应 AI 工作负载对数据的需求,提升训练和推理速度;有强大的数据安全与保护功能,保障 AI 数据的完整性和机密性;还能灵活扩展,轻松应对 AI 项目中不断增长的数据量需求。
在模型优化层面,驿心科技立足前沿,积极布局和拥抱开源生态。其解决方案为后续在 DeepSeek 等通用模型的优化工作提供了坚实基础,能够深度挖掘模型潜力,全方位加速模型运行效率,让人工智能真正做到快而准,助力客户在瞬息万变的市场竞争中抢占先机,引领行业发展新潮流。
驿心的解决方案无疑精准解决了目前 AI 训练与推理的主要痛点,这些痛点的洞察背后,实际上也与吴文昊横跨 HPC、云计算和 AI 的经历有一定关系:
从 1999 年清华本科毕业到美国,直到 2008 年去微软,这期间吴文昊一直在做 HPC,博士期间他主要做矩阵计算高性能实现与并行计算MPI协议研发,2008 年到微软之后负责微软 HPC 及微软云 Azure 产品管理,2011 年,吴文昊作为微软云 Azure 存储团队的 PM 负责了Mellanox进微软云 Azure 的项目。
随后的 2013 年,吴文昊离开微软,加入企业闪存市场“开拓者”Fusion-io,并于 2015 年回国加入旷视,此后一直聚集于 AI,一直到 2020 年正式离开旷视。
一是云和大模型,这部分客户的痛点主要在于自研、交付及客户服务成本高,继而需要专业存储、独立网络互联互通、多云数据同步与迁移,以及轻量级客户服务界面。
据吴文昊介绍,这方面驿心目前已经在国内头部互联网大厂完成了 技术验证,并且后者在全球只评测了两家,除驿心外还有一家美国存储公司。
二是AI研发类客户,涵盖汽车、自动驾驶,乃至机器人等垂直行业,其对 AI 和 GPU 存储能力需求不断攀升。这类企业利用 AI 技术最快完成行业内 AI 闭环,如自动驾驶,通常通过物理产品与 VLA 模型服务(视觉 + 语言 + 行动)实现 AI 闭环。
对此,就需要驿心提供专业 AI Infra 解决方案以及 VLA 模型与数据能力,来帮助他们构建垂直行业解决方案。目前,驿心也正加深同比亚迪电子的合作,继而提供针对AI研发类客户的一体机联合解决方案。
值得一提的是,吴文昊也将这部分客户描述为“AI 工厂”。在他看来,“从第一性原理出发,DeepSeek 的出现正说明了中国是真正的‘AI 工厂’。先不论 GPU 在哪生产,如果要打造 AI 工厂,最终供应链仍将来自中国。”
第三类客户为传统客户,包含半导体boyu博鱼官方网站,、制造、金融、能源等行业,它们需要安全、可扩展的存储解决方案。与 AI 研发类企业相比boyu博鱼官方网站,,这类企业 AI 需求增长较快,也在向 AI 领域发力,逐步迭代,完成商业闭环后有望成为 AI 研发类企业。
就此,驿心也通过与 OEM 厂商的合作,提供了针对细分行业及整合核心行业应用的存算一体机方案。
开源和工程化的实现让 DeepSeek 在 AGI 之路上往前迈进了一步,同时,也揭示了中美两国在 AGI 软硬一体上的两种不同思路:
美国的 AGI 在 Infra 上追求平台化发展,而中国的 AGI 如 DeepSeek 更强调通过算法驱动的软硬一体优化来降低底层Infra 成本与提高效率。
驿心也是如此——在海外市场联合 HammerSpace 提供的存储方案更为水平化,而驿心则针对国内市场给出了更加垂直的一体化方案。吴文昊认为,正如 DeepSeek 从模型往下软硬一体整体优化的方法论所展示的巨大市场影响力,整个AI Infra的软硬一体优化与整合同样会存在诸多市场空间。
他认为,“从存储到网络往 GPU 里面传输数据的能力在 LLM 时代才是关键。因此,我们的 AI Infra 能力聚焦在存储与模型层面boyu博鱼官方网站,。”
再次,在存储层面,针对大模型训练和推理,通过 Tier-0 方案直接整合 GPU 服务器内部的存储空间。如无必要,勿增实体,这样直接整合不仅解决成本,机房空间,能耗等核心瓶颈问题,而且极大提升存储性能与数据带宽。
在模型优化层面,针对类似于 DeepSeek 这样的主流模型,驿心结合算力、网络、分布式 KV Cache 等能力,提高LLM集群的吞吐,同时通过可靠的 Tier-0/Tier-1 存储方案保证模型与数据的可靠性,同时支持模型的后训练与推理加速。
当前,驿心最新一轮融资即将 Close。之后在多模态和端侧方面,驿心将寻求更多突破:“未来 AI Infra 特别是 AI 存储将会迎来巨大增长,因为多模态的数据量较之语言模型要大几十上百倍。”吴文昊告诉 AI 科技评论。
另外,“端侧 AI 也需要经过两三个周期才能达到如今语言模型的水平,所以未来在端侧,数据生成、合成、存储使用也存在许多值得关注的问题,这当中也蕴藏着新的机遇。”
总得来讲,中国 AI 行业整体迈向 AGI,不仅需要算法人员的创新,也需要更多像驿心一样有实力的 Infra 创业团队加入。如此,整个行业才能携手定义下一代 AI Infra 的发展,这才是核心关键点所在。雷峰网(公众号:雷峰网)雷峰网