企业案例04:AI时代分布式存储产品架构长什么样
文章目录
【注意】最后更新于 August 7, 2024,文中内容可能已过时,请谨慎使用。
书接上回
企业案例03:分布式存储产品架构性能优化总结 是缝缝补补,
假如对一个模块重构有如何?
这个你想到 c++中虚函数,java的接口类。
声明一个基类,子类继承基类,一个子类重写虚函数接口
备注:go rust没有类的概念,更没有继承,用组合代替继承。
除此之外 还需要什么呢?
一、背景信息
根据 2025年数据中心(IDC)统计报告 «IDC专题报告:AIDC周期来临,各厂竞逐份额.pdf»
近年来,随着云计算、AI、大数据等信息技术的快速发展,数据中心的算力需求呈现出爆发式增长。据华为《智能世界2030》报告预测, 2030年人类将迎来YB数据时代(全球每年新产生的数据总量将达YB级别), 全球通用计算算力将达3.3ZFLOPS(FP32),AI算力需求激增,
数学是体育老教的 ,查缺补漏
大数据存储单位介绍(TB、PB、EB、ZB、YB有多大)
字 | 缩写 | 次方 | 名字 | 缩写 | 次方 |
---|---|---|---|---|---|
kilobyte | KB | 10^3 | kibibyte | KiB | 2^10 |
megabyte | MB | 10^6 | mebibyte | MiB | 2^20 |
gigabyte | GB | 10^9 | gibibyte | GiB | 2^30 |
terabyte | TB | 10^12 | tebibyte | TiB | 2^40 |
petabyte | PB | 10^15 | pebibyte | PiB | 2^50 |
exabyte | EB | 10^18 | exbibyte | EiB | 2^60 |
zettabyte | ZB | 10^21 | zebibyte | ZiB | 2^70 |
yottabyte | YB | 10^24 | yobibyte | YiB | 2^80 |
1 TB = 1,024 GB = 1,048,576 MB |
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB
1 YB = 1,024 ZB
什么是算力? 算力的字面意思,大家都懂,就是计算能力(ComputingPower)
- 早期口算、心算无工具计算,算力较低
- 远古时期原始工具是草绳、石头
- 后来随着文明的进步有了算盘
- 随着半导体技术的出现和发展,算力进入到芯片时代,芯片成为了算力的主要载体
- 以比特币挖矿(这个违法行为,严厉抵制)为例。以前都是用PC(x86通用芯片)挖矿,后来越挖难度越大,算力不够。
- 于是,开始使用显卡(GPU)去挖矿。再后来,显卡的能耗太高,挖出来的币值还抵不上电费,就开始采用FPGA和ASIC集群阵列挖矿。
OPS (operations per second) 每秒处理次数
**FLOPS(Floating point number operations per second) 每秒处理浮点数次数
TFLOPS(Tera FLOPS) 定义:TFLOPS代表每秒万亿次浮点运算,是GFLOPS的一千倍。它是衡量超级计算机、高端GPU和其他高性能计算设备浮点运算能力的关键指标。
特点:TFLOPS级别的计算能力在科学研究、工程设计、大数据分析等领域具有巨大优势,能够显著加快计算速度和处理效率
ZFLOPS(Zetta FLOPS) 定义:ZFLOPS代表每秒十万亿亿次浮点运算,是EFLOPS的一千倍。它是目前已知最高的浮点运算性能单位之一。
特点:ZFLOPS级别的计算能力代表了未来计算机性能发展的极致方向,但目前尚未有达到该级别的计算系统出现。随着技术的不断进步和创新,未来有可能实现这一性能水平。
✅ 简单总结一句话
- TFLOPS (万亿次):是现在超级计算机、强力显卡处理复杂数学(图形、AI、科学模拟)速度的标准单位。你能买到拥有这样性能的设备。
- ZFLOPS (十万亿亿次):是未来超级计算机追求的超快速度目标单位。远超当前水平,代表计算的极限目标。
AI发展推动算力需求提升,成为当前IDC市场扩张的主要动因。
随着AI的发展,智能算力的需求将成为未来数据中心发展最主要的驱动力
依据应用场景划分,IDC可分为通用型、智算型以及超算型数据中心:
1)通用型数据中心基于CPU芯片服务器提供的算力
2)智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力, 主要用于人工智能和机器学习领域,通过大规模的数据训练模型,来实现智能化应用;
3)由超级计算机等高性能计算集群所提供的算力, 主要用于尖端科学领域,如行星模拟、天体物理、基因分析等
AI时代背后是强劲的算力需求,而算力的基石则是巨量的能源消耗。 AI算力扩容需要大量电力、产生大量碳排放已是当前不可规避的重要问题
2026年数据中心的电力使用量或将翻倍,达到650-1050TWh之间。 面对全球数据中心能源消耗的急剧增长,各国政府正推动数据中心向绿色、可持续的方向发展,
化石燃料属于不可再生资源,并且污染空气,像国外这个方式是不是修修补补
微软达成超 10 亿美元合作:12 年内处理 490 万吨粪便等有机废物以抵消碳排放
使微软以及其他科技巨头能够抵消数据中心产生的大量碳排放,数据中心因消耗大量电力,而这些电力通常来自于化石燃料。
在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下,智算中心成为地区AI智能新基建。 据IDC数据,地方政府迅速推进智算产业建设,积极构建300-1000 PFLOPS(FP16)规模的大型算力节点
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
相关企业
- Equinix:提供领先的数据中心解决方案 全球领先的数字基础设施供应商,专注于提供数据中心托管和互联服务,主要产品包括数据中心、互联服务以及数字化产品等
世纪互联:中国数字新基建龙头
世纪互联深耕数据中心行业近30年,始终致力于“成为互联网基础设施领域更受尊敬的中国企业”。目前世纪互联在全国30多个城市运营超过50座数据中心,基地型容量超570MW,城市型机柜数量51,960个机柜,端口容量达4T以上,高速云专线超1T,已经成为支撑客户数字化转型的关键力量。
万国数据:数据中心业务扩展至东南亚
是中国和东南亚领先的高性能数据中心开发商和运营商
总结: 他们直接关系是什么
市场
参与方 | 市场份额 | 主要客户群 |
---|---|---|
三大运营商 | 52% | 政府/传统企业 |
世纪互联 | 18% | 互联网/外资企业 |
万国数据 | 12% | 云服务商 |
BAT自建机房 | 15% | 内部需求为主 |
世纪互联本质是 “数字地产商+网络连接器” ,在运营商垄断带宽资源和BAT争夺云市场的夹缝中,以 “牌照+地段+中立” 构建不可替代性:
- 对运营商:承担重资产建设风险的合作伙伴
- 对BAT:满足灵活部署与合规的“共享基建”
- 对外资:进入中国市场的合规跳板
供应商
浪潮核心角色为算力设备供应商,不直接参与数据中心市场份额竞争,而是为各类数据中心提供底层算力设施。其市场格局需从服务器供应维度切入
- 浪潮和世纪互联根本不在同一赛道——世纪互联是数据中心房东(收机柜租金),浪潮是服务器制造商(卖算力硬件);
- 浪潮的对手是戴尔、HPE这类硬件商,份额数据更适合用IDC的全球服务器市场报告;
- 需要解释“算力参与方式”的不同:浪潮通过卖设备间接参与,而运营商/BAT是直接使用者
二、回到正题 ,具体要做什么
2.1 要做什么,什么时候完成
一句话总结,IDC 机房三类 依据应用场景划分,IDC可分为通用型、智算型以及超算型数据中心:
1)通用型数据中心基于CPU芯片服务器提供的算力
2)智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,
3)由超级计算机等高性能计算集群所提供的算力, **主要用于尖端科学领域,如行星模拟、天体物理、基因分析等
未来1年时间内打造下一代HPDA存储产品
对标:https://e.huawei.com/cn/topic/storage/high-performance-data-analytics
据IDC统计,全球67%的高性能计算中心(HPC) 已经在使用AI、大数据相关技术,HPC与AI、大数据加速融合,
走向以数据密集型为典型特征的高性能数据分析HPDA(High-Performance Data Analytics)时代:
自动驾驶、基因测序、精准天气预报等数据密集型应用的爆发, 对数据分析的实时性要求越来越高
产品线 | 技术标杆 | 场景突破 |
---|---|---|
Dorado 全闪存 | 2000万IOPS / 0.05ms时延 | 金融核心/医疗PACS |
Pacific 分布式存储 | EB级扩展 / 全局EC纠删码 | AI训练/4K影视渲染 |
HyperMetro 双活架构 | RPO=0 / RTO<30秒 | 政企跨数据中心容灾 |
Backup 数据保护 | 秒级备份恢复 / 防勒索保险箱 | 制造业/教育数据保 |
2017 年初,首都机场外寒风凛冽, 华为 OceanStor Dorado 首席架构 师张鹏即将只身一人奔赴海外。 |
此刻,他难掩激动之情,OceanStor Dorado全闪存项目的正式通过让他无比 兴奋;而兴奋之余,张鹏内心还有一丝 忐忑,因为他的团队肩负着华为向高端 存储这颗存储皇冠上的明珠发起冲锋的 重任。
2019年7月,华为正式对外推出 了其全新一代OceanStor Dorado全闪 存存储。作为一款由华为存储全球研 发团队历时近三年打造的高端存储产 品,OceanStor Dorado拥有业界最高的 2000万IOPS极致性能,业界最低0.1ms 的稳定时延,
其开创性的SmartMatrix 架构让高端存储稳定性和可靠性再 次迈上一个新台阶, 融入AI芯片则让 OceanStor Dorado引领高端存储智能化 的发展趋势。
2.2 我是开发人员,系统设计我不考虑,简单了解
具体要做三个事情是什么
- 技术攻关:
- 探索技术可行性
- 做技术可行性调研
- 评估技术方案
- 研究技术路线
- 进行技术选型的前期调研
- (通俗说) 看看技术上行不行得通、选哪个方案好
- 找人干活:
- 搭团队/拉团队
- 配备项目人手
- 组建执行队伍
- 召集项目成员
- 把人马配齐
- (口语化) 招兵买马、把干活的人凑齐
- 产品交付:
- 把产品交出去/交活
- 上线发布产品
- 推向市场/客户
- 完成产品发布
- 实现产品落地
- (最终目标) 把最终成果给到客户/用户
2.3 技术攻关 全年核心目标
力维度 | Dorado(集中式全闪存) | OceanStor Pacific(分布式存储) | 胜出方 |
---|---|---|---|
极限性能 | ▶ 2000万 IOPS(0.1ms时延) | ▶ 单集群 320GB/s带宽 | Dorado |
时延 | ▶ 0.1ms(微秒级稳定时延) | ▶ 1~3ms(依赖网络质量) | Dorado |
扩展能力 | ▶ 纵向扩展:8控+4PB | ▶ 横向扩展:4096节点+EB级容量 | Pacific |
大规模并发 | ▶ SAP HANA:200TB+ 强一致性 | ▶ 千节点HPC:百万级IO并发 | 平手 |
数据缩减效率 | ▶ 5:1(全局重删+压缩) | ▶ 3:1(纠删码影响效率) | Dorado |
维度 | Dorado(集中式) | 分布式存储(如OceanStor Pacific) |
---|---|---|
架构拓扑 | 控制器+磁盘柜集中管理 | 无中心节点,多节点协同 |
扩展方式 | 纵向扩展(升级控制器/增加柜) | 横向扩展(添加通用服务器节点) |
时延 | 0.1ms级(硬件加速) | 1ms~10ms(网络依赖性强) |
适用场景 | OLTP、高频交易、虚拟化核心 | 海量非结构化数据、大数据分析 |
对比维度 | 浪潮AS13000G7(分布式) | 华为OceanStor Dorado(集中式全闪存) | 华为OceanStor Pacific(分布式) |
---|---|---|---|
定位场景 | 海量非结构化数据、AI训练、HPDA | 核心数据库、高频交易、虚拟化 | AI数据湖、高性能计算(HPC)、大规模非结构化数据 |
架构特性 | - 全对称分布式架构 - 支持文件/块/对象/大数据协议 | - 多控制器集中式架构(SmartMatrix) - NVMe-oF全协议支持 | - 全对称分布式架构 - 原生多协议无损互通 |
极限性能 | - 单节点带宽:120GB/s(MLPerf测试) - 集群聚合带宽:360GB/s(10客户端) | - 单设备IOPS:400万 - 时延:0.03ms(NVMe-oF) | - 单节点带宽:90GB/s - 元数据性能:770万kIOPS(IO500测试) |
扩展能力 | - 最大5120节点 - EB级容量 | - 纵向扩展:16控制器 - 最大8PiB容量 | - 横向扩展:4096节点 - EB级容量 |
能效与密度 | - 未公开具体能效 - 支持混闪/全闪配置 | - 功耗优化(未公开具体值) | - 0.25W/TB(业界最低) - 4PB/2U(超高密度) |
数据缩减率 | - 支持全局重删/压缩(未公开比例) | - 5:1(典型场景) | - 2:1非结构化数据压缩 |
可靠性 | - 数据可用性99.9999% - 支持2-8副本/16+4纠删码 | - 99.99999%可用性 - SAN/NAS/S3一体化双活 | - 全冗余架构 - 支持跨数据中心容灾 |
核心技术 | - iTurbo引擎(小文件聚合、缓存加速) - 内核亲和力调度(内存效率↑400%) | - FlashLink 3.0算法(性能↑50%) - DPU智能网卡(数据流直通) | - SmartBalance全均衡架构 - DataTurbo加速引擎(查询效率↑60倍) |
权威认证 | - MLPerf五项冠军(3D-UNet/CosmoFlow场景) | - SPC-1全球TOP3(性价比领先) | - IO500全球榜首(10节点榜单) |
典型应用场景 | - AI训练(单流10GB/s) - 气象卫星(400节点/100PB) | - 证券交易(0.1ms时延) - SAP HANA(200TB+强一致性) | - 基因测序(百PB级数据处理) - 自动驾驶训练 |
废话太多 单流10GB怎么做到的
2.3 项目人员安排 和里程碑计划
工作组角色 | 职责 |
---|---|
Sponsor | 对整体产品交付负责 |
攻坚组长 | 带领团队完成目标 |
软件经理 | 负责软件目标管理跟进 |
特性组长 | 不同模块需求和设计,例如 mon,mds, osd |
全闪存储引擎 | 全闪存储引擎设计和研发 |
内核客户端 | 支持spdk协议 |
网络 | 负责 RDMA 网络开发 |
硬件 | 负责整体硬件设计和开发 |
测试 | 负责整体测试设计 |
客户代表 | 实施方案和拉通 |
![]() |
在PMP中什么是Sponsor,什么是项目章程
项目发起人 关键相关方,负责项目章程
2.4 敏捷团队遵循12个原则
英文:
- Our highest priority is to satisfy the customer through early and continuous delivery of valuable software.
- Welcome changing requirements, even late in development. Agile processes harness change for the customer’s competitive advantage.
- Deliver working software frequently, from a couple of weeks to a couple of months, with a preference to the shorter timescale.
- Business people and developers must work together daily throughout the project.
- Build projects around motivated individuals. Give them the environment and support they need, and trust them to get the job done.
- The most efficient and effective method of conveying information to and within a development team is face-to-face conversation.
- Working software is the primary measure of progress.
- Agile processes promote sustainable development. The sponsors, developers, and users should be able to maintain a constant pace indefinitely.
- Continuous attention to technical excellence and good design enhances agility.
- Simplicity–the art of maximizing the amount of work not done–is essential.
- The best architectures, requirements, and designs emerge from self-organizing teams.
- At regular intervals, the team reflects on how to become more effective, then tunes and adjusts its behavior accordingly.
基于《敏捷宣言》(Agile Manifesto)的官方定义整理:
-
客户满意是最高优先级
通过尽早且持续交付有价值的软件满足客户需求。 -
拥抱需求变更
即使开发后期也欢迎变更,利用变化提升客户竞争力。 -
高频交付可用软件
交付周期从数周到数月不等,越短越好。 -
业务与开发每日协作
业务人员与开发者必须全程紧密合作。 -
激励自组织团队
围绕有动力的个体构建项目,提供环境支持与信任。 -
面对面沟通为最优
团队内/间最有效的沟通方式是面对面交流。 -
可用软件是核心进度指标
进度衡量以可运行软件为准,而非文档或计划。 -
保持可持续开发节奏
开发方、客户、用户需维持恒久稳定的进展速度。 -
追求技术卓越与设计
持续优化技术与设计以增强敏捷性。 -
最大化简洁性
减少不必要工作,简洁是艺术。 -
最佳成果源于自组织团队
架构、需求与设计由自组织团队驱动。 -
定期反思与调整行为
团队定期反省效率并优化工作方式。
💎 以上12条原则源自《敏捷宣言》(2001年),由17位软件开发者共同制定,已成为全球敏捷实践的基石。
未完待续
最动人的作品,为自己而写,刚刚好打动别人
我在寻找一位积极上进的小伙伴,
一起参与神奇早起 30 天改变人生计划,发展个人事情,不妨 试试
1️⃣ 加入我的技术交流群Offer 来碗里 (回复“面经”获取),一起抱团取暖
2️⃣ 关注公众号:后端开发成长指南(回复“面经”获取)获取过去我全部面试录音和大厂面试复盘攻略
3️⃣ 回复 面经 获取全部电子书 或者购买正版书籍
—————-我是黄金分割线—————————–
抬头看天:走暗路、耕瘦田、进窄门、见微光,
- 我要通过技术拿到百万年薪P7职务,打通任督二脉。
- 但是不要给自己这样假设:别人完成就等着自己完成了,这个逃避问题表现,裁员时候别人不会这么想。
低头走路:
- 一次专注做好一个小事。
- 不扫一屋 何以扫天下,让自己早睡,早起,锻炼身体,刷牙保持个人卫生,多喝水 ,表达清楚 ,把基本事情做好。