企业案例04:AI时代分布式存储产品架构长什么样

书接上回

企业案例03：分布式存储产品架构性能优化总结是缝缝补补，

假如对一个模块重构有如何？

这个你想到 c++中虚函数，java的接口类。

声明一个基类，子类继承基类，一个子类重写虚函数接口

备注：go rust没有类的概念，更没有继承，用组合代替继承。

除此之外还需要什么呢？

一、背景信息

根据 2025年数据中心（IDC）统计报告 «IDC专题报告：AIDC周期来临，各厂竞逐份额.pdf»

近年来，随着云计算、AI、大数据等信息技术的快速发展，数据中心的算力需求呈现出爆发式增长。据华为《智能世界2030》报告预测， 2030年人类将迎来YB数据时代（全球每年新产生的数据总量将达YB级别），全球通用计算算力将达3.3ZFLOPS（FP32），AI算力需求激增，

数学是体育老教的，查缺补漏

大数据存储单位介绍(TB、PB、EB、ZB、YB有多大)

字	缩写	次方	名字	缩写	次方
kilobyte	KB	10^3	kibibyte	KiB	2^10
megabyte	MB	10^6	mebibyte	MiB	2^20
gigabyte	GB	10^9	gibibyte	GiB	2^30
terabyte	TB	10^12	tebibyte	TiB	2^40
petabyte	PB	10^15	pebibyte	PiB	2^50
exabyte	EB	10^18	exbibyte	EiB	2^60
zettabyte	ZB	10^21	zebibyte	ZiB	2^70
yottabyte	YB	10^24	yobibyte	YiB	2^80
1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB

1 YB = 1,024 ZB

什么是算力？ 算力的字面意思，大家都懂，就是计算能力（ComputingPower）

早期口算、心算无工具计算，算力较低
远古时期原始工具是草绳、石头
后来随着文明的进步有了算盘
随着半导体技术的出现和发展，算力进入到芯片时代，芯片成为了算力的主要载体
以比特币挖矿（这个违法行为，严厉抵制）为例。以前都是用PC（x86通用芯片）挖矿，后来越挖难度越大，算力不够。
于是，开始使用显卡（GPU）去挖矿。再后来，显卡的能耗太高，挖出来的币值还抵不上电费，就开始采用FPGA和ASIC集群阵列挖矿。

OPS (operations per second) 每秒处理次数

**FLOPS(Floating point number operations per second) 每秒处理浮点数次数

TFLOPS（Tera FLOPS）定义：TFLOPS代表每秒万亿次浮点运算，是GFLOPS的一千倍。它是衡量超级计算机、高端GPU和其他高性能计算设备浮点运算能力的关键指标。

特点：TFLOPS级别的计算能力在科学研究、工程设计、大数据分析等领域具有巨大优势，能够显著加快计算速度和处理效率

ZFLOPS（Zetta FLOPS）定义：ZFLOPS代表每秒十万亿亿次浮点运算，是EFLOPS的一千倍。它是目前已知最高的浮点运算性能单位之一。

特点：ZFLOPS级别的计算能力代表了未来计算机性能发展的极致方向，但目前尚未有达到该级别的计算系统出现。随着技术的不断进步和创新，未来有可能实现这一性能水平。

✅ 简单总结一句话

TFLOPS (万亿次)：是现在超级计算机、强力显卡处理复杂数学（图形、AI、科学模拟）速度的标准单位。你能买到拥有这样性能的设备。
ZFLOPS (十万亿亿次)：是未来超级计算机追求的超快速度目标单位。远超当前水平，代表计算的极限目标。

AI发展推动算力需求提升，成为当前IDC市场扩张的主要动因。

随着AI的发展，智能算力的需求将成为未来数据中心发展最主要的驱动力

依据应用场景划分，IDC可分为通用型、智算型以及超算型数据中心：

1）通用型数据中心基于CPU芯片服务器提供的算力

2）智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力，主要用于人工智能和机器学习领域，通过大规模的数据训练模型，来实现智能化应用；

3）由超级计算机等高性能计算集群所提供的算力， 主要用于尖端科学领域，如行星模拟、天体物理、基因分析等

AI时代背后是强劲的算力需求，而算力的基石则是巨量的能源消耗。 AI算力扩容需要大量电力、产生大量碳排放已是当前不可规避的重要问题

2026年数据中心的电力使用量或将翻倍，达到650-1050TWh之间。面对全球数据中心能源消耗的急剧增长，各国政府正推动数据中心向绿色、可持续的方向发展，

化石燃料属于不可再生资源，并且污染空气，像国外这个方式是不是修修补补

微软达成超 10 亿美元合作：12 年内处理 490 万吨粪便等有机废物以抵消碳排放

使微软以及其他科技巨头能够抵消数据中心产生的大量碳排放，数据中心因消耗大量电力，而这些电力通常来自于化石燃料。

在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下，智算中心成为地区AI智能新基建。据IDC数据，地方政府迅速推进智算产业建设，积极构建300-1000 PFLOPS（FP16）规模的大型算力节点

中国数据中心运营商因头部企业的资本和规模优势，呈现出向头部企业聚拢的趋势

总结：他们直接关系是什么

市场

参与方	市场份额	主要客户群
三大运营商	52%	政府/传统企业
世纪互联	18%	互联网/外资企业
万国数据	12%	云服务商
BAT自建机房	15%	内部需求为主

世纪互联本质是 “数字地产商+网络连接器” ，在运营商垄断带宽资源和BAT争夺云市场的夹缝中，以 “牌照+地段+中立” 构建不可替代性：

对运营商：承担重资产建设风险的合作伙伴
对BAT：满足灵活部署与合规的“共享基建”
对外资：进入中国市场的合规跳板

供应商

浪潮核心角色为算力设备供应商，不直接参与数据中心市场份额竞争，而是为各类数据中心提供底层算力设施。其市场格局需从服务器供应维度切入

浪潮和世纪互联根本不在同一赛道——世纪互联是数据中心房东（收机柜租金），浪潮是服务器制造商（卖算力硬件）；
浪潮的对手是戴尔、HPE这类硬件商，份额数据更适合用IDC的全球服务器市场报告；
需要解释“算力参与方式”的不同：浪潮通过卖设备间接参与，而运营商/BAT是直接使用者

二、回到正题，具体要做什么

2.1 要做什么，什么时候完成

一句话总结，IDC 机房三类依据应用场景划分，IDC可分为通用型、智算型以及超算型数据中心：

1）通用型数据中心基于CPU芯片服务器提供的算力

2）智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力，

3）由超级计算机等高性能计算集群所提供的算力， **主要用于尖端科学领域，如行星模拟、天体物理、基因分析等

未来1年时间内打造下一代HPDA存储产品

对标：https://e.huawei.com/cn/topic/storage/high-performance-data-analytics

据IDC统计，全球67%的高性能计算中心（HPC）已经在使用AI、大数据相关技术，HPC与AI、大数据加速融合，

走向以数据密集型为典型特征的高性能数据分析HPDA（High-Performance Data Analytics）时代：

自动驾驶、基因测序、精准天气预报等数据密集型应用的爆发，对数据分析的实时性要求越来越高

产品线	技术标杆	场景突破
Dorado 全闪存	2000万IOPS / 0.05ms时延	金融核心/医疗PACS
Pacific 分布式存储	EB级扩展 / 全局EC纠删码	AI训练/4K影视渲染
HyperMetro 双活架构	RPO=0 / RTO＜30秒	政企跨数据中心容灾
Backup 数据保护	秒级备份恢复 / 防勒索保险箱	制造业/教育数据保
2017 年初，首都机场外寒风凛冽，华为 OceanStor Dorado 首席架构师张鹏即将只身一人奔赴海外。

此刻，他难掩激动之情，OceanStor Dorado全闪存项目的正式通过让他无比兴奋；而兴奋之余，张鹏内心还有一丝忐忑，因为他的团队肩负着华为向高端存储这颗存储皇冠上的明珠发起冲锋的重任。

2019年7月，华为正式对外推出了其全新一代OceanStor Dorado全闪存存储。作为一款由华为存储全球研发团队历时近三年打造的高端存储产品，OceanStor Dorado拥有业界最高的 2000万IOPS极致性能，业界最低0.1ms 的稳定时延，

其开创性的SmartMatrix 架构让高端存储稳定性和可靠性再次迈上一个新台阶，融入AI芯片则让 OceanStor Dorado引领高端存储智能化的发展趋势。

2.2 我是开发人员，系统设计我不考虑，简单了解

具体要做三个事情是什么

技术攻关：
- 探索技术可行性
- 做技术可行性调研
- 评估技术方案
- 研究技术路线
- 进行技术选型的前期调研
- (通俗说) 看看技术上行不行得通、选哪个方案好
找人干活：
- 搭团队/拉团队
- 配备项目人手
- 组建执行队伍
- 召集项目成员
- 把人马配齐
- (口语化) 招兵买马、把干活的人凑齐
产品交付：
- 把产品交出去/交活
- 上线发布产品
- 推向市场/客户
- 完成产品发布
- 实现产品落地
- (最终目标) 把最终成果给到客户/用户

2.3 技术攻关全年核心目标

力维度	Dorado（集中式全闪存）	OceanStor Pacific（分布式存储）	胜出方
极限性能	▶ 2000万 IOPS（0.1ms时延）	▶ 单集群 320GB/s带宽	Dorado
时延	▶ 0.1ms（微秒级稳定时延）	▶ 1~3ms（依赖网络质量）	Dorado
扩展能力	▶ 纵向扩展：8控+4PB	▶ 横向扩展：4096节点+EB级容量	Pacific
大规模并发	▶ SAP HANA：200TB+ 强一致性	▶ 千节点HPC：百万级IO并发	平手
数据缩减效率	▶ 5:1（全局重删+压缩）	▶ 3:1（纠删码影响效率）	Dorado

维度	Dorado（集中式）	分布式存储（如OceanStor Pacific）
架构拓扑	控制器+磁盘柜集中管理	无中心节点，多节点协同
扩展方式	纵向扩展（升级控制器/增加柜）	横向扩展（添加通用服务器节点）
时延	0.1ms级（硬件加速）	1ms~10ms（网络依赖性强）
适用场景	OLTP、高频交易、虚拟化核心	海量非结构化数据、大数据分析

对比维度	浪潮AS13000G7（分布式）	华为OceanStor Dorado（集中式全闪存）	华为OceanStor Pacific（分布式）
定位场景	海量非结构化数据、AI训练、HPDA	核心数据库、高频交易、虚拟化	AI数据湖、高性能计算（HPC）、大规模非结构化数据
架构特性	- 全对称分布式架构 - 支持文件/块/对象/大数据协议	- 多控制器集中式架构（SmartMatrix） - NVMe-oF全协议支持	- 全对称分布式架构 - 原生多协议无损互通
极限性能	- 单节点带宽：120GB/s（MLPerf测试） - 集群聚合带宽：360GB/s（10客户端）	- 单设备IOPS：400万 - 时延：0.03ms（NVMe-oF）	- 单节点带宽：90GB/s - 元数据性能：770万kIOPS（IO500测试）
扩展能力	- 最大5120节点 - EB级容量	- 纵向扩展：16控制器 - 最大8PiB容量	- 横向扩展：4096节点 - EB级容量
能效与密度	- 未公开具体能效 - 支持混闪/全闪配置	- 功耗优化（未公开具体值）	- 0.25W/TB（业界最低） - 4PB/2U（超高密度）
数据缩减率	- 支持全局重删/压缩（未公开比例）	- 5:1（典型场景）	- 2:1非结构化数据压缩
可靠性	- 数据可用性99.9999% - 支持2-8副本/16+4纠删码	- 99.99999%可用性 - SAN/NAS/S3一体化双活	- 全冗余架构 - 支持跨数据中心容灾
核心技术	- iTurbo引擎（小文件聚合、缓存加速） - 内核亲和力调度（内存效率↑400%）	- FlashLink 3.0算法（性能↑50%） - DPU智能网卡（数据流直通）	- SmartBalance全均衡架构 - DataTurbo加速引擎（查询效率↑60倍）
权威认证	- MLPerf五项冠军（3D-UNet/CosmoFlow场景）	- SPC-1全球TOP3（性价比领先）	- IO500全球榜首（10节点榜单）
典型应用场景	- AI训练（单流10GB/s） - 气象卫星（400节点/100PB）	- 证券交易（0.1ms时延） - SAP HANA（200TB+强一致性）	- 基因测序（百PB级数据处理） - 自动驾驶训练

废话太多单流10GB怎么做到的

2.3 项目人员安排和里程碑计划

工作组角色	职责
Sponsor	对整体产品交付负责
攻坚组长	带领团队完成目标
软件经理	负责软件目标管理跟进
特性组长	不同模块需求和设计，例如 mon，mds， osd
全闪存储引擎	全闪存储引擎设计和研发
内核客户端	支持spdk协议
网络	负责 RDMA 网络开发
硬件	负责整体硬件设计和开发
测试	负责整体测试设计

客户代表	实施方案和拉通

在PMP中什么是Sponsor，什么是项目章程

项目发起人关键相关方，负责项目章程

关键相关方零其满意

项目章程

什么是项目章程

项目构想举例

2.4 敏捷团队遵循12个原则

英文：

Our highest priority is to satisfy the customer through early and continuous delivery of valuable software.
Welcome changing requirements, even late in development. Agile processes harness change for the customer’s competitive advantage.
Deliver working software frequently, from a couple of weeks to a couple of months, with a preference to the shorter timescale.
Business people and developers must work together daily throughout the project.
Build projects around motivated individuals. Give them the environment and support they need, and trust them to get the job done.
The most efficient and effective method of conveying information to and within a development team is face-to-face conversation.
Working software is the primary measure of progress.
Agile processes promote sustainable development. The sponsors, developers, and users should be able to maintain a constant pace indefinitely.
Continuous attention to technical excellence and good design enhances agility.
Simplicity–the art of maximizing the amount of work not done–is essential.
The best architectures, requirements, and designs emerge from self-organizing teams.
At regular intervals, the team reflects on how to become more effective, then tunes and adjusts its behavior accordingly.

基于《敏捷宣言》（Agile Manifesto）的官方定义整理：

客户满意是最高优先级
通过尽早且持续交付有价值的软件满足客户需求。
拥抱需求变更
即使开发后期也欢迎变更，利用变化提升客户竞争力。
高频交付可用软件
交付周期从数周到数月不等，越短越好。
业务与开发每日协作
业务人员与开发者必须全程紧密合作。
激励自组织团队
围绕有动力的个体构建项目，提供环境支持与信任。
面对面沟通为最优
团队内/间最有效的沟通方式是面对面交流。
可用软件是核心进度指标
进度衡量以可运行软件为准，而非文档或计划。
保持可持续开发节奏
开发方、客户、用户需维持恒久稳定的进展速度。
追求技术卓越与设计
持续优化技术与设计以增强敏捷性。
最大化简洁性
减少不必要工作，简洁是艺术。
最佳成果源于自组织团队
架构、需求与设计由自组织团队驱动。
定期反思与调整行为
团队定期反省效率并优化工作方式。

💎 以上12条原则源自《敏捷宣言》（2001年），由17位软件开发者共同制定，已成为全球敏捷实践的基石。

未完待续

最动人的作品，为自己而写，刚刚好打动别人

我在寻找一位积极上进的小伙伴，一起参与神奇早起 30 天改变人生计划，发展个人事情，不妨试试 1️⃣ 加入我的技术交流群Offer 来碗里 (回复“面经”获取），一起抱团取暖 2️⃣ 关注公众号:后端开发成长指南(回复“面经”获取）获取过去我全部面试录音和大厂面试复盘攻略 3️⃣ 回复面经获取全部电子书或者购买正版书籍

分布式必读经典书籍

—————-我是黄金分割线—————————–

抬头看天：走暗路、耕瘦田、进窄门、见微光，

我要通过技术拿到百万年薪P7职务，打通任督二脉。
但是不要给自己这样假设：别人完成就等着自己完成了，这个逃避问题表现,裁员时候别人不会这么想。

低头走路：

一次专注做好一个小事。
不扫一屋何以扫天下，让自己早睡，早起，锻炼身体，刷牙保持个人卫生，多喝水，表达清楚 ,把基本事情做好。

企业案例04:AI时代分布式存储产品架构长什么样

文章目录