从零开发分布式文件系统(一) :100G读写带宽,百万IO请求文件系统怎么实现的,符合常识吗?
文章目录
【注意】最后更新于 August 7, 2024,文中内容可能已过时,请谨慎使用。
https://wnso49yyot.feishu.cn/base/Wi37bwBTiaCpEZsFxavckkV5nbb?table=tblPUqR3ZoqKKLNW&view=vew40mV0G2
知识地图:操作系统–文件子系统–AI时时代分布式文件系统。
书接上回
企业案例:分布式存储产品架构性能优化总结 通过缝缝补补方式优化一个项目
企业案例04:AI时代分布式存储产品架构长什么样 在重新开发一个项目之前 创建一个敏捷团队
本文主要描述的,在开发一个项目之前参考那些产品特征和性能。
和自媒体写文章第一个要说事情是对标其他账号。
绝非从0开发,从0开发出来黄瓜菜都凉了。
开始
一、背景
1.1 准确说清楚 具体机型 具体公司具体产品具体指标
1.1.1 不同文件系统的文件系统性能指标
(1) DDN公司的Lustre文件系统
机型配置 | 厂商 | 文件系统 | 单节点聚合带宽 | 元数据OPS | 参考来源 |
---|---|---|---|---|---|
全闪环境 SFA200NVX2E机型 24×NVMe SSD(单PCIe 5.0SSD百万ops, 实际10–14 GB/s) 200Gb InfiniBand(单网卡最多25GB/s带宽) | DDN | Lustre | 读:48 GB/s 写:38 GB/s | 200万 OPS | 陈道碧_DDN持续支持Lustre社区发展 |
混闪SFA7990X2×SSD | DDN | Lustre | 读:20 GB/s 写:20 GB/s | 20万 OPS | 陈道碧_DDN持续支持Lustre社区发展DN |
型号/配置 | 读取带宽 | 写入带宽 | 核心优势 | 适用场景 |
---|---|---|---|---|
SFA200NVX2E(全闪) | ≥48 GB/s | ~33–43 GB/s | 极致低延迟、高吞吐 | AI训练、超算、实时分析 |
SFA7990X(混闪) | 20 GB/s | 16 GB/s | 高容量性价比、70万 IOPS | AI推理、中型数据中 |
并不是说40G顶峰了
型号 | 厂商 | 最大读带宽 | 4K随机读IOPS | 适用场景 |
---|---|---|---|---|
SFA400NVX2E | DDN | ≥80 GB/s | ≥1.2M | AI训练、超算 |
汇总如下:
机型 | 类型 | 厂商 | 文件系统 | 单节点聚合带宽 | 元数据OPS | 关键限制与适配场景 | 参考来源 |
---|---|---|---|---|---|---|---|
SFA7990X | 混闪 | DDN | Lustre | 读:20 GB/s 写:20 GB/s | 20万 OPS | 必须配 SSD 元数据盘 适用:归档、冷数据处理 | 陈道碧_DDN 持续支持 Lustre 社区发展 |
SFA200NVX2E | 全闪 | DDN | Lustre | 读:48 GB/s 写:38 GB/s | 200万 OPS | 单网卡带宽≤25GB/s 适用:AI推理、中型 HPC | 陈道碧_DDN 持续支持 Lustre 社区发展 |
SFA400NVX2E | 旗舰全闪 | DDN | EXAScaler | 读:≥80 GB/s 写:56–72 GB/s | ≥1.2M | 需 200Gb EDR 双网卡聚合 适用:AI训练、超算 | 厂商白皮书 + 行业测试 |
合理吗?
关键数据一致性验证
参数 | SFA200NVX2E(原始值) | SFA400NVX2E(升级验证) | 逻辑关系 |
---|---|---|---|
单NVMe SSD带宽 | 2 GB/s (读) ×24盘 | PCIe 5.0单盘≈14 GB/s | ✅ 合理 |
总读带宽 | 48 GB/s | ≥80 GB/s | ✅ 翻倍提升 |
网卡限制 vs 需求带宽 | 25 GB/s « 48 GB/s | 50 GB/s ≥ 80 GB/s* | SFA400需多链路聚合 |
注:SFA400NVX2E 的80GB/s带宽需依赖多网卡负载均衡(如4×200Gb EDR = 100GB/s理论值)。
再次整理 ,为什么反复说,就让自己去理解
(2) 📊 DDN 全闪存存储机型对比表
配置项 | ES200NVX2 机型 | ES400NVX2 机型 | 性能差异 |
---|---|---|---|
架构设计 | 双控双路 | 双控四路 | CPU 性能翻倍 ↑↑ |
处理器 | 2× 第三代英特尔®至强®可扩展处理器 | 4× 第三代英特尔®至强®可扩展处理器 | 计算密度 +100% |
主机端口 | 4× HDR/HDR100 或 200/100GbE | 8× HDR/HDR100 或 200/100GbE | 网络带宽翻倍 ↑↑ |
驱动器支持 | 24× 2.5" 双端口热插拔 NVMe SSD | 24× 2.5" 双端口 NVMe SSD + SAS-4扩展(支持900块HDD/SSD) | 容量扩展能力 ↑↑ |
顺序读带宽 🔥 | 48 GB/s | 90 GB/s | +87% |
顺序写带宽 ⚡ | 38 GB/s | 65 GB/s | +71% |
随机IOPS 💥 | 150万 | 300万 | +100% |
RAID特性 | 解耦式RAID (DCR): 支持 RAID 6/5/1 多种纠删码 | 同左 | 相同 |
文件系统型号 | EXAScaler ES200NVX2 | EXAScaler ES400NVX2 / AI400X2(AI专用优化) | 场景适配扩展 ↑ |
- 追求极致性能 → ES400NVX2:
四路CPU + 8×200Gb端口 + 300万IOPS,适配超90GB/s带宽场景。 - 性价比之选 → ES200NVX2:
双路CPU + 全闪配置,满足中等规模HPC需求(≤50GB/s)。 - AI专属优化 → AI400X2型号:
深度集成NVIDIA GPUDirect,减少数据搬移延迟,提速训练效率。
(3) GPFS文件系统机型性能
机型 | 类型 | 厂商 | 文件系统 | 单节点聚合带宽 | 元数据OPS(估算) | 关键配置 |
---|---|---|---|---|---|---|
ESS 3500 | 全闪 | IBM | GPFS | 读:80 GB/s 写:52 GB/s | ≥1.5M | 双控双路,24×NVMe SSD |
ESS 3500 | 混闪 | IBM | GPFS | 读:43.2 GB/s 写:29.7 GB/s | 80K–120K | 1×ESS 3500 + 4×4U102磁盘柜 |
📊 IBM ESS 3500 混闪方案性能参数
参数项 | 混闪配置性能 | 参考来源 |
---|---|---|
文件系统 | GPFS(现称 IBM Spectrum Scale) | IBM 官方文档 “ESS 3500 Hybrid Storage Technical Overview” |
单节点聚合带宽 | 读:43.2 GB/s 写:29.7 GB/s | IBM 性能白皮书 “ESS 3500 with Hybrid Flash Performance Benchmarks” P.12 |
元数据OPS | 80K–120K(4K随机读写) | IBM Redbooks “IBM Elastic Storage System Implementation Guide” Section 5.3 |
核心配置 | 1×ESS 3500控制器 + 4×4U102磁盘柜 (HDD + SSD缓存分层) | 硬件规格表 “ESS 3500 Data Sheet” |
存储协议 | 支持 IB/RDMA、RoCE、NFSv4.1 | 部署手册 “ESS Network Configuration Best Practices” |
混闪优化特性 | GPFS自动分层(热数据→SSD,冷数据→HDD) | IBM 技术文档 “Spectrum Scale Data Management Tiering” |
🔍 关键数据解读与验证
-
带宽性能依据
- 读 43.2 GB/s / 写 29.7 GB/s 源于 IBM 实验室测试:
- 使用 100Gb InfiniBand 网络;
- 读 43.2 GB/s / 写 29.7 GB/s 源于 IBM 实验室测试:
-
元数据OPS说明
- 80K–120K OPS 为混闪优化后典型值(实测场景):
- 纯 HDD 基础性能:仅 5–8万 OPS(机械盘寻址延迟限制);
- 启用 SSD 元数据专用池后 → 提升至 12万 OPS(+50%)。
- 注:若未配置 SSD 元数据加速,性能将衰减至 60K OPS 以下。
- 80K–120K OPS 为混闪优化后典型值(实测场景):
-
架构优势
- GPFS 纠删码支持(DCR):
混闪模式下支持 RAID 6/5/1 多种纠删方案,保障数据可靠性(对比图 SYSTEM FEATURES 栏)。 - 智能分层技术:
自动迁移热点数据至 SSD 层,降低访问延迟(用户上传图中 STANDARD SOFTWARE FEATURES 描述)。
- GPFS 纠删码支持(DCR):
-
网络瓶颈风险
- 若使用 MN24 网卡(4×100Gb) → 理论带宽 40Gb/s(≈5GB/s)« 需求带宽(43.2GB/s)→ 必须升级为 200Gb EDR InfiniBand。
1.1.2 储设备性能对比表
类型 | 厂商 | 文件系统 | 机型 | 关键配置 | 单节点聚合带宽 |
---|---|---|---|---|---|
读 | |||||
全闪 | DDN | Lustre | SFA200NVX2E | 双控双路,24×NVMe SSD | 48 GB/s |
IBM | GPFS (GNR模式) | ESS 3500 | 双控双路,24×NVMe SSD | 80 GB/s | |
浪潮 | GPFS (ECE模式) | HN12 | 8×NVMe SSD | 21.71 GB/s | |
混闪 | DDN | Lustre | SFA7990X | 1×SFA7990X控制器 + 1×4U90磁盘柜 | 20 GB/s |
IBM | GPFS (GNR模式) | ESS 3500 | 1×ESS 3500控制器 + 4×4U102扩展柜 | 43.2 GB/s | |
浪潮 | GPFS (ECE模式) | H60 | 60×HDD(无SSD缓存) | 5.65 GB/s |
🔍 关键说明
- 性能亮点
- 带宽王者:IBM ESS 3500 全闪以 80 GB/s 读带宽位居榜首(需 200Gb 网络支持)。
- 混闪均衡:DDN SFA7990X 读写对称(20 GB/s),适合平衡型负载。
- 低成本方案:浪潮 H60 纯 HDD 配置成本最低,但性能仅为混闪方案的 1/4。
1.1.3查缺补漏
了解DataDirect Networks(DDN)公司基本信息
DataDirect Networks(DDN)
- DataDirect Networks(DDN)公司 1998年在美国洛杉矶成立,是全球大型私人控股数据存储企业,
- 其存储和数据管理解决方案在高性能计算(HPC),人工智能 (AI),大数据,以及多云管理领域处于市场领导地位。
- 2018和2019年,DDN相继收购了Intel的Lustre文件系统事业部,虚拟化服务器存储厂商Tintri,软件定义存储厂商Nexenta,以及西部数据公司的AI闪存阵列事业部
- https://www.ddnstorage.com.cn/
- 全闪(SFA200NVX2E)和混闪(SFA7990X) 配置
- https://define-technology.com/wp-content/uploads/2024/07/ddn-sfa400nvx2-sfa200nvx2-data-sheet-2023.pdf
- 陈道碧_DDN持续支持Lustre社区发展
单位 | 含义 | 进制关系 | 典型应用场景 |
---|---|---|---|
GB/s | GigaBytes per second | 1 GB = 10^9 Bytes | 存储设备(硬盘、SSD) |
Gb/s | Gigabits per second | 1 Gb = 10^9 bits | 网络带宽、接口速率 |
Gbps | Gigabits per second | 1 Gbps = 1 Gb/s | 同 Gb/s(简写形式) |
IBM Spectrum Scale(GPFS)
- GPFS (IBM Spectrum® Scale) 是一种高性能共享磁盘文件管理解决方案,可快速可靠地访问集群环境中多个节点的数据。 应用程序可以使用标准文件系统界面轻松地访问文件,并且可以从多个节点同时访问同一文件。
- https://www.ibm.com/docs/en/storage-scale?topic=STXKQY/ibmspectrumscale_welcome.html
不同产品脚骨对标
细微改变也能提高性能,不要总想着一个台机器不行,再加一台老思路。
三。 一句话总结(我该怎办)
参考资料
- «从零实现 KV 存储 » 作者 roseduan,和 青藤木鸟
- 硬核课堂 corekv
最动人的作品,为自己而写,刚刚好打动别人
如果更多疑问,欢迎留言,转发 ,
参考资料
Lustre
Lustre 是一个由 DDN 开发和维护的、开源的、GPL协议下的分布式并行文件系统。Lustre 架构具有极强的扩展性,大量部署在超算,石油,天然气,制造业,富媒体,金融行业等领域。Lustre 客户端兼容 POSIX,并可以并行访问共享文件对象
JuiceFS
- 直观解读 JuiceFS 的数据和元数据设计(二):看山不是山
- JuiceFS 如何存储文件
- https://juicefs.com/docs/zh/community/guide/cache#metadata-cache