[改进后的中文总结内容]
会议纪要:从 HDD 到 NVMe 的迁移及其对 Ceph 集群的影响
会议主题: 讨论从传统硬盘(HDD)迁移到固态硬盘(NVMe)的硬件升级及其对 Ceph 分布式存储系统的影响。
主讲人: Stephie(索尼互动娱乐,存储团队产品负责人)
会议内容概述:
- 背景介绍:
- Stephie 介绍了索尼互动娱乐的存储架构,主要使用 Ceph 作为后端存储系统,支持对象存储(S3)和块存储(RBD)。
- 当前集群中同时运行 HDD 和 NVMe 两种存储介质,讨论的重点是从 HDD 迁移到 NVMe 的时机和原因。
- HDD 与 NVMe 的对比:
- HDD:
- 优点:容量大(最大 36TB),成本低。
- 缺点:延迟高(2ms),性能波动大,机械部件易损坏。
- NVMe:
- 优点:延迟低(微秒级),性能稳定,无机械部件。
- 缺点:成本高,容量相对较小(TLC 最大 16TB,QLC 最大 150TB),写入放大问题可能影响寿命。
- HDD:
- 索尼的迁移历程:
- 第一代: 使用 1U 服务器,12 块 HDD + 4 块 SSD,SSD 用于日志和 DB。
- 第二代: 增加 HDD 密度至 24 块,使用 NVMe 替代部分 SSD,部分配置为 RAID 1,部分直接分配给 OSD。
- 第三代: 完全采用 NVMe,22 块 TLC NVMe,OSD 进程直接运行在 NVMe 上,简化了驱动更换和维护。
- 性能对比:
- HDD: 读写延迟平均 50-70ms,但波动较大,尤其在数据恢复或回填时会出现明显的延迟峰值。
- NVMe: 读写延迟稳定在微秒级,波动极小,即使在数据恢复期间也不会对客户端造成明显影响。
- 实际使用情况:
- NVMe 的写入放大问题在实际使用中并不明显,TLC 和 QLC 的写入寿命远超预期,尤其是 QLC 在某些工作负载下表现出色。
- 实际生产环境中,NVMe 的写入寿命远未达到理论极限,99% 的企业 SSD 使用率不超过 15%。
- 未来硬件趋势:
- EDSS 格式: 新的企业数据中心存储格式,优化了冷却和电源管理,支持更高的接口速度(如 PCIe 5.0 及以上)。
- ZNS(分区命名空间): 允许应用程序直接在驱动器上管理命名空间,减少写入放大,提升性能。
- Ceph 的改进: Ceph 正在为高速存储设备(如 NVMe)进行优化,未来可能会更好地利用这些硬件的潜力。
- 迁移的考虑因素:
- 性能提升: NVMe 在数据恢复和回填操作中表现优异,减少了客户端的延迟和中断。
- 运维简化: NVMe 的自包含设计减少了驱动更换的复杂性,自动化程度更高。
- 成本与 ROI: 虽然 NVMe 初始成本较高,但长期来看,由于性能提升和运维简化,总体成本可能更低。
- 未来展望:
- 索尼选择 NVMe 不仅是为了当前的性能需求,也是为了未来硬件的兼容性,避免频繁的硬件刷新。
- 随着硬件技术的进步,NVMe 的性能和容量将继续提升,Ceph 也将进一步优化以充分利用这些硬件。
决定事项: - 继续推进 NVMe 的部署,逐步淘汰旧的 HDD 集群。 - 持续监控 NVMe 的实际使用情况,特别是写入放大和寿命问题。 - 关注未来硬件技术的发展,特别是 EDSS 格式和 ZNS 技术的应用。
后续行动计划: - 完成现有 HDD 集群的迁移,确保数据平稳过渡。 - 优化 Ceph 配置,进一步挖掘 NVMe 的性能潜力。 - 与硬件供应商保持沟通,了解最新的存储技术进展。
总结: 本次会议详细讨论了从 HDD 到 NVMe 的迁移过程及其对 Ceph 集群的影响,展示了 NVMe 在性能、稳定性和运维简化方面的优势。未来,随着硬件技术的进步,Ceph 集群的性能和可靠性将进一步提升。