Ceph Science User Group Meetup - July 2025

2025-07-30
视频总结

Ceph Science User Group Meetup - July 2025

2025-07-30

[改进后的中文总结内容]

Ceph 月度会议纪要（2024年X月X日）

1. 会议主题

本次会议的主题为《分布式存储（Ceph）的电力与碳成本分析》，由英国SDFC研究员Tom主讲。

2. 核心讨论内容

2.1 研究背景与目标

研究HDD（机械硬盘）与SSD（闪存）在Ceph集群中的性能/成本/功耗差异。
对比三种硬件方案：
- 标准HDD（8TB）
- 高密度HDD（24TB）
- 闪存方案（15TB TLC SSD）
使用RADOS Bench进行混合负载（50%读/50%写）压测，监控节点功耗，并计算碳成本。

2.2 关键发现

闪存方案在空闲时与高密度HDD功耗相近，但满载时功耗增加80%。
高密度HDD的性能/容量比下降明显。
小IOPS场景下，闪存每瓦特IOPS效率更高。
流式吞吐（大块IO）下，三种方案差异不显著。
闪存方案的单位性能碳效率更优。

2.3 后续行动建议

考虑更高密度QLC SSD（如60TB）以进一步优化功耗与成本。
测试不同EC（纠删码）布局对性能的影响。

3. 其他技术讨论

3.1 Ceph版本升级（Quincy → Squid）

部分用户反馈从Quincy跳过Reef直接升级至Squid的可行性，需验证MDS稳定性问题。
建议等待Squid后续补丁修复已知问题。

3.2 节点物理迁移与CRUSH Map保留

确保主机名/IP变更后，OSD在CRUSH Map中的位置不变。
操作建议：禁用自动重平衡，使用pg-remapper工具手动修复PG分布。

3.3 磁盘故障与替换

HDD扇区错误导致静默数据不一致，cephadm replace操作依赖PG完全恢复。
临时方案：启用PG auto-repair或强制全盘重写。

3.4 集群日志优化

大规模集群（8000+ OSD）中，日志同步导致Monitor性能下降。
临时解决：禁用cluster_log_to_monitors。

4. 行动计划

任务	负责人	时间线
测试QLC SSD在Ceph中的性能	Tom	2024 Q4
提交Squid升级问题到邮件列表	Matia	2024-09
验证cluster_log_to_monitors关闭影响	社区成员	持续

5. 下期会议预告

时间：2024年9月23日（周二）
议题征集：鼓励提交短篇技术分享。
往期资料：会议录像及幻灯片已上传至YouTube和GitHub仓库。

备注：关键词保留（如CRUSH、RADOS、Bluestore等）以方便技术检索。会议录制：本场录像将后期发布，请关注邮件通知。

最后更新时间：2025-07-31 00:00:00
欢迎评论~

sean10