[改进后的中文总结内容]

Ceph 月度会议纪要(2024年X月X日)


1. 会议主题

本次会议的主题为《分布式存储(Ceph)的电力与碳成本分析》,由英国SDFC研究员Tom主讲。

2. 核心讨论内容

2.1 研究背景与目标

  • 研究HDD(机械硬盘)与SSD(闪存)在Ceph集群中的性能/成本/功耗差异。
  • 对比三种硬件方案:
    • 标准HDD(8TB)
    • 高密度HDD(24TB)
    • 闪存方案(15TB TLC SSD)
  • 使用RADOS Bench进行混合负载(50%读/50%写)压测,监控节点功耗,并计算碳成本。

2.2 关键发现

  • 闪存方案在空闲时与高密度HDD功耗相近,但满载时功耗增加80%。
  • 高密度HDD的性能/容量比下降明显。
  • 小IOPS场景下,闪存每瓦特IOPS效率更高。
  • 流式吞吐(大块IO)下,三种方案差异不显著。
  • 闪存方案的单位性能碳效率更优。

2.3 后续行动建议

  • 考虑更高密度QLC SSD(如60TB)以进一步优化功耗与成本。
  • 测试不同EC(纠删码)布局对性能的影响。

3. 其他技术讨论

3.1 Ceph版本升级(Quincy → Squid

  • 部分用户反馈从Quincy跳过Reef直接升级至Squid的可行性,需验证MDS稳定性问题。
  • 建议等待Squid后续补丁修复已知问题。

3.2 节点物理迁移与CRUSH Map保留

  • 确保主机名/IP变更后,OSD在CRUSH Map中的位置不变。
  • 操作建议:禁用自动重平衡,使用pg-remapper工具手动修复PG分布。

3.3 磁盘故障与替换

  • HDD扇区错误导致静默数据不一致,cephadm replace操作依赖PG完全恢复。
  • 临时方案:启用PG auto-repair或强制全盘重写。

3.4 集群日志优化

  • 大规模集群(8000+ OSD)中,日志同步导致Monitor性能下降。
  • 临时解决:禁用cluster_log_to_monitors

4. 行动计划

任务 负责人 时间线
测试QLC SSD在Ceph中的性能 Tom 2024 Q4
提交Squid升级问题到邮件列表 Matia 2024-09
验证cluster_log_to_monitors关闭影响 社区成员 持续

5. 下期会议预告

  • 时间:2024年9月23日(周二)
  • 议题征集:鼓励提交短篇技术分享。
  • 往期资料:会议录像及幻灯片已上传至YouTubeGitHub仓库

备注:关键词保留(如CRUSH、RADOS、Bluestore等)以方便技术检索。会议录制:本场录像将后期发布,请关注邮件通知。