[改进后的中文总结内容]
Ceph 月度会议纪要(2024年X月X日)
1. 会议主题
本次会议的主题为《分布式存储(Ceph)的电力与碳成本分析》,由英国SDFC研究员Tom主讲。
2. 核心讨论内容
2.1 研究背景与目标
- 研究HDD(机械硬盘)与SSD(闪存)在Ceph集群中的性能/成本/功耗差异。
- 对比三种硬件方案:
- 标准HDD(8TB)
- 高密度HDD(24TB)
- 闪存方案(15TB TLC SSD)
- 使用
RADOS Bench
进行混合负载(50%读/50%写)压测,监控节点功耗,并计算碳成本。
2.2 关键发现
- 闪存方案在空闲时与高密度HDD功耗相近,但满载时功耗增加80%。
- 高密度HDD的性能/容量比下降明显。
- 小IOPS场景下,闪存每瓦特IOPS效率更高。
- 流式吞吐(大块IO)下,三种方案差异不显著。
- 闪存方案的单位性能碳效率更优。
2.3 后续行动建议
- 考虑更高密度QLC SSD(如60TB)以进一步优化功耗与成本。
- 测试不同EC(纠删码)布局对性能的影响。
3. 其他技术讨论
3.1 Ceph版本升级(Quincy → Squid)
- 部分用户反馈从Quincy跳过Reef直接升级至Squid的可行性,需验证MDS稳定性问题。
- 建议等待Squid后续补丁修复已知问题。
3.2 节点物理迁移与CRUSH Map保留
- 确保主机名/IP变更后,OSD在CRUSH Map中的位置不变。
- 操作建议:禁用自动重平衡,使用
pg-remapper
工具手动修复PG分布。
3.3 磁盘故障与替换
- HDD扇区错误导致静默数据不一致,
cephadm replace
操作依赖PG完全恢复。 - 临时方案:启用
PG auto-repair
或强制全盘重写。
3.4 集群日志优化
- 大规模集群(8000+ OSD)中,日志同步导致Monitor性能下降。
- 临时解决:禁用
cluster_log_to_monitors
。
4. 行动计划
任务 | 负责人 | 时间线 |
---|---|---|
测试QLC SSD在Ceph中的性能 | Tom | 2024 Q4 |
提交Squid升级问题到邮件列表 | Matia | 2024-09 |
验证cluster_log_to_monitors关闭影响 | 社区成员 | 持续 |
5. 下期会议预告
备注:关键词保留(如CRUSH、RADOS、Bluestore等)以方便技术检索。会议录制:本场录像将后期发布,请关注邮件通知。