Ceph 用户与开发者会议纪要 - 五月 2025 | ceph视频总结

[改进后的中文总结内容]

集群再平衡优化 (Balancer/Upmap): 讨论了将 upmap remapped 和 PG remapper 逻辑整合到 Balancer 模块，以及处理 degraded PGs 的情况。计划将 upmap 逻辑集成到 balancer 模块，并增加配置选项以允许在 degraded 状态下继续运行 balancer。
OSD 重启与维护优化: 讨论了 OSD 重启时产生的延迟峰值和 PG peering 过程对性能的影响。建议在维护模式下自动设置 no-up 和 primary-affinity=0，分阶段重启 OSD，并在所有 PGs 完成peering后解除 no-out 标志。
RGW 性能调优: 讨论了慢速 OSD 对 RGW 索引操作的影响以及默认线程池配置在高负载场景下的不足。建议增加 rgw_thread_pool_size 和 rgw_max_concurrent_requests，推进 async 化改造，并创建 RGW 性能调优文档。
CephFS 灾难恢复: 讨论了现有灾难恢复文档步骤复杂，自动化程度低的问题。建议添加流程图明确各步骤执行条件和风险，并考虑让 MDS 在启动失败时自动执行部分恢复步骤。
MClock 与 WPQ 调度器: 讨论了 MClock 基准测试结果与实际 HDD 性能存在差异，以及用户对 MClock 稳定性仍存疑虑的问题。建议改进 OSD 基准测试工具准确性，提供标准 fio 测试方法验证设备性能，并计划开展技术讲座展示 MClock 工作原理和调优方法。

下次会议时间: 待定（预计1个月后）