[改进后的中文总结内容]
Ceph 开发者峰会:遥测与 Ceph MGR
会议基本信息
- 会议主题:Ceph 自管理(Self-Manager)与遥测(Telemetry)讨论
- 时间:近期开发周期内
- 参会人员:Anthony、Junior、Radic、Ital、Nan、Jer、Laura 等(部分成员未全程参与)
讨论议题与关键细节
1. 遥测(Telemetry)功能改进
- Bluestore 数据收集:
- Tentacle 版本中未实现对 Bluestore 默认分配器的数据收集,需后续与 Adam/Egore 确认需求并可能回迁至稳定分支。
- 用户需重新启用以接收新增的遥测数据。
- RGW 多站点(RGW Multisite)信息:
- 需 RGW 团队支持添加相关指标,当前无团队成员在场,需后续跟进。
- Crimson OSD 性能计数器支持:
- Crimson 使用独立的 Seastar 性能计数器基础设施,与经典 OSD 不同,需进一步讨论如何兼容 Python 模块暴露。
2. 自管理(Self-Manager)功能优化
- TTL Cache 改进:
- 当前 TTL Cache 默认禁用,计划改为 Manager Cache,解决内存/CPU 消耗高及数据陈旧问题。
- 已有草案 PR,目标纳入 Umbrella 版本。
- Manager Stats 周期自动调节(Autotuning):
- 根据 OSD 队列负载动态调整统计周期,避免单 MGR 实例过载。
- 模块加载优化(Module Loading Improvements):
- Laura 的 PR 改进模块加载顺序,已接近完成,将合入 Tentacle 版本。
- 模块性能计数器(Perf Counters for Modules):
- 新增指标包括 CPU、内存占用及命令平均耗时,帮助识别资源密集型模块。
- 通过 C++ 层统计,需注意共享资源(如缓存)的归属问题。
3. 集群内容遥测(Cluster Content Telemetry)
- 低优先级:因实现复杂且可能显著影响性能,Umbrella 版本暂不包含。
- 未来可能设计独立进程爬取集群数据,供遥测调用。
4. CRUSH 规则与设备类优化
- 问题背景:默认 CRUSH 规则与设备专用规则重叠时,Autoscaler 无法准确计算 PG 目标值。
- 解决方案:提供更明确的健康警告,研究自动分配管理器池至设备类规则的启发式方法。
5. Manager 测试覆盖率提升
- 现状:单元测试不足,尤其是 API 调用和模块实际场景测试。
- 计划:由 Nan 牵头补充测试用例,重点覆盖内存泄漏、进程崩溃等常见问题。
决议事项
- Telemetry:跟进 Bluestore 和 RGW Multisite 指标收集。
- Manager Cache:合并 TTL Cache 改进 PR 至 Umbrella 版本。
- Autotuning & Perf Counters:优先实现 Manager Stats 自动调节和模块性能计数器。
- CRUSH 规则:优化用户体验(健康警告 + 文档),暂不自动迁移管理器池。
- 测试:全员协作补充 Manager 测试用例,提升稳定性验证。
后续行动计划
| 任务 | 负责人 | 时间线 |
|---|---|---|
| Bluestore 数据收集需求确认 | Anthony/Adam/Egore | Tentacle 版本后 |
| Manager Cache PR 审核与合并 | Ital/团队 | Umbrella 开发周期内 |
| Autotuning 逻辑实现 | Brad/Radic | 3 月前 |
| CRUSH 规则警告增强 | Jer | Umbrella 发布前 |
| 模块测试用例补充 | Nan/Stephen | 持续进行 |
遗留问题与待跟进
- Crimson OSD 性能计数器与 Python 模块的集成路径。
- 管理器池是否包含设备健康指标。
- 集群内容遥测的轻量级设计方案。
下次会议
RADOS 相关讨论(周四),可能涉及 Manager 交叉议题。