Ceph Developer Monthly 2022-02-02

[改进后的中文总结内容]

会议纪要

本次会议主要讨论了Ceph管理器（Manager）和指标收集的扩展性问题，以及如何改进这一过程，以提升Ceph分布式存储系统的高可用性和可扩展性。

主要议题

指标收集的扩展性问题：
- Paul在进行扩展性测试时发现，Ceph管理器在处理大量指标时存在性能瓶颈，每秒需要处理约50MB的数据，对大型集群来说是一个显著的瓶颈。
- 会议讨论了如何减轻这一瓶颈，并提出了几种解决方案。
改进方案讨论：
- 短期解决方案：
  - 减少需要导出的指标数量，仅导出在Grafana和InfluxDB管理器中实际使用的指标。
- 长期解决方案：
  - 将指标导出功能从Ceph管理器中分离出来，可能通过每个节点或每个守护进程（demon）的独立导出器来实现。
  - 讨论了将指标直接从收集点发送到Prometheus，绕过Ceph管理器的可行性。
  - 提出了在每个节点部署一个独立的导出器（sidecar exporter）来避免在每个服务中嵌入导出逻辑。
技术细节和挑战：
- 讨论了如何在不同节点和服务之间设置通信，以及如何确保Prometheus能够发现这些导出器。
- 提到了使用SQLite作为中间存储，让Prometheus直接从SQLite数据库中抓取数据的可能性。
- 讨论了Python处理大量数据时的性能问题，以及是否可以通过将更多逻辑移至C++来优化性能。
后续行动计划：
- 继续进行原型设计和实验，探索不同的架构方案，如每个守护进程的独立导出器或每个节点的导出器。
- 研究如何优化现有的Prometheus模块，减少数据处理量。
- 考虑如何支持更细粒度的指标，以满足镜像和复制等新用例的需求。

决定事项

确认了需要将指标收集功能从Ceph管理器中分离出来，以提高系统的扩展性和性能。
同意继续进行原型设计和实验，以确定最佳的长期解决方案。

后续行动

继续进行原型设计和实验，探索不同的架构方案。
研究如何优化现有的Prometheus模块，减少数据处理量。
考虑如何支持更细粒度的指标，以满足镜像和复制等新用例的需求。

备注

会议中提到了一些技术细节和挑战，需要在后续的实验和设计中进一步探讨和解决。
需要定期回顾和评估实验结果，以确保解决方案的有效性和可行性。

本次会议记录涵盖了会议的关键细节、讨论的主要议题、决定的事项以及后续的行动计划，旨在为Ceph存储系统的优化和扩展提供清晰的指导和方向。