Ceph Developer Monthly 2021-02-03

[改进后的中文总结内容]

本次Ceph开发者月度会议讨论了多项关键技术问题，主要包括以下几个方面：

Ceph镜像指标与跨服务共享：
- 讨论了在Kubernetes环境中实现一致告警机制，特别是针对RGW多站点或Ceph镜像等场景。
- 讨论了如何跟踪和分类SLA，以及如何在工程上实现SLA的报告和度量，以便构建Grafana仪表板进行监控。
- 探讨了在Ceph Manager中暴露这些指标的可能性，并讨论了Prometheus作为数据消费方的可行性。
- 决定进一步研究RBD镜像和RGW当前报告的数据结构和逻辑，以确定是否可以标准化这些报告。
- 考虑在每个守护进程中集成Prometheus导出器，以便直接从守护进程收集指标。
满载集群中的删除操作处理：
- 讨论了当集群满载时，Ceph阻止写操作，但删除操作可能仍然受限，特别是在Ceph Manager模块中。
- 讨论了如何在不增加集群负担的情况下，确保删除操作能够顺利进行，特别是在Manager模块中。
- 决定进一步研究Manager模块中的删除操作逻辑，以及如何改进这些操作以避免集群满载时的阻塞问题。
- 考虑引入更多的后台工作线程或改进现有的线程池管理，以提高Manager的并发处理能力。
消息传递中的传输压缩：
- 讨论了在Ceph消息传递层（Messenger）中添加传输压缩的可能性，特别是针对OSD之间的通信。
- 讨论了在消息传递层进行压缩可能带来的性能开销，以及是否应该针对特定类型的消息或数据负载进行优化。
- 决定在社区中进行更广泛的讨论，以确定最佳的压缩实施位置和方式。
- 考虑在数据负载层进行压缩，而不是在整个消息层，以减少不必要的重复压缩和解压缩操作。

本次会议决定了一系列后续行动计划，以推动这些问题的解决和优化。