'2019-03-07 :: Ceph Developer Meeting'

2019-04-15
视频总结

'2019-03-07 :: Ceph Developer Meeting'

2019-04-15

[改进后的中文总结内容]

会议纪要

会议时间： 2019年3月7日

参会人员： [所有参会人员名单]

会议主题： Ceph分布式存储系统改进与讨论

会议内容：

一、自动错误修复

目标：使系统能够自动修复其发现的错误，从而实现更少的手动干预。
讨论内容：
- 自动修复的适用场景：由于外部因素（如介质错误、宇宙射线）或软件错误引起的错误。
- 自动修复的限制：除非我们知道如何修复错误，并且不需要从系统中获取任何信息，否则不应自动修复。
- 自动修复的实现：通过在OSD级别添加错误标志位，并根据错误标志位进行自动修复。
- 维护OSD级别统计数据：在超级块中添加字段或添加其他对象，以跟踪修复操作。

二、副本池的自动修复

目标：为副本池实现自动修复功能。
讨论内容：
- 当前实现：仅对记录池支持自动修复。
- 实现方案：将自动修复功能扩展到副本池，并在深度检查时进行修复。

三、健康警报

目标：根据修复操作的结果，调整健康警报的严重程度。
讨论内容：
- 修复失败：添加新的PG状态标志，用于表示修复失败。
- 健康警报级别：根据修复结果，调整健康警报的级别。

四、平衡器模式

目标：为新的OSD设置默认的平衡器模式。
讨论内容：
- 默认模式：将默认平衡器模式设置为Crush Compat模式，使新添加的OSD从零权重开始，逐渐增加权重。
- 测试与验证：需要对平衡器模式进行测试，以确保其正常工作。

五、容器中的问题

讨论内容：
- gcore 和 pstack 在容器中不可用。
- 需要一种方法来获取容器中线程的堆栈跟踪。
- 可能在容器外部挂载调试工具，例如 GDB。

六、崩溃记录

目标：记录崩溃信息，并生成健康警报。
讨论内容：
- 崩溃记录：记录崩溃发生的时间、进程、堆栈跟踪等信息。
- 健康警报：根据崩溃记录，生成健康警报。
- 重复崩溃：针对重复崩溃的情况，生成更精确的健康警报。

七、媒体错误处理

讨论内容：
- 对于媒体错误，应尝试自动恢复，并避免崩溃。
- 可以通过设置特殊的退出代码，来避免系统B尝试重启。
- 可以记录崩溃报告，并添加注释，以便后续分析。

八、其他

讨论内容：
- CephCon 会议。
- 容器中的问题。

后续行动计划：

完成自动修复功能的开发。
实现副本池的自动修复功能。
调整健康警报的严重程度。
测试和验证新的平衡器模式。
解决容器中的问题。
完成崩溃记录功能的开发。
改进媒体错误处理。

备注：

会议中提到的部分关键词，如 "Crush Compat"、"OSD"、"PG"、"scrub"、"deep scrub" 等，均为 Ceph 分布式存储系统中的关键术语。

最后更新时间：2019-04-15 00:00:00
欢迎评论~

sean10