[改进后的中文总结内容]
会议纪要
会议时间: 2019年3月7日
参会人员: [所有参会人员名单]
会议主题: Ceph分布式存储系统改进与讨论
会议内容:
一、自动错误修复
- 目标:使系统能够自动修复其发现的错误,从而实现更少的手动干预。
- 讨论内容:
- 自动修复的适用场景:由于外部因素(如介质错误、宇宙射线)或软件错误引起的错误。
- 自动修复的限制:除非我们知道如何修复错误,并且不需要从系统中获取任何信息,否则不应自动修复。
- 自动修复的实现:通过在OSD级别添加错误标志位,并根据错误标志位进行自动修复。
- 维护OSD级别统计数据:在超级块中添加字段或添加其他对象,以跟踪修复操作。
二、副本池的自动修复
- 目标:为副本池实现自动修复功能。
- 讨论内容:
- 当前实现:仅对记录池支持自动修复。
- 实现方案:将自动修复功能扩展到副本池,并在深度检查时进行修复。
三、健康警报
- 目标:根据修复操作的结果,调整健康警报的严重程度。
- 讨论内容:
- 修复失败:添加新的PG状态标志,用于表示修复失败。
- 健康警报级别:根据修复结果,调整健康警报的级别。
四、平衡器模式
- 目标:为新的OSD设置默认的平衡器模式。
- 讨论内容:
- 默认模式:将默认平衡器模式设置为Crush Compat模式,使新添加的OSD从零权重开始,逐渐增加权重。
- 测试与验证:需要对平衡器模式进行测试,以确保其正常工作。
五、容器中的问题
- 讨论内容:
- gcore 和 pstack 在容器中不可用。
- 需要一种方法来获取容器中线程的堆栈跟踪。
- 可能在容器外部挂载调试工具,例如 GDB。
六、崩溃记录
- 目标:记录崩溃信息,并生成健康警报。
- 讨论内容:
- 崩溃记录:记录崩溃发生的时间、进程、堆栈跟踪等信息。
- 健康警报:根据崩溃记录,生成健康警报。
- 重复崩溃:针对重复崩溃的情况,生成更精确的健康警报。
七、媒体错误处理
- 讨论内容:
- 对于媒体错误,应尝试自动恢复,并避免崩溃。
- 可以通过设置特殊的退出代码,来避免系统B尝试重启。
- 可以记录崩溃报告,并添加注释,以便后续分析。
八、其他
- 讨论内容:
- CephCon 会议。
- 容器中的问题。
后续行动计划:
- 完成自动修复功能的开发。
- 实现副本池的自动修复功能。
- 调整健康警报的严重程度。
- 测试和验证新的平衡器模式。
- 解决容器中的问题。
- 完成崩溃记录功能的开发。
- 改进媒体错误处理。
备注:
- 会议中提到的部分关键词,如 "Crush Compat"、"OSD"、"PG"、"scrub"、"deep scrub" 等,均为 Ceph 分布式存储系统中的关键术语。