[改进后的中文总结内容]

会议纪要

会议时间: 2019年3月7日

参会人员: [所有参会人员名单]

会议主题: Ceph分布式存储系统改进与讨论

会议内容

一、自动错误修复

  • 目标:使系统能够自动修复其发现的错误,从而实现更少的手动干预。
  • 讨论内容:
    • 自动修复的适用场景:由于外部因素(如介质错误、宇宙射线)或软件错误引起的错误。
    • 自动修复的限制:除非我们知道如何修复错误,并且不需要从系统中获取任何信息,否则不应自动修复。
    • 自动修复的实现:通过在OSD级别添加错误标志位,并根据错误标志位进行自动修复。
    • 维护OSD级别统计数据:在超级块中添加字段或添加其他对象,以跟踪修复操作。

二、副本池的自动修复

  • 目标:为副本池实现自动修复功能。
  • 讨论内容:
    • 当前实现:仅对记录池支持自动修复。
    • 实现方案:将自动修复功能扩展到副本池,并在深度检查时进行修复。

三、健康警报

  • 目标:根据修复操作的结果,调整健康警报的严重程度。
  • 讨论内容:
    • 修复失败:添加新的PG状态标志,用于表示修复失败。
    • 健康警报级别:根据修复结果,调整健康警报的级别。

四、平衡器模式

  • 目标:为新的OSD设置默认的平衡器模式。
  • 讨论内容:
    • 默认模式:将默认平衡器模式设置为Crush Compat模式,使新添加的OSD从零权重开始,逐渐增加权重。
    • 测试与验证:需要对平衡器模式进行测试,以确保其正常工作。

五、容器中的问题

  • 讨论内容:
    • gcore 和 pstack 在容器中不可用。
    • 需要一种方法来获取容器中线程的堆栈跟踪。
    • 可能在容器外部挂载调试工具,例如 GDB。

六、崩溃记录

  • 目标:记录崩溃信息,并生成健康警报。
  • 讨论内容:
    • 崩溃记录:记录崩溃发生的时间、进程、堆栈跟踪等信息。
    • 健康警报:根据崩溃记录,生成健康警报。
    • 重复崩溃:针对重复崩溃的情况,生成更精确的健康警报。

七、媒体错误处理

  • 讨论内容:
    • 对于媒体错误,应尝试自动恢复,并避免崩溃。
    • 可以通过设置特殊的退出代码,来避免系统B尝试重启。
    • 可以记录崩溃报告,并添加注释,以便后续分析。

八、其他

  • 讨论内容:
    • CephCon 会议。
    • 容器中的问题。

后续行动计划

  • 完成自动修复功能的开发。
  • 实现副本池的自动修复功能。
  • 调整健康警报的严重程度。
  • 测试和验证新的平衡器模式。
  • 解决容器中的问题。
  • 完成崩溃记录功能的开发。
  • 改进媒体错误处理。

备注

  • 会议中提到的部分关键词,如 "Crush Compat"、"OSD"、"PG"、"scrub"、"deep scrub" 等,均为 Ceph 分布式存储系统中的关键术语。