Disaster Recovery User Story

[改进后的中文总结内容]

本次会议主要讨论了英国MRC分子生物学实验室（LMB）在CephFS存储系统中遭遇的严重故障及其恢复过程。以下是会议的关键细节和主要议题：

关键议题与讨论内容

背景与系统架构：LMB使用CephFS作为主要存储方案，备份集群（Pebbles）由36个节点组成，包括17PB数据，采用SAS硬盘和NVMe存储，并使用Erasure Coding和Replication。
故障现象：MDS卡在laggy replay状态，日志分析显示Journal损坏，可能与异步写入和RADOS Clone操作有关。
恢复方案对比：
- 完整恢复：通过备份Journal、恢复元数据、重建文件系统、验证与上线等步骤进行。
- 快速恢复：仅重置Session Map和运行scan-links，适用于假设元数据池未损坏的情况。
后续改进：调整配置、禁用异步写入、升级Ceph Squid、优化备份策略等。

决策与行动计划

遗留问题与后续讨论

会议强调了CephFS在处理大规模数据存储和备份时的挑战，以及如何通过有效的故障恢复策略和数据管理来保证数据的完整性和可用性。

[改进后的中文总结内容]结束了