[改进后的中文总结内容]

Ceph 科学用户组会议于 2025 年 3 月举行,会议主要围绕 Ceph 使用经验分享、新功能测试和升级流程讨论展开。以下是会议的主要内容和关键讨论点:

会议概述

  • 主持人: Enrio (CERN)
  • 主要演讲人: Matia (苏黎世科学IT服务)
  • 会议类型: 双月会议 (bimonthly meeting)
  • 参会人员: Ceph 运维人员、专家、研究人员(来自开放科学实验室、大型研究中心和大学)
  • 会议目的: 分享 Ceph 使用经验、测试新功能、升级流程讨论等技术交流

主要演讲内容 - CephFS 调优经验分享 (Matia)

Matia 分享了他们使用 CephFS 作为可信研究环境 (TRE) 后端存储的经验,包括系统概况、初始配置、生产环境挑战与调优以及经验教训与改进方向。

系统概况

  • 使用场景:可信研究环境 (TRE) 后端存储
  • 规模:500 名研究人员,3.2PB 数据
  • 选择 Ceph 原因:可扩展性和分布式文件系统特性

初始配置

  • 硬件配置:独立 WAL + DB 设计,置于快速设备上;元数据池位于快速设备;文件系统根目录位于基于机械硬盘的复制池

生产环境挑战与调优

  • 主要问题:单活跃 MDS 无法满足生产负载;元数据请求处理能力不足
  • 调优措施:逐步增加活跃 MDS 数量至 7 个;将项目目录固定到特定 MDS;降低每个客户端能力数;增大缓存限制;调整缓存保留;优化修剪参数;调整删除操作;修改 MDS 故障转移超时

经验教训与改进方向

  • 应为复制池使用快速设备(减少小对象重平衡开销)
  • 更仔细评估擦除编码算法(原使用 EC 2+2,后发现 ISA 算法在 AMD CPU 表现良好)
  • 更早考虑多文件系统 (MultiFS) 方案

关键讨论点

  1. 硬件配置经验:WAL+DB 使用单一快速设备 vs 分离设备;OSD 与 CPU 核心比例关系;CPU 绑定性能影响
  2. 性能对比:CephFS 在小 IO 场景下性能仍不及 NFS;不建议将数据库工作负载直接放在 CephFS 上
  3. 调度器选择:从 Queen 版本开始默认使用 mclock 调度器;部分用户报告在恢复操作时遇到问题,回退到 WPQ;更换调度器需要重启所有 OSD
  4. 多文件系统 (MultiFS) 讨论:可用于隔离不同用户组/工作负载;数据迁移是主要挑战;自 Pacific 版本后被认为稳定
  5. 元数据平衡:自动平衡器在繁忙目录上可能引发问题;手动固定大型活动目录树可能导致 MDS 过载

行动计划与后续工作

  1. 工具需求:开发比较 Ceph 不同版本默认配置差异的工具
  2. 进一步测试:评估 ISA 擦除编码算法在 AMD CPU 上的表现;测试多文件系统 (MultiFS) 方案
  3. 文档整理:分享 Matia 的演示材料;收集整理会议中提到的参考链接

此次会议在技术细节交流和经验分享中圆满结束,与会者表示收获颇丰。下次会议将于两个月后举行。