[改进后的中文总结内容]
Ceph 开发者峰会(Ceph Developer Summit - RADOS CDS)会议纪要如下:
会议概览
- 会议主题: Ceph 分布式存储 CDS (Ceph Development Summit) 会议
- 主要讨论领域: Ceph 存储系统的多个核心组件与功能改进
- 关键词保留策略: 保留关键技术术语的英文原文
主要议题讨论
1. Fast EC 改进
- 零检测功能: 预计将合并到 Umbrella 版本,提高性能
- 直接读取优化: 绕过主 OSD 的性能优化路径
- EC 配置文件/池迁移: 计划实现无中断的迁移过程,简化配置
- 池类统一: 支持从副本池到 EC 池的无缝迁移
2. BlueStore 改进
- RocksDB 缓存优化: 解决大元素导致的分片不平衡问题
- 快速节点恢复: 缩短大型 OSD 崩溃后的恢复时间
- 分配映射持久性: 提高 BlueFS 中存储分配信息的效率
- 元数据重组: 重组对象元数据和数据,支持插件化操作
- 内存元数据优化: 使用 PMR 分配器改进内存使用和缓存行为
- CPU 跟踪工具: 精确测量代码优化效果
3. Scrub 改进
- Crimson 功能补齐: 添加缺失的 scrub 调度功能
- 后端重构: 改进权威对象版本选择算法,优化性能
4. QoS 改进
- 基准测试流程改进: 提高基准测试结果的可靠性
- 子操作处理优化: 解决客户端操作延迟问题
- mclock 配置调优: 优化现有配置文件的吞吐量和延迟
5. Stretch 模式改进
- 网络分区检测与 OSD 隔离: 实现基于位置的 OSD 隔离
- CRUSH 权重限制放宽: 支持不同容量节点的 stretch 集群
- 副本数灵活性讨论: 考虑支持副本 2/3 以节省成本
6. 应用平衡器(App Balancer)
- 脚本集成: 将社区广泛使用的
pg-upmap-remapper和pg-remapper脚本纳入官方仓库 - 行为改进: 处理 PG 非 active+clean 状态,避免集群卡住
- 多线程优化: 提高 PG 操作性能
- OSD 权重支持: 扩展离线重平衡器的容量感知功能
7. 其他核心改进
- Monitor 辅助连接: 解决单 monitor 故障导致的服务中断
- BufferList 优化: 支持零值高效存储,API 重构
- RGW 池索引优化: 考虑冷存储场景下的简化索引方案
- 配置模板: 支持配置参数的模板化管理
- 秘密存储分离: 将敏感数据从 monitor 配置库移出
8. 测试能力改进
- 编解码器测试: 扩展对象语料库测试,支持双向兼容性验证
- 性能测试优化: 提高文件夹测试效率
- JSON 支持: 为 Ceph 添加美观的 JSON 格式化输出
性能优化展示
- EC 直接读取性能: 小读取性能达到副本池水平,大读取延迟降低 66%
- 副本池大 IO 优化: 1MB 顺序读取吞吐量提升显著,延迟从 3ms 降至 1-1.5ms
后续行动计划
- 完成Fast EC的零检测和直接读取功能
- 合并RocksDB缓存优化
- 补齐Scrub的后端重构
- 完成 QoS 的基准测试改进
- 实现Stretch模式的 OSD 隔离
- 合并Monitor的辅助连接支持
- 扩展编解码器测试覆盖
待讨论事项
- RocksDB 分片数量的最优配置
- EC 池迁移的用户体验设计
- Stretch 模式支持可变副本数的可行性
- 磁盘故障预测功能的必要性评估
会议记录将上传至 YouTube,相关链接将通过邮件列表和 Slack 共享。