[改进后的中文总结内容]
Ceph NVMe-oF 网关功能优化会议纪要
本次会议重点讨论了Ceph NVMe-oF网关的功能优化计划,包括故障转移时间缩短、Active-Active网关支持、自动化管理增强以及性能优化等多个议题。
关键讨论内容
1. 故障转移时间优化
- 当前问题:故障转移时间约为12秒,主要因等待10秒确认网关离线,且beacon频率为5秒(需错过2次beacon才触发)。
- 改进方案:优化beacon机制,仅发送状态差异(delta),降低数据量以支持1秒/次的高频beacon。
- 目标:故障转移时间目标缩短至5-7秒(可配置,依赖网络稳定性)。
- 风险:网络不稳定时可能导致误判(需用户根据环境调整参数)。
2. Active-Active 网关支持
- 当前限制:每个namespace仅由单一网关服务,多网关利用率低。
- 目标:支持多网关同时写入(需解决IO顺序一致性问题)。
- 挑战:数据损坏风险;需要开发重试/一致性逻辑;验证Initiator兼容性。
3. 自动化管理增强
- 自动监听器(Auto Listeners):用户无需手动为每个子系统配置监听器,网关将根据网络掩码(CIDR)自动匹配节点IP并创建监听器。
- 元数据池(Metadata Pool):首次部署网关时自动生成,无需用户手动创建。
4. 性能与功能优化
- 批量创建 Namespace:支持单命令创建多个同名/同大小的namespace。
- SPDK 实时统计:新增CLI命令动态展示IOPS/延迟等指标。
- 加密支持:讨论TLS(网关-Initiator)与RBD/OSD层加密的整合方案。
- 负载均衡改进:未来引入实际负载(IOPS/吞吐量)均衡。
5. 其他计划
- CSI Driver 支持:为Kubernetes提供NVMe-oF存储接口。
- Stretch Cluster 优化:故障转移时优先选择同站点网关。
- SOS 报告增强:完善NVMe相关日志收集。
后续行动计划
- 开发优先级:优先实现beacon优化和自动监听器。
- 测试验证:与多种Initiator进行兼容性测试,进行性能基准测试。
- 文档更新:新增配置参数说明。
此次优化旨在显著提升Ceph NVMe-oF网关的可用性、性能和易用性,为未来多活架构奠定基础。