[改进后的中文总结内容]
会议纪要
会议主题: Ceph分布式存储性能优化:提升数据对等连接速度和降低尾部延迟
会议时间: 2023年11月(具体日期未提及)
参会人员: Sam Guang、Sage、以及其他未具名的研发人员
会议内容:
主要议题:
- 更快的数据对等连接:
- 讨论了Ceph在对等连接过程中存在的多个往返延迟问题,包括构建OSD列表、请求pg notify信息、确定权威OSD、获取信息调整日志、发送info消息激活等步骤。
- 提出了优化方案,如基于历史间隔预先确定权威OSD、仅请求活动集的缺失日志和日志、启动对等连接时跳过某些步骤等。
- 降低尾部延迟:
- 探讨了OSD长时间非活动状态导致的尾部延迟问题,包括系统启动时的预填充pg temp、设置primary affinity为0、OSD崩溃时立即标记为down、客户端驱动读取等方案。
决定事项:
- 将“更快的数据对等连接”和“降低尾部延迟”两个蓝图合并为一个。
- 探索使用客户端驱动读取来解决尾部延迟问题。
- 考虑在启动对等连接时跳过某些步骤,以减少往返延迟。
- 考虑将primary affinity设置为0,以避免不必要的IO等待。
- 探索使用系统启动时预填充pg temp来减少启动时间。
- 探索在OSD崩溃时立即将其标记为down的方法。
后续行动计划:
- Sam Guang将更新蓝图,以包含上述讨论的优化方案。
- Sage将研究客户端驱动读取的实现方案。
- 其他研发人员将探索使用客户端驱动读取来解决尾部延迟问题。
- 团队将评估将primary affinity设置为0的可行性。
- 团队将评估使用系统启动时预填充pg temp的可行性。
- 团队将评估在OSD崩溃时立即将其标记为down的可行性。
关键词:
- Ceph
- 数据对等连接
- 尾部延迟
- pg temp
- primary affinity
- 客户端驱动读取
- CephFS
- RBD
- librados
- libcephfs
- RadosGW
- RESTful API
- 认证
- 授权
- 加密
- 纠错码
- 复制
- 快照
- 克隆
- 虚拟化
- 云计算
- AWS
- Azure
- Google Cloud
- 混合云
- 跨云
- 存储集群
- 节点
- 硬盘
- SSD
- JBOD
- SAN
- NAS
- 网络
- 网络拓扑
- 故障域
- 恢复
- 弹性
- 负载均衡
- 缓存
- 压缩
- 去重
- 分层
- 性能调优
- 基准测试
- 验证