[改进后的中文总结内容]

会议纪要

会议主题: Ceph分布式存储性能优化:提升数据对等连接速度和降低尾部延迟

会议时间: 2023年11月(具体日期未提及)

参会人员: Sam Guang、Sage、以及其他未具名的研发人员

会议内容

主要议题

  1. 更快的数据对等连接
    • 讨论了Ceph在对等连接过程中存在的多个往返延迟问题,包括构建OSD列表、请求pg notify信息、确定权威OSD、获取信息调整日志、发送info消息激活等步骤。
    • 提出了优化方案,如基于历史间隔预先确定权威OSD、仅请求活动集的缺失日志和日志、启动对等连接时跳过某些步骤等。
  2. 降低尾部延迟
    • 探讨了OSD长时间非活动状态导致的尾部延迟问题,包括系统启动时的预填充pg temp、设置primary affinity为0、OSD崩溃时立即标记为down、客户端驱动读取等方案。

决定事项

  • 将“更快的数据对等连接”和“降低尾部延迟”两个蓝图合并为一个。
  • 探索使用客户端驱动读取来解决尾部延迟问题。
  • 考虑在启动对等连接时跳过某些步骤,以减少往返延迟。
  • 考虑将primary affinity设置为0,以避免不必要的IO等待。
  • 探索使用系统启动时预填充pg temp来减少启动时间。
  • 探索在OSD崩溃时立即将其标记为down的方法。

后续行动计划

  • Sam Guang将更新蓝图,以包含上述讨论的优化方案。
  • Sage将研究客户端驱动读取的实现方案。
  • 其他研发人员将探索使用客户端驱动读取来解决尾部延迟问题。
  • 团队将评估将primary affinity设置为0的可行性。
  • 团队将评估使用系统启动时预填充pg temp的可行性。
  • 团队将评估在OSD崩溃时立即将其标记为down的可行性。

关键词

  • Ceph
  • 数据对等连接
  • 尾部延迟
  • pg temp
  • primary affinity
  • 客户端驱动读取
  • CephFS
  • RBD
  • librados
  • libcephfs
  • RadosGW
  • RESTful API
  • 认证
  • 授权
  • 加密
  • 纠错码
  • 复制
  • 快照
  • 克隆
  • 虚拟化
  • 云计算
  • AWS
  • Azure
  • Google Cloud
  • 混合云
  • 跨云
  • 存储集群
  • 节点
  • 硬盘
  • SSD
  • JBOD
  • SAN
  • NAS
  • 网络
  • 网络拓扑
  • 故障域
  • 恢复
  • 弹性
  • 负载均衡
  • 缓存
  • 压缩
  • 去重
  • 分层
  • 性能调优
  • 基准测试
  • 验证