D4N in RGW - Pritha Srivastava, IBM | ceph视频总结

[改进后的中文总结内容]

会议纪要：Ceph RGW D4N 缓存功能介绍

会议主题: Ceph RGW D4N 缓存功能的介绍与进展

主讲人: Pra Shasta, IBM SEF RGW 团队

会议时间: 未知

背景介绍

D4N (Directory-based Data Center Data Delivery Network) 是 Ceph RGW 中即将引入的新功能，旨在通过智能预取（Karis Prefecture）提升数据存储和访问的效率。D4N 是 D3N 缓存的继任者，设计更贴近存储或数据湖，允许多个应用程序共享缓存数据。D4N 的核心是基于分布式目录，负责维护整个缓存的全球状态。

设计目标

加速通用 S3 工作负载: 通过智能预取提升缓存效率。
智能预取: 分析工作负载查询的 DAG，预先将对象从后端存储加载到缓存中。
临时数据存储: 探索在缓存中存储临时数据，无需回写到后端存储。
对象打包: 将小对象打包成大对象后再写回后端存储，减少 I/O 操作。

上游贡献与开发进展

开发团队: 波士顿大学的 Amin、Sumatra 和 Cena，以及 IBM 的 Samara 和 Pra Shasta。
当前状态: D4N 代码已由学生开发并测试，但需要重写以适配 RGW 当前架构。
缓存架构: 基于 Zipper API，分为过滤器驱动、策略驱动、目录驱动和缓存后端驱动。当前支持 SST 和 Redis 作为缓存后端。
目录驱动: 目前基于 Redis 服务器，已切换到 Valkyrie。

读缓存与写回缓存

读缓存: 默认启用，仅缓存头块，数据块在读请求时缓存。
写回缓存: 通过配置选项启用，缓存头块和数据块，支持单部分对象，多部分对象暂不支持。
缓存一致性: 通过目录维护最新版本，删除操作支持延迟删除。

上游状态与未来工作

上游状态: 已合并基于 SST 后端的读缓存实验版本，写回缓存已引入头块缓存。
未来工作: 实现分布式缓存，缓存分区，更多负载测试，探索更多缓存后端支持。

应用场景

分析框架加速: 如 Hadoop 等，提升工作负载性能。
S3 选择加速: 缓存对象的部分内容，加速 S3 Select 查询。
灵活缓存策略: 用户可选择性缓存头块或数据块，或禁用多部分对象的缓存。

Q&A 总结

D4N 与 D3N 的区别: D4N 支持头块缓存，未来将支持分布式缓存，而 D3N 仍为单节点缓存。
目录分布式实现: 未来将使用 Redis 集群，基于一致性哈希分布式存储对象。
缓存一致性: 通过 Redis 集群维护最新版本，确保缓存一致性。

后续行动计划

继续推进单节点写回缓存的上游工作。
完成分布式缓存的开发与测试。
进行更多负载测试，验证缓存性能并修复潜在问题。
探索更多缓存后端支持，如基于其他数据库的缓存后端。