[改进后的中文总结内容]
会议纪要:
会议主题: Hadoop over Ceph RGW 状态更新
会议时间: 未提及
参会人员: Patrick、Yawn、Jen、Earning(远程)
会议内容:
1. Hadoop over Ceph RGW 设计回顾
- 该方案包括三个主要组件:Rgw Skidaway FS(Hadoop 兼容文件系统插件)、Rgw Skidaway Web Proxy(基于 Restful 服务的代理)、Rgw Skidaway with SSD Cache(使用 SSD 缓存的后端存储)。
- 设计流程:调度器请求数据位置,Rgw Skidaway Web Proxy 返回最近的数据节点,调度器在数据节点附近的服务器上分配任务,任务尝试从最近的数据节点访问数据。
2. 自 Infiniscale 以来更新
- Rgw Skidaway Web Proxy:已完成基于 Pass whiskey 模块的演示,可以通过 Restful 请求获取数据位置。
- Rgw Skidaway File System:已完成 70% 的代码开发,实现了与多个 Rgw Skidaway 实例的通信,并添加了块级位置信息,提高了读取性能。
- 性能测试:与 HDFS 和 Swift 进行了基准性能测试,Swift 读取性能比 HDFS 低约 20%。
3. Rgw Skidaway File System 详细更新
- 新的文件系统 URL 将以 GW 前缀开头,可以使用该协议让 Hadoop 访问 Rgw Skidaway 集群。
- 已添加块级概念,基于块级位置信息提高读取性能。
- 存在问题:对于大于 5GB 的对象,存在零字节清单文件和大量小块,需要进一步解决。
4. Rgw Skidaway Proxy 详细更新
- 使用 Lister API 获取清单文件,查找每个块的节点位置。
- 使用 Oil API 跟踪 crush map,获取每个块的节点位置。
- 根据节点位置查找最近的 Rgw Skidaway 实例。
5. Rgw Skidaway File System 性能测试
- 使用 HDFS 和 Swift 进行了基准性能测试,Swift 读取性能比 HDFS 低约 20%。
- 分析了性能差异的原因,发现 Swift 重命名操作较为复杂。
6. 下一步计划
- 完成代码开发,进行基准性能测试。
- 解决大于 5GB 对象的零字节清单文件和小块问题。
- 研究复制实现,以解决性能问题。
- 将代码开源。
7. 其他讨论
- 讨论了禁用桶索引功能以提高性能的可能性。
- 讨论了网络瓶颈的可能性。
- 讨论了增加 Rgw Skidaway 与后端之间的连接数以提高性能的可能性。
行动计划:
- Yawn 和 Jen 继续开发代码。
- Earning 进行基准性能测试。
- 研究复制实现和性能问题。
- 将代码开源。