[改进后的中文总结内容]

9年Walmart Ceph实践:从起步到挑战与展望

Walmart作为Ceph的长期用户,分享了他们在Ceph上的实践经验与挑战。以下是对Walmart Ceph实践会议的总结:

会议概述

Walmart的Hollandi和Anton Packard分享了Walmart在Ceph上的多年实践经验,包括Ceph的起步阶段、现状以及未来展望。

Ceph的起步

  • Walmart使用Ceph已有近十年时间,最初使用Ceph Block Storage(RBD)和Ceph Object Storage(RGW)。
  • 早期使用NVMe网络和较低密度的服务器,并解决了RGW的内存问题、Swift对象过期和内存崩溃等问题。
  • Walmart也向Ceph社区贡献了代码和功能改进。

Ceph的现状

  • Walmart的Ceph集群已从Nautilus升级到Pacific和Quincy版本,并通过自动化工具进行集群管理。
  • 优化了Ceph Block Storage的性能,并通过性能测试对不同配置的OSD数量进行了验证。
  • 在Ceph Manager(cephadm)问题、硬件故障、性能指标异常、大规模集群管理等方面面临挑战。
  • 正在探索为Ceph Block Storage提供更低的延迟,并重点关注Ceph CSI的集成与优化。

未来的展望

  • Walmart将继续与Ceph社区合作,解决当前面临的挑战,并推动Ceph在大型集群中的应用。
  • 重点关注低延迟工作负载、Ceph CSI的集成、错误报告与监控等方面的改进。

技术细节与挑战

  • 在大规模集群中,OpenStack超节点上的临时端口耗尽问题。
  • Thundering Herd问题,即大规模虚拟机集群同时发送trim和discard请求时,可能导致Ceph集群性能急剧下降。
  • OSD故障恢复延迟问题。
  • Ceph Manager在高负载下捕获的性能指标可能出现异常高值。

总结与后续行动计划

  • 继续探索大规模集群中的性能瓶颈。
  • 与Ceph社区合作,解决Cephadm在高负载下的性能问题。
  • 优化Ceph对大规模trim和discard请求的处理。
  • 改进Ceph的错误报告机制,确保在硬件故障时能够快速恢复。