[改进后的中文总结内容]

会议纪要

会议时间: 2023年11月某日

参会人员: Rob(公司技术团队)、Luke(公司技术团队)、会议主持人(Ceph研发人员)

会议内容

一、Ceph社区动态

  • 讨论了本周Ceph社区的更新,包括3个新的Pull Request,涉及BlueStore错误修复、OSD截止值调整、OST操作诊断简化等。
  • 审查了RGW、Loose Store、Teaches的更新,以及Sam的ODMG跟踪点PR。
  • MDS缓存内存限制和Sharding工作仍在进行中,但遇到了RocksDB损坏问题。

二、公司集群性能问题

  • 公司集群配置:120个节点,每个节点一个OSD,使用RAID 5 24盘驱动器,总容量约3.5PB,运行版本14.2.4。
  • 性能问题:在进行大数据分析时,Rgw读取和写入性能下降,出现段错误和超时。
  • 集群中其他服务(如Elasticsearch和S3)性能未受影响。

三、讨论和建议

  • 建议检查OSD内存目标设置,考虑从默认4GB增加到16GB或32GB。
  • 建议检查Rgw内存使用情况,确保未超出限制。
  • 建议检查Rgw配置,确保未启用导致性能下降的选项。
  • 建议尝试使用更小的RAID配置,例如RAID 1或RAID 10。
  • 建议在Rgw容器中启用调试功能,以便收集更多错误信息。

四、后续行动计划

  • Rob和Luke将根据讨论的建议对集群进行配置更改,并观察性能是否有所改善。
  • Rob和Luke将记录所有更改和观察结果,并在下次会议中分享。

五、其他

  • 讨论了Ceph的元数据存储、RocksDB性能优化、NVMe存储和对象存储等话题。
  • Seagate公司代表Philip和Mark介绍了他们的工作,包括自主存储设备和嵌入存储等。

总结

本次会议讨论了公司Ceph集群的性能问题,并提出了相应的解决方案。参会人员将根据讨论结果进行配置更改,并观察性能是否有所改善。