[改进后的中文总结内容]
会议纪要
关键细节
- 会议时间: 2020年3月26日
- 参会人员: Greg, Igor, Ilya, Mark Cogan 等相关人员
- 会议主题: 讨论Ceph存储系统性能优化和相关PR(Pull Request)的进展
讨论的主要议题
- Ephemeral Sharding PR:
- Greg询问Ephemeral Sharding PR的进展,目前还在更新中,尚未完全确认其状态。
- Locking Improvement PR:
- 讨论了一个改变锁定机制的PR,旨在减少全局锁的生命周期并引入适当的文件锁定。
- Igor表达了对该PR的担忧,担心在当前架构下难以实现。
- OSD和缓存管理性能问题:
- 讨论了OSD在处理大量数据时,由于缓存管理不当导致的性能下降问题。
- 发现OSD在达到缓存限制后,开始从磁盘读取数据,导致页面缓存增加,最终引发内核交换,严重影响性能。
- 提出解决方案包括禁用BlueFS的缓冲I/O,以避免使用页面缓存作为辅助缓存。
- Kernel RBD性能瓶颈:
- Ilya和Greg讨论了Kernel RBD在单客户端进行顺序读取时的性能瓶颈。
- 发现当I/O深度超过64时,内核中的内存复制操作时间增加,影响性能。
- 讨论了可能的解决方案,包括检查内核锁的状态和网络堆栈的行为。
决定的事项
- 禁用BlueFS缓冲I/O:
- 决定禁用BlueFS的缓冲I/O,以避免使用页面缓存,从而提高系统的稳定性和性能。
- Josh将创建相关的PR。
- PR的合并和测试:
- 确认将合并和测试相关的PR,包括Adam的Column Family Sharding PR和Igor的缓存缩减PR。
- 计划在下一个点发布版本中包含这些改进。
后续行动计划
- PR的进一步审查和测试:
- 继续审查和测试涉及的PR,确保它们在合并前达到稳定状态。
- 性能测试和分析:
- 进行更多的性能测试,特别是在单网络接口下的测试,以进一步分析和解决性能瓶颈。
- 内核锁和网络堆栈的深入分析:
- 使用perf和lockstat等工具,深入分析内核锁和网络堆栈的行为,以找出性能问题的根本原因。
其他讨论
- 未来会议和性能优化:
- 讨论了即将到来的会议和可能的性能优化话题,包括对Boost和MDS的进一步优化。
结论
- 会议结束时,Greg感谢所有参与者的贡献,并期待在下一次会议中能有更多的进展和解决方案。