[改进后的中文总结内容]
会议纪要:Ceph用户组会议 - 2020年7月
会议概述
- 日期:2020年7月
- 形式:虚拟会议
- 目的:为科学研究和大型集群领域的专业人士提供一个非正式的交流平台,每两个月举行一次。
- 参与者:来自相关领域的专业人士和研究人员。
主要议题
- 近期故障和问题分享
- 部分集群故障:1604到1804版本中,
ifupdown
脚本中的竞态条件导致绑定接口在VLAN中无法启动默认路由,影响OSD与客户端的通信。 - 解决方案:使用更新版本的
ifupdown
包,并在systemd服务文件中添加覆盖,确保OSD在无法ping通内部基础设施时不会启动。 - 集群容量管理:13PB生产集群满容量,平衡器问题导致重新平衡无效。
- 应对措施:停止集群三天,添加新硬件,使用
app-map remap
工具重新分配PG,并优先处理满载的OSD。 - Ceph Octopus升级经验:从Nautilus升级到Octopus 15.2.3,遇到性能下降和RGW统计问题。
- 问题:RGW统计数据不准确,导致用户配额问题;RGW日志记录问题导致性能问题。
- 解决方案:暂时回滚到Nautilus,调整日志级别。
- Ceph Orchestrator和容器化部署:讨论使用Ceph Orchestrator进行容器化部署的挑战和经验。
- 展望:容器化部署是未来趋势,但目前存在一些技术障碍。
- 部分集群故障:1604到1804版本中,
决定事项
- 未来会议安排:下一次会议预计在9月的第四或第五个星期三举行。
- 信息共享:鼓励参与者通过会议链接中的pad共享信息和问题。
后续行动计划
- 技术问题跟进:继续关注和解决Ceph Octopus升级后的性能和稳定性问题。
- 容器化部署测试:进一步测试和优化Ceph Orchestrator的容器化部署方案。
- 社区支持:通过邮件列表和私人通讯渠道,加强社区成员之间的沟通和支持。
其他讨论
- Ceph Octopus的新特性:如实时镜像迁移等,尚未有实际应用经验分享。
- Ceph社区动态:提及CERN的LZ4压缩问题技术讨论,鼓励参与者观看相关视频。
会议结束
- 感谢参与者:会议在积极的氛围中结束,期待下一次会议的交流。