[改进后的中文总结内容]
会议纪要:
会议主题: NASA大气科学数据存储与处理中的Ceph应用
会议时间: 2019年10月24日
参会人员: NASA大气科学团队成员、数据科学家、工程师等
会议内容:
- NASA大气科学数据存储现状:
- NASA大气科学团队负责处理和分析来自多颗卫星的原始数据,包括US-10、NOAA-20、JPSS-2等。
- 数据量巨大,每年产生约10PB的数据,需要高效的存储和数据处理方案。
- 目前主要使用Ceph作为数据存储平台,包括Rados、RGW和S3。
- 使用FusedFS作为POSIX文件系统层,方便科学家访问数据。
- 使用PostgreSQL数据库跟踪文件元数据,并确保数据完整性。
- Ceph的使用情况:
- NASA团队直接使用Ceph,未使用Ceph Gateway。
- 使用Python绑定的库Fredo4CEPH进行数据访问。
- 使用PDS服务器进行数据索引和分块,提高数据处理效率。
- 使用Kubernetes管理Ceph集群和应用程序。
- 面临的挑战:
- 数据量增长迅速,需要更大的存储容量和更高的性能。
- Ceph集群出现了一些故障,需要改进集群稳定性和可靠性。
- 需要更好的数据访问方式,例如支持变量级别的数据访问。
- 未来计划:
- 考虑迁移到BlueStore后端,提高性能。
- 研究使用Striper进行数据分块,提高数据访问效率。
- 使用upmap进行集群升级,提高集群性能和可靠性。
- 探索使用Geospatial Data Abstraction Library (GDAL)进行数据访问。
行动计划:
- 继续使用Ceph作为数据存储平台,并改进集群性能和可靠性。
- 研究使用BlueStore后端和Striper进行数据分块。
- 使用upmap进行集群升级。
- 探索使用GDAL进行数据访问。
关键词: NASA、大气科学、Ceph、Rados、RGW、S3、FusedFS、PostgreSQL、BlueStore、Striper、upmap、GDAL