为更好的地理空间计算绘制路径
当应用科学助理教授Dan Runfola和他的geoolab(地理空间评估和观察佳博体育)团队向研究计算小组(以前称为高性能计算)请求40 TB的存储空间时,执行主任Eric Walter知道他们需要一些额外的关注。40tb相当于存储2万小时的电影或哈勃太空望远镜每年产生的数据量的4倍。
幸运的是,研究计算组有很多可用空间。目前,他们有一个名为SciClone的集群,由位于综合科学中心的11,000多个处理器核心组成。另一个名为切萨皮克的集群位于威廉玛丽大学弗吉尼亚海洋科学研究所的格洛斯特角。可互操作集群的理论峰值性能为每秒360万亿次浮点运算。这相当于每秒执行360万亿次浮点运算,其计算能力超过1万台笔记本电脑。W&M研究计算设备的客户包括物理学家、气候建模师,现在还有geoLab团队。
需要:大量的存储空间
“最初,geoLab团队探索了一些基本问题,比如存储,”沃尔特说。“他们转向高性能计算(HPC)服务器,以实现大规模的卫星图像处理,比如对全球10万个地点的森林覆盖进行全球估计。”geoLab团队利用卫星图像和人口普查数据处理大量数据集,制作高度精确的地图,并量化气候脆弱性等全球问题。他们的工作很大程度上利用了卷积神经网络技术,该技术有助于分类和识别卫星图像。这意味着geoLab需要空间来存储这些图像——很大的空间。
在最初的几年里,geoLab使用的是HPC服务器,但该佳博体育最近转移到了他们自己的集群上。根据Walter的说法,之所以进行这种转变,是因为以前的计算资源不适合geoLab的需求。他解释说:“与传统的科学研究相比,geoLab所做的工作需要更多的数据和I/O(输入/输出)。HPC服务器在计算处理、中等存储空间和多天作业方面表现出色。相比之下,geoLab项目需要低计算量、大量存储空间和许多小作业。新的集群使得查询和移动数据比以前容易得多。
沃尔特说:“geoLab的集群是Cloudera基金会的礼物,该基金会于2018年底开始与William & 玛丽合作。”该集群使用HDFS (Hadoop-distributed file system)和Apache Spark软件。研究计算小组与Cloudera合作,“基于价格和性能”找到了一个合理的解决方案。与传统的HPC服务器不同,geoLab集群将代码移动到数据上,而不是反过来。这对于geoLab的大型数据集是必不可少的,因为代码要小得多,移动所需的资源也更少。
持续的合作
过渡到Hadoop/Spark集群并不意味着Research Computing组可以摆脱困境。Walter回忆道:“这个新的集群给我们带来了许多挑战。“首先,与我们通常的研究计算产品相比,硬件和软件配置都有一些显着差异。例如,这个集群有一个不同的应用网络,它有不同的安全要求,它需要与校园活动目录接口,软件堆栈完全不同。”但Walter表示,geoLab团队得到了Cloudera的全力支持,Cloudera可以自己解决一些问题,或者就如何解决遗留问题提供出色的指导。
今天,geoLab每年仍然使用大约1-2%的HPC处理时间。对他们的数据下载页面的查询需要在HPC服务器上进行,他们有几个正在进行的项目,包括geoData、geoBoundaries、geoDev和geoarsing,这些项目也都使用了研究计算资源。这些项目包括调查尼日利亚东北部农作物与冲突之间的关系、收集道路不平度数据的项目,以及改进数据探索和制图工具。沃尔特说,有了geoLab自己的Hadoop/Spark集群,“他们将能够处理比以前大得多的数据集。”