生命科学领域高性能计算的发展趋势
发布时间:2017-02-17
二十年前,生命科学领域几乎没有高性能计算(HPC)的踪迹,现如今HPC已被用于生命科学和生物医学研究。基因组学和来自现代实验室仪器的数据调试是主要驱动因素,从长远来看其主要需求是进行预测性模拟以支持精准医学。2017年1月,生命科学计算咨询公司BioTeam副总裁兼总经理艾瑞·贝尔曼(Ari Berman)发文探讨了当今生命科学领域HPC应用
不断变化的态势。Berman曾准确预测2015年约25%的生命科学家需要HPC资源的协助。到2017年年底,这个数字将上升到35%左右,到2018年底可能达到50% o Berman表示,科学家友好网关(如CyVerse,此前被称作iPlant)的出现能加速HPC在生命科学领域的应用。Berman提出了几大重要趋势,覆盖HPC应用的广泛趋势以及关键技术发展的特定趋势等。
(1)通过门户网站推广HPC应用
要描述生命科学领域中HPC应用情况,首先得明确对HPC的定义及其范围。由于目前有许多HPC任务完成于多种多样的云上,因而Berman建议采用范围稍广的定义。例如,在癌症研究中,所有数据共享项目都在美国癌症研究所之外运行,且每个项目都拥有友好的图形界面以应用预制的或云中的HPC资源。Berman认为,打造网关和门户网站来扩大HPC的可获范围,将减少生命科学领域HPC应用的障碍。
(2)基因组学数据处理不再是HPC的首要需求驱动
基因测序平台在数据输出、样式、数量和规模以及输出文件数量方面正在常规化,并开始向着标准化发展。实现下一代测序的光学技术正在转向应用于其他设备,如创建新数据流的显微镜,这是数据生成的主要替代设备。以此类设备75%的使用率计算,一周就能产生高达25TB的数据。它能快速且轻而易举的提供大量高分辨率的图像数据。管理和分析这种成像数据使生命科学计算超越了传统的基因组学和生物信息学,并进入表型分型、相关与结构生物学,所有这些都需要更多的计算能力,特别是HPC。
(3)生命科学核心计算趋势
生命科学的计算需求非常广泛,因而面临着系统和配置的异构性挑战。这通常与CPU关系不大,而更多地与I/O容量、内存带宽、内存可用性以及其他类似事项有关。核心计算的一个趋势是把更多的系统级架构压缩到一个更小的空间。另一个趋势是GPU被大量应用于生命科学领域,尤其是成像处理等。新一代的GPU(如NVIDIA的Pascal P 100)将变革分子动力学和模拟空间应用。
(4)数据管理和存储挑战
Berman表示数据管理和存储仍然是BioTeam面临的两个最大问题。生命科学领域的数据存储十分复杂,生命科学研究人员使用的文件系统类型有数十种,它们在管理、可扩展性、吞吐速度、复制、数据安全性等方面独具特性。数据囤积在生命科学领域持续存在,这催生了细化分层存储的需求。第1级和第2级中应存储极小部分的活跃数据,而其他空间更大、
成本更低的层级则用于更多人存储数据。
(5)集群网络竞争激烈
Berman表示,集群网络竞争激烈。InfiniBand一度因其成本效益和快速而获追捧,但新的Arista和Juniper能提供更具成本效益的1006以太网环境,在成本和性能方面亦能与Mellanox操作环境竟争。
(6)处理器的变革
最近处理器技术的变革受到极大关注,Intel面临来自IBM, ARM、甚至NVIDIA的挑战。不过针对系统级处理器,Intel在各方面都更胜一筹。IBM Power8架构超越英特尔的地方是精确空间中的浮点,但这并不是生命科学的主要计算内容。除了模拟空间和预测的内容,生命科学领域大多要求以整数为基础。
Https://www.hpcwire.com/2017/01/04/berman-charts-2017-hpc-trends-life-sciences/?eid=328364113&
来源:网络安全和信息化动态2017年第2期