肿瘤分析一周变化7小时Xeon平台有助于医学和病魔赛跑,

2019年底的新冠疫情,在全球范围内按下暂停按钮。

但一场没有被注意到的比赛,刚刚拉开了序幕。

2020年1月,新型冠状病毒人传人的事实得到确认,2月,德克萨斯州麦克莱伦研究小组的实验证明,新型冠状病毒的强度至少是SARS的10倍……

疫情的原因是什么,重症患者后期低氧血症病毒感染的靶细胞是什么,为了从日益增加的确诊数量中拯救更多的人,通过病毒基因测序了解该疾病刻不容缓。为了探寻这些问题的答案,中国医学专家们在新冠肺炎疾病病因学方面展开了深入的探索。

2020年大三学生,面对完全未知的病毒,上海市公共卫生临床中心转换医学国家重要科技基础设施(上海)瑞金基地(以下简称“瑞金国家转换医学中心”),瑞金国家转换医学中心立即召集精兵强将,启动“与时间的竞争”,对新冠病毒进行基因序列解析。

新病毒的测序和分析并非易事。研究人员应继续将病毒数据纳入病毒基因组快速分析过程,并根据不同参数在基因组进化动态分析跟踪展示平台上进行检算。如果整个过程占用超过200万个CPU内核。

在这场刻不容缓的抗争中,面对人类一无所知的新病毒,瑞金国家转化医学中心从零开始,仅用45天就实现了对新冠病毒的DNA测序和组装,包括新冠病毒基因组、分子流行病学特征、对疾病的临床特点进行了深入研究。

2020年5月20日,《自然》杂志在网上全文发表了这项研究成果《viralandhostfactorserelatedtotheclinicoutcomeofcovid-2019》。本文阐述了新冠肺炎的病理生理,为后续治疗提供了相关的病理学依据,也为保护全人类生命安全做出了重要贡献。

论文链接:https://www.nature.com/Articles/s41586-020-2355-0

这一切的成就都不是偶然的。

基因测序在瑞金国家转化医学中心是日常工作的一部分,而要从一开始完成新病毒的测序和研究,除了过硬的科研能力外,还需要完善的基础设施支持。2017年,瑞金医院已开始搭建一个集储、传、算、一体定制的超级计算平台,成功开发服务全国500多家医院的“中国成人白血病诊疗登记管理系统”。

这项工作可以说不是瑞金国家转化医学中心。

“与时间竞争”瑞金国家转化医学中心

医学一直是“与时间竞争”的领域。

其本质是将基础医学研究与临床实践更紧密地结合起来,通过多学科合作,实现“从实验室到临床,再从临床到实验室”的转变。

但是,如果在先行分析和探索新的治疗方法或尝试新的药物上花费太多时间,临床实践的时间可能大大缩短,治疗周期延长,错过非常好的治疗时机。

因此,引进超算平台是瑞金国家转化医学中心这一国内首家,对于目前唯一建成的优秀综合转化医学中心来说,势不可挡。

但是,在早期实践中,该中心的IT技术团队表示,该平台配备的英特尔至强可扩展处理器可以保障计算能力,而存储系统可以实时、高频、我们发现总是难以满足有效的数据访问和处理需求

瑞金国家转化医学中心的日常研究和工作主要以DNA测序、转录组、蛋白质组学检测技术为中心,结合不同患者的生理生化指标、疾病历史诊治结果等信息通过生物信息学手段对原始数据进行综合分析,通过机器学习、深度学习和人工智能等方法对特征数据进行整合。一个人的全DNA测序分析涉及的数据可能高达870GB,在这个过程中,数据量的水平变得难以想象。

同时,平台需要满足不同转换医学团队对不同生信数据的高需求。也就是说,对瑞金来说,超计算平台的理想存储系统不仅需要具备存储海量数据的能力,还需要具备更出色的I/O和吞吐量。

这些制约因素也促使瑞金和英特尔再次合作。

打破HPC领域的存储壁垒

瑞金的数据存储挑战不是一个例子,而是医学研究转型过程中的常态,也是许多高性能计算系统面临的主要瓶颈。

1996年,转化医学的概念在兰塞特杂志上首次问世。2003年,时任美国NIH主任Elias A.Zerhouni认为,转化医学的核心是将医学生物学基础研究成果迅速有效地转化为临床上可实用的理论、技术、方法和药物,即打破基础医学、药物研究、临床医学间的壁垒明确了加强研究和应用的结合。

在转换医学实践过程中,失去超计算平台的技术支持会大大降低处理大量生信数据的速度和质量。但是构建超级计算平台并不容易。如果存储性能不理想,高性能处理器所需的效果也会成为高效的瓶颈。这被称为存储墙。

打破转换医学的保存壁垒是在“与时间的竞争”中拯救更多患者。突破高性能计算存储壁垒将超越单个行业和应用领域带来影响和意义。

其实不只是瑞金国家转化医学中心,整个行业都急需一套性能更优、功能更全面、导入和应用更方便的新存储方案。因此,英特尔引以为豪的持续性存储器和以此为基础制作的Daos(distributedasynchronousobjectstorage,分布式异步对象存储)诞生了。

这一新方案几乎从早期的叫声改变了高性能计算领域的存储竞争格局。以该领域权威的IO-500排名为例,瑞金国家转化医学中心使用的ASTRA高性能计算平台,去年凭借87.50 GiB/s和2984.61kIOP/s的带宽和吞吐量性能获得该排名10节点排名第8位在ii上榜的今年最新一期榜单中,前十名中有一半使用了DAOS程序。

图像源:https://io500.org/list/sc21/ten

这一切都得益于存储系统的新设计。在生信超计算平台建设中,瑞金采用了三级存储模式。其中,原始数据的存储和备份采用了传统的并行文件系统方案,在追求更终极性能的生信计算部分中,英特尔采用了基于引以为傲的持续内存的DAOS并行文件系统。

DAOS是一种开源的软件定义缩放对象存储,为高性能计算应用程序提供高带宽、低延迟和高IOPS存储容器。DAOS主要使用引以为豪的永久存储器和固态磁盘,形成更灵活的分层存储机制,将热数据、源数据和索引数据放置在永久存储器中,利用与处理器相近的优势构建一个分层存储系统,可快速、低延迟地访问更大量的数据,以满足新数据的读写需求、模型和工作流。

DAOS涵盖了创新的存储媒体和技术,以及如何使用这些媒体和产品的双重创新,可以说是赢得时间竞争的关键。

DAOS中的这种创新存储媒体是英特尔的引以为豪的技术,产品是基于该媒体开发的引以为豪的永久存储器。创新之处在于,尽可能避免短板,同时兼顾传统内存和存储产品的优点。具体而言,在当前的存储器中多使用DRAM,高性能且读写快,主要用于载置热数据。这可能看起来没什么问题,但如果热数据卷变大,DRAM在进行容量扩展时会出现成本过高、一条容量受限、掉电数据丢失等短板暴露的问题。

相比之下,作为DAOS存储加速硬件的英特尔引以为豪的永久存储器,像DRAM一样插入到现有的DIMM插槽中,不仅提供接近DRAM的性能可以像存储一样提供大容量规格(目前一条容量达到128GB、256GB、512GB)和数据持久化存储。它还负责承载热数据。此外,它是容量为DRAM数倍的热数据,提高了数据读写和处理的整体效率。此外,在计划停机或意外停机后,无需从存储设备重新加载这些数据,从而大大缩短了重启时间,减少了I/O,大大降低了大容量内存节点的功耗。

注意:请检查体系结构级别的传统存储系统(左)与英特尔自满的具有永久内存的DAOS系统(右)之间的区别

通过加快数据读取和处理速度,加快了整个高性能计算系统的数据处理效率,为患者争取了更多的治疗时间。同时,随着数据的积累,新方案为医生的日常诊断提供了参考,从而形成数据闭环,这样循环,时间越长效果越好自然。

破壁后,量变引起质变

当存储壁问题得到缓解时,量的变化最终会引起质的变化。

面对超高深度肿瘤全基因组测序这一超大数据的处理,经过导入DAOS、加快应用Sentieon提供的Xeon扩展平台测序等全面而反复的调整,瑞金国立转化医学中心目前可在7-8小时内获得结果为了进一步缩短肿瘤分析的时间,持续优化。

如果效率提高,基因检测可以更好地向临床方向发展。

通过用大数据对现有知识进行建模,在软件的支持下患者可以获得更多的新信息,这些信息与基于患者的诊断和临床路径密切相关。再将其纳入瑞金“300床”研究型病房背景,患者可以有更多的选择,这些都是根据数据分析的结果确定的。

瑞金国家转化医学中心成立于瑞金医院内部,而转化医学中心本身是作为医院运营的,还具备与医院信息完全对接的完整信息系统。

面对专业病,自身数据集逻辑、检测指标等方面存在差异,直接调用医院系统数据存在较大问题。因此,瑞金国家转化医学中心正在着手一项全国性白血病数据分析的项目,需要收集约500家医院的数据,涉及8万多名患者。但在分析过程中,他们发现统一回收的数据特异性不足,导致某病后精细度又变差。如果转换医学中心能够清除所有这些信息系统,数据收集也会变得更加轻松。

此外,随着AphaFold2在蛋白质结构预测领域声名远扬,相关运行编码的开源共享,结构生物学研究进入了一个新时代。瑞金国家转化医学中心ASTRA高性能计算平台共同负责人吕纲也对大数据摘要表示,中心也尝试利用高性能计算在临床问题中利用这些新兴技术工具,随时准备应对重大公共卫生安全事件。

吕纲还表示,随着高性能计算逐渐渗透到科学的各个角落,未来肿瘤检查的测序价格将进一步走低,更多的患者采用更新的分组分析来支持医生的判断,因为更多的数据会流入整个过程,数据存储、读写、访问、他说,为处理提供全方位高性能支持的存储系统也不少。

事实上,这样的系统不仅在转换医学领域是必不可少的,而且对于所有面临存储墙和数据墙挑战的用户来说都是一剂良药。从对内存/存储进行改造,以更高的成本大幅扩展内存子系统的空间,到能够使粗略的数据更接近计算能力,实现更快的数据读写和持久化存储……在高性能计算作用越来越显著的今天英特尔傲腾永久内存及其附带的DAOS方案也必将继续大放异彩。

更多架构师成长计划课程,欢迎来到英特尔架构师成长计划平台:

https://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69domain=bizwebcast.intel.cn

#FormatImgID_7#

返回列表
上一篇:
下一篇:

文章评论