電話:
021-67610176傳真:
2017年的zui后一周,我國啟動了“中國十萬人基因組計劃”,繪制中國人的精細基因組圖譜,這是我國在人類基因組研究領域實施的*重大國家計劃,需要在四年內完成全部的基因測序與分析任務。
作為六家單位之一,北京諾禾致源參與了此次十萬人基因組計劃,借助阿里云的計算和存儲能力,諾禾致源能在17分鐘內就加載完1萬個人類全基因組數據,僅用1.5小時就可完成單個基因測序pipeline,比此前快了46倍之多,極大縮短了測序的時間。
在云計算快速發展的這幾年中,諾禾致源一直在努力推進基因測序上云建設。目前,諾禾致源已將基因測序業務陸續遷移到阿里云,為基因行業全面云化實現云上數據采集、基因測序、結果交付的夢想,邁出堅實且重要的一步。
基因業務快速增長本地IT資源遇難題
諾禾致源成立于2011年,彼時之云計算還處于起步階段,諾禾選擇了自建本地IT資源來承載業務。然而隨著近年業務的增長,以及本地IT資源面臨升級改造的時間節點,問題逐漸暴露:
——服務器配置不足,運行性能不理想
· 系統運行速度慢
· 業務卡頓不流暢
· 數據上傳速度慢,非常耗時
——傳統存儲無法滿足業務快速增長
· 物理存儲介質有安全隱患,老化、意外丟失、損壞
· 存儲容量有限,無法應對突發業務
· 需要專人運維保管,增加人力成本
· 售后服務差,溝通成本
——定制化分析較困難
· 業務與IT資源匹配溝通成本高
· IT資源無法定制化,技術不匹配
· 本地資源排隊,數據分析延誤長達1個月
CPFS+FPGA 存儲+計算的云上基因平臺
日前,阿里云推出了基于NAS的并行文件系統——CPFS,可提供高達1億的IOPS和1TB/s的吞吐能力,支持大型并行數據處理能力,可大幅提升基因測序、科學計算等高性能計算的工作效率。
具體來說,CPFS可將數據條帶化后均勻分布在整個存儲集群上,允許client并行訪問,吞吐和IOPS隨存儲節點的數量實現線性增長,整個存儲集群對外提供超高的聚合帶寬和IOPS。同時,采用融合以太網的RDMA協議(RoCE)網絡縮短IO訪問的網絡時延,進一步提高了IO訪問速度。
此外,基于Paxos ring的仲裁調度,CPFS可自動檢測服務節點異常,快速切換到備用節點,保障服務的可用性。
諾禾致源*時間在云端構建了基于阿里云CPFS的基因測序解決方案。如下圖所示,通過專線連接阿里云,人基因數據從測序儀下機后,樣本數據通過專線上傳到云端的OSS對象存儲中,再通過CPFS并行文件系統配合ECS計算集群完成基因測序任務。
業務系統上云后,數據分析過程都在云端完成,除了常規的ECS彈性計算外,諾禾致源還創新引入了阿里云推出的FPGA云服務器,這是一款現場可編程門陣列(FPGA)的計算實例,這類異構計算實例支持并行計算,計算能力、吞吐量、能耗比比傳統CPU或GPU要強上十倍。
由于FPGA硬件的可重配特性,用戶可以對已創建的FPGA硬件加速應用,進行快速擦寫和重配,達到低時延硬件與彈性伸縮的結合。基于FPGA+CPFS的黃金組合,諾禾致源將單個基因測序pipeline從傳統模式下的70個小時縮短為僅用1.5個小時即可完成。同時,僅需17分鐘即可加載完1萬個人類全基因組數據,這些原始數據多達300GB。這一速度對臨床醫學的快速診斷、科研成果的快速轉換具有重大意義。
云計算助力醫學基因科學如虎添翼
借助于阿里云提供的海量云存儲和批量彈性計算,諾禾致源能夠以更大的吞吐、更快的速度、更低的成本分析人類基因組數據,助力醫學。
截至目前,諾禾致源運營有25臺Novaseq和三套Hiseq X Ten,每年可完成28萬人的全基因組測序,是zui大的基因測序平臺,業務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,極大地提升了國人遺傳疾病分析和診斷的效率。
云帶來的不僅是效率的提升,還有成本的下降,目前機構的檢測成本已低至數百美元。這一價格還將持續下降。今后,人類做一次檢測,或將和用體溫計量一次體溫一樣便捷。
或許在數年之內,每個新生兒都會被繪制基因組圖,每個成年人都通曉生命出路。(生物谷Bioon.com)