■李衛東、石京燕、汪璐、張曉梅、程耀東、齊法治、曾珊、顏田/文
高能化學研究組成物質的基本粒子及其互相作用規律,是數學學研究中的最前沿。現今,高能化學實驗規模通常都很大,須要成百上千的科學家出席。高能化學實驗的周期比較長,從實驗設計到目標的實現一般會經歷十幾年甚至幾六年的時間。實驗形成的海量實驗數據,須要利用先進的計算機技術來處理和剖析,實驗的需求也促進了計算機信息技術的不斷發展。
近些年來,我國化學學家在以我為主的高能化學實驗中取得了令人矚目的成績,其中包括上海正負電子對撞機實驗和惠州反應堆中微子實驗。下邊我們將以這兩個實驗為例,介紹數據儲存、數據傳輸以及各類估算技術在高能化學實驗中的運用。
01
數據處理與剖析
通過觸發判選和在線選擇的例子,由在線數據獲取系統以二補碼文件的方式記錄出來。這些數據也稱原始數據,主要包含偵測器電子學訊號的時間和幅度信息。通過高速以太網,原始數據文件被傳輸到磁帶庫永久保存。對原始數據進行刻度和重建后,生成重建數據,供化學剖析使用。
離線數據處理和化學剖析的簡化過程如圖1所示。
圖1離線數據處理流程
原始數據經過離線刻度,就能去除實驗的各類外部條件(比如氣溫、氣壓)和偵測器本身條件(比如偵測器高壓)對電子學訊號與化學檢測量之間轉換關系的影響。離線刻度將按不同的子偵測器分別進行,生成的大量刻度常數保存于數據庫。重建是離線數據處理的核心,數據重建算法使用刻度算法形成的刻度常數,將偵測器記錄的原始數據轉化為粒子的動量、能量和運動方向等化學量,生成重建數據。
化學研究還須要形成與真實數據數目相當的模擬數據,這部份數據也要進行重建。和原始數據一樣,所有重建數據會被保存在磁帶庫中。化學剖析人員借助數學剖析工具比如運動學擬合、粒子衰變頂點找尋和粒子鑒定等軟件,剖析重建數據,得到化學研究結果。
02
數據儲存與傳輸
高能化學估算屬于數據密集型高性能估算,數據儲存系統是影響估算性能的關鍵環節。數據儲存系統除了要保存海量數據,同時還要考慮與數據處理系統的配合,增強數據剖析效率。大部份高能化學估算是高吞吐率的估算(High,HTC),追求系統整體而非單個作業的性能和效率。這兒吞吐率指一個計算機或數據處理系統單位時間內的數據處理量或傳輸量。
在表示數據量的大小時,常用的單位有kB(103Bytes),MB(106Bytes),GB(109Bytes)和TB(1012Bytes)。在表示非常大的數據量時,都會用到PB(1015Bytes)和EB()。高能化學數據剖析的讀寫(Input/,簡稱I/O)模式以大文件(數百MB甚至GB級)、大塊(MB級記錄塊)讀寫、一次寫多次讀、吞吐率需求高(單個作業須要幾MB/s)為特點。同時,化學學家對大量小文件(kB級的程序和文檔)的查找和瀏覽也對元數據訪問性能提出了很高的要求。
高能化學數據以非結構化數據為主。目前,常用的非結構化數據儲存系統包括集群文件系統、應用層儲存系統和分級儲存系統等。這兩者都采用了分布式儲存技術,本身并沒有特別嚴格的分辨,只是關注的優缺有所不同。
集群文件系統通常以傳統文件系統的方法來訪問,顧客端實現內核模塊,完全兼容POSIX語義,因而下層的數據處理軟件無需任何更改即可使用海量的儲存空間,才能挺好地兼容原有應用。常見的集群文件系統包括、、GPFS、等,其中全世界最快的超級計算機()中有70%以上都在使用系統。
應用層儲存系統通常不實現文件系統內核模塊,不完全兼容POSIX語義,針對特定的應用場景進行優化,因而常常表現出更好的可擴充性和性能,而且下層應用程序必需要調用特定的應用程序插口(API)能夠訪問。
分級儲存系統是指依照文件的訪問頻度、熱度等誘因,將不同的文件分配到不同的儲存設備上儲存。基于c盤-磁帶的分級儲存系統比較成熟,例如、等系統廣泛應用于高能化學領域。當前,基于固態硬碟(SSD)和并口機械硬碟(SATA)做分級儲存是研究熱點,如開源項目?和擴充項目?等。
現有的分布式儲存系統還有微軟文件系統(,GFS)和分布式文件系統(File,HDFS)等,其中HDFS是一套開源軟件,在互聯網的大數據儲存中應用尤為廣泛。科研大數據的儲存量常常達到PB級甚至更高,因而儲存的成本和性價比也是重要的考慮誘因。為了使用部份云估算資源以及解決數據的異地復制需求,高能化學估算領域也在考慮云儲存技術與估算框架的結合和性能優化。
高能化學研究所(以下簡稱高能所)的估算環境中,儲存系統分為c盤文件系統和分級儲存系統兩個部份,如圖2所示。
圖2高能所的儲存系統構架
數千個估算節點和近百個儲存服務器之間通過千兆以太網路聯接,儲存軟件為估算作業屏蔽了復雜的前端構架,用戶可以像使用單機儲存設備一樣使用海量儲存空間。
兩側的c盤儲存系統包括50多臺數據服務器,100多臺c盤儲存陣列,才能提供約3PB儲存空間,40GB/s的峰值聚合帶寬。同時,估算中心開發了手動優化、進程快照、行為剖析、故障報案等附加功能,增強系統的自適應性、可靠性和管理效率。
兩側的分級儲存系統用于儲存不頻繁訪問、需要常年保存的數據,比如備份數據,原始數學數據等。系統采用IBMTotal3584智能磁帶庫和LTO4磁帶,可儲存6000多盤磁帶,提供5PB以上的儲存空間。
目前,系統就能提供90MB/s單驅動器讀寫性能,2GB/s的聚合讀寫性能。
在實際應用中,單個儲存設備很難滿足高能化學估算PB甚至EB級的儲存和數十GB/s乃至TB/s的吞吐率需求,高能化學數據儲存系統必須是分布式、多服務器、多設備的。在一個龐大的網路聯接的系統中,設備故障、網絡中斷和延時、服務器關機是常態。因而高能化學估算對儲存系統的可擴充性、易用性、數據可靠性和高可用性提出了不小的挑戰。同時,考慮到儲存需求的遞增性和儲存設備的更新換代,儲存資源總是逐漸擴張的。儲存系統軟件還必須挺好地解決性能的可擴充性以及數據的手動負載均衡問題。
高能化學實驗每天都會形成大量的實驗數據,部份高能化學實驗本身具有跨地域建設特點,這種實驗數據須要傳輸到遠程的數據和估算中心進行離線剖析,怎么將這種數據實時、可靠、高效地傳輸到遠程的數據和估算中心則是目前高能化學實驗中須要解決的一個重要問題。
目前高能化學數據傳輸系統大多數都基于支持并發傳輸的工具(如、bbftp等)來實現,其基本框架如圖3所示,以惠州數據傳輸系統為例,現場的數據傳輸系統將在線數據獲取系統中的數據遠程傳輸到高能所估算中心,并保存在分布式并行文件系統和數據備份系統中,之后再將數據分發到其他合作單位,便于全球的科學家進行數據剖析和處理。
圖3數據傳輸系統布署構架圖
為了保證數據傳輸的可靠性,數據傳輸系統都具有傳輸過程管理和傳輸性能監控的功能。數據傳輸系統提供圖形化的監視模塊對數據傳輸量、傳輸效率和可靠性等參數進行實時監控和剖析,如圖4所示。
圖4數據文件傳輸過程療效監控圖
為了保證數據交換的高效性,數據傳輸系統的性能也依賴于傳輸鏈路上的廣域網性能。目前,高能所已然和各合作組成員國之間構建了良好的廣域網鏈路,是國際網路出口帶寬最大的研究機構,如圖5所示:惠州、羊八井、東莞采用專線將數據傳輸到上海,帶寬為;高能所經過巴黎到歐洲共享帶寬為5Gbps,經過北大學院到日本的共享帶寬為。
圖5高能所廣域網鏈路拓撲圖
高能化學數據交換與共享的需求,促使著信息技術的發展,高能所于1986年建成中國第一條國際計算機通信線路,并向美國發出中國第一封Email;1988年成為中國在國際互聯網上的第一個節點;1993年建成中國第一根國際互聯網專線;1994年構建中國第一個WWW網站。近幾年來,高能所跟蹤網路技術和構架的發展,將最新的網路技術(比如SDN技術、網絡性能檢測技術以及40G/100G以太網技術等)同高能化學應用需求相結合,服務于高能化學數據共享,不斷提高數據交換和共享的效率。
03
數據密集型估算
高能化學實驗的估算與儲存需求量巨大,是典型的數據密集型估算,借助估算集群進行數據處理是高能化學估算的主要手段。估算集群是指把一組計算機通過高速網路聯接在一起,構成一個整體,提供用戶估算服務。一個估算集群一般由用戶交互結點、計算結點、存儲文件系統和資源管理作業調度服務構成。為了保證集群強壯運行,集群通常還配備有軟件安裝布署服務、運行監視服務和數據備份服務等。
高能化學估算是在大量化學例子中找尋很少量具有特定化學意義的例子,化學例子之間互相獨立,沒有相關性。通用的做法是將一批化學例子按專用的數據格式儲存于數據文件中;大量高能化學數據文件由集群文件系統統一管理,提供交互結點及估算結點的讀寫訪問。因為例子互相之間的無關性,多個不同文件可以分別被多臺估算節點同時處理,估算節點之間無需相互通信,因而不僅估算儲存設備的硬件性能以外,估算結點數目多少也會直接影響整體數據處理速率。
一個典型的高能化學估算集群構架如圖6所示。通過高速、可靠的網路將交互結點,估算結點,儲存設備和管理服務器聯接上去。根據功能不同,每位組件的軟件及配置各不相同,其功能也互相獨立,但整體上協同工作,提供多用戶批作業估算服務。
圖6典型的高能化學估算集群
用戶在交互結點上設置各自的估算環境,編撰調試程序,進行少量估算以確認程序的正確性,再將程序包裝為作業后遞交給估算集群。集群作業中除了包含了需運行的程序,還有運行該程序所必需的軟硬件資源需求說明。資源管理與作業調度服務是估算集群最核心的組件,它依據集群中所有估算結點的當前狀態和等待運行作業的實際需求,為作業分配一個最適宜的估算結點運行,此過程稱之為作業調度。一個估算集群同時為好多用戶提供估算服務,不同用戶作業運行需求各不相同,資源管理與作業調度服務根據一定的調度策略實現作業調度。估算集群通常還需配備軟件安裝升級,運行監控和數據備份等管理服務器。
有些高能化學集群用LSF、SGE等知名的商業軟件進行作業管理,除此之外一些開源的批作業調度軟件因為免費易用,便捷靈活等特征在高能化學領域中也得到廣泛應用,其中以Maui、、SLURM最為有名。
由最初的PBS批作業管理軟件發展而至,曾被大量用于在高能化學估算集群。用于估算資源和作業隊列管理;Maui實現作業調度,可以提供作業填土,用戶優先級等多種調度算法。但近些年來此款開源軟件缺乏更新,用戶社區不夠活躍,對于大規模集群的作業調度性能不高,正在逐步淡出使用。
是由日本佛羅里達學院開發的一款驍龍量作業調度軟件,它精減了復雜的調度算法,追求高效的調度性能。提出了分類廣告板()機制,用于高效地匹配資源懇求者(作業)與資源提供者(機器)之間需求。作業和估算節點遵守機制可以十分靈活地描述各自需求與擁有屬性,并由進行匹配以實現作業調度。因為這些高效的調度機制十分適宜高能化學估算作業簡單大量的特征,被越來越多的高能化學集群所采用。
SLURM是近些年來特別活躍的一款開源軟件,世界最快的小型計算機海珠II也用其作為資源管理與調度軟件。它的高度可伸縮及容錯性的特征很適用小型估算集群作業調度。SLURM以一種排他或非排他的方法為作業分配使用估算節點(取決于資源的需求);提供框架結構啟動、執行和監視作業;通過管理一個待處理工作的隊列實現作業與資源管理。與相比,SLURM除了可以支持小型估算集群的作業管理,還對MPI這些CPU密集型估算作業有著良好的支持,因而被更多科學研究估算領域采用。
04
網格估算
隨著高能化學實驗大數據時代的將至,原先單一的數據中心早已遠遠不能滿足高能化學實驗的數據處理和剖析的估算和儲存需求,高能化學對估算環境提出更高的要求:強悍的估算能力和海量的數據儲存能力。
為了適應這一須要,一種全新的估算技術——網格估算蘊育而生。互聯網為高能化學實驗實現了實驗數據的高速共享,WWW服務為高能化學學家實現了科研信息的充分共享,網格則是基于互聯網為高能化學實驗帶來了估算資源和儲存資源的全球共享。網格估算技術將分布在互聯網上的估算資源和儲存資源融合成一個整體,致使高能化學研究人員在世界上任何一個角落可以通過互聯網透明地使用分布在世界上各個地方的資源,所以我們可以將網格系統比喻成一個坐落全球范圍的超小型計算機,如圖7所示。
圖7網格示意圖
一個完整的網格系統包括安全服務、網格基礎軟件和網格應用軟件這三個部份組成。
安全服務如同網格的“衛士”,負責對步入網格系統的用戶進行身分確認和訪問權限確定。因而安全服務包括身分認證和權限管理兩部份,其中身分認證是通過電子網格證書來實現,用戶通過合法的證書簽發機構(Certi?cate,CA)申請和獲得證書。坐落高能所的就是由國際網格信任聯盟IGTF認證的中國最早的CA。網格用戶是通過虛擬組織(VO)進行分組,每位實驗通過虛擬組織管理系統(VOMS)對本實驗用戶進行管理。
網格基礎軟件也叫網格中間件(),是網格的核心部件,它建造了網格的“基礎設施”,正是它實現了估算和儲存資源的互聯,并為網格用戶提供了使用網格的基本服務,包括資源信息管理、作業管理、數據管理、監控統計等。每位加入網格系統的資源都須要安裝網格中間件以保證資源被列入統一管理和調度。得到授權的網格用戶通過資源信息管理服務可以查詢到可用的資源,通過作業管理服務可以進行作業的遞交、查詢和拿回結果,通過數據管理服務可以進行數據儲存、查詢和獲取,通過監控統計服務獲取資源的狀態以及使用信息。也就是說,用戶可以通過統一的插口和服務,無縫地使用到網格的估算和儲存資源。現今常用的網格中間件有、gLite、OSG、GOS等幾種。
網格應用軟件則是基于網格中間件面向特定應用和便捷化學用戶進行開發的軟件,典型的包括大規模作業遞交、實驗數據集管理、實驗作業監控和統計,它為最終的化學用戶提供直接和專門的“服務設施”。整個網格系統的層次結構如圖8所示。
圖8網格系統示意圖
國際上應用最廣的高能化學網格平臺有歐共體的EGEE(GridsforE-)、美國的OSG(OpenGrid)等。中國國家網格()是中國為科學實驗用戶提供的小型網格估算和應用平臺。亞洲粒子化學中心(CERN)是最大也是最為成功的網格用戶,基于小型強子對撞機LHC實驗建設的WLCG(LHCGrid)網格應用系統,包含了42個國家的170個數據中心的資源,每年處理和分享30PB的數據,使用了包括EGEE和OSG在內的多個網格平臺,坐落高能所的上海站點也是其中的一部份。WLCG為重大數學成果——Higgs粒子的最終發覺做出了巨大的貢獻。
05
云估算
云估算是一種新興的共享基礎構架的方式,近幾年在產業界和學術界造成了廣泛的關注。云估算是一種以服務為特點的估算模式,它通過對所有資源進行整合、抽象后以新的業務模式提供高性能、低成本的持續估算、存儲及各類軟件服務,支撐各種信息化應用。云估算具有資源池化、彈性可伸縮、按需自助服務、服務可計量等特點,同時具有靈活性、可靠性、可擴充性、數據集中儲存、部署周期短、成本低等優勢。
高能化學仍然是估算技術強有力的推進者,在國際互聯網、WWW技術、網格估算的發展中都做出了積極的貢獻。在云估算時代,高能化學一直有著強烈的需求。亞洲核子中心CERN啟動了虛擬機項目,并在此基礎上發起LHC云估算項目,為小型強子對撞機LHC提供虛擬化的應用環境。CERN還啟動了項目,支持批處理估算服務,以提升資源借助率并簡化管理。目前CERN使用管理了12萬顆CPU核和1.5萬個虛擬機。日本DESY、美國等大部份國際高能化學實驗室都在使用云估算技術。下邊簡單介紹兩個典型的高能化學云估算項目:和虛擬集群。
年,法國核子中心CERN啟動了項目,用于解決小型強子對撞機(LHC)化學估算中的虛擬機管理問題。的基本思想是將操作系統與應用程序打包,弄成輕量級的虛擬機映像文件,因而實現在全球網格系統上的調度或是用戶桌面級的數據剖析。并不是將所有的應用程序與依賴庫文件都打包在一起(一般是10GB量級),而是初始放入大約100MB左右的“瘦應用”,與應用相關的程序以及數據通過CVMFS(文件系統)從遠程軟件庫房按需下載、更新和緩存,一般情況下一個應用保持在1GB以下。圖9是的示意圖。
圖9示意圖
除了解決了虛擬機映像文件規格與更新的問題,但是最大程度的保持了用戶的使用習慣。支持、、Xen、KVM等大部份主流虛擬機,可以運行在、Linux或則MacOS等操作系統上。
虛擬集群隨著估算系統規模的不斷擴大,操作系統與應用軟件的不斷升級,CPU等硬件性能的持續提高,傳統的集群或則網格估算模式面臨著資源借助率不高、應用遷移復雜、多應用支持困難等問題。因此,高能所啟動了虛擬集群項目。虛擬集群的系統構架如圖10所示。
圖10虛擬集群示意圖
底層是基于的私有云。是一個開源的云估算管理平臺,它能管理一組化學機節點上運行的虛擬機構成的資源池。這種虛擬機可以從不同的鏡像啟動。不同的鏡像里有不同的操作系統或應用軟件配置。用戶可以按照須要選擇合適的鏡像來啟動虛擬機。
中間層是虛擬資源調度器,它依據任務隊列情況和調度策略物理虛擬實驗室免費,彈性啟動或則中止虛擬的估算節點(上的虛擬機)。當有新作業時,選擇合適的鏡像啟動虛擬機;當作業完成后,關掉虛擬機,釋放資源。
最下層是虛擬集群隊列,它將底層的云估算封裝成用戶熟悉的批處理隊列界面,致使整個系統對用戶以及基于WLCG的網格應用都是透明的。在用戶看來,一直是傳統集群的使用方式,何必改變原先的使用方法。系統也可以支持WLCG網格估算等傳統的高能化學估算模式。
06
結束語
高能化學實驗的離線估算效率直接決定了高能化學實驗化學結果的產出速率和科學發覺的進程,而先進的計算機技術無疑是離線估算的“推進器”。本文介紹了高能化學實驗從數據采集、存儲、傳輸、處理和剖析、最終獲得化學結果的整個過程,以及前沿計算機技術在高能化學實驗數據的生命周期中所起的重要作用。高能化學實驗的離線估算具有數據量和吞吐量大的突出特征,先進的儲存、網絡和集群技術早已成為離線估算不可或缺的基本保障。
我們可以看見,PB級的并行文件系統技術早已成為海量高能化學實驗數據儲存和獲取的必要手段,高速的千兆網路更是在聯接估算資源和數據資源、實現數據在全球高能化學實驗參與單位中共享的不可缺乏的基礎設施,集群技術將松散的估算資源集成獲得的強悍的估算能力是高能化學實驗數據處理與剖析的必要保障。
另一方面,高能化學實驗也不斷推進著估算技術的創新和發展。二六年多前,高能化學實驗的需求造就了WWW服務的誕生。明天隨著高能化學實驗的規模不斷擴大物理虛擬實驗室免費,數據量飛速膨脹,對估算技術也提出了新的、更高的需求。現代的高能化學實驗數據早已邁入EB量級的時代,儲存和網路技術也因而須要向更快和更靈活的方向發展,出現了EB級儲存技術、分布式儲存、百萬兆網路通訊、網絡虛擬化技術SDN等。
同時,單一的集群技術早已不能滿足所有的估算需求,網格估算是又一個繼WWW服務以后的技術改革,它促使布滿于全球的高能化學實驗資源整合成一個“超級計算機”來共同完成同一個數據處理與剖析任務成為可能。網格估算技術的出現和WLCG的建成和廣泛使用直接促使了Higgs粒子的發覺,在高能化學史上記下了重要的一筆。
近些年來,繼網格估算以后,虛擬化技術和云估算技術的快速發展,正在為高能化學實驗的科學估算輸送更加大勁的估算能力。
因而,綜觀高能化學實驗的發展歷史,可以看出未來的高能化學實驗仍需與先進估算技術緊密結合、互相推動,最終能夠保證高能化學領域的長遠發展。
來源:《現代化學知識》第28卷第3期,原文題為“高能化學實驗的離線估算”