聯系我們contact

電話(huà):027-59760188-801

地址:武漢市東湖高(gāo)新開發區(qū)光(guāng)谷大(dà)道120号現代森林(lín)小鎮A座609室

分(fēn)析儀器原始數據格式的(de)通(tōng)用(yòng)标準AnIML

發布時(shí)間:2018-03-18 浏覽次數:367次

所有實驗室面對(duì)一個(gè)共同問題是實驗數據的(de)處理(lǐ)和(hé)交換,這(zhè)裏尤其以分(fēn)析實驗室最爲典型。我們走訪諸多(duō)分(fēn)析實驗室時(shí),大(dà)家談到最多(duō)的(de)就是分(fēn)析儀器的(de)原始數據,包括其保存,處理(lǐ),再分(fēn)析等問題。大(dà)家都有一個(gè)烏托邦式的(de)夢想,那就是可(kě)以用(yòng)一種軟件打開多(duō)個(gè)不同廠家,不同類型的(de)分(fēn)析數據。夢想歸夢想,現實仍然是現實。儀器供應商們提供儀器的(de)同時(shí)都會采用(yòng)自己的(de)專有格式的(de)數據,這(zhè)導緻了(le)數據處理(lǐ),協作,儀器集成和(hé)存檔遇到很多(duō)問題。在處理(lǐ)這(zhè)些原始數據時(shí)除了(le)廠家配套的(de)軟件,很少有可(kě)選的(de)餘地。

從2003年開始, ASTM E13.15小組委員(yuán)會開始籌劃開發一套分(fēn)析數據的(de)通(tōng)用(yòng)标準,力求适用(yòng)于所有分(fēn)析儀器技術,并将其命名爲AnIML。爲了(le)平衡各方利益,該小組聚集了(le)來(lái)自儀器廠商,最終用(yòng)戶,政府機構和(hé)學術界的(de)人(rén)士,共同商討(tǎo)以确保格式完整,适用(yòng)性強。

AnIML并不是業界第一次嘗試将分(fēn)析數據标準化(huà)。之前已經設計過多(duō)種标準,如ANDI(也(yě)叫NetCDF,适用(yòng)于GC,LC,MS),JCAMP-DX(IR,FTIR,NMR,UV/Vis),SpectroML(分(fēn)子光(guāng)譜數據)以及mzML(質譜),以及一些儀器公司倡導的(de)标準,如Thermo 所提出的(de)GAML。雖說這(zhè)些數據格式在分(fēn)析儀器行業取得(de)了(le)較大(dà)的(de)支持力度,但它們大(dà)都隻針對(duì)特定的(de)分(fēn)析技術,例如JCAMP-DX主要針對(duì)的(de)光(guāng)譜技術,而AnIML期望建立的(de)是一種适用(yòng)于所有分(fēn)析技術的(de)數據格式。借助清晰完整的(de)擴展方式,即便将來(lái)出現了(le)新的(de)分(fēn)析技術,也(yě)不用(yòng)改變現有的(de)軟件,從而簡化(huà)數據管理(lǐ)的(de)工作。由此,XML這(zhè)門強大(dà)而影(yǐng)響深遠(yuǎn)的(de)語言終于可(kě)以将其影(yǐng)響力擴展到分(fēn)析實驗室。

AnIML是基于W3C XML标準的(de)技術。XML獨立于平台,易于創建,使用(yòng)和(hé)維護。這(zhè)降低了(le)使用(yòng)門檻,幾乎所有的(de)主流軟件開發商都支持XML,并且存在大(dà)量以XML格式爲基礎的(de)工具。 由于XML是基于文本的(de)。因此可(kě)以用(yòng)最簡單的(de)文本編輯器編輯AnIML文件 – 而不需要特定的(de)軟件。盡管這(zhè)樣不一定方便,但保留這(zhè)一特性是用(yòng)于長(cháng)期數據保存方案的(de)關鍵:即使丢失了(le)之前的(de)軟件,我們仍舊(jiù)可(kě)以獲取我們需要的(de)數據。

實現AnIML的(de)靈活性和(hé)通(tōng)用(yòng)性的(de)方法并不複雜(zá),AnIML數據标準包含兩個(gè)部分(fēn),一個(gè)是通(tōng)用(yòng)的(de)數據容器,稱爲AnIML核心(AnIML core),可(kě)以存儲任何科學數據。構成AnIML核心的(de)包括樣品數據集(SampleSet)、實驗步驟數據集(ExperimentStepSet)、審計跟蹤記錄數據集(AuditTrailEntrySet)、簽名記錄集(SignatureSet)。

 

在AnIML的(de)核心之上,是“技術定義”(Technique Definition)部分(fēn),所謂的(de)“技術定義”就是說明(míng)針對(duì)某種分(fēn)析技術如何去使用(yòng)數據容器。技術定義(Technique Definition)可(kě)以被看作是記錄某種分(fēn)析實驗所需要的(de)數據字段的(de)目錄。技術定義文件屬于常規的(de)XML文件中的(de)DTD文件,可(kě)以随時(shí)重新創建。通(tōng)過 DTD,每一個(gè) XML 文件均可(kě)攜帶一個(gè)有關其自身格式的(de)描述。雖說AnIML是普适性的(de),但對(duì)于一些具體的(de)很流行的(de)分(fēn)析技術,例如液相色譜,紫外光(guāng)譜,除了(le)實驗的(de)一些公共特征,還(hái)是有其自身獨有的(de)一些屬性的(de)。通(tōng)過 DTD,大(dà)家可(kě)一緻地使用(yòng)某個(gè)标準的(de) DTD(HPLC,IR) 來(lái)交換數據。而應用(yòng)程序也(yě)可(kě)使用(yòng)某個(gè)标準的(de) DTD 來(lái)驗證從外部接收到的(de)數據。同時(shí)還(hái)可(kě)以使用(yòng) DTD 來(lái)驗證自身的(de)數據。

作爲一種通(tōng)用(yòng)型的(de)數據表示方法,AnIML适合于包括光(guāng)譜,色譜,圖像,生物(wù)分(fēn)析等各種數據的(de)表示。除了(le)經常使用(yòng)的(de)分(fēn)析儀器數據,AnIML也(yě)可(kě)用(yòng)于新興的(de)數據格式或一次性的(de)探索性實驗,例如微流體芯片或特殊的(de)傳感器。随著(zhe)技術的(de)發展,新的(de)分(fēn)析技術和(hé)其相應的(de)技術說明(míng)都将取得(de)進步。這(zhè)種通(tōng)用(yòng)性的(de)方法允許系統繼續使用(yòng)這(zhè)些早期的(de)AnIML文件,而無需對(duì)軟件進行修改或升級。

 專有格式

 通(tōng)用(yòng)格式/标準格式

 二進制

 基于ASCII碼 (例如XML)

 結構緊湊

 冗長(cháng)

 快(kuài)速讀/寫

 讀寫慢(màn)

 用(yòng)戶數據采集和(hé)處理(lǐ)

 主要用(yòng)于數據共享和(hé)長(cháng)期保存

如果我們有心好好看看AnIML的(de)技術文檔,你會發現AnIML就是純粹的(de)XML技術。這(zhè)将大(dà)大(dà)降低我們利用(yòng)這(zhè)一新技術的(de)難度。能夠讀取和(hé)解析XML文檔的(de)軟件不勝枚舉。爲了(le)掃盲,我這(zhè)裏再啰嗦幾句。XML是完全基于普通(tōng)文本的(de)。即便存儲二進制表示的(de)圖片,也(yě)會先将二進制轉換爲字符串再放入XML文檔中。我們可(kě)以用(yòng)最簡單的(de)閱讀工具——記事本查看XML文檔。想想就知道這(zhè)是多(duō)麽美(měi)好的(de)一件事情,數據長(cháng)期存儲的(de)擔心可(kě)以落地了(le),找不到原始工作站軟件的(de)人(rén)也(yě)可(kě)以出口氣了(le)。當然,那些認爲可(kě)以更方便修改數據的(de)人(rén)美(měi)夢做(zuò)得(de)就有點早了(le)。

1   應用(yòng)AnIML解決現實問題

想想,如果能将我們所有的(de)分(fēn)析數據都轉變成同樣的(de)格式,許多(duō)實驗室中的(de)共性問題就都能得(de)到解決。

LIMS和(hé)ELN集成采用(yòng)AnIML數據格式可(kě)以使得(de)儀器中的(de)數據更容易方便地傳輸到其他(tā)的(de)一些數據系統中,例如LIMS(實驗室信息管理(lǐ)系統)和(hé)ELN(電子實驗記錄本系統)。大(dà)家知道,不管是LIMS還(hái)是ELN與儀器的(de)集成都是這(zhè)類項目實施的(de)一個(gè)難點,既耗錢又費力,最終可(kě)能還(hái)不討(tǎo)好。儀器種類一多(duō),因爲每種儀器的(de)數據格式都不一樣,工作量就會成倍增加。有了(le)AnIML,就不再需要爲每種儀器做(zuò)獨立的(de)接口。通(tōng)過數據标準化(huà),從一個(gè)接口就可(kě)以獲取所有儀器的(de)數據,既減少了(le)接口的(de)數量,也(yě)降低了(le)集成的(de)成本。

協作:在許多(duō)行業,企業經常需要與内部或外部的(de)人(rén)員(yuán)進行合作,特别是在制藥行業中,外包業務的(de)發展更是如火如荼。由于雙方使用(yòng)的(de)儀器和(hé)軟件有差别,數據産生方往往需要将這(zhè)些儀器産生的(de)數據進行處理(lǐ)後生成各種電子表格或Pdf文件後,再傳遞給合作方。傳遞的(de)數據主要是處理(lǐ)後的(de)結果數據,其中丢失很多(duō)重要的(de)原始數據信息。采用(yòng)AnIML标準後的(de)分(fēn)析儀器原始數據文件可(kě)以更容易地交換數據。不同于傳統的(de)Excel電子表格和(hé)PDF報告,AnIML使我們能夠傳輸完整的(de)分(fēn)析數據,合作方可(kě)以看到完整的(de)原始數據。這(zhè)既可(kě)以提高(gāo)數據質量,合作方也(yě)可(kě)對(duì)這(zhè)些數據進行再分(fēn)析,提高(gāo)數據的(de)利用(yòng)率。

長(cháng)期數據保存,在受監管的(de)行業裏(例如制藥行業),分(fēn)析數據的(de)保存一直是一個(gè)難以解決的(de)問題。原因主要在于數據所需要保存的(de)時(shí)間較長(cháng),甚至達數十年。數十年的(de)時(shí)間對(duì)于IT技術來(lái)講,可(kě)能會發生天翻地覆的(de)變化(huà)。同樣對(duì)于儀器配套的(de)軟件來(lái)說,其也(yě)會經曆無數個(gè)版本的(de)升級。更爲關鍵的(de)是,即便解決軟件的(de)問題,其讀取數據的(de)基礎環境也(yě)會發生變化(huà),例如該軟件所适合的(de)操作系統。要在幾十年裏爲某一類原始數據保存一個(gè)讀取的(de)環境似乎不太合乎實際,尤其是在儀器種類和(hé)數據種類比較多(duō)的(de)情況下(xià)。将這(zhè)些數據轉換爲AnIML可(kě)能是一個(gè)好的(de)解決辦法。此舉能大(dà)爲減少所需要的(de)配套軟件工具,也(yě)不會受到基礎環境的(de)制約,很自然會減少一個(gè)信息系統的(de)運行成本。

數據分(fēn)析和(hé)報告通(tōng)常情況下(xià),采集和(hé)處理(lǐ)分(fēn)析數據僅僅是第一步。我們看到各種數據驅動的(de)工作流應用(yòng)在不斷增加。這(zhè)些數據流方法在數據源頭上在不斷下(xià)探,逐步深入到原始數據,并進一步對(duì)這(zhè)些數據集應用(yòng)可(kě)視化(huà),實驗設計,多(duō)變量分(fēn)析等統計學工具進行數據分(fēn)析。通(tōng)過AnIML歸一化(huà)的(de)原始數據将會使得(de)爲這(zhè)些流程提供數據變得(de)更加簡單。

但這(zhè)世界上沒有免費的(de)午餐,我們需要有能夠将原來(lái)儀器格式的(de)數據轉換爲AnIML格式的(de)工具,還(hái)得(de)有能夠查看AnIML格式數據的(de)工具。

爲了(le)建立AnIML,大(dà)家花了(le)很長(cháng)的(de)時(shí)間,這(zhè)裏面不單是技術性的(de)問題,還(hái)與一些非技術性的(de)因素。分(fēn)析實驗室雖小,利益相關者卻衆多(duō)。到目前爲止,AnIML的(de)技術性的(de)工作早已完成,大(dà)家可(kě)以放心使用(yòng)。經過ASTM表決之後,AnIML将成爲一個(gè)開放的(de)公共的(de)标準。與此同時(shí),真正施行這(zhè)個(gè)标準所需要的(de)工具的(de)開發早已走在了(le)前面。對(duì)于終端用(yòng)戶來(lái)說,桌面版的(de)AnIML數據查看工具,Web和(hé)移動平台,集成工具,數據轉換器都已經有現成的(de)了(le)。對(duì)于供應商來(lái)說,在他(tā)們現有的(de)儀器軟件中嵌入AnIML功能也(yě)并非難事。