聯系我們contact

電話(huà):027-59760188-801

地址:武漢市東湖高(gāo)新開發區(qū)光(guāng)谷大(dà)道120号現代森林(lín)小鎮A座609室

OpenLAB ECM數據上傳風險分(fēn)析及控制措施

發布時(shí)間:2018-08-30 浏覽次數:481次

作爲兩款最主流的(de)科學數據管理(lǐ)系統之一,ECM在制藥行業廣泛使用(yòng)。其主要功能可(kě)以歸納爲三個(gè)方面:

1)數據上傳;

2)數據的(de)流程化(huà)管理(lǐ);

3)提升數據索引指數與可(kě)檢索性。

另外還(hái)有一些輔助性的(de)功能模塊,比如業務流程管理(lǐ)模塊(BPM)、智能報告模塊(Intelligent Reporter)、或者ECM與LIMS以及ELN的(de)整合使用(yòng)。

總體來(lái)說,ECM是一款不錯的(de)SDMS,然而在國内制藥企業中的(de)使用(yòng)狀況并不理(lǐ)想。多(duō)數企業并沒有使用(yòng)到數據上傳之外的(de)功能,即便是單純的(de)數據上傳也(yě)沒能用(yòng)好。本文主要探討(tǎo)ECM數據上傳方面的(de)風險點及其控制措施。

ECM數據上傳的(de)風險點

就ECM的(de)設計初衷來(lái)說,數據上傳隻是後續數據管理(lǐ)環節(數據的(de)組織、索引、存儲、存檔、搜索、共享等)的(de)基礎,而不是目的(de)。爲确保後續數據管理(lǐ)環節的(de)高(gāo)效,ECM設計了(le)較爲複雜(zá)的(de)上傳邏輯,加上ECM自身的(de)一些小缺點,對(duì)ECM的(de)部署、配置、維護,以及本地原始數據管理(lǐ)均有較高(gāo)的(de)要求。尤其是在國内藥企的(de)使用(yòng)環境中,具有衆多(duō)的(de)風險點,比如:

1) 未進行詳細的(de)上傳數據調查,建立上傳任務時(shí)極易遺漏一些數據路徑。

2) 上傳方式配置不合理(lǐ),導緻數據上傳遺漏、上傳失敗或大(dà)量冗餘數據。

3) 上傳層級配置不合理(lǐ),比如上傳層級未完全覆蓋需上傳的(de)數據。

4) 不能有效避免實驗人(rén)員(yuán)将文件錯誤地存儲到指定層級以外的(de)層級。

5) 文件或文件夾命名包含中文或特殊字符。

6) 路徑映射錯誤。

7)上傳周期不合理(lǐ),導緻計劃任務主機或服務器的(de)”堵車”,進而導緻數據不能及時(shí)上傳或永久不能上傳。

8)不當人(rén)爲幹預,比如先将原始數據拷貝到中轉路徑,ECM再從中轉路徑抓取,極易導緻文件不能及時(shí)上傳、漏傳或覆蓋等問題。

9)郵件設置不合理(lǐ),導緻郵件發送失敗或影(yǐng)響ECM系統本身的(de)穩定性。

10) 對(duì)計劃任務主機或服務器的(de)錯誤維護,導緻數據不能正常上傳。

11)對(duì)計劃任務的(de)錯誤維護導緻文件不能正常上傳,比如對(duì)計劃任務的(de)錯誤修改、停用(yòng)或删除。

12)源計算(suàn)機的(de)共享故障或網絡故障,或者對(duì)源計算(suàn)機進行的(de)錯誤維護,導緻數據不能及時(shí)上傳。

13)數據上傳依賴高(gāo)頻(pín)率的(de)人(rén)工複核,增加管理(lǐ)成本,在管理(lǐ)員(yuán)未及時(shí)查看到或排除警報信息時(shí),一些非持續性警報信息會被後續信息覆蓋,未及時(shí)排除的(de)文件上傳異常後續将很難被發現。

14)未建立合理(lǐ)的(de)數據管理(lǐ)流程,比如未建立本地數據處理(lǐ)、數據歸檔以及ECM自身備份的(de)機制。

OpenLAB ECM數據上傳風險分(fēn)析及控制措施

這(zhè)些問題的(de)根源可(kě)以分(fēn)爲兩個(gè)方面:

1)ECM本身的(de)特點;

2)系統部署、配置和(hé)使用(yòng)問題。

ECM數據上傳的(de)風險控制措施

01 做(zuò)好上傳數據調查

用(yòng)戶往往清楚常用(yòng)數據的(de)存放位置(如方法文件、數據文件等),但不太清楚不直接接觸數據的(de)存放位置(如審計跟蹤)。

比如Cary 100紫外-可(kě)見光(guāng)分(fēn)光(guāng)光(guāng)度計,廠家一般會告訴用(yòng)戶數據都存儲在SQL數據庫中,所以一些用(yòng)戶隻對(duì)SQL數據庫進行了(le)上傳,而忽略了(le)存儲在SQL數據庫以外的(de)系統審計跟蹤數據。甚至有些儀器特殊到原始數據存放在單獨文件中,元數據(含數據的(de)修改日志等)存儲在數據庫中,而系統的(de)審計跟蹤卻存儲在另外的(de)文件中。還(hái)有一些軟件的(de)審計跟蹤幹脆存儲在操作系統的(de)日志中。這(zhè)些情況在分(fēn)析儀器中普遍存在,很容易被疏漏,一旦源計算(suàn)機出現軟硬件故障或升級等,就會發現數據丢失。

因此,需要對(duì)每台儀器進行上傳數據調查,再根據調查結果配置計劃上傳任務。

02 采用(yòng)合理(lǐ)的(de)上傳模式

一般建議(yì)使用(yòng)第3種打包外加同級單個(gè)文件的(de)上傳方式(Create and upload SSZIP files for each folder and subfolder structure, include files at selected level),在4種打包方式中這(zhè)是最合适的(de),另外3種打包方式要麽可(kě)能造成數據遺漏、要麽可(kě)能導緻數據存儲混亂、或者導緻更多(duō)的(de)數據冗餘。使用(yòng)第3種打包方式時(shí)也(yě)要注意避免大(dà)量文件打到同一個(gè)壓縮包的(de)情況。打包層級過高(gāo)(比如爲了(le)省事将根目錄打包),在有任何子文件變動時(shí),整個(gè)文件夾将重新打包上傳,導緻大(dà)量數據冗餘。當其中的(de)子文件或子文件夾有問題時(shí),還(hái)将導緻整個(gè)文件夾不能上傳,同時(shí)将可(kě)能導緻大(dà)量的(de)臨時(shí)文件被上傳至服務器緩存文件夾中,最終快(kuài)速撐爆服務器

下(xià)圖是選擇第3種打包方式并從第4層開始打包的(de)上傳對(duì)應情況:
OpenLAB ECM數據上傳風險分(fēn)析及控制措施

03 設置合理(lǐ)的(de)上傳層級

ECM的(de)計劃上傳任務如設置爲上傳指定的(de)層級,則隻上傳該層級的(de)文件,其它層級的(de)文件都不能上傳。爲避免後續使用(yòng)過程中源路徑下(xià)産生更低層級的(de)文件不能上傳的(de)情況,應統一設置爲上傳指定層級及以下(xià)層級的(de)文件,而不是隻上傳指定層級的(de)文件。

ECM提供了(le)建立ECM存儲和(hé)本地存儲的(de)直觀關聯的(de)方式——Map模式,使用(yòng)Map模式時(shí)要考慮Map層級與上傳層級之間的(de)關系。一個(gè)容易犯的(de)錯誤是,文件上傳開始層級設定值高(gāo)于本地與ECM中Folder對(duì)應的(de)文件夾,導緻本地文件無法歸屬到具體的(de)Folder(ECM),從而無法上傳。

圖一個(gè)映射層級錯誤的(de)示例,按照(zhào)上傳層級配置應該上傳的(de)第3級文件(File 4),由于Map錯誤将不會上傳。

OpenLAB ECM數據上傳風險分(fēn)析及控制措施

04 規範本地數據的(de)存放行爲

任何存放在比指定層級更高(gāo)層級的(de)文件均不能上傳。因此有必要建立可(kě)執行的(de)原始數據存儲規範及檢查機制,避免用(yòng)戶将數據存放在非指定路徑導緻不能被上傳。

建立原始數據存儲規範時(shí)需要注意的(de)是,文件在ECM中的(de)存儲結構爲四級結構,本地層級不足四級的(de),需要在ECM中補足四級,而本地目錄大(dà)于四級的(de),ECM中也(yě)僅能存儲四級目錄。無論是ECM中文件夾層級的(de)建立,或者本地路徑下(xià)文件存放層級的(de)規範,都要充分(fēn)考慮本地文件存放路徑與ECM中目錄結構的(de)對(duì)應關系,以便用(yòng)戶後期能直觀地使用(yòng)文件浏覽的(de)方式檢索、查看或下(xià)載目标文件。

05 規劃好數據在ECM中的(de)存儲結構

文件在ECM中的(de)存儲層級還(hái)要考慮每一級文件夾下(xià)的(de)子對(duì)象(指文件夾和(hé)文件)的(de)個(gè)數,子對(duì)象個(gè)數太多(duō)将會嚴重影(yǐng)響系統的(de)響應速度,降低文件浏覽、下(xià)載、簽出、簽入、查看的(de)速度。

在ECM中建立存儲路徑時(shí),除了(le)考慮與數據源對(duì)應,還(hái)應考慮未來(lái)的(de)變更及擴展。比如很多(duō)用(yòng)戶喜歡用(yòng)儀器編号命名Location,但如果一旦儀器配套電腦(nǎo)更換,新電腦(nǎo)的(de)數據還(hái)是上傳到老路徑中?這(zhè)樣極容易造成數據錯亂和(hé)混淆,如果在Location的(de)命名中同時(shí)加上儀器編号和(hé)電腦(nǎo)名稱則可(kě)以避免這(zhè)個(gè)問題。

06 設置合理(lǐ)的(de)上傳頻(pín)率

上傳周期的(de)确定除了(le)依據”系統影(yǐng)響性”評估結果外,還(hái)應将待上傳數據總量、數據增長(cháng)速度、計劃任務主機的(de)總體負載等考慮在内。密集的(de)上傳周期不但不能起到及時(shí)上傳的(de)效果,還(hái)将導緻上傳任務的(de)”堵車”,導緻大(dà)量的(de)臨時(shí)中轉文件産生,增加管理(lǐ)工作量及出錯風險,反而降低文件上傳的(de)及時(shí)性。在ECM的(de)驗證過程中,我們多(duō)次發現上傳周期過短導緻數據上傳延後的(de)情況,一些特殊情況下(xià)還(hái)會導緻文件永久不上傳。

07 避免使用(yòng)”中繼文件夾”作爲上傳源路徑

應該盡量減少或避免人(rén)爲幹預,實現數據上傳的(de)全自動化(huà)。對(duì)于部分(fēn)不具備自動導出功能的(de)數據庫類型的(de)數據源,應該考慮使用(yòng)輔助技術手段實現數據庫的(de)自動備份。還(hái)有一些用(yòng)戶,因爲擔心上傳儀器正在使用(yòng)的(de)數據路徑會導緻儀器運行異常,竟使用(yòng)了(le)一種極不可(kě)取的(de)方式:手動拷貝數據到中轉文件夾,再使用(yòng)ECM上傳中轉文件夾中的(de)數據。實際上,如無配置錯誤,直接上傳儀器正在使用(yòng)的(de)數據路徑沒有任何問題

08 定期清除本地數據

很多(duō)企業會選擇将本地原始數據繼續留存在源路徑下(xià),這(zhè)并不是一個(gè)好的(de)做(zuò)法。随著(zhe)時(shí)間的(de)推移,源路徑下(xià)的(de)文件越來(lái)越多(duō),将降低計算(suàn)機系統及儀器軟件的(de)運行速度,在制藥企業中,分(fēn)析儀器配套電腦(nǎo)開機時(shí)間長(cháng)達1小時(shí)以上的(de)并不罕見。

随著(zhe)本地原始數據的(de)大(dà)量累積,ECM計劃上傳任務的(de)單次運行時(shí)間也(yě)将線性延長(cháng)。比如一台累積了(le)2年數據的(de)文件型液相色譜儀,其計劃任務單次運行的(de)掃描時(shí)間可(kě)能達到1個(gè)小時(shí)以上。

文件長(cháng)期留存于本地還(hái)有被誤操作修改的(de)風險,導緻ECM上的(de)文件與本地不符或者ECM上産生沒有意義的(de)新版本文件,有些時(shí)候這(zhè)些誤操作帶來(lái)的(de)新版本甚至會帶來(lái)誤導或者額外的(de)解釋工作。

當管理(lǐ)人(rén)員(yuán)不得(de)不清除本地數據時(shí)(比如磁盤空間占滿),又将面臨一個(gè)頭痛的(de)問題:如果依據數據産生的(de)時(shí)間間隔去删除往往需要逐一操作,工作量大(dà)而且可(kě)能帶來(lái)誤操作;如果全部删除又将影(yǐng)響研究人(rén)員(yuán)對(duì)近期數據的(de)正常使用(yòng)。

應根據數據使用(yòng)頻(pín)率調查結果爲不同的(de)數據源設定數據删除計劃。通(tōng)過ECM的(de)自動删除功能,保持源計算(suàn)機及ECM的(de)性能,避免可(kě)能的(de)合規問題,同時(shí)不影(yǐng)響到研究人(rén)員(yuán)對(duì)數據的(de)正常使用(yòng)

09 建立數據自動歸檔流程

ECM具有自動歸檔數據的(de)功能,可(kě)以在設定的(de)前提條件下(xià)(比如文件上傳後的(de)特定時(shí)間間隔之後)進行自動歸檔,将ECM數據存儲服務器中的(de)數據文件轉移到歸檔存儲服務器中。這(zhè)将有助于确保數據存儲服務器的(de)磁盤空間,避免因磁盤空間占滿等異常情況導緻的(de)應急處理(lǐ)事件,降低管理(lǐ)成本并提高(gāo)系統的(de)業務可(kě)持續性

10 做(zuò)好ECM本身的(de)備份

一些企業将原始數據存放在本地計算(suàn)機,将ECM上的(de)數據視爲備份,沒有再對(duì)ECM數據庫及ECM中存放的(de)數據文件進行備份。就如本文在本地原始數據如何處理(lǐ)小節進行的(de)探討(tǎo),這(zhè)種模式對(duì)于維持本地計算(suàn)機及ECM的(de)性能,以及避免潛在的(de)合規問題均有不利影(yǐng)響。除了(le)原始數據本身以外,ECM針對(duì)各文件建立的(de)”檔案”也(yě)同樣重要。不對(duì)ECM本身進行備份将給業務持續性帶來(lái)負面影(yǐng)響,如遇到ECM服務器崩潰,将可(kě)能直接導緻一場(chǎng)數據完整性災難

總結

本文介紹的(de)控制措施,可(kě)以降低ECM數據上傳的(de)風險。但對(duì)于國内多(duō)數制藥企業,要用(yòng)好ECM,确保使用(yòng)ECM進行的(de)數據上傳可(kě)靠,還(hái)有一些需要克服的(de)困難,比如:

1) 如何避免文件或文件夾名稱中包含中文字符或多(duō)字節特殊字符。

2) 如何避免數據不被錯誤存儲到指定路徑以外的(de)路徑, ECM不會針對(duì)錯誤存放的(de)數據給出任何提示信息。

3) 除上述數據錯誤存放外,ECM本身對(duì)其它一些數據不上傳的(de)特殊情況也(yě)無法給出提示。

4) 一些非持續性的(de)警報信息會被後續信息覆蓋而難以被系統管理(lǐ)員(yuán)發現。

5) ECM的(de)郵件提醒常常漏發或延遲發送。

我們在多(duō)個(gè)企業發現,這(zhè)些因素導緻的(de)文件上傳問題普遍存在,除本文的(de)風險控制措施外,用(yòng)戶還(hái)需要建立有效措施發現、解決這(zhè)些問題,降低數據可(kě)靠性風險。

此文僅适用(yòng)于老版本的(de)ECM,Agilent已推出新的(de)ECM XT,解決了(le)不支持中文字符文件或特殊字符的(de)問題,期待後續版本在上述問題上也(yě)有逐步的(de)改善。