狠狠撸

MIMIC-IV 重症醫學資料庫
報告人：賴俊鳴

資通安全概論 1-2
About
? 國立台灣大學資訊工程系 (2011)
? 加州大學戴維斯分校電腦科學碩博士
資訊安全學群 (2017, 2019)
? 東海大學資訊工程系助理教授
? 研究興趣：應用人工智慧、資訊安全、
醫療資料探勘、社群媒體探勘
? AWS Educate Ambassador (2020, 2021)
? AWS Academy Certified Instructor
<2020~>
? Azure, AWS <CLF, SAA, AI>
? 109 110 教育部新型態資安教育 AIS3
評審委員
? 勞動部產業新尖兵中部講師
賴俊鳴
博士
<cmlai@thu.edu.tw>

資通安全概論 1-3
臨床研究的困難
? 研究的Cohort 收案的困難
? IRB的審核
? 資料不夠有代表性
? 外院資料的驗證

前言 (2021 MIMIC IV V1.0)
藉由收集病患的醫療資訊並透過資料探勘的方式，可以幫助改善醫療服務，但是醫療資訊的分
享必須在一定的保護下進行來保障病患的隱私權益，而MIMIC重症資料庫提供了在Beth Israel
Deaconess Medical Center (BIDMC)約40000位重症病患之重症病房資料，並根據Health
Insurance Portability and Accountability Act (HIPAA) 的機密原則，將MIMIC所收集的資料
去識別化，MIMIC資料庫設計用於需要大量資料的臨床資料研究中、流行病學的研究、或是機
器學習的方面。而MIMIC-IV則是MIMIC-III (2016), citation 1000+ 的更新版本，因此MIMIC-
IV資料庫以模組化的方法在資料收集或是在需要註明資料出處上、以及處理病患間不同的醫療
資訊時，MIMIC-IV也將會延續MIMIC-III的特性來提供更多醫學相關學者進行研究。

MIMIC-III / MIMIC-IV
Version 收集時間初版發佈時間醫療儀器使用 ICU醫院
模
組
化
表格數(Table)
III
2001-
2012
Aug.25.2015
Metavision /
CareVue(2001-
2008)
Beth Israel
Deaconess
Medical
Center
否共26個
IV 2008-
2019
Mar.16.2021
Metavision
(imdSoft)
Beth Israel
Deaconess
Medical
Center
是
3大模組共27個
(core/hosp/icu)
? MIMIC資料庫提供約40000位病患的ICU檢測數據，其資料皆經過去識別化，且根據HIPAA的保護原則下，使用
此資料庫前必須通過研究倫理考試，在MIMIC-III 的編輯過程中也為了要提供機器學習或是資料處理時有更大量
的外部參考資料能夠作為研究，而推出新版的 MIMIC-IV，經過許多專家更改以及模組化的方法將資料分類後，
相較於MIMIC-III 有更清楚完整的資料供研究使用。

存取方法
MIMIC 數據庫使用權限的申請大致可以分為以下幾步：
註冊：首先到physionet網站進行註冊，建議從註冊開始就填寫個人的真實信息；註冊網址為：https://physionet.
org/pnw/login；
參加倫理學考試：進入CITI的網站並參加倫理學考試，考試之前需要先註冊帳號並填寫個人信息。
網址為：https://about.citiprogram.org/en/homepage/
通過考試後，CITI會給申請者發一個證書。申請者需要在physionet上傳證書才能獲得 MIMIC 的使用權限。由於
註冊和考試的過程相對繁瑣，本文不可能截圖逐一展示每個步驟的注意事項，讀者可以在網上自行搜索相關教程，
中文版的數據庫註冊、安裝教程已經在網上流傳。當然，也可以對照physionet網站上的英文説明逐步進行，網上
流傳的中文教程實際上就是對physionet網站上的英文説明的概括和總結。
數據庫註冊説明的網址為：https://mimic.physionet.org/gettingstarted/access/
MIMIC 數據庫的授權使用是人工審核的，因此提交申請後一週左右才會被吿知是否獲得了數據庫使用權限。

方法
? MIMIC-IV來自兩個住院資料庫系統：
? 醫院電子病歷系統(EHR)
? 重症病房(ICU)臨床資訊系統
? 採集 (步驟一) ：
? 1.從各自醫院數據庫中提取進入BIDMC急診科或重症病房的病患數據
? 2.創建一個主患者列表，包含2008年至2019年入住ICU或急診的患者的病患號
? 3.所有源表均被過濾為僅有主患者列表中患者病案號的數據

方法
? 數據準備 (步驟二)：
? 1.將MIMIC-III數據進行重組，包括反規範化(denormalization)，刪除以及合併某些資料表等。
? 2.並未將細部資料刪去，因此可以確實反映真實的臨床數據。
? 去身分化 (步驟三) ：
? 利用隨機編碼來標記病患、住院紀錄、以及入住ICU紀錄。
? 每位患者的日期數據則固定增加一隨機的天數，將患者間的關聯消除但保留患者內部時間數
據的相對關係。

數據描述
? MIMIC-IV主要分為3個模組：
?1. core
?2. hosp
?3. icu

數據描述
? core：
? 此模組中含有3個表(Table) ：
? Patients (病患)
? Admissions (每次住院紀錄)
? Transfers (每次住院中入住病房紀錄)
? 註：patients 表為每位患者提供關於大致住院年份的資訊。 *上圖為Admissions 部分內容示意圖

數據描述
? patients：存放關於病患的存活時間、生理資訊。
?admissions：存放病患入院時間，而每一次住院將會給予不同的 hadm_id，可以將
admissions 視為hadm_id 的定義參考資料，有關於出入院、人口統計、
以及病患的就醫史。
?transfers：病患的就醫轉院紀錄。

數據描述
? hosp：
? 此模組中包含從醫院EHR收集的資料以及部分門診資料。包括：
? Laboratory measurements (labevents、d_labitems)
? Microbiology cultures (microbiologyevents)
? The Electronic Medicine Administration Record (eMAR)
? Provider orders (poe、poe_detail)
? Medication prescription (prescriptions、pharmacy)
? Hospital billing information (diagnoses_icd、d_icd_diagnoses、procedures_icd、d_icd_procedures、hcpcsevents、d_hcpcs、
drgcodes)
? Service related information (services)

數據描述
?labevents：存放所有實驗室對各單一病患的檢驗，如：血液檢驗、血液氣體分析等。
?d_labitems：包含MIMIC資料庫中，所有實驗室的檢驗之定義。
?microbiologyevents：存放微生物檢驗的資料，如：抽血檢驗的抽血時間、抽血的類別、或是在發
現病患的樣本中發生細菌感染時的相關紀錄以及抗生素的檢驗紀錄等。
?emar：EMAR 是由護理人員透過掃描條碼的方式來記錄單一病患的用藥情況的相關藥名資訊。
?emar_detail ：存放emar 模板中的用藥細部資訊，如：用藥劑量、藥劑效期等。
?poe：為醫令系統Provider Order Entry 縮寫，用來記錄醫師護士對病患的診斷紀錄，如：order_type 存放醫療
人員的科別屬性。
?poe_detail：存放 poe 延伸細部資訊，使用 Entity Attribute Value (EAV) 模式來幫助描述 poe 的資料細節。
?prescriptions：存放藥品處方資訊，如：藥名、GSN藥碼、國家藥品代碼(NDC)、用藥標準劑量等。

數據描述
?pharmacy：存放處方藥的細部資訊，如：用藥劑量、藥名代碼、用藥頻率、給藥途徑、以及用藥過程時間紀錄。
?diagnoses_icd ：存放ICD診斷碼(使用ICD-9或ICD-10版本)。
?d_icd_diagnoses：存放International Classification of Diseases (ICD)，ICD-9與10的診斷碼。
?procedures_icd：存放ICD處置碼(使用ICD-9或ICD-10版本)。
?d_icd_procedures：存放International Classification of Diseases (ICD)，ICD-9與10的處置碼。
?hcpcsevents：存放Current Procedural Terminology(CPT) 與病患上的檢驗資料。
?d_hcpcs：存放Current Procedural Terminology(CPT) 的詳細解釋。
?drgcodes：存放 Diagnosis Related Groups(DRGs) 診斷相關組，可用於歸類單一病患在住院期間接受的服務紀錄
?services：存放醫院中病患所接受的服務類型紀錄，幫助對醫療服務研究有興趣的研究人員找出服務對象與其接受醫療的資訊

數據描述
? icu：
? 此模組中包含BIDMC MetaVision 數據庫之資料，MetaVision資料庫中進行了反規範化來建立星形的
樣式，其中icustays 與 d_items 連接到一組尾段名稱均帶有events 的資料表，其中包含：
? Intravenous and fluid inputs (inputevents)
? Patients outputs (outputevents)
? Procedures (procedureevents)
? Information documented as a date or time (datetimeevents)
? Other charted information (chartevents)

數據描述
?Inputevents：紀錄單一病患的注射事件，以及注射時間等資訊。
?outputevents：紀錄單一病患的排泄事件，如尿液的輸出、出汗等紀錄。
?procedureevents：存放於ICU病房住院期間被記錄的處置，如：呼吸器使用，或是與ICU病房無直接關係的處置，如：X-ray 檢查。
?datetimeevents：紀錄所有對ICU中單一病患的檢測時間，如：血液透析的最後紀錄時間，但是血壓測量並無不會出現在此表中。
?chartevents：紀錄主要表列資料，如：病患的電子病歷含有的心電圖資料、呼吸器設定、心理狀態等，因此chartevents含有大量有關住
院病患的資料，再者，存放於表labevents 中的實驗資料也能在chartevents 中重複見到，因為實驗室檢驗數據如果能與
電子病歷一併出現將更容易閱讀。
?d_items：定義表 itemid 中所含的資料，如：心率的測量，而只要是同樣心率檢驗會有同樣的item_id ，而item_id 數值皆大於220000。
?icustay：用來追蹤病患在ICU病房的進入ICU病房時間以及出ICU病房時間，為表transfers 的分支

RETROSPECTIVE STUDY IN
ONE SLIDE
1. Define the research hypothesis
2. Create the cohort of Interest
3. Extract covariates
4. Analyze the data (AI predict)
5. Publish

EXAMPLE
The Association Between Indwelling Arterial
Catheters and Mortality in
Hemodynamically Stable Patients With
Respiratory Failure: A Propensity Score
Analysis
In the ICU for 24 HOURS
SELECT stay_id, intime, outtime
From `mimic_icu.icustays`
Where DATETIME_DIFF(outtime, intime,
HOUR) >= 24

總結
研究的Cohort
IRB的審核
資料不夠有代表性
外院資料的驗證
兼具資料處理、臨床知識的人才

狠狠撸

Mimic iv

Recommended

More Related Content

What's hot (20)

Similar to Mimic iv (10)

More from Tunghai University (8)

Mimic iv