115年:(醫檢)檢驗(1)
進行基因表現微陣列晶片( gene expression microarray )之數據分析,各樣本所有基因點的原始訊號分布如圖所示。則比較各樣本間之基因相對表現量前,應先進行下列何種處理最適當? 
A正常化/標準化( normalization )
B去除各樣本的極端值,減少差異
C以Student's t-test 對基因在各樣本間進行顯著差異分析
D忽略訊號變異最大的第 3樣本後,再進行分析
詳細解析
本題觀念:
基因微陣列數據分析流程 (Microarray Data Analysis Workflow)
微陣列實驗(Microarray)產生的高通量數據常伴隨非生物性的系統誤差(Systematic variation),例如:染劑標定效率不同、掃描儀器設定差異、雜合反應條件波動等。這些技術性誤差會導致不同樣本間的整體訊號強度分布不一致。為了確保不同樣本間的基因表現量具有可比性,在進行任何差異分析(如 Fold change 或 t-test)之前,必須先進行數據的正常化(Normalization)。
影像分析:
題目提供的圖片是一個箱型圖(Box plot),顯示了四個樣本(樣本1至樣本4)的原始訊號強度分布情況:
- 樣本間差異顯著:四個樣本的訊號分布位置(中位數)和分散程度(四分位距)皆有明顯差異。
- 樣本4:整體訊號強度最強(中位數約18),遠高於其他樣本。
- 樣本3:整體訊號強度最弱(中位數約8),且變異範圍(Range)最大。
- 樣本1與2:介於中間,但彼此間仍有位移。
- 臨床意義:這種分布差異通常反映了技術性誤差(Technical variation)。若不經處理直接比較,樣本4中的任何基因看起來都會比樣本1或3中的同一個基因「表現量更高」,但这純粹是因為樣本4的整體背景訊號較強,而非生物學上的真實差異。
選項分析:
-
A. 正常化/標準化(normalization):正確。
- 理由:正常化的主要目的就是修正上述的系統性誤差,將不同樣本的訊號分布調整到相同的基準(例如將所有樣本的中位數對齊,或使分佈型態一致)。常見方法包括 Quantile Normalization、LOWESS 等。只有在正常化後,樣本間的基因表現量差異才代表真實的生物學意義。
-
B. 去除各樣本的極端值,減少差異:錯誤。
- 理由:雖然去除極端值(Outlier removal)是品質控制(QC)的一部分,但它無法解決樣本間整體訊號強度(Mean/Median)不一致的問題。單純去除極端值無法將樣本4的整體高訊號拉回至與其他樣本可比較的水平。
-
C. 以 Student's t-test 對基因在各樣本間進行顯著差異分析:錯誤。
- 理由:統計檢定(如 t-test)是用來尋找組間差異的工具,必須建立在「數據已具可比性」的基礎上。若使用未經正常化的原始數據(Raw data)進行檢定,系統誤差(如樣本4整體過亮)會導致產生大量的偽陽性(False positives),分析結果無效。
-
D. 忽略訊號變異最大的第 3樣本後,再進行分析:錯誤。
- 理由:
- 變異大不代表樣本一定損壞,可能只是該樣本的背景值波動較大,這通常可以透過正常化修正。
- 即使移除了樣本3,樣本1、2、4之間的分布仍然不一致(例如樣本4仍遠高於樣本1),問題並未解決,仍然需要進行正常化。除非QC指標確認樣本3品質嚴重低落(如RNA降解),否則不應隨意剔除數據。
- 理由:
答案解析
圖中顯示原始數據在不同樣本間存在明顯的系統性偏差(Systematic bias),導致訊號分布不一。為了比較各樣本間的「相對表現量」,最優先且適當的處理步驟是正常化(Normalization),將各樣本的訊號強度校正至同一水平,消除技術誤差。
因此,正確答案是 (A)。
核心知識點
- 微陣列分析標準流程:影像掃描 訊號萃取 品質控制 (QC) 正常化 (Normalization) 差異表現分析 (Differential Expression Analysis)。
- 正常化目的:移除實驗操作過程中的非生物性變異(Non-biological variation),使樣本具備可比性。
- 箱型圖判讀:正常化前,各樣本箱型圖的中位數與寬度通常不齊;正常化後,各樣本的箱型圖應呈現水平對齊(中位數一致)。
參考資料
- Nucleic Acids Research, "Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation".
- Bioconductor Analysis Workflow regarding Microarray Preprocessing (RMA, MAS5).