跳至主要內容
1 · 第2學期生物統計數據視覺化

數據視覺化

Data Visualization

難度 1 · 入門statistics想做成互動版

數據視覺化在現代生物統計與生物資訊學中既是探索性分析工具,也是研究溝通的核心方法。從認知科學的知覺原理到高維組學數據的降維呈現,視覺化涉及科學、設計與統計的交叉。

知覺科學基礎與設計原則

Cleveland & McGill(1984, JASA)透過心理物理學實驗建立了圖形元素的知覺準確度階層:位置沿共同軸(最準確)> 位置沿非對齊軸 > 長度 > 角度/斜率 > 面積 > 體積 > 顏色飽和度/亮度(最不準確)。這一階層解釋了為何長條圖(位置/長度編碼)在傳達定量差異上優於圓餅圖(角度/面積編碼),也指導了現代可視化設計的最佳實踐。

Edward Tufte 在《The Visual Display of Quantitative Information》(1983)中提出數據-墨水比(data-ink ratio = 承載數據的墨水 / 總墨水量)應最大化,移除多餘裝飾(chartjunk)。Leland Wilkinson 的 Grammar of Graphics(1999)將圖表分解為數據、美學映射(aesthetics)、幾何物件(geom)、統計變換(stat)、座標系統(coord)和分面(facet)的組合,成為 R 語言 ggplot2(Wickham, 2010)的理論基礎。

生物資訊學中的專門視覺化工具

  1. 基因體視覺化:Circos(Krzywinski et al., 2009)以環形佈局呈現基因體層級的多軌資訊(如染色體重排、拷貝數變異、基因表現)。Manhattan plot 在 GWAS 中將每個 SNP 的 −log₁₀(p) 按染色體位置排列,超過基因體顯著性閾值(通常 5×10⁻⁸)的 SNP 形成明顯的「曼哈頓天際線」。IGV 和 UCSC Genome Browser 提供互動式基因體瀏覽。

  2. 單細胞組學視覺化:t-SNE(van der Maaten & Hinton, 2008)和 UMAP(McInnes et al., 2018)是將數萬至數百萬單細胞的高維轉錄體投影至 2D 的標準方法。t-SNE 最小化高維和低維空間中鄰域機率分佈的 KL 散度,擅長保留局部結構(聚類),但不保留全局距離(聚類間距離無意義),且結果高度依賴 perplexity 參數。UMAP 基於拓撲數據分析的模糊簡單集(fuzzy simplicial set),號稱兼顧全局和局部結構,運行速度更快。Becht et al.(2019, Nat Biotechnol)系統比較後建議:降維圖僅作為探索工具,不應僅憑視覺聚類做生物學結論——需配合差異表現分析和標記基因驗證。

  3. 蛋白質結構視覺化:PyMOL、UCSF ChimeraX 和 Mol* 以 ribbon diagram、surface representation 和 ball-and-stick 等模式呈現 3D 結構。B-factor coloring 反映原子熱運動;electrostatic surface(Adaptive Poisson-Boltzmann Solver, APBS)揭示蛋白質表面電位分佈,輔助藥物設計中的結合位點分析。

統計圖表的最佳實踐

生物醫學論文中長期存在的視覺化問題已引起關注:Weissgerber et al.(2015, PLoS Biol)指出長條圖+誤差線(dynamite plots)掩蓋了原始數據的分佈形狀,建議改用散佈圖、箱型圖、小提琴圖或蜂群圖(beeswarm plot)呈現個別數據點。Nature 自 2017 年要求 n ≤ 10 時必須顯示所有數據點。

顏色選擇需考慮色覺障礙(約 8% 男性為紅綠色盲)。Viridis、Cividis 等色彩映射表在色覺模擬下仍保持感知均勻性,已成為 matplotlib 和 ggplot2 的預設推薦。

可重現的視覺化流水線

可重現研究(reproducible research)要求視覺化程式碼和數據與論文一同發表。R 的 ggplot2 和 Python 的 matplotlib/seaborn 是最主流的程式化繪圖工具。互動式視覺化(R Shiny、Plotly/Dash、Observable)允許使用者動態探索數據,在大型共享數據庫(如 Human Cell Atlas)的呈現上日益重要。Jupyter Notebook 和 Quarto 將分析程式碼、視覺化和敘述文字整合在同一文件中,是計算筆記本(computational notebook)理念的實踐。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

有寫過的文章

【高中版】跨領域實習:從生科到市場分析師的轉職之路

生科背景也能進顧問公司?跨領域實習經驗分享,看看生科人如何轉戰商業分析。

【國中版】生物系的人畢業後都做什麼?不只是當老師或研究員!

你以為學生物就只能當老師或做實驗嗎?其實有人跑去當市場分析師、顧問,甚至進金融業!

跨領域實習心得:市場分析師經驗分享

這篇和大家分享從生物科技領域轉向生技實習經歷包括財務分析、市場分析、行銷。如果你正在考慮跨領域發展,或者對生技財務感興趣,希望這位訪談者的故事能給你一些啟發。 身為過來人,了解在就學期間對生科出路未來的迷茫以及無助感。就算能夠上網找資料知道出路可能可以如何發展,但是對於產業、跨領域心路歷程以及實際工作內容、需要的能力並沒有完整且直接的資源可以參考。 因此想要透過自己的力量訪談一些從生科跨到不同領域的人的心路歷程,並且再將這些跨領域人才的…

【高中版】碩士論文怎麼寫?研究生的論文撰寫全攻略

研究所的論文到底在寫什麼?從選題到口試,帶你提前了解研究生的學術之路。

【國中版】什麼是論文?研究生在學校都在忙什麼?

你可能聽過「寫論文」,但論文到底是什麼?研究生每天都在做什麼研究?讓我們一起來看看!

碩士論文怎麼寫:2024碩士論文撰寫注意事項

相信會點進來看的大家,都是面臨即將研究所口試但是不知道要準備什麼的徬徨狀況吧? 無論如何,先祝福大家即將畢業,希望大家未來能找到好工作! 如果想知道從準備成果到口試到畢業可能會經歷什麼的話,就繼續看下去吧!