scRNA-seq(シングルセルRNAシーケンシング)解析において、**UMAP(Uniform Manifold Approximation and Projection)**は、高次元データ(例:細胞ごとの遺伝子発現プロファイル)を2次元や3次元に縮約(次元削減)して可視化する手法の一つです。主に、細胞の「クラスタリング結果」や「細胞間の類似度」を視覚的に確認するために用いられます。
🔹 UMAPとは?
- 非線形の次元削減法
- 数千の遺伝子の発現情報を、2Dや3D空間にうまく圧縮してプロット
- 似た発現プロファイルを持つ細胞が近くに配置される
- トポロジー(データの構造)を保とうとする点が特徴
- 近年、t-SNEよりも速く、構造も保ちやすいとしてscRNA-seqで広く使われています
🔹 t-SNE(t-distributed Stochastic Neighbor Embedding)との違い
特徴 | UMAP | t-SNE |
---|---|---|
距離の保持 | グローバルな構造(大域的関係)もある程度保つ | 局所的構造(局所的な類似性)に特化 |
処理速度 | 高速(特に大規模データで有利) | 比較的遅い |
解釈性 | クラスター間の距離にもある程度意味がある | クラスター間の距離はあまり意味がない |
パラメータ | n_neighbors , min_dist など調整可能 |
perplexity など |
再現性 | 同じ乱数種子である程度再現可能 | 結果の再現性がやや低い |
実装 | scanpy や seurat で標準装備 |
同様に使用可能 |
🔹 どちらを使えばいい?
- UMAPが推奨されることが多い
- 処理が速い
- クラスター間の関係性もある程度表現可能
- t-SNEが優れている点
- ごく近い細胞の局所構造を詳細に表現
- 微細なクラスタ間の違いに敏感(だが誤解も招きやすい)
(ChatGPT 4o)