scRNAseq解析におけるUMAPって何?tSNEとの違いは?

scRNA-seq(シングルセルRNAシーケンシング)解析において、**UMAP(Uniform Manifold Approximation and Projection)**は、高次元データ(例:細胞ごとの遺伝子発現プロファイル)を2次元や3次元に縮約(次元削減)して可視化する手法の一つです。主に、細胞の「クラスタリング結果」や「細胞間の類似度」を視覚的に確認するために用いられます。


🔹 UMAPとは?

  • 非線形の次元削減法
  • 数千の遺伝子の発現情報を、2Dや3D空間にうまく圧縮してプロット
  • 似た発現プロファイルを持つ細胞が近くに配置される
  • トポロジー(データの構造)を保とうとする点が特徴
  • 近年、t-SNEよりも速く、構造も保ちやすいとしてscRNA-seqで広く使われています

🔹 t-SNE(t-distributed Stochastic Neighbor Embedding)との違い

特徴 UMAP t-SNE
距離の保持 グローバルな構造(大域的関係)もある程度保つ 局所的構造(局所的な類似性)に特化
処理速度 高速(特に大規模データで有利) 比較的遅い
解釈性 クラスター間の距離にもある程度意味がある クラスター間の距離はあまり意味がない
パラメータ n_neighbors, min_dist など調整可能 perplexity など
再現性 同じ乱数種子である程度再現可能 結果の再現性がやや低い
実装 scanpyseurat で標準装備 同様に使用可能

🔹 どちらを使えばいい?

  • UMAPが推奨されることが多い
    • 処理が速い
    • クラスター間の関係性もある程度表現可能
  • t-SNEが優れている点
    • ごく近い細胞の局所構造を詳細に表現
    • 微細なクラスタ間の違いに敏感(だが誤解も招きやすい)

(ChatGPT 4o)