トランスクリプトーム解析にしろ、プロテオミクスにしろ、オミックスの手法を用いた実験データの解析が、現代の生命科学研究においては主流になっていると思います。自分はオミックスデータの解析に関する経験が皆無なので、ネット上のチュートリアルなど、理解を助けてくれそうな教育的なリソースをまとめておきます。
クラスタリング
- 2.3. Clustering 2.3.1. Overview of clustering methods *視覚に訴えるわかりやすい説明
- Python でデータサイエンス scikit-learn でクラスタ分析 (K-means 法)
解析ツール
- A survey of computational tools for downstream analysis of proteomic and other omic datasets Hum Genomics. 2015; 9: 28. Published online 2015 Oct 28. doi: 10.1186/s40246-015-0050-2 PMCID: PMC4624643 PMID: 26510531
上の論文で紹介されていたツールの一覧
Name | Description |
KEGG | Kyoto Encyclopedia of Genes and Genomes |
DAVID | The Database for Annotation, Visualization and Integrated Discovery |
PID | Pathway Interaction Database |
IPA | Ingenuity Pathway Analysis |
Cytoscape | An open source platform for complex network analysis and visualization |
HAPPI | Human Annotated and Predicted Protein Interaction Database |
GSEA | Gene Set Enrichment Analysis |
Reactome | Curated database of pathways and reactions (pathway steps) |
BioCarta | Pathway database |
HPD | Integrated Human Pathway Database |
PAGED | Pathway and Gene Enrichment Database |
HPRDB | Human Protein Reference Database |
DrugBank | Drug Bank |
CPDB | Consensus Path DB |
BINGO | Biological Network Gene Ontology Tool |
GATHER | Gene Annotation Tool to Help Explain Relationships |
臨床とプロテオミクス
プロテオームの臨床応用(疾患プロテオミックス)では、疾患に起因して発現量が増加または減少するタンパク質が対象となる。とくにサンプルの前処理が簡単なSELDI-TOFMSは臨床応用が注目され、 (1)疾病を定量的に判断するための指標(バイオマーカ)探索を行う単一マーカ解析や、(2)複数のバイオマーカを組み合わせ、発現プロファイルを解析して疾病の有無を判定する複数マーカ解析がある。単一マーカ解析は従来の統計解析で対応可能であるが、プロファイル解析では、データから有効な情報を発見する「データマイニングdeata-mining」手法が用いられる。その手法としては主成分分析、階層的クラスタリング、非階層的クラスタリング (k-means法)、線形・非線形判別などの従来の多変量解析だけでなく、データマイニングに特有な手法として、決定木、自己組織化マップ、ニューラルネットワーク、サポートベクターマシンが使用されて、これまでも前立腺がんや卵巣がんなど疾患の鑑別診断や全体的な傾向の把握に利用されている。ただ変量数(質量スペクトル)が個体症例数より著しく多い多次元データであるので、既知情報・知識などの利用なども含めた精度改善など多くの克服すべき課題が存在している。(プロテオーム情報のデータマイニング Data-mining in proteomics 田中 博 Tanaka Hiroshi 東京医科歯科大学 疾患生命科学研究部 生命情報学https://www.jstage.jst.go.jp/article/jhupo/2005/0/2005_0_18/_article/-char/ja/)
オミックスデータ解析のチュートリアル
- オミックスデータのクラスター解析 フィルジェン株式会社バイオサイエンス部(biosupport@filgen.jp)
python環境下で動作するツール
- pyOpenMS is an open-source Python library for mass spectrometry, specifically for the analysis of proteomics and metabolomics data in Python. https://pyopenms.readthedocs.io/en/latest/index.html
- DashOmics is a visualization tool to explore *omics data using clustering analysis. It is created by Dash Plot.ly, a Python framework for building interactive analytical tools.
Pythonによる解析チュートリアル
- HANDS-ON TUTORIALS Integrating Omics using UMAP and Clustering Egor Vorontsov Follow Feb 15, 2021
ウェブチュートリアル
- バイオメトリクス第5回 発現解析*わかりやすい説明だと思った。距離、クラスタリングの種類、データの転置、実例となる論文紹介など。
- トランスクリプトーム解析・プロテオーム解析入門 産業技術総合研究所生命情報工学研究センター油谷 幸代
- Chapter 5 Transforming and visualising proteomics data ボルケノープロットの解説など
- Mass spectrometry and proteomics data analysis Bioconductor Maintainer1* 1Roswell Park Cancer Institute, Elm and Carlton St, Buffalo, NY 14263 *maintainer@bioconductor.org 13 Jun 2017
オミックス解析のための教科書・書籍
- Rで学ぶデータサイエンス 5 パターン認識 2009/10/23 金森 敬文, 竹之内 高志, 村田 昇 共立出版
YOUTUBE等の動画チュートリアル
- ms-bio.info 質量分析インフォマティクス研究会 > 資料 > 講演動画
- Proteomics Data Analysis with Python – Final Project Angela Riveroll
- 質量分析によるプロテオーム解析 @ 第2回・質量分析インフォマティクス・ハッカソン
プロテオミクス研究
- 精密な定量プロテオミクスにもとづく生命科学の研究 2017/04/11 松本雅記・中山敬一 (九州大学生体防御医学研究所 プロテオミクス分野) email:松本雅記,中山敬一 領域融合レビュー, 6, e002 (2017) DOI: 10.7875/leading.author.6.e002
- 腎糸球体プロテオーム解析からみえてきたもの:あるプロテオミクス研究者の挑戦と挫折 吉 田豊 新潟大学大学院医歯学総合研究科 Proteome Letters 2017;2:27-35 Doi:10.14889/jpros.2.1_27 2015年功労賞受賞者論文総説
- 教育セミナー:プロテオミクス熊の巻 2015 総説 どのデータベースを使うか ~データベース検索と配列解析・誤解と難題~吉 沢 明 康*
- 定量的プロテオミクス サーモフィッシャーサイエンティフィック
プロテオミクス外注
質量分析について
質量分析計によるデータは,網羅性の観点からはオミクスと言い切れない弱みがある.それはすべてのMS/MSスペクトルを取得できないという技術的制約である.タンパク質や二次代謝物のように複雑な分子を同定するには,クロマトグラフィーの保持時間,精密質量,同位体比の情報だけでは不十分で,部分構造の手がかりを与えるMS/MSスペクトルの取得が必須になる.しかし現在の質量分析計は,走査スピードの限界から,検出されるすべてのMSピークに対してMS/MS分析を実施できない.‥ そこで‥ しかしこれらの手法は,クロマトグラフィーで分離できる数千ものピークのうち,1割にも満たない部分のMS/MSしか計測していない.これでは網羅的とは言いがたい.さらに深刻な問題点は,この選択性あるいは恣意性が分析結果を再利用しにくくする点だろう.たとえば興味深い生体サンプルから得られたMS/MS分析データが公開されているとする.しかしそこに自分が知りたい代謝物情報が記録されている可能性は低い.なぜなら分析者によって解析したい化合物は異なるし(たとえばMRMの対象外),ピークの強度もサンプルごとに異なる(たとえばDDAで選ばれない)からである.(生体内の低分子代謝産物を網羅的に捉えるための新技術MS-DIALプログラムによる次世代MS/MS解析 化学と生物 Vol. 54, No. 3, 2016)
解析チュートリアル
- LC/MS、GC/MSデータ解析セミナー-GeneSpringMSトレーニングセミナー Ailent Technologies:多変量解析の簡単な説明- RT、m/z、強度(Intensity)の関係- 解析を行う際に考慮すべき注意点• BLBに感染したRiceの解析例(差分解析の例)- データ正規化(Normalization)- Fold Analysis(倍率変化を用いた解析)- 統計的有意差(T-testによる解析)• ビール6銘柄の解析例(パターン解析の例)- 主成分分析(PCA)- クラスタリング解析
解析ツール
- アジレントMassHunter:LC/MS、GC/MS、CE/MS、および ICP-MS ワークフローをサポート する包括的なソフトウェア。同定、特性解析、定量、ターゲット化合物のスクリーニングと確認、未知化合物の同定、生体分子の特性解析、ナノ粒子、元素種、タンパク質および代謝物の同定など、各機器の分析目的に応じて専用のソフトウェアモジュールを使用。サンプルのセットからレポート作成に至る、アプリケーションに適したシームレスなワークフローを実現。複数のアジレント機器で構成される LC-ICP-MS や GC-ICP-MS といったハイフネートされたシステムであっても、分析目的に応じたソフトウェアコンポーネントが 1 つのツールに統合。
- MS-DIAL:ノンターゲット・メタボローム解析のためのユニバーサル・ツール。複数の機器(GC/MS、GC/MS/MS、LC/MS、LC/MS/MS)および複数のMSベンダー(Agilent、Bruker、LECO、Sciex、 Shimadzu、Thermo、およびWaters)に対応。netCDF(AIA)やmzMLなどの一般的なデータ形式を扱える。同位体ラベル付き追跡は、LC/MSプロジェクトでも実行可能。生データのインポートから統計分析までのすべてのデータ処理ステップをサポート。
- MassChroViewe:LC-MSデータを2次元のクロマトグラムとして表示するビューワー。クロマトグラム全体を、溶出時間とm/z値を軸にした二次元で表現。生データから直接得たm/zから、化合物データベースを検索するMFSearcher機能や、候補化合物の構造式を表示して、選択した部分構造の質量値を確認するFragment Calculator機能、そのピークのMS/MSフラグメントをすぐに閲覧できるMS2Viewer機能などと連携。 入力ファイルとして、ProteoWizardソフトなどでmzXML形式またはmzML形式に変換した、各LC-MSベンダーの生データを開くことが可能。ピークリストとしては、PowerGetなど別のデータ解析ソフトウェアなどを用いて作成された、質量電荷比(m/z)と溶出時間(RT)が記載されたテキストファイルを読み込むことが可能。
プロテオミクス論文
- Breast cancer quantitative proteome and proteogenomic landscape Henrik J. Johansson, Fabio Socciarelli, …Janne Lehtiö Show authors Nature Communications volume 10, Article number: 1600 (2019)