がんゲノムデータベースのGDC Data Portal (TCGAデータベース)には様々な癌種の臨床情報からゲノムデータまでが格納されています。純粋なドライな研究としてもウェットの研究の前段階としても、このGDC Data Portalを用いたドライ解析を行うことは非常に重要です。ここではGDC Data Portalを用いてRNA-Seqの遺伝子発現量データを取得し、解析しやすい形に整形してその後の解析につなげるまでを説明していきます。
なお、この記事はバイオインフォマティクス Advent Calendar 2020の23日目の記事として公開しています(公開が遅くなり大変申し訳ありません)。
動作確認環境
OS
- Windows10
- Windows10 + WSL (WindowsユーザーのためのPythonを用いたゲノム解析環境)
Python
- Python 3.7.9