TCGAデータベースを用いたRNA-Seq ― 遺伝子発現量の取得【Python】

がんゲノムデータベースのGDC Data Portal (TCGAデータベース)には様々な癌種の臨床情報からゲノムデータまでが格納されています。純粋なドライな研究としてもウェットの研究の前段階としても、このGDC Data Portalを用いたドライ解析を行うことは非常に重要です。ここではGDC Data Portalを用いてRNA-Seqの遺伝子発現量データを取得し、解析しやすい形に整形してその後の解析につなげるまでを説明していきます。

なお、この記事はバイオインフォマティクス Advent Calendar 2020の23日目の記事として公開しています(公開が遅くなり大変申し訳ありません)。

動作確認環境

OS
Python
  • Python 3.7.9
“TCGAデータベースを用いたRNA-Seq ― 遺伝子発現量の取得【Python】” の続きを読む

WinUI 3.0 のクラスライブラリを覗いてみる【C#】

UWPアプリのGUIと従来からあるデスクトップアプリのGUIを統合する試みとしてProject Reunionがありますが、その目玉のAPIであるWinUI 3.0のAPIも公開されて徐々に全貌が見えてきました。ここではそのWinUI 3.0のクラスライブラリを覗いてみましょう!

なお、この記事はC# その2 Advent Calendar 2020の24日目の記事として公開しています。

“WinUI 3.0 のクラスライブラリを覗いてみる【C#】” の続きを読む

遺伝子発現量カウントの補正方法(RPM, RPKM, TPM)【Python】

RNA-Seqにおける遺伝子発現量カウントは遺伝子長やリード数などで補正をする必要があります。ここではその補正方法として、RPM/FPM、RPKM/FPKM、TPMについて説明し、Pythonを用いたプログラムで実装してみます。

OS
Python
  • Python 3.7.9
モジュール
  • BCBio-GFF 0.6.6
  • pandas 1.1.3
“遺伝子発現量カウントの補正方法(RPM, RPKM, TPM)【Python】” の続きを読む

GDC Data Portal (TCGA) のデータを取得する

がんゲノムデータベースの一つであるGDC Data Portal (TCGA)からは様々なゲノムデータを取得することができ、がん研究に携わる人は必ず使いこなさないといけない必須スキルとすら言えます。ここでは、GDC Data Portalの使い方について説明していきます。

“GDC Data Portal (TCGA) のデータを取得する” の続きを読む

htseq-countを用いた遺伝子発現量のカウント【Python】

RNA-Seqのシークエンスデータをマッピングし、それぞれの遺伝子領域にいくつのリードがマッピングされたかをカウントすることで遺伝子発現量を定量化することができます。マッピングファイルから遺伝子発現量をカウントするプログラムはいくつかありますが、ここではPythonを用いて作成されたプログラムであるhtseq-countについて説明していきます。

動作確認環境

OS
Python
  • Python 3.7.8
モジュール
  • BCBio-GFF 0.6.6
  • HTSeq 0.12.4
“htseq-countを用いた遺伝子発現量のカウント【Python】” の続きを読む

Windows10のMS-IMEで「かな」「英数」キーを割り当てる方法【Windows】

Windowsユーザーなら、日本語の文書を書こうとして入力したのにIMEがオフで半角の英字が入力されてしまったり、英語の文書を入力しようとしているのに日本語入力になってしまってイライラした経験は必ずありますよね?

今回はWindows10 20H1(バージョン2004)以降の機能を使ってそのイライラから解放する方法を説明します。

“Windows10のMS-IMEで「かな」「英数」キーを割り当てる方法【Windows】” の続きを読む

ゲノムアノテーションファイル(GFF3形式)の基本操作【Python】

ゲノムアノテーションファイルとしてGFF形式やGFF形式から派生したGTF形式などがあります。ここではGFF形式の構造について説明し、Pythonによる基本操作を解説します。

動作確認環境

OS
Python
  • Python 3.7.6
モジュール
  • BCBio-GFF 0.6.6
“ゲノムアノテーションファイル(GFF3形式)の基本操作【Python】” の続きを読む

バリアントコールファイル(VCF形式)の基本操作【Python】

バリアントコールファイル(VCF形式)は一塩基多型(SNP)、挿入欠失(InDel)、コピー数多型(CNV)などのゲノム配列の変異情報を保存するためのデータ形式です。

ここではVCF形式の基本的な事項と、Pythonを用いた基本的な操作方法を説明してきます。

バイオインフォマティクス環境

OS
Python
  • Python 3.7.6
モジュール
  • PyVCF 0.6.8
“バリアントコールファイル(VCF形式)の基本操作【Python】” の続きを読む

マッピングファイル(SAM/BAM/CRAM形式)の基本操作【Python】

NGSからFASTQ形式のデータを取得したら、それをbowtieやHISAT2、STARなどのゲノムマッピングプログラムを用いて、リファレンスゲノム配列にマッピングして解析します。マッピング結果はマッピングファイル(SAM/BAM/CRAM形式)で取得されますが、ここではPythonを用いてマッピングファイルを操作する方法を説明していきます。

バイオインフォマティクス環境

OS
Python
  • Python 3.7.6
モジュール
  • pysam 0.16.0.1
“マッピングファイル(SAM/BAM/CRAM形式)の基本操作【Python】” の続きを読む

研究者の評価指標(h-indexとインパクトファクター)

研究に限らず、その人の業績を客観的に評価するのは難しいことです。同じ企業内でも社員の業績評価は難しいのに、異なる施設にいる研究者同士の業績はどのように評価していけばいいのでしょうか。そもそも研究者としてキャリアを積んでいくには何を目指して成果を出していけばいいのでしょうか。

ここでは一般的に用いられている評価指標として、論文の被引用数やh-index、インパクトファクターについて説明していきます。

“研究者の評価指標(h-indexとインパクトファクター)” の続きを読む