遺伝子発現量カウントの補正方法(RPM, RPKM, TPM)【Python】

RNA-Seqにおける遺伝子発現量カウントは遺伝子長やリード数などで補正をする必要があります。ここではその補正方法として、RPM/FPM、RPKM/FPKM、TPMについて説明し、Pythonを用いたプログラムで実装してみます。

OS
Python
  • Python 3.7.9
モジュール
  • BCBio-GFF 0.6.6
  • pandas 1.1.3
“遺伝子発現量カウントの補正方法(RPM, RPKM, TPM)【Python】” の続きを読む

GDC Data Portal (TCGA) のデータを取得する

がんゲノムデータベースの一つであるGDC Data Portal (TCGA)からは様々なゲノムデータを取得することができ、がん研究に携わる人は必ず使いこなさないといけない必須スキルとすら言えます。ここでは、GDC Data Portalの使い方について説明していきます。

“GDC Data Portal (TCGA) のデータを取得する” の続きを読む

htseq-countを用いた遺伝子発現量のカウント【Python】

RNA-Seqのシークエンスデータをマッピングし、それぞれの遺伝子領域にいくつのリードがマッピングされたかをカウントすることで遺伝子発現量を定量化することができます。マッピングファイルから遺伝子発現量をカウントするプログラムはいくつかありますが、ここではPythonを用いて作成されたプログラムであるhtseq-countについて説明していきます。

動作確認環境

OS
Python
  • Python 3.7.8
モジュール
  • BCBio-GFF 0.6.6
  • HTSeq 0.12.4
“htseq-countを用いた遺伝子発現量のカウント【Python】” の続きを読む

Windows10のMS-IMEで「かな」「英数」キーを割り当てる方法【Windows】

Windowsユーザーなら、日本語の文書を書こうとして入力したのにIMEがオフで半角の英字が入力されてしまったり、英語の文書を入力しようとしているのに日本語入力になってしまってイライラした経験は必ずありますよね?

今回はWindows10 20H1(バージョン2004)以降の機能を使ってそのイライラから解放する方法を説明します。

“Windows10のMS-IMEで「かな」「英数」キーを割り当てる方法【Windows】” の続きを読む

ゲノムアノテーションファイル(GFF3形式)の基本操作【Python】

ゲノムアノテーションファイルとしてGFF形式やGFF形式から派生したGTF形式などがあります。ここではGFF形式の構造について説明し、Pythonによる基本操作を解説します。

動作確認環境

OS
Python
  • Python 3.7.6
モジュール
  • BCBio-GFF 0.6.6
“ゲノムアノテーションファイル(GFF3形式)の基本操作【Python】” の続きを読む

バリアントコールファイル(VCF形式)の基本操作【Python】

バリアントコールファイル(VCF形式)は一塩基多型(SNP)、挿入欠失(InDel)、コピー数多型(CNV)などのゲノム配列の変異情報を保存するためのデータ形式です。

ここではVCF形式の基本的な事項と、Pythonを用いた基本的な操作方法を説明してきます。

バイオインフォマティクス環境

OS
Python
  • Python 3.7.6
モジュール
  • PyVCF 0.6.8
“バリアントコールファイル(VCF形式)の基本操作【Python】” の続きを読む

マッピングファイル(SAM/BAM/CRAM形式)の基本操作【Python】

NGSからFASTQ形式のデータを取得したら、それをbowtieやHISAT2、STARなどのゲノムマッピングプログラムを用いて、リファレンスゲノム配列にマッピングして解析します。マッピング結果はマッピングファイル(SAM/BAM/CRAM形式)で取得されますが、ここではPythonを用いてマッピングファイルを操作する方法を説明していきます。

バイオインフォマティクス環境

OS
Python
  • Python 3.7.6
モジュール
  • pysam 0.16.0.1
“マッピングファイル(SAM/BAM/CRAM形式)の基本操作【Python】” の続きを読む

研究者の評価指標(h-indexとインパクトファクター)

研究に限らず、その人の業績を客観的に評価するのは難しいことです。同じ企業内でも社員の業績評価は難しいのに、異なる施設にいる研究者同士の業績はどのように評価していけばいいのでしょうか。そもそも研究者としてキャリアを積んでいくには何を目指して成果を出していけばいいのでしょうか。

ここでは一般的に用いられている評価指標として、論文の被引用数やh-index、インパクトファクターについて説明していきます。

“研究者の評価指標(h-indexとインパクトファクター)” の続きを読む

自分のゲノムデータを公開している人たち

ゲノムデータはその人の遺伝的特徴のすべてを表しているもので、個人情報の塊といえるものです。通常研究でヒトのゲノムデータを扱うときは匿名化されたデータとして扱いますが、しかし科学の発展のためにあえて自分のゲノムデータを公共データベースで公開している人がいます。実名のゲノムデータがあれば、ゲノム解析のデータと実際のヒトとを結びつけて結果を見ることができ、解析結果が一気に身近なものになりますよね?まさに学習用には最適といえます。

今回はそのような「あえて自分のゲノムデータを公開している人たち」を紹介していきます。それにしても、その献身的な精神には頭が下がるばかりですね…

“自分のゲノムデータを公開している人たち” の続きを読む

リファレンスゲノム配列(GRCh38/hg38)と日本人基準ゲノム配列(JG2)

NGSで解析したゲノムデータのアラインメントに必要なリファレンスゲノム配列としては「GRCh38/hg38」が広く用いられていますが、最近日本人について解析した「日本人基準ゲノム配列(JG2)」が公開されました。ここでは、このリファレンスゲノム配列について紹介していきます。

“リファレンスゲノム配列(GRCh38/hg38)と日本人基準ゲノム配列(JG2)” の続きを読む