SARS-CoV-2のゲノムデータを入手する【Python】

SARS-CoV-2のゲノムデータの登録先

国際塩基配列データベース(INSDC)

次世代シークエンサーで解析された塩基配列は論文発表される際に国際塩基配列データベース(INSDC)に登録されることになっています。国際塩基配列データベースは、NCBI(アメリカ)によるGenBank、国立遺伝学研究所(日本)によるDDBJ、EBI(ヨーロッパ)によるEMBLの三大DNAデータベースの協力機構です。

新型コロナウイルス(SARS-CoV-2)のゲノムデータも国際塩基配列データベースのGenBankに登録されて一般に公開されています。

GenBank SARS-CoV-2 特設サイトのコンテンツは以下の通りです。

  • PubMed Articles : PubMed記事まとめ
  • ClinicalTrials.gov : 臨床試験情報
  • Nucleotide Sequences : 核酸配列データ(リファレンス配列含む)
  • SRA Sequences : シークエンサー出力データ
  • Protein Structures : タンパク質構造
  • Genome Expression Studies : ゲノム発現に関する研究
  • Reference Genome : リファレンス配列のGFFデータ
  • Other Resources : その他の情報源

GISAID

GISAIDは、2006年に当時猛威を振るっていた鳥インフルエンザに立ち向かうために、最新のウイルス情報を研究者の間で共有する目的で設立されたオープンソースプロジェクトです。もともとは鳥インフルエンザのためのものですが、2019年12月からはSARS-CoV-2のゲノムデータの登録も開始しています。GISAIDのデータは登録した研究者のみがアクセス可能となっています。

なお、GenBankのSARS-CoV-2ゲノムデータの一部もWHOの推奨に基づいてGISAIDと共有されています。

また、GISAIDのデータを用いたウイルス進化のリアルタイム追跡はオープンソースプロジェクトのNextstainによって行われています。

SARS-CoV-2ゲノムデータの取得

ここでは登録不要でダウンロードできるGenBankのシークエンスデータの取得方法を説明します。

Nucleotide Sequences(核酸配列データ)

ここに登録されているのはアノテーションのついている信頼性の高い核酸配列のデータです。Accessionのプレフィックスによってどのような配列かを表しています。リファレンス配列のプレフィックスについてはこちら(外部サイト)をご覧ください。

核酸配列データの取得はFTPを用いたり様々な方法がありますが、ここではPythonを使ってバイオインフォマティクスを行うことを目指しているので、GenBankからのダウンロードもPythonを用いて行う方法を説明します。PythonのBiopythonパッケージを使うことでバイオインフォマティクス関係の様々な処理を行うことができ、Nucleotide SequencesもBiopythonを用いて取得することができます。Biopythonの概要やインストール方法はこちらをご覧ください。

Biopythonでは配列データはSeqRecordオブジェクトとして扱うので、以下のコードでGenBankのSARS-CoV-2のリファレンス配列(NC_045512.2)をSeqRecordオブジェクトとして取得します。

from Bio import Entrez, SeqIO
Entrez.email = "your_mail_address@sample.com" # 自分のメールアドレスを指定します
handle = Entrez.efetch(db='nuccore', id='NC_045512.2', rettype='gb', retmode='text')
record = SeqIO.read(handle, "genbank")
handle.close()
print(record)
ID: NC_045512.2
Name: NC_045512
Description: Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
Database cross-references: BioProject:PRJNA485481
Number of features: 57
   ......
Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGT...AAA', IUPACAmbiguousDNA())

これによりGenBank(NC_045512)の情報がSeqRecordオブジェクトとして取得できます。

なお、Entrez.efetch関数の扱い方などプログラムの詳細はPythonを用いたNCBIデータベースへのアクセスに記載しています。

SRA Sequences(シークエンサー出力データ)

ここに登録されていつのはシークエンサーからの出力データであり、生の実験データなので解析に用いられる状態にするには

  • クォリティチェック
  • トリミング
  • マッピング

などの操作が必要になります。

データの取得はSRA Toolkitのfasterq-dumpを用いて、SRA RUN IDを指定するとSRAファイルをダウンロードしてFASTQファイルに展開することができます。詳細については別記事で説明します。

関連記事・スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です