2020年– date –
-
自分のゲノムデータを公開している人たち
ゲノムデータはその人の遺伝的特徴のすべてを表しているもので、個人情報の塊といえるものです。通常研究でヒトのゲノムデータを扱うときは匿名化されたデータとして扱いますが、しかし科学の発展のためにあえて自分のゲノムデータを公共データベースで公... -
リファレンスゲノム配列(GRCh38/hg38)と日本人基準ゲノム配列(JG2)
NGSで解析したゲノムデータのアラインメントに必要なリファレンスゲノム配列としては「GRCh38/hg38」が広く用いられていますが、最近日本人について解析した「日本人基準ゲノム配列(JG2)」が公開されました。ここでは、このリファレンスゲノム配列について... -
1000人ゲノムプロジェクトからデータを取得する
1000人ゲノムプロジェクト(1000 Genomes Project)は、異なる民族のヒトのゲノムサンプルを少なくとも1000人分以上解析し、遺伝的多様性のカタログを公開することを目指したプロジェクトで、2008年に開始されました。このプロジェクトはIGSRによって管理さ... -
FASTQ形式の配列データの品質をPythonでチェックしてみる【Python】
NGSから配列データがFASTQ形式で得られたら、まずはそのクォリティをチェックする必要があります。FastQCというアプリケーションで品質チェック・管理を行うことが一般的ですが、ここではPythonのプログラムでFastQCの品質チェックを再現してみましょう。... -
実験データの外れ値を統計学的に判別する方法
実験の測定データにはばらつきが生じてしまいますが、測定ミスや何らかの外部的な要因でどう考えてもおかしい値が出ることがあります。しかし、そのようなデータを明確な基準もなく除外してしまっては、恣意的なデータとなってしまい、データの信頼性を落... -
確率・オッズ・ロジットの関係からオッズ比、ロジスティック回帰モデルまで
確率からオッズやロジットといった様々な概念が生み出されています。それらを活用することで医療統計の分野などでおなじみのロジスティック回帰モデルも説明できます。でも、オッズやロジットとロジスティック回帰モデルの関係を理解できていますか?そも... -
DataFrameから条件を指定してデータを抽出する方法(ブールインデックス参照)【Python】
pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは基本となるブールインデックス参照を用いた方法を解説していきます。 開発環境 pandas 1.0.3 Python 3.7.7 ブールインデック... -
DataFrameから条件を指定してデータを抽出する方法(queryメソッド)【Python】
pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは最もスマートに抽出できるqueryメソッドを用いた方法を解説します。 開発環境 pandas 1.0.3 Python 3.7.7 DataFrameから条件... -
DataFrame / Series からリストに変換する【Python】
データ解析にはDataFrameやSeriesが非常に有用ですが、場合によっては最も単純なデータ形式であるリスト形式が必要になる場面もあります。DataFrameからリストとして取得したいデータをSeriesとして抽出してから、Seriesのto_listメソッドを用いることでリ... -
正規母集団の母平均の区間推定を行う【Python】
ある集団の平均値を求めるときに、そのすべてを調べるのは困難な場合は一部のサンプルの平均値を求めて元の集団の平均値を求めることがよく行われます。今回はそのような場合の、一部のサンプルの平均値(=標本平均)から元の集団の平均値(=母平均)の範囲を...