新型コロナウイルス感染症(COVID-19)に関するオープンデータのまとめです。特にpythonを用いたデータへのアクセスの方法についても紹介してあります。
なお、記事の内容は古くなっている可能性もありますのでご注意ください。また、データのライセンスは必ず各データの提供元をご確認ください。
[toc]地域別感染者動向
東京都内の最新感染動向
東京都内の最新感染者動向は東京都によるオープンソースプロジェクトとして公開されています。
その他の地域の感染者動向データ
東京都の最新感染者動向のGitHubリポジトリをフォークして、各地域の感染者動向データが公開されています。
ここでは特に、公式(もしくは公認)の感染者動向データについて紹介します。
公式(公認)以外でも、有志によって各地域の感染者動向データが公開されています。
pythonを用いたデータへのアクセス
東京都の新型コロナウイルス感染症対策サイトの患者データはこちらにJSONファイルとして格納されています。
「Raw」をクリックしてアクセスするURLがデータ本体ですので、以下のようにしてPythonでダウンロードすることが可能です。ここでpandasのDataFrameとして取得する例をお示しします。
import pandas as pd
import requests
URL='https://raw.githubusercontent.com/tokyo-metropolitan-gov/covid19/development/data/data.json'
r=requests.get(URL)
df = pd.json_normalize(r.json(), ['patients', 'data'])
東京都以外の他のサイトでも若干のファイル構成の違いはありますが、基本的に上記のURLを入れ替えるだけでデータを取得可能です。
また、pandas.DataFrameの扱いについては以下をご覧ください。
感染者動向データの解析例
日本国内感染者動向
新型コロナウイルス感染者数マップ – ジャッグジャパン
URL : https://gis.jag-japan.com/covid19jp/
ジャッグジャパンによって提供されている「都道府県別新型コロナウイルス感染者数マップ」です。公式発表されたデータをもとにした信頼性の高い情報が、非常にわかりやすく一ヵ所にまとめられているダッシュボードです。このデータを用いて、例えばMicrosoftの検索エンジン「Bing」の特集枠内にて利用されたり、あるいは各種解析に用いられたりなどの実績もあるようです。
特筆すべきはダッシュボードだけでなく、それの元データもcsvで公開されている点です。さらに、データセットにおけるデータの定義についても丁寧に説明されています。
- データセットについて : https://jag-japan.com/covid19map-readme/
ここでは、このデータをPythonでpandas.DataFrameとして取得する方法を紹介します。
import pandas as pd
df = pd.read_csv('https://dl.dropboxusercontent.com/s/6mztoeb6xf78g5w/COVID-19.csv')
上記のようにcsvファイルのURLをそのまま指定するだけでデータの取得が可能です。なお、ここではcsvファイルのURLを直接用いていますが、システムに組み込む場合はデータ提供元のサーバーへの負荷をかけてしまう恐れもありますし、URLが変更になる可能性もあるので、直リンクは好ましくないです。上記のような使い方はあくまでも個人的な利用に留めてください。
新型コロナウイルス感染状況追跡 – covid19japan
URL : https://covid19japan.com/ (GitHub)
有志のエンジニアによって製作された新型コロナウイルス感染症のダッシュボードです。シンプルにわかりやすく情報がまとまっているのが特徴です。
こちらもGitHubのこちらにデータ本体があります。
新型コロナウイルス国内感染の状況 – 東洋経済
URL : https://toyokeizai.net/sp/visual/tko/covid19/ (GitHub)
東洋経済による新型コロナウイルス感染症のダッシュボードです。ビジュアルにわかりやすくデータがまとめられているのが特徴で、とても有名なサイトの1つです。
こちらもGitHub上で元データも公開されています。こちらにデータとその説明が公開されています。
コメント