平均・中央値・最頻値について解説 - 学んだことを発信するブログ

本日は以前から興味を持っておりました、統計について解説いたします！

　タイトルにある言葉は「統計学」という様々なデータを扱う学問でよく使われています。最近の話題で例えるならば、コロナウイルスの1日の感染者数などがその一例でしょう。しかし、データが如何に膨大な量、羅列されていたとしても、それらはあくまでデータの集合体にすぎず、「で？結局何なの？それって多いの、少ないの？」という疑問が湧いてくるかと思います。そこで、感染者数が多いのか少ないのかなど、そこから何かを読み取りたい場合に、これらの概念が非常に役に立つ訳です。

　では、早速解説していきます。

1. 平均

　全ての個別のデータを合計して、その合計値をデータの個数で割った値。式は以下のようになります。

f:id:wtjamgdp:20200421134612p:plain

　実際にこの式を使ってみましょう。

以下、表1-1(参照:特設サイト新型コロナウイルス　 https://www3.nhk.or.jp/news/special/coronavirus/data/）を用いて、平均値を算出してみます。

表1-1 広島県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200421142556p:plain

　平均＝(0+5+2+2+0+1+3+5+1+5+26+6+3)/13=4.53

となり、計算できました。

　この平均値の特徴は、計算式上全ての要素を用いるため、全てのデータを反映できることが長所でしょう。しかし、表をよく見ると、4/11だけ「26」で2桁以上の数値と他の日と比較しても突出しているように見えます。これを「外れ値」といい、平均値から相対的に大きく離れている値のことを指します。この値によって平均値が上昇し、真値から乖離している可能性があるのです。こうした欠点を補うために、他にもいくつか概念があり、その中に「中央値」というものがあります。

2. 中央値

　これは、ある集団のデータを昇順に並べた時に、丁度中央に位置する値を指します。表1-1を上から下に向かい、数字が大きくなるように並び替えます。

表1-2 広島県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200421153505p:plain

　この時、番号が丁度中央にある値、つまり「3」がこの場合の中央値だと分かりました。ただ、この表をよく見ると、「5」の出現頻度が多いのが気にかかります。実際に

出現する回数は3回とこの集団の中では最多であることが分かります。これを最頻値と言います。この場合はデータ量が少ないため、すぐに最頻値が求められましたが、実際には値を求めるための手順があります。その解説に移りましょう。

3. 最頻値

　まずは、度数分布表という表を作ります。先ほどの表2-2のようにただデータを羅列しただけだと、その性質が分かりにくいです。そこで、感染者の数を一定区間に分けて整理するのです。この区間を階級と言います。今回は感染者数が階級でしょう。そして、各階級に含まれるデータの個数を度数を言います。今回は、その感染者数が何回出てきたかが度数となるでしょう。では、実際に作ってみます。

　表1-3 度数分布表

f:id:wtjamgdp:20200421165432p:plain

　これを見ると、度数の最大値は3であり、この時の階級は5と読み取れるため、

最頻値は5と分かります。今回はデータの量が少ないため、表を目視するだけで最頻値が分かりましたが、データ量が増えてくると、その正攻法は使いにくくなる訳です。

そこで、威力を発揮するのが、ヒストグラムです。

　今回はデータ間の数値の差が小さいため、度数分布表とヒストグラムの階級を細かく区分けすることになり(この時の区間幅を「階級の幅」という)、少し見にくくなりましたが、下のようになります。

f:id:wtjamgdp:20200421170050p:plain

　　　　　　　　　図1-1 ヒストグラム

　これを見ることで、感染者数が5人以上、5.5人以下の時、度数が3で最大であると分かります。

以上、今回の解説を終わります。ご覧頂きありがとうございました。

次回以降もよろしくお願いいたします！