学んだことを発信するブログ

ジャンル問わず、学んだことを発信していきます。その過程で私の提供した情報がどなたかのお役に立てればなお嬉しいです!

平均・中央値・最頻値について解説

本日は以前から興味を持っておりました、統計について解説いたします!

 

 タイトルにある言葉は「統計学」という様々なデータを扱う学問でよく使われています。最近の話題で例えるならば、コロナウイルスの1日の感染者数などがその一例でしょう。しかし、データが如何に膨大な量、羅列されていたとしても、それらはあくまでデータの集合体にすぎず、「で?結局何なの?それって多いの、少ないの?」という疑問が湧いてくるかと思います。そこで、感染者数が多いのか少ないのかなど、そこから何かを読み取りたい場合に、これらの概念が非常に役に立つ訳です。

 

 では、早速解説していきます。

 

1. 平均

 全ての個別のデータを合計して、その合計値をデータの個数で割った値。式は以下のようになります。

f:id:wtjamgdp:20200421134612p:plain

 

 実際にこの式を使ってみましょう。

以下、表1-1(参照:特設サイト 新型コロナウイルス https://www3.nhk.or.jp/news/special/coronavirus/data/)を用いて、平均値を算出してみます。

 

表1-1  広島県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200421142556p:plain

 平均=(0+5+2+2+0+1+3+5+1+5+26+6+3)/13=4.53

となり、計算できました。

 

 この平均値の特徴は、計算式上全ての要素を用いるため、全てのデータを反映できることが長所でしょう。しかし、表をよく見ると、4/11だけ「26」で2桁以上の数値と他の日と比較しても突出しているように見えます。これを「外れ値」といい、平均値から相対的に大きく離れている値のことを指します。この値によって平均値が上昇し、真値から乖離している可能性があるのです。こうした欠点を補うために、他にもいくつか概念があり、その中に「中央値」というものがあります。

 

2. 中央値

 これは、ある集団のデータを昇順に並べた時に、丁度中央に位置する値を指します。表1-1を上から下に向かい、数字が大きくなるように並び替えます。

 

表1-2 広島県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200421153505p:plain

 

 この時、番号が丁度中央にある値、つまり「3」がこの場合の中央値だと分かりました。ただ、この表をよく見ると、「5」の出現頻度が多いのが気にかかります。実際に

出現する回数は3回とこの集団の中では最多であることが分かります。これを最頻値と言います。この場合はデータ量が少ないため、すぐに最頻値が求められましたが、実際には値を求めるための手順があります。その解説に移りましょう。

 

3. 最頻値

 まずは、度数分布表という表を作ります。先ほどの表2-2のようにただデータを羅列しただけだと、その性質が分かりにくいです。そこで、感染者の数を一定区間に分けて整理するのです。この区間を階級と言います。今回は感染者数が階級でしょう。そして、各階級に含まれるデータの個数を度数を言います。今回は、その感染者数が何回出てきたかが度数となるでしょう。では、実際に作ってみます。

 

 表1-3 度数分布表

f:id:wtjamgdp:20200421165432p:plain

 これを見ると、度数の最大値は3であり、この時の階級は5と読み取れるため、

最頻値は5と分かります。今回はデータの量が少ないため、表を目視するだけで最頻値が分かりましたが、データ量が増えてくると、その正攻法は使いにくくなる訳です。

そこで、威力を発揮するのが、ヒストグラムです。

 

 今回はデータ間の数値の差が小さいため、度数分布表とヒストグラムの階級を細かく区分けすることになり(この時の区間幅を「階級の幅」という)、少し見にくくなりましたが、下のようになります。

f:id:wtjamgdp:20200421170050p:plain

         図1-1 ヒストグラム

 これを見ることで、感染者数が5人以上、5.5人以下の時、度数が3で最大であると分かります。

 

 以上、今回の解説を終わります。ご覧頂きありがとうございました。

次回以降もよろしくお願いいたします!