平均・中央値・最頻値について解説
本日は以前から興味を持っておりました、統計について解説いたします!
タイトルにある言葉は「統計学」という様々なデータを扱う学問でよく使われています。最近の話題で例えるならば、コロナウイルスの1日の感染者数などがその一例でしょう。しかし、データが如何に膨大な量、羅列されていたとしても、それらはあくまでデータの集合体にすぎず、「で?結局何なの?それって多いの、少ないの?」という疑問が湧いてくるかと思います。そこで、感染者数が多いのか少ないのかなど、そこから何かを読み取りたい場合に、これらの概念が非常に役に立つ訳です。
では、早速解説していきます。
1. 平均
全ての個別のデータを合計して、その合計値をデータの個数で割った値。式は以下のようになります。
実際にこの式を使ってみましょう。
以下、表1-1(参照:特設サイト 新型コロナウイルス https://www3.nhk.or.jp/news/special/coronavirus/data/)を用いて、平均値を算出してみます。
平均=(0+5+2+2+0+1+3+5+1+5+26+6+3)/13=4.53
となり、計算できました。
この平均値の特徴は、計算式上全ての要素を用いるため、全てのデータを反映できることが長所でしょう。しかし、表をよく見ると、4/11だけ「26」で2桁以上の数値と他の日と比較しても突出しているように見えます。これを「外れ値」といい、平均値から相対的に大きく離れている値のことを指します。この値によって平均値が上昇し、真値から乖離している可能性があるのです。こうした欠点を補うために、他にもいくつか概念があり、その中に「中央値」というものがあります。
2. 中央値
これは、ある集団のデータを昇順に並べた時に、丁度中央に位置する値を指します。表1-1を上から下に向かい、数字が大きくなるように並び替えます。
この時、番号が丁度中央にある値、つまり「3」がこの場合の中央値だと分かりました。ただ、この表をよく見ると、「5」の出現頻度が多いのが気にかかります。実際に
出現する回数は3回とこの集団の中では最多であることが分かります。これを最頻値と言います。この場合はデータ量が少ないため、すぐに最頻値が求められましたが、実際には値を求めるための手順があります。その解説に移りましょう。
3. 最頻値
まずは、度数分布表という表を作ります。先ほどの表2-2のようにただデータを羅列しただけだと、その性質が分かりにくいです。そこで、感染者の数を一定区間に分けて整理するのです。この区間を階級と言います。今回は感染者数が階級でしょう。そして、各階級に含まれるデータの個数を度数を言います。今回は、その感染者数が何回出てきたかが度数となるでしょう。では、実際に作ってみます。
表1-3 度数分布表
これを見ると、度数の最大値は3であり、この時の階級は5と読み取れるため、
最頻値は5と分かります。今回はデータの量が少ないため、表を目視するだけで最頻値が分かりましたが、データ量が増えてくると、その正攻法は使いにくくなる訳です。
そこで、威力を発揮するのが、ヒストグラムです。
今回はデータ間の数値の差が小さいため、度数分布表とヒストグラムの階級を細かく区分けすることになり(この時の区間幅を「階級の幅」という)、少し見にくくなりましたが、下のようになります。
図1-1 ヒストグラム
これを見ることで、感染者数が5人以上、5.5人以下の時、度数が3で最大であると分かります。
以上、今回の解説を終わります。ご覧頂きありがとうございました。
次回以降もよろしくお願いいたします!