学んだことを発信するブログ

ジャンル問わず、学んだことを発信していきます。その過程で私の提供した情報がどなたかのお役に立てればなお嬉しいです!

統計の基礎知識について解説

さて、今回は、統計について解説していきたいと思います。

 

今回はいつもと違い、デスマス調ではないので、その点申し訳ないです。それでは、始めましょう。

 

   1-1. 平均

 1つのデータ集団において各個別の数値を合計して、その合計値をデータの個数で割った値。式は以下のようになる。

実際にこの式を使用してみる。

以下、表1-1(参照:特設サイト 新型コロナウイルス https://www3.nhk.or.jp/news/special/coronavirus/data/)を用いて、分析を行った。

 

表1-1 広島県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200428155112p:plain

 平均=(0+5+2+2+0+1+3+5+1+5+26+6+3)/13=4.53

となり、計算できた。

もう一つ、比較対象として福岡県のデータを表1-2に提示する。

 

表1-2 福岡県の4月度コロナウイルス感染者数

f:id:wtjamgdp:20200428155325p:plain

平均 = (32+22+19+27+16+14+23+25+26+39+43+30+11)/13=25.15

 

 両者を比較してみる。まず、表1-1を見ると、4/11の感染者数のみ「26」で2桁以上の数値と他の日を比較しても突出しているように見える。これを「外れ値」といい、平均値から相対的に大きく離れている値のことを指す。対して、表1-2では、突出した値はないように見える。このように、平均値は計算式上全ての要素を用いるため、全てのデータを反映できることが長所だといえる。ただし、一部の値によって平均値が上昇し、真値から乖離している可能性がある。こうした欠点を補うために、他にもいくつか概念があり、例えば「分散」という概念がある。

 

  1-2. 分散

 1つのデータ集団において、個別の数値につき平均からの差(これを「偏差」という)をとり、その二乗和をとる。式を以下(2)に示す。これによって平均からのばらつきの程度がわかる。二乗する理由は単に偏差を合計すると、必ず0になるため、データ間を数値の大小で比較することができないためである。さらに、データ集団内の個数(これを標本の大きさ、またはサンプルサイズという)で除算することで、個数による影響を排除する。割り戻さなければ、サンプルサイズに比例して分散値が増えるので、公正な比較ができないからである。さらに、その割る数をサンプルサイズ(n)とするものを標本分散、n-1とするものを標本不偏分散という。さらに、分散とは二乗された値なので比較する上で直感的に分かりにくい。そこで、平方根をとった標準偏差という概念でばらつきを比較することも多い。

 

標本分散

f:id:wtjamgdp:20200428155629p:plain

標本標準偏差

f:id:wtjamgdp:20200428155908p:plain


不偏分散

f:id:wtjamgdp:20200428160228p:plain

不偏標準偏差

f:id:wtjamgdp:20200428160415p:plain

 不偏分散においてn-1で割る理由は、より正確な推定(母集団を推定)すべく、自由度を用いているからである。というのも、分散値を求めるには平均値を推定する必要がある。つまり、分散値を求める前に平均値というパラメータが「1つ」決定したために、自由度が1つ減る。そのため、その分を差し引く必要があるということだ。不偏分散の平方根をとったものを不偏標準偏差と呼ぶ。※ Excelで、(2)(4)を求めるにはそれぞれVARP、VAR関数を用いる。今回はVAR関数を用いて計算を行った。また、(3)(5)を求めるには、それぞれSTDEVP関数、STDEV関数を用いる。今回はSTDEV関数を用いて計算を行った

 

表1-3  広島県と福岡県の比較データ

f:id:wtjamgdp:20200428160555p:plain

 

 不偏標準偏差を比較すると、広島県の方が6.75と福岡県の9.33より小さい値のため、広島県の方がデータのばらつきが小さいことが分かった。

 

   1-3. 中央値

 これは、ある集団のデータを昇順に並べた時に、丁度中央に位置する値を指す。表1-3を上から下に向かい、数字が大きくなるように並び替えたものを表1-4として作成する。

     表1-4   広島県と福岡県の比較データ

f:id:wtjamgdp:20200428160939p:plain

 

 広島県についてのデータを検討する。番号が上から見て丁度中央にある値、つまり「3」がこの場合の中央値だと分かる。ただ、この表をよく見ると、「5」の出現頻度が多いのが気にかかる。実際に出現する回数は3回とこの集団の中では最多であることが分かる。これを「最頻値」という。この場合はデータ量が少ないため、すぐに最頻値が求められたが、実際には値を求めるための手順がある。広島県のデータについて詳細に検討していく。

 

   1-4. 最頻値

 まずは、度数分布表という表を作る。先ほどの表1-4のように単にデータを羅列しただけだと、その性質が分かりにくい。そこで、感染者の数を一定区間(この区間を階級という)に分けて整理する。今回は感染者数が階級である。そして、各階級に含まれるデータの個数を度数という。今回は、その感染者数が何回出てきたかが度数となるだろう。

 

表1-5 度数分布表

f:id:wtjamgdp:20200428162106p:plain

 これを見ると、度数の最大値は3であり、この時の階級は5と読み取れるため、最頻値は5と分かります。今回はデータの量が少ないため、表を目視するだけで最頻値が分かったが、データ量が増えてくると、その正攻法は使いにくくなる。そこで、威力を発揮するのが、ヒストグラムだ。

 今回はデータ間の数値の差が小さいため、度数分布表とヒストグラムの階級を細かく区分けすることになり(この時の区間幅を「階級の幅」という)、少し見にくくなったが、下の図1-1のようになる。

f:id:wtjamgdp:20200428162239p:plain

                           図1-1 ヒストグラム

 これを見ることで、感染者数が5人以上、5.5人以下の時、度数が3で最大であると分かる。

 

   1-5. 共分散

 これまで広島県と福岡県のデータを相互比較してきた。ここでは、広島県と福岡県のデータに相関関係があるか調べる。すなわち、一方はもう一方の減少関数となるか増加関数となるかについてである。手法としては、共分散という概念を用いる。これは式(6)に示すように2つの変数の偏差の積の平均値を計算する。※ (6)もn及びn-1の2パターン存在するようである。

 

f:id:wtjamgdp:20200428162429p:plain

   1-6. 相関係数

 先の式(6)で計算することで、値を算出しその大小を比較することで、相関の強さが分かる。しかし、一般的にはxとyで単位が異なることが多いため、正確に比較するには、それぞれを無次元量に変換する必要がある。そのため、さらに、x,yそれぞれの不偏標準偏差で割り戻す処理を行う。その計算式を(7)に示す。

 

f:id:wtjamgdp:20200428162546p:plain

この(6)(7)を用いて計算した結果を一挙に表1-6に示す。

表1-6  広島県及び福岡県の相関係数

f:id:wtjamgdp:20200428162710p:plain

 相関係数0.63という結果が得られたが、この数字はどの程度の相関の強さを指し示すのかという疑問がある。そこで、相関係数と相関の強さの関連を表1-7に一覧として示す。

 

        表1-7  相関係数一覧表

f:id:wtjamgdp:20200428162817p:plain

 この表を見ると、正の相関があるという段階であることが分かる。ただし、広島県の感染者数が増えたから、福岡県の感染者数が増えたという意味ではないことに注意する必要がある。あくまでも相関関係を示すものであって、因果関係を示すものではない。

 

   1-7. 仮説検定

 先の表1-6のように、広島県と福岡県の標本を比較することで、相関関係は把握できた。しかし、そもそも広島県と福岡県の標本の大元の母集団は”異なっている”のだろうか?一見、違っているようには見えるけれども、誤差の範囲内であるということはないだろうか?こういった差異の有無を調べる場合に用いる検定方法が「仮説検定」である。専門的な定義を述べるならば、「とある仮説に対して、それが正しいのか否かを統計学的に検証する」ことを指す。

 

 今回、両方の標本は異なっているように見える。ということは、今回は「” 異なっていない=同じである”という主張を破棄して、”異なる“という主張を採用する」という命題を証明するのが目的である。この”破棄したい”主張を帰無仮説()、”採用したい”主張を対立仮説()という。これら用語を用いて言い換えると下記の通りとなる。

 

帰無仮説H0広島県と福岡県の4月度感染者数の母平均は同じ

対立仮説H1:広島県と福岡県の4月度感染者数の母平均は異なる

 

 では、どういった基準によって帰無仮説か対立仮説を採用するかを決めるのだろうか?そこで用いるのが、p値と有意水準である。p値とは「帰無仮説が正しいとした時の観測データの実現値が得られる確率」であり、つまりはそのデータが得られるのはどれくらいの確率かという概念である。有意水準とは一般的にαで表され、「帰無仮説を棄却するときの判断基準」を指す。つまり、p値で得られた確率を偶然とみなすかどうかを決める境界線であり、一般的にはα=0.05であることが多い。したがって、α=0.05を基準として、p値がそれを下回れば、帰無仮説を棄却し、反対に上回れば、帰無仮説を棄却できないという判断を下す。具体例を示そう。

 

例)p=0.03と算出されたとすると、帰無仮説が正しいと仮定した時に、その事象が起こる確率は0.03%である。主観的であるが、これほど低い確率ならば、「偶然」その現象が起こるとは考えにくく、帰無仮説は正しくないと言えるのではないか?有意水準で検証するとα=0.05を下回っているため、やはり帰無仮説は正しくないと言える。

 

 帰無仮説を棄却するか否かを図解すると下記の通りとなる。

f:id:wtjamgdp:20200428163300p:plain

                        図1-2  帰無仮説採用

 

f:id:wtjamgdp:20200428163345p:plain

                図1-3  帰無仮説不採用

 

 ここで、注意する必要があるのは、帰無仮説を棄却できなかった場合においては、帰無仮説と対立仮説のどちらが正しいかは分からないという点である。つまり棄却できないということは直ちに対立仮説を採用ということを意味しない。その際には、また別に検証を行うなどといった手続きが必要となる。

 

 また、先の例において、「偶然」その結果が得られるとは考えにくいためという説明を行ったが、あくまでそれは主観的な判断であるため、「0.03%がいかに低確率に思えるからとはいえ、0でない限りはそれが偶然起こる確率も0.03%あるだろう!」と言われれば、実際にその通りなのである。その場合、帰無仮説が正しかったのにも関わらず、を棄却してしまったということなのである。これを「第一種の過誤」という。一方で、が正しかったのにも関わらず、を棄却しないことを「第二種の過誤」という。

 

 率直に言ってしまえば、どれほどデータを集めて、それを元に思い切りよく主張を展開したところで、「第一種の過誤」「第二種の過誤」の存在により、その結論が間違っている可能性は常にあるというどうしようもないようなことが統計では起こり得るということである。

 

 その可能性を念頭に置いた上で、検討を行う。今回、広島県と福岡県の標本はそれぞれの母集団から抽出したと考えて、母集団の平均に統計的に有意な差があるかどうかを検証することで、データの差異があるかどうかを検証できると考えた。母平均に対する推定には、t検定を用いる。T検定に使用する式は複数あり、場合に応じて選択することになる。今回の場合、この2つの標本は同一ではないので、対応がない場合の式を使用する。以下(8)式に示す。

 

f:id:wtjamgdp:20200428163819p:plain

 実際には、この式を用いて手計算を行わずとも、Excelのデータ分析という機能を使用することで分析できるので、今回はその機能を使用した。結果一覧表を表1-8に示す。

        表1-8  t検定分析表

f:id:wtjamgdp:20200428164639p:plain

 

表の中で検定にて確認する箇所を黄色でマークした。確認するとp=1.7213E-06<0.05ということが分かる。したがって、帰無仮説を棄却し、対立仮説を採用する。つまり、「広島県と福岡県の4月度感染者数の母平均は異なる」という主張が導かれた。※しかし、1.7213E-06という確率で「第一種の過誤」である可能性もある。

 

 1-8. 考察

   今回、広島県と福岡県の4月度のコロナウイルス感染者を例に統計学を学んだ。そこで、最後にまとめとして分析結果に対しての個人的な解釈を述べる。先の2-7の仮説検定により、「広島県と福岡県の4月度感染者数の母平均は異なる」という結果が得られた。この要因として、私は以下2つの可能性を提示する。1つはウイルスの特性自体が変化しているためである。つまり、その土地固有の気候、人口密度などのウイルスを取り巻く外部要因によってウイルス自体が適応しているという可能性である。もう1つは人的要因である。具体的には、イベントの開催などによっていわゆる三密と言われる状態となる。それによってクラスター感染が起こっているという見解である。しかし、今回のデータは日本全国を調査したものではなく、量に乏しいため、この2つの見解のうち、どちらが原因なのか、あるいはどちらともが原因であるのか、はたまたそれら以外の要因があるのかという示唆は得られないということは確実に言えるだろう。

 

以上、長文になりましたが、解説を終わります。

また、次回以降もよろしくお願いいたします。