統計用語つづき2


カイ二乗分布

(a)標準正規分布(平均0,分散1)の母集団から大きさ n の標本を抜き取るとしその標本をとする。
 このとき次の式で定められる変数をカイ二乗といい、母集団から繰り返し標本n個を抽出してを求めるとそれはカイ二乗分布という確率分布になる。

(b)カイ二乗変数は連続型確率変数であり、分布の母数は標本の大きさ n 一つである。また n 個の標本データからカイ二乗を求める場合、 n 個を独立に自由に選ぶことができるので自由度は n である。

(c)自由度 n の時、カイ二乗がある一定の値より大となる区間により決まる確率αは統計的仮説検定においては重要な確率である。通常検定で使われる危険率(有意水準)α=0.1 , 0.05 , 0.01に対して各自由度の値が統計表に示されている。この値は仮説を棄却するかどうかの判定の基準値(棄却限界値)になる。

(d)この値はワークシート統計関数CHIINVで求めることができる。 

カイ二乗検定

(a)母集団から採取した標本データから観測される度数分布が理論的な分布に当てはまるかどうかを検定するものである。
 例えば、サイコロを多数回振って出た目の回数が等しいかどうかは一様分布に当てはまるかどうかの検定になる。

(b)観測度数の期待値をで表すとき、次式のは観測数が大きい場合はカイ二乗分布で近似されることが証明されている。

  

 この値は観測度数と理論的な度数(期待値)との食い違いの指標である。

(c)検定の帰無仮説は「観測度数は理論度数に等しい」である。
 標本データから求める統計量は値にする。また、比較される度数の対の数(級数)をk(サイコロの例では6)、標本データから推定した理論的分布の母数の数をmとするとき、自由度φは φ=k−m−1とする。一様分布ではφ=k−1、ポアソン分布ではφ=k−2 正規分布ではφ=k−3 とする。

(d)カイ二乗統計表から検定の危険率(有意水準)α、自由度φにより仮説の棄却限界値を求める。統計量が棄却限界値より大の場合、帰無 仮説を棄却する。即ち、観測度数は理論分布に従っていないと判断する。

(e)ワークシート統計関数CHITESTを参照のこと。   

 F分布

(a)正規分布をする母集団から大きさの標本を採取し、次の式で定められる統計量Fを計算する。母集団から繰り返し標本を抽出してF値を求めるとそれはF分布という確率分布になる。また統計量Fは分散比という。

      

(b)分散比Fは連続型確率変数であり、分布の母数は自由 である。

(c)自由度の種々の組み合わせで、F値がある一定の値より大となる区間により決まる確率αは統計的仮説検定においては重要な確率である。

(d)通常、検定で使われる危険率(有意水準)α=0.1, 0.05, 0.01に対して各自由度の値が統計表に示されている。この値は仮説を棄却するかどうかの判定の基準値(棄却限界値)になる。

(e)この値はワークシート統計関数FINVで求めることができる。  

 F検定

(a)正規分布をする2つの母集団から採取した標本から、2つの母集団の分散が等しいかどうかを検定する。

(b)2つの正規母集団の分散は未知であるが、平均は既知とする。又抽出する標本の数は異なっても良い。

(c)検定の帰無仮説は「2つの母集団X、Yの分散は等しい」である。

 

(d)対立仮説は次の3通りが考えられる。

(e)検定の統計量Fは次式により求める。

 

F値が1より大になるよう、分子、分母を選ぶとよい。 

(f)F統計表から検定の危険率(有意水準)α、自由度により仮説の棄却限界値F(α、φ)を求める。この時、両側検定であれば危険率をα/2とし、片側検定であれば危険率をαとして棄却限界値を求める。 

(g)統計量Fが棄却限界値より大の場合、帰無仮説を棄却する。
 即ち、両側検定の場合は両母集団の分散は等しくないと判断する。また、片側検定の場合はと判断する(ただしF値の分子にした分散をとする)。

(h)この値はワークシート統計関数FTESTで求めることができる。

分散分析(一元配置)

(a)2組もしくは3組以上の標本について、平均値の検定を行う場合はこの分散分析を利用する。

(b)次のような例を考える。
 ある材料の成分を変えて作った4組の試料の強度が次の通りであった。試料間の平均値に差があるかどうかを検定する。

   

本例の試料1〜4の4組の各標本のデータ列を「級」という。級数k=4である。
簡単のため各試料の数 n は等しいとする。本例では n =5である。

(c)検定の帰無仮説は「試料1〜4の強度の平均値は等しい」である。

(d)各試料のバラツキの大きさは「各試料の平均値と標本データの変動 (平方和)」として表すことができる。これを級内変動という。

   

 この値は材料の作成や強度測定の過程で意図せずに生じた標本内の偶発的なバラツキを表すものと考えられる。また、このバラツキは繰り返し実験しても大きな変化は生じないと考えられるので、試料1〜4間に違いがあるかどうかを判定する場合の基準として使える。

(e)試料1〜4の平均値の違いは「全平均と各級の平均値の変動(平方和)」として表すことができる。これを級間変動という。

   

 もし帰無仮説が真でなく、試料間に有意な差があればそれはこの値に反映されるはずである。

(f)ここで、級間変動が級内変動に比べて偶然と考えられる以上に十分大きい場合は、この差は帰無仮説が真ではなく試料ごとに母集団が違うためと考え平均値に差があるとする。
 以上が分散分析の考え方である。 

(g)分散分析は通常次のような「分散分析表」により行われる。

      

(h)検定の棄却限界値は危険率(有意水準)α、自由度k-1, n -kよりF分布表から求める。
 検定統計量Fが棄却限界値より大の場合は帰無仮説を棄却し、平均値に有意差があると判定する。

(i)上記の例は試料という1つの要因について効果の有無を検定した。このような効果要因の配置法を「一元配置」という。

分散分析(二元配置:繰り返しのない場合)

(a)分散分析(一元配置)で分散分析の基本的な考え方を参照のこと。

(b)二元配置の分散分析は効果要因が二種類の場合である。

(c)次のような例について考える。
 ある材料の強度が成分(A)と処理温度(B)によりどう変わるかを実験する。成分(A)は3種、処理温度(B)は4種類選ぶものとする。この場合効果要因(A)は3水準(級の数)、効果要因(B)は4水準(級の数)の分散分析になる。また、効果要因A、Bの各水準の実験データは1個のみで、各水準で繰り返しデータを取らない実験である。       

(d)分散分析は次のように行う。

           

分散分析(二元配置:繰り返しのある場合)

(a)分散分析(一元配置)で分散分析の基本的な考え方を参照のこと。

(b)二元配置の分散分析は効果要因が2つであり、かつ効果要因の各水準のデータを繰り返しとる実験の場合である。この方法によると2つの効果要因単独の効果(主効果という)だけでなく、効果要因の水準の組み合わせによる効果(交互作用という)の有無やその大きさを推測できることもある。

(c)次のような例について考える。
 ある材料の強度が成分(A)と処理温度(B)によりどう変わるかを実験する。成分(A)は3種、処理温度(B)は4種類選ぶものとする。この場合効果要因(A)は3水準(級の数)、効果要因(B)は4水準(級の数)の分散分析になる。効果要因A,Bの各水準のデータを繰り返しとる実験の場合である。

        

(d)分散分析は次のように行う。


戻る

ホームへ戻る