統計用語

平方和/偏差平方和 確率分布、確率変数他 t検定(その2)
母平均の推定 二項分布 t検定(その3)
不偏分散 ポアソン分布 カイニ乗分布
自由度 超幾何分布 カイニ乗検定
危険率/有意水準 正規分布 F分布
検定 標準化 F検定
共分散 Z検定 分散分析(一元配列)
相関係数 指数分布 分散分析(二元配列:繰り返しのない場合)
順位相関係数 t分布 分散分析(二元配列:繰り返しのある場合
標準誤差 t検定(その1)  


平方和/ 偏差平方和

(a)標本のばらつきの大きさを表す一つの指標である。標本データから各種の統計量を計算する場合の基礎的な値である。

  

 は標本データ、は標本平均である。

(b)ワークシート統計関数DEVSQにより求めることができる。

 

母平均の推定

母集団から採取した標本データから、母集団の平均を推定する。推定はその推定の正しさの確率(信頼度)を設けて、上、下限値による区間(信頼区間)を示すことにより行う。

(a)母集団の分散が既知の場合
 標準正規分布の性質を利用して信頼度95%の区間推定値μは次のように求められる。

  

 は母集団の分散、nはデータ数である。信頼度99%の場合は定数
 1.96は2.58に変わる。ワークシート統計関数CONFIDENCEにより求めることができる。

(b)母集団の分散が未知の場合 
 統計量tが自由度n-1のt分布に従うことを利用して信頼度1-αの区間推定値μは次のように求められる。 

 は標本分散、は危険率α、自由度n-1より求まるt分布表の値である。

(c)これは母集団が正規分布であることを前提にした方法であるが、t分布は正規分布の条件に対して頑丈であるため、母集団が正規分布でなくても近似的に本方法を利用できる。
 一様分布、三角分布のような正規分布でない母集団からでも繰り返し標本を採取して
平均値をとると、平均値の分布は正規分布に近似できる性質がある。このことを「正規分布の条件に対して頑丈」という。

(d)以上は小標本の場合であるが、大標本の場合は標本分散を利用して(a)と同様に求めることができる。

不偏分散

(a)標本データから大きい方にも小さい方にも偏らないように求めた母集団の分散の推定値である。次式により求める。

  

 Sは平方和、φは自由度、は標本データ、は標本平均、nはデータ数である。

(b)ワークシート統計関数VARにより求めることができる。  

自由度

 母集団から理想的に標本を採取した場合、母集団の平均(母平均)と標本平均は等しくなるはずである。
 標本平均が母平均と等しくなるようにn個の標本を採取しようとする場合、n-1個の標本は自由に抜き取ることができるがn個目の標本は制約を受け自由に抜き取ることはできない。このn-1を自由度という。
 ただし、自由度は常にn-1であるとは限らず注意が必要である。
 この自由度という概念があるため各種の統計表を汎用的に作成する事が可能になっている。

危険率/有意水準

 統計的仮説検定(検定)において帰無仮説を棄却するかどうかを決定する基準となる確率である。検定の事象が滅多に発生しないと考えられる非常に小さな確率が採用される。有意水準ともいう。
 普通、危険率として5%が採用されることが多いが、検定の事象の発生確率が5%以下で小さいとして仮説を棄却することにすると、仮説が正しいのに捨ててしまう危険性が5%はあるということになる。このために、この仮説の棄却基準の確率を危険率という。
 危険率として普通5%、1%又は10%が使われるが、危険率を何%にするかは検定の誤りを犯した場合の損害の重大さにより決めるべきものであり、また検定を計画する時点で決定すべきものである。

検定

 検定しようとする事象に対する仮説を立てる。この仮説が正しいとした場合の発生確率を実験データをとり適当な統計分布にもとずく統計量を利用して求める。
 この発生確率が滅多に起きない確率かどうかをあらかじめ定めておいた非常に小さな確率(危険率)と比較して判断する。実験データから求めた発生確率が危険率より小さい場合は、実験結果は滅多に起きないことが発生したのであると判断して仮説を棄却する。
 このような手順による事象の真偽の判定方法を統計的仮説検定という。
 検定に先立ち立てる仮説は棄却することを前提にしているので帰無仮説という。
 また、仮説が棄却された場合に採用される仮説は対立仮説といい、通常は対立仮説を証明するのが検定の目的である。   

 共分散

(a)二つの変量x、yの関係の強さを示す指標の一つである。
 共分散は次式で求める。

  

 共分散はデータの単位の影響を受けるので値の大きさで単純に比較はできない。

(b)ワークシート統計関数COVARにより求めることができる。

相関係数

(a)二つの変量x、yの関係の強さを示す指標の一つである。
(b)相関係数は次式で求める。

  は共分散、は標準偏差である。 
(c)の値を取る。Rの絶対値が1に近いほど相関が強いと判断する。しかし相関係数の値のみでは相関係数が有意かどうかは判断できない。

(d)相関係数の検定は次のように統計量tが自由度2のt分布に従うことを利用する。
 ・検定の帰無仮説は「母集団の相関(相関はない)」とする。
 ・統計量tをもとめる  

   

   nはデータ数である。
 ・設定した危険率αと自由度φ=n-2からt分布表より棄却限界値を求める。ワークシート統計関数TINVにより求めることができる。 
 ・統計量tが棄却限界値より大の時は仮説を棄却し、相関係数は有意であると判断する。 

(e)ワークシート統計関数CORREL/PEARSONにより求めることができる。 

順位相関係数

(a)2変数x、yの相関の強さを示す指標としてデータの値による順位を利用して定める相関係数である。
(b)この相関係数はスピアマンの順位相関係数と呼ばれており、次式により求められる。

  

  nはデータ数、はデータの順位数値である。
(c)この相関係数はデータに極端に大きい(小さい)外れ値を含む場合に有効なことがある。 

 標準誤差

(a)標本データから求められた統計量の標準偏差をいう。母集団から繰り返し標本を採取してある統計量を求めると標本採取の都度その統計量は偏りを持つ。標準誤差はこの時の偏りの指標であり、統計量の精度を表す。

(b)母平均推定値の標準誤差

 

 は不偏分散の平方根、nは標本データ数  
(c)回帰残差の標本誤差

   

 nは標本データ数、pは独立変数の数、Yは従属変数の観測値、は回帰予測値を表す。

(d)回帰係数の標本誤差    

確率分布、確率変数、確率密度関数、分布関数

(a)次のような硬貨投げの例を考える。10枚の硬貨を投げて表がでる確率P(x)は次のようになる。xは表がでる回数とする。

x

0

1

2

3

4

5

6

・・・・・・
10  
P(x) 0.001 0.010 0.117 0.205 0.246 0.205 0.117 ・・・・・・ 0.001 計1.0

(b)このように変数xの各々の値に対して一定の確率P(x)が定まるとき、変数xを「確率変数」という。

(c)また確率変数xに対する確率を決める関数P(x)を「確率分布」という。上記の例では確率分布は次のような二項分布である。

   

(d)確率変数は上記例のような「離散型確率変数」と実数値を取る「連続型確率 変数」がある。

(e)連続型確率変数の確率分布の場合は特定の確率変数値に対して一つの確率は 決まらない。変数xに一定の幅を与えると確率が定まる。変数xが区間(a,b)の値を取る確率は次のように表される。

 この時P(x)を「確率密度関数(または確率密度)」といい、通常で表す。代表例は正規分布である。(f)変数がある値を超えない確率は次のように求められる。 

  

 このように確率変数がある値を超えない確率を求める関数を「分布関数(または累積分布関数)」という。 

 

二項分布

(a)観測の結果が合格か不合格か、成功か不成功かのように二つに一つであり、その発生確率が一定の事象がある。
 そしてその観察を繰り返して行う場合の事象出現の確率分布が二項分布である。

(b)例−ある量産製品の不良率が0.015で一定である製造工程で、10個の抜き取り検査をしている。10個の検査で不良品が0、1、2、3個発生する確率は次の通りである。この場合、3個以上不良品が含まれる確率はほとんどないことを示している。   

不良品数

0

1

2

3
 
発生確率 0.860 0.131 0.009 0.000 計1.0


(c)確率分布P(x)は次のように表される。

 

 確率変数は離散型確率変数であり、確率分布の母数は観測結果の出現確率p、及び観測回数nである。 

(d)二項分布は無限母集団を対象にしているのに対し、類似の確率分布である超幾何分布は有限母集団を対象にしている。

(e)ワークシート統計関数BINOMDIST/CRTIBINOMにより求めることができる。  

ポアソン分布

(a)ある事象の発生確率が小さい場合の、その事象の出現回数の確率分布である。

(b)例−ある町の1年当たりの交通事故の死亡者は平均6人とする。一ヶ月の死亡者が 0、1、2、3、4人である確率は次の通りである。

月当たり死亡者x

0

1

2

3

4
 
死亡者x人の確率 0.607 0.303 0.076 0.013 0.002 計1.0
(死亡者x人の月数 7.3 3.6 0.9 0.2 0.0 計1.2月)

(c)確率分布P(x)は次のように表される。

   

 確率変数は離散型確率変数であり、確率分布の母数は事象のある期間の出現回数の平均mのみである。 

(b)の例ではm=6/12=0.5である。

(d)ワークシート統計関数POISSONにより求めることができる。  

超幾何分布

(a)有限母集団N個中にD個の不良品が含まれている。この中からn個のサンプルを採き取った(抽出)場合の、n個中に含まれる不良品の数xの確率分布である。

(b)確率分布P(x)は次の通り。

  

 確率変数xは離散型確率変数である。確率分布の母数は母集団のサイズN、母集団に含まれる不良品(上記の例では)の個数D、及び抽出する標本のサイズnである。

(c)超幾何分布は一度採取した標本は母集団に戻さない(非復元抽出)ことを前提にしている。

(d)類似の分布である二項分布は無限母集団を対象にした確率分布である。

(e)ワークシート統計関数HYPGEOMDISTにより求めることができる。  


次へ

ホームへ戻る