統計学復習メモ2: ｔ分布と不偏分散

ｔ分布を、正規分布に従う標本の平均が従う分布である、という感じに捉えて、なんとなく理解した気になると、１つ疑問が湧いた。正規分布に従う複数の値の和はやはり正規分布に従うのではなかったか？それなら、値の和を変数の数で割ったもの、つまり平均もｔ分布でなく正規分布に従うはずではないのか？
x₁,x₂をそれぞれ正規分布N(μ₁,σ₁²),N(μ₂,σ₂²)に従う確率変数とすると、x₁+x₂はN(μ₁+μ₂,σ₁²+σ₂²)に従う、つまり和の平均は平均の和、和の分散も分散の和となる、というのを正規分布の性質の１つとして教えられている。x₁+x₂が正規分布に従うなら(x₁+x₂)/2も正規分布（この場合 $N(\frac{\mu_1+\mu_2}{2},\frac{\sigma_1^2+\sigma_2^2}{4})$ ）に従うはずである。
というか、正規分布N(μ,σ²)に従うn個の標本の平均はN(μ,σ²/n)に従う、つまりn個の平均を取ると分散が1/nになる、という定理を覚えていないと、ｔ分布の式を読むのが難しいと思う。それからしてもやはり標本の平均は正規分布に従うはずである。

そんなことで混乱したのは私だけだろうか？

混乱の原因は、標本平均、標本分散と母平均、毋分散をごっちゃにしたことだった。母平均をμ、毋分散をσ²、標本をx₁...x_n、標本平均をm= $\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$ 、標本分散を $s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$ とすると、mはあくまでN(μ,σ²/n)に従うのであって、N(m,S_n²/n)に従うのではないのである。つまり、μやσが不明な場合はmが従う正規分布も不明なのである。
そこで、mやS_n²からμの範囲を推定するのにｔ分布が出てくる。
（※本エントリーではシステムの都合上、標本平均をmと書いたりxバー（xの上にバー）と書いたりするが、両者は同じものである）

...という感じに混乱を解決するのにも私には結構時間がかかったのだが、その間に私の理解を妨げたものの１つが、不偏分散の概念である。
標本分散が
$s_n^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$
であるのに対して、母平均の区間推定に必要になる不偏分散は
$s_{n-1}^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
と教わる。nで割るかn-1で割るかの違いだけである。なぜn-1で割るのかというと、「自由度がn-1だから」と教わる。そんなのは丸覚えすれば引っかかる必要の無いことであるが、私の脳はそこで「？？？」となり先に進まなくなった。

「推定値の不偏分散の自由度が(n-1)である」理由は、ばらつきの指標の元となる
Σ(x_i-m)²
のmにm=1/n Σx_iという縛りがあるため、mとx₁...x_n-1が決まるとx_nが決まるので、この2乗和がn-1個分しか動かないから、と説明されることが多い。極端な例としては、n=2の時、本当の平均μがわかってれば
Σ(x_i-μ)²
はx₁の分もx₂の分もばらつきに応じて大きくなるのに対して、
$\sum_{i=1}^{n}(x_i-m)^2 = \sum_{i=1}^{n}(x_i-\frac{x_1+x_2}{2})^2$
は計算すると
(x₁-x₂)²/4
となり、標本が2個あるのに、その間の差1個分しかばらつきの値として反映されない。同様の理由により、標本をn個としてもn-1個分しかばらつきの値として加算されないのである。

その説明によって、私は一瞬目から鱗が落ちた気がしたが、まだ納得できなかった。もし標本の数を母集団の大きさと同じにすれば、つまり母集団の全てをサンプルとして拾えば、mが本当の平均になるから、自由度がn-1でも分散は(1/n)Σ(x_n-m)²ではないか？
...ここから先はまだ疑問が解けていないが、おそらく推定値の分散と実際のデータの分散は同じ尺度では測れないということのような予感がする。

ところで、2008/11/16時点の日本語のWikipediaの分散の項に、不偏分散の計算、というのが載っている。曰く、
$\frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2$
が
$= \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2+\frac{1}{n}\frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2$
になるので、
$\frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2= \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$
となるとのことである。これだ！と思って計算を追ってみると、途中の
$\frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2$
$= \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2+\frac{1}{n^2} \{ \sum_{i=1}^{n}(x_i-\mu)^2 +2\sum_{i\neq j}^{n}(x_i-\mu)(x_j-\mu) \}$
までは確認できたが、その次の
$= \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2+\frac{1}{n}\frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2$
はわからなかった。というか、少なくともn=2として展開してみる限り、そうはならない。＝が≒の間違いなのかも知れないが、よくわからない。

結局、私は次のように理解した。上のWikipediaの計算と同じ方針で、 $x_i=(x_i-\bar{x})+\bar{x}$ として両辺の分散を取ると、分散の加法性から
$\sigma^2=Var(X-\bar{x})+\frac{\sigma^2}{n}$
となる。Var(...)の部分は標本分散なので、これを毋分散σ²について解くと、
$\sigma^2 = \frac{n}{n-1}Var(X-\bar{x}) = \frac{n}{n-1}\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$
$= \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$
となる。これが標本から推測される毋分散であり、毋分散と同じ尺度で使える不偏分散ということである。