A.確率事象の統計的性質
二項分布 b(x: n, p) において、(pを固定し)試行回数 n を増加させた時、成功回数 x の確率分布は、ある釣鐘型の曲線(正規分布)に近づくことが、極限の観察において確かめられた。ところで、二項乱数の生成で用いたように、成功の確率 p のベルヌーイ試行の結果を 1(成功)、0(失敗) と表現すると、成功回数 x は、各結果 1 or 0 の総和として表現できる。
記号化すると、ui を i 回目(i=1,…,n)のベルヌーイ試行の結果(0 or 1)として
| n | ||
| x = u1 + u2 + … + un = | Σ | ui (ui = 0 or 1, i = 1,…,n) |
| i=1 |
なる関係を持つ。つまり確率変数 x は、確率変数 ui (i=1,…,n) の総和として表わせる。
19世紀末から20世紀初頭にかけて、ベルヌーイ試行の結果 ui
のみでなく、ある弱い条件*さえ満たせば、どんな確率分布を持つ確率変数の和でも、同じ釣鐘型曲線(正規分布)に近づくことが数学的に証明された**。これが中心極限定理(central
limit theorem) である。
______
* 例えば、各確率変数が互いに統計的に独立であり、平均(期待値)と分散が有限な同一分布を持つ場合には、その和は正規分布に近づく(J.
Lindeberg, 1922)。 これは、わかりやすい充分条件であるが、今日では、より抽象化された弱い仮定の下で成立することが知られている。
** 最初に中心極限定理を数学的に証明に示したのは、Lyapunov(1901)であると言われている。
区間 [0,1) の実数型一様乱数 U の n 個の和
X(n) = U1 + U2 + … + Un
の確率分布は、個数 n が増えるにつれて急速に正規分布に近づく。
| 図 5-1 Monte-Carlo実験による[0,1)一様乱数の和の分布 | |
| 2個の和(左)12個の和(右) | |
![]() |
![]() |
とりわけ 12 個の和 X(12) の確率分布は、平均 6, 標準偏差 1 を持つ*。そのため、平均(期待値)である 6 を引いた値**
Z = X(12) - 6 = U1 + U2 + … + U12 - 6
は、中心極限定理によって標準正規分布(平均 0 標準偏差 1 の正規分布)に極めて近い分布を持つ。したがって標準正規分布にしたがう乱数を近似的に生成する、最も簡単な手法として使える***。
____
* 「補) 連続型確率分布と確率密度」で導かれたように、区間[0,1)一様分布の平均は
1/2, 分散は 1/12。その独立な n 個の和 X(n) の分布の平均は n/2, 分散は
n/12 になる。したがって X(12) は平均 12/2 = 6 分散 12/12 = 1。
** あるいは対毎の差を用いて Z = (U1- U2) + (U3- U4) + … + (U11- U12), z∈(-6,6) と定義することも可能。
*** MCS-LIBの「正規乱数」は、正確な正規乱数を生成する方法(Box-Muller法)によって計算される。そのため計算速度が遅くなる。
一般に確率密度が、
| 1 | - z 2 / 2 | |
| φ(z: 0, 1) = | ―――― | e (-∞ < z < ∞) |
| (2 π) 1/2 |
で定義される分布を、標準正規分布(standard normal distribution) という*。
[Excel関数]
標準正規分布の密度 φ は、Excel関数 NormDist(z,0,1,0 または FALSE) によって、また、累積確率 F(a) = P{ z ≦ a } は NormDist(a,0,1,1 または TRUE) または NormsDist(a) によって計算することができる。
____
* φ は、ギリシャ文字"ファイ"の小文字。
歴史的には、二項分布 b(x: n, p) の極限(n→∞)として、正規分布が導かれた(de Moivre-Laplaceの定理)。つまり、
z = (x - np) / [np(1 - p)]1/2
と置くと、z の分布は、n が大きくなるにつれて、φ(z: 0,1) に限りなく近づく。 ところで、二項確率
b(x: n, p) = nCx px (1 - p)n-x
において p=1/2 と置くと、
b(x: n, 1/2) = nCx 2-n
となることから、極限分布の形状を決定しているのは、二項係数 nCx = n! / [x! (n-x)!] に他ならないことがわかる。つまり二項係数の値は、 n および x が大きくなると急速に正規曲線に近づく*。
____
* 証明は数学的にやや複雑であるが、本質的には、二項係数を定義する階乗(
! )が、次のようなスターリング(Stirling)の公式(1730)で漸近的に表わせることによる。
m! 〜 (2π)1/2 m m+1/2 e -m
ここで 〜 は、m が大きくなるにつれて両辺の比が 1 に近づくことを表わす。スターリングの公式は、階乗の対数値が自然数の対数の和になることを利用して、対数関数の積分値との違いを評価したものであり、そこから e や π のような定数が生じる。
Poisson分布 psn(x: λ) は、二項分布から導かれる別なタイプの極限分布であるが、
z = (x - λ) / √λ
と置くと、z の分布は、λが大きくなるにつれて、標準正規分布 φ(z:0,1) に限りなく近づく。
S を 区間 [0,1) の一様乱数の n 個の和とすると、
z = ( S - n/2 ) / (n/12) 1/2
は、n が大きくなるにつれて標準正規分布 φ(z: 0, 1) に限りなく近づく。
標準正規分布の密度 φ(z: 0, 1) を、z の全変域 [-∞, ∞] について積分すると、結果は 1 になる。
確率の合計 =
φ(z:
0, 1) dz = 1
(これを示すには、二変数の変数変換と二重積分とが必要になるため、このテキストでは証明を省略する)
標準正規分布の平均(z の期待値)は、
E[z] =
z
φ(z: 0, 1) dz
と定義される。ここで、zφ(z: 0, 1) の原始関数は -φ(z: 0, 1) であることから、
E[z] = -φ(∞: 0, 1) + φ(-∞: 0, 1) = -0 + 0 = 0
が得られる。
二項分布、ポアソン分布、一様乱数の和の分布と、(極限分布としての)標準正規分布との関係において見たように、各確率変数の分布の原点を、その期待値に移動し、縮尺(分布の広がり)を変更する変換が、しばしば用いられる。これが分布の標準化である。また、標準化において、縮尺変換に用いられる指標は標準偏差と呼ばれる。
例えば、温度の華氏 F から摂氏 C への変換は、式
C = (F - 32) / (9 / 5)
を用いて行われる。これは、華氏の 32 度が摂氏の零度になるように「原点を移動」し、華氏の目盛幅 9/5 度が、摂氏の目盛幅 1 度になるように「縮尺を変換」することを意味している。
一般に、線形変換
z = (x - a) / b (b > 0)
は、変数 x の値 a が、変数 z では 0 となるように「原点移動」し、変数 x の目盛幅 b が変数 z において目盛幅 1 となるように「縮尺変換」を行ったことを表す。
確率変数 x の平均 E[x] を μ、標準偏差を σ とすると、
標準化: z = (x - μ) / σ
によって、確率変数 z の分布は、平均 0、標準偏差 1 になる。
標準化された値を元の単位に戻すには、
一般化: x = σz + μ
を行う。
確率変数 z が標準正規分布にしたがう時、一般化された
x = σz + μ (σ > 0)
は、平均 μ 標準偏差 σ の確率分布を持つ。また、この分布の密度は、
| 1 | - [ (x - μ) / σ ] 2 / 2 | |
| φ(x: μ, σ) = | ----------- | e (-∞ < x < ∞) |
| (2 π) 1/2 σ |
で表わされる*。これを 平均 μ 標準偏差 σ の正規分布という。
[Excel関数]
一般の正規分布の密度は、Excel関数 NormDist(x, μ, σ, FALSE or 0) によって、また、累積確率 P{ x ≦ a } は NormDist(a, μ, σ, TRUE or 1) によって計算できる。
したがって一般の正規分布にしたがう確率変数は、変数の標準化を行うことによって、標準正規分布にしたがう確率変数に変換することができる。
そのため統計書の巻末には、標準正規分布表のみが掲載されている。
______
* 定数部の分母に σ が付くのは、定義:「密度
= (確率/級幅) の極限」より、x の級幅が z の級幅の σ
倍になるため。微分概念では、 dx = σ dz
または dz = (dz/dx) dx = (1/σ) dx を意味する。