LWのサイゼリヤ

ミラノ風ドリア300円

21/7/23 竹村彰通『新装改訂版 現代数理統計学』の感想

竹村彰通『新装改訂版 現代数理統計学

7月はずっと竹村彰通『新装改訂版 現代数理統計学』を読んでいた。30年前くらいに初版が出された名著だが、ちょうど半年前に元の出版社が潰れたついでか何かで新装改訂版が登場したらしい。

別に試験があるわけではないし仕事で使うわけでもないし資格を取るわけでもないのだが、映画やアニメを見たい気分と同じでたまたま数学がやりたい気分だったので、手頃なコンテンツとして統計学を消費していた。

f:id:saize_lw:20210723200244j:plain

全部で14章まであるのだが、体系的な説明は9章でひと段落してそれ以降は補足的な各論が続くようなので、とりあえず9章まで終えた。
何事もインプットしたらアウトプットしておくのが一番定着が早いため、各章ごとの感想を書いたやつを載せておく。あくまでも俺の現時点での理解と関心に基づいた感想の整理であり、この書籍の要約ではないし正しさも保証しないので統計学を学びたい人は参考にしないように注意せよ。

1.記述統計の復習

確率変数ではなく実際のデータ群に対する平均や分散等の定義はこの一章だけで適当に済ませて終わる。さすがに全部知っているので略。
しかしこの、記述統計とかいうなまじわかりやすくて小学生でも扱えるものがあるから却って数理統計学がわかりにくくなっているような気もする。例えば「平均」概念を一つ取ってみても、記述統計におけるそれと数理統計におけるそれは結構違う。というのも、平均を求める演算の入出力に注目したとき、どちらも出力は単一のスカラー値だというのに、前者は通常複数の変数を入力とするのに対して、後者は通常一つの確率変数を入力とするという違いがある。このギャップは「確率変数が複数のデータ値を確率も込みでまとめたような概念だから」という理解で大雑把に埋められないことも無いが、変数と確率変数というクラスの違いの重大さはのちのち思い知ることになる。

 

2.一次元の確率関数

新クラスとしての確率変数

まず確率変数があった。そういうことにしておきたい。

というのも、統計学における基礎概念としての確率変数をどう捉えるかについては、測度論という禁断の果実を食すかどうかで二つの道に分かれるように思われる。一つは正しく測度論を咀嚼することによって確率変数を「特殊な集合を用いて定義される写像」と捉える道、もう一つは測度論を見なかったことにして確率変数を「確率を伴う特殊なクラスの変数」と捉える道である。
さしあたって俺は後者の道を進むことにする。つまり、俺は確率変数のことを「変数概念の全く新しい派生クラス」と見做す。そうする理由は単にこの本ではそうしているからというだけだ。何も確率変数という新概念を語るのはその厳密な定義だけではない。それに対する演算を把握するなり、他のよく知られた概念との関係を調べるなり、やれることはいくらでもある。

このスタンスで行く場合、通常の変数を「定義域の上を動く値」とするならば、確率変数は「確率を伴って定義域の上を動く値」という理解になる。蛞蝓に殻がくっ付いて蝸牛になるのと同じように、変数に余計なオプションが加わった亜種だ。
この殻によって生じる顕著な扱いの違いとして、割と頻繁に定数と同一視される変数とは異なり、確率変数においては可能な値を定数として取り出したものは実現値として厳密に区別しなければならないことがある。確率変数のアイデンティティは各値に確率という余計な肩書が乗っていることにあるため、その重みを取り去って無造作に各値を取り出すと失うものが大きいのだ。これにより、分布関数や密度関数の引数が確率変数ではなく実現値であることが了解できる。

補足385:ただし、順序統計量や尤度関数や標本空間の議論では確率変数が実現値と同一視されていることもあり、そのあたりは柔軟に対応しなければならない。

補足386:ところでX~Fなどと書くときのFは密度関数ではなく分布関数の意であることは初めて知った。密度関数と違って分布関数は離散の場合も連続の場合も統一的に扱えるため、より基礎的な表記方法であるらしい。

クラス変換としての期待値演算

確率関数を全き異物の新クラスと見做してみると、E[X]という期待値概念の重要性が見えてくる。というのも、Eは確率変数を受け取って通常の変数を返すからだ。つまり期待値演算とは実現値をピックする以外の方法でクラスを変換する機構であり、これを介して初めて確率変数と通常の変数が式の中で接触できるようになる(文脈によっては直接接触していることもあるが)。よって確率変数がスカラー値を返す指標は、平均も分散もモーメントも期待値という加工装置を介しての定義となる。期待値演算は確率変数という珍妙な新クラスを扱いやすい見慣れた形に変更する包括的な操作であって、その利用例に平均や分散があると考えた方がわかりやすい。

そして、母関数は期待値演算の中でも特に可逆性という特殊な性質を持つ変異種である。一般に期待値演算に逆演算は定義されておらず、平均や分散から確率変数を復元することはできない。しかし母関数に限っては、逆転公式を用いることで確率変数を復元でき、これにより確率変数と母関数は一対一対応を持つのだという。母関数もまた期待値演算によって定義されるものであるから確率変数という新規で奇妙なものを含まないにも関わらず、任意の確率変数と完全に対応している。数学は苦手なので深入りはできないが、微積分を多項方程式に変換するラプラス変換と似たような形をしているのも、恐らく母関数がクラス変換と解釈できることと何らかの関係があるのだろう。

 

3.多次元の確率変数

確率変数が全く新奇なエーリアンであるという立場を取るならば、今度はそれらが複数登場した場合にどう考えればよいのかが問題になってくる。
この発展は物理学の教育過程に似ている。慣性の法則に従ってボールが一つ転がる系を考えたあとは、ボールが二つ登場して作用反作用の法則に従って衝突する系を考えるのが自然な流れだ。

確率変数同士の抽出・縁・生成・関係

しかし実際には世界にボールは無限にあって、むしろ無限個の相互作用こそが標準状態であり、一つだけ取り出した系の方こそが極端に簡略化された異常事態なのだ。よって、確率変数についても最初にやるべき仕事は、無限の成分が連なる確率ベクトルからいくつかの確率変数を抽出する削減方法だろう。この方法には2パターンあり、条件付き分布では関心外の世界全てをある値に固定して切り出し、周辺分布では関心外の全てを全平行世界を同時に観測して圧縮する。

世界から確率変数をいくつか抽出したあとは、そもそも彼らに何かしらの縁があるかどうかをジャッジする必要がある。リオデジャネイロで30km/hで転がるボールと東京で50km/hで転がるボールを実験対象に選んだとして、まずそれらの間に相互作用を想定すべきかどうかを確認するのは自然なことのように思われる。世界から取り出した確率変数同士に縁があるかどうかを判定するのが独立性の検証であることは言うまでもない。

有限少数の確率変数を入手した上で縁の有無を確認したあとは、複数の確率変数を足したり引いたりして別の確率変数を生成してみよう。それが変数変換とヤコビアンについての話である。
我々のスタンスからするとここで驚くべきは、変数変換は入出力共に確率変数である操作だということだ。一般の関数が普通の変数を入力して普通の変数を出力していたのに対して、期待値演算は確率変数を入力して普通の変数を出力していた。ここに来て遂に確率変数を入れて確率変数が出てくる演算が出現したのである。謎の新クラスが遂にそれ自体の中で閉じた演算を可能とした。
そして実際、通常の足し算のような表記は彼らのアイデンティティであるところの確率分布に対しては及んでおらず(Z=X+Yだからといってf(z)=f(x)+f(y)とはならない)、ヤコビアンを用いた特殊な計算を行うあたりに新クラスについて定義された特殊な新演算という趣があるわけだ。なお、再生性を持つ一部の分布についてはヤコビアン逆行列の計算をすっ飛ばして加算時の分布を導出できる。

そして最後にようやく関係の話が出てくる。つまり共分散であり、共分散はここでも確率変数を通常の変数に変える期待値演算によって定義されている。一次元のときは分散はせいぜい平均の次に注目される二次的な指標程度のものだったが、多次元になった途端に共分散が二つの確率変数の仲の良さを表す指標としていきなり濃厚に関係を記述する興味深い概念になる。この多次元になると優先度が逆転する感じはかなり詐欺臭く、共分散は何か定義でセコいことをしているような気がするのだが、残念ながら犯罪の証拠を掴むことはできなかった。

 

4.統計量と標本分布

統計量とは確率変数の関数であるが、この概念自体は前章で確率変数同士の演算を定義した時点で既に予告されている。統計量もまた確率変数なので分布を考えることができるのだが、それはヤコビアンか再生性を用いて導出できるというのも既出だ。
概念的には新しくないのに各論じみた分布ばかりが複数登場してかなり萎えてくる。証明というか導出が汚くてやる気が出ない。分散はカイ二乗分布、標本平均はt分布、分散の一致判定はF分布ということを覚えるだけで限界に近い。非心分布論に至っては、アドホックな密度関数が場当たり的に並ぶだけで何に使うのか全くわからなかった。それでも極限定理に関してはもう少しだけ興味深いものがあり、確率変数も構成要素の個数に応じて各要素が定義される点列のように扱えば無限に飛ばしたとき収束したりしなかったりするのは変数らしい表情を見せてくれる。

その一方、オマケのように統計量の一つとして紹介されている順序統計量は変則的でかなり面白い。「m個の実現値を並び替えたときn番目に大きい値」は当然何らかの分布を持つ確率変数であり、分布を考えることができるらしい。科学実験とかいう馴染みのない営みでは平均や分散とかいう地味で刺激に欠ける指標にしか関心がないのに対して、ギャンブルやゲームのような馴染み深く実戦的な現場においては複数回試行したうちでの最大値や二番目に大きい値が気になることも多いだろう。男なら順序統計量で戦え。

 

5.統計的決定理論

前章までで確率変数という概念自体について理解するフェイズが終わり、ここから実際にそれを用いて統計的な決定を行う理論の話が始まる。とはいえ、その決定を表す決定関数δは確率変数であるから、これもまた確率変数を扱う営みのバリエーションに過ぎないことには常に留意しておきたい。決定関数を用いた統計的推定の問題設定には「点推定」と「検定」の二種類があり、それぞれはかなり異なる展開を辿るせいで例示が混乱しているものの、問題の枠組みはもちろん統一的に扱うことができる。

決定関数をリスク関数で評価する

決定関数の評価基準とは、その決定によって統計家にもたらされる損失の大きさに他ならない。
まず最も素朴な損失関数Lはパラメタと決定関数を引数にとって見比べることで損失を返すが、このときパラメタは通常の変数、決定関数は確率変数というギャップには注意しなければならない(パラメタが確率変数であるのはベイズ推定に限る)。
決定関数の評価値の決定版になるのは、損失関数の期待値であるリスク関数Rだ。しかし、ここで言う期待値とはあくまでも決定関数に対して取るものであってパラメタに対しては作用しない。パラメタは確率変数に対して定義されている期待値の適用対象ではないため、リスク関数の中にそのまま残ってしまう。

リスク関数の中にパラメタがそのまま残ることにより、「パラメタによってリスクがまちまちである」という事態が生じる。もしこのパラメタならこの決定関数が優れるがあのパラメタならあの決定関数が優れるという一貫性に欠ける状況に対し、統一的な評価基準は存在しない。しかし選択肢としては最大リスクを最小にする保守的なミニマックス基準や、(θを確率変数とみなすことで)平均リスクを算出するベイズ基準があるほか、パラメタが張る空間に決定関数ごとにリスクを打点することでリスクセットを可視化する手法もある。
非常に穏当な決定関数の評価指標の一つとして、許容性の概念がある。大雑把に言えば、どのパラメタについてもそれよりも良い完全上位互換の決定関数が存在しない場合は許容的と呼ばれるのだが、非許容的な決定関数があまりにも雑魚すぎるだけで、許容的だからと言って強いわけではない。

 

6.十分統計量

4章ではいくつかの代表的な統計量が従う分布を天下り的に調べることしかやっていないが、ゴール地点として統計的決定理論を提示した今、統計量の持つ一般的性質が統計的決定理論にどのように寄与するかを考えても良い頃だ。
統計的決定理論が確率変数が従う分布のパラメタについて決定を行う営みであったことを思い出せば、分布のパラメタについての情報を持つ統計量が有益であることは予想が付く。実際、引数の確率変数から分布のパラメタに関する情報だけ濃縮還元して抽出した統計量を十分統計量と呼ぶ。

定義としては、統計量Tを与えたときのXの条件付き分布がパラメタに依存しないときTを十分統計量と呼ぶ。つまり既にTを知ってしまっているならば、それ以上Xを見たところでもはやパラメタに関して判明する情報がないのだ。分解定理はこれの直接的な表現であり、Xのうちでパラメタに関する項をTの関数項だけが所有していることを示す。
ここで改めて、十分統計量はそれ単独を見ていて何かがわかるものではないことに注意しておきたい。あくまでも元の確率変数の分布に関心があり、その限りにおいて必要なパラメタを圧縮抽出した姿が十分統計量なのである。よって、十分統計量を目撃したときには元の確率変数に思いを馳せ、一体どのようなパラメタがその十分統計量に込められているのかを思い出さなければならない。

十分統計量の決定関数への寄与

さて、十分性はそれだけでは統計量の持つ性質の一つに過ぎないから、統計的決定理論に照らして有用さを主張するには、その目的であるところの決定関数に対して何らかの貢献をすることを確認しなければならない。十分統計量がパラメタに関する情報を全て持っているならば、パラメタに関して決定を行うところの決定関数においてTを引数に取れば何か嬉しいことが起こるに違いないのだ。
実際、平均二乗誤差をリスク関数とする点推定では、十分統計量を用いて一般の決定関数をただちに改修できる。適当な決定関数δ(X)があるとき、この決定関数を十分統計量Tの条件付き分布として期待値を取ったものを新しい決定関数δ*(T)とすれば、δ*(T)のリスクはδ(X)のリスクはより小さくなる。これをラオ・ブラックウェルの定理とか言うらしい。
直観的には当たり前のことで、δ*(T)は十分統計量というパラメタに関する全ての情報を持っている確率変数をまず参照した上で生じるバリエーションについて期待値を取っているのに対して、δ(X)は整理されていないバリエーションの全てについて無秩序に期待値を取っているため、精度が落ちるのもやむを得まい。ラオ・ブラックウェルの定理が主張しているのは、「必要な情報をまとめてチェックしてから調べた方が精度が高い」ということだ。

決定関数に良い性質をもたらす完備性

最後に、統計量が持ち得る性質として完備性が紹介される。ある統計量の関数に対して期待値が0になるならばその関数は定数0に限るという性質らしいが、統計量ではなく任意の関数が噛んでいるために何を言っているのか若干わかりにくい。これは後の章でわかることだが、ここで言う統計量の関数とは決定関数を表す用途で使われることが多いようだ(決定関数は十分統計量を引数にすると良いということはさっき確認した)。
では完備性はどのように保証されるのかと言うと、地道に定義通りに調べてみるのも一つの手だが、一般には指数型分布族とかいうものに属する分布であれば、運悪く極端に悪い性質でも持っていない限りは十分統計量が完備であることが従うらしい。指数型分布族とは指数の肩に統計量の加重和が乗っているような形で表せる密度関数のことで(実際にはここに「パラメタを含まないあまりの項」と「基準化定数」がおまけでくっつく)、何故これが完備になるのかはあまりピンと来ないが、そういうものだということでとりあえずは納得しておく。

 

7.点推定論

5章で一般的な枠組みを定めた統計的推定のバリエーションとして、パラメタそのものを推定しようと試みる点推定がある。点推定における決定関数はパラメタの推定量、リスクは平均二乗誤差を用いて与えられる。

期待値が一致する上にバラツキが少ないUMVU

では決定関数はどんなものが望ましいのかと言うと、点推定の場合は一様最小分散普遍推定量(UMVU)という基準がある。これは任意のパラメタに対して推定量の平均が真のパラメタに一致しかつ分散が最も小さいことを示し、直感的には問題なさそうなことを納得できる。ちなみにこれは4章で論じた「平均二乗誤差で定めたリスク関数を最小にする」という第一の要求に更に加えて、「バイアスが0である」という要求を加えたものに等しい。
次の問題は推定量がUMVUであることをどう示すかだ。平均が真のパラメタに一致することは式変形で割と容易に示せるが、分散が最小であることはそうもいかない。その証明には二つの方法があり、一つはフィッシャー情報量に基づくクラメル・ラオの不等式、もう一つは完備十分統計量を用いる方法である。

フィッシャー情報量による下限設定

唐突に現れた新概念である「フィッシャー情報量」には何通りかの表現パターンが与えられているが、個人的には「対数尤度のパラメタ微分の分散」という定義が最もわかりやすいように思われる。
この定義には三つの概念が連鎖しているので一つずつ見ていくと、まず「対数尤度」は単に尤度のスケールを変えたものであるからほぼ尤度のような意味として良いだろう。次に「対数尤度のパラメタ微分」はパラメタの変化に対する尤度の変化、すなわちパラメタの影響力に等しい。

ここで「対数尤度のパラメタ微分の平均」が0であることは顕著な性質だ。確率変数の全範囲でパラメタの影響力を考えると、全体としては完全なフラットにならされてしまうことを意味する。これは元々の密度関数の全範囲積分が1であることに由来しており、パラメタがどれだけ頑張ったところで密度関数に及ぼせる影響の全体はこの1という大枠でがっしり抑えられてしまっている。
よって、フィッシャー情報量すなわち「対数尤度のパラメタ微分の分散」は「対数尤度のパラメタ微分の平均」が0であることを前提として、その中央周りの散らばり度合いに相当する。すなわちフィッシャー情報量が大きければパラメタは影響力の振れ幅が大きく、小さければ影響力の振れ幅が小さい。フィッシャー情報量が大きいときはパラメタは気分屋の荒れたドラマー、フィッシャー情報量が小さいときはパラメタは保守的な奏法のギタリストというイメージになる(ただしどちらもパフォーマンスを平均するとゼロになるカスのアーティストだ)。

以上を踏まえるならば、「推定量の分散はフィッシャー情報量の逆数で下から抑えられる」というクラメル・ラオの不等式にもイメージが持てないこともない。まずフィッシャー情報量が比較的大きいとき、不偏推定量の分散は比較的小さくできる。パラメタの影響力の振れ幅が大きいためにパラメタが発見しやすいからだ。逆にフィッシャー情報量が比較的小さいとき、不偏推定量の分散は比較的大きくなってしまう。パラメタの影響力の振れ幅が小さいためにパラメタが発見しにくいからだ。よって、クラメル・ラオの不等式が主張しているのは、「目立つやつは見つけやすいが地味なやつは見つけにくい」ということだと解釈できる。アイドル発掘みたいなことか。

完備十分統計量によるパーフェクト改修

まず、前章で出てきたラオ・ブラックウェルの定理を用いて不偏推定量を改善していく営みについて考えたい。ラオ・ブラックウェルの定理はパラメタに関する情報を全て持っている十分統計量Tを条件とした期待値を取ることで決定関数のリスクを小さくしていけることを主張していた。つまり、決定関数は十分統計量を用いて随時改善することができる。
特にこのときに用いるTが完備十分統計量である場合、ただちにUMVUが得られてワンキルになるという。これを理解するにはどんな不偏推定量も完備十分統計量の条件付き期待値を求めれば同じ決定関数になってしまうことを示せばよく、それは完備性の定義からただちにわかる。完備十分統計量で改修した二つの決定関数の差の期待値を取れば、それはTの関数かつ期待値0、よって完備性の定義から常に0、すなわち改修後の決定関数は一致する。
ちなみに完備十分統計量による方法は原理的にはクラメル・ラオの不等式による方法の完全上位互換らしい。じゃあモブの話は書くなよという気もするが、まあ、現実的にはそちらの方が楽に説明できるパターンがあってぼちぼち使うこともあるみたいな感じなのだろう。

代替案としての最尤推定

さて、ここまでUMVUを信じてやってきていたのにいきなりちゃぶ台を返され、実はUMVUはそんなに信用できる指標でもないという話が唐突に出てくる。母数の変換を受け付けないため取り回しが悪いとか、どう考えても不合理な推定を肯定するとか、実は非許容的だったりするというような失敗例が色々紹介される。

そこで、より一般的な決定関数を構成する方法として最尤推定が提案される。これは驚くほど単純なもので、密度関数をパラメタの関数である尤度関数と見做して、実現値に対して尤度関数を最大化するパラメタを選ぶ。ちなみに尤度関数においてはパラメタが変数となる代わりに確率変数の実現値が定数として固定されるという逆転現象が起こっており、そのイレギュラー感にはいかにもな裏技感が漂っている。
ちなみに最尤推定は理論的な裏付けが弱い割には推定量は悉く良い性質を持ち合わせており、パラメタの変換を受け付ける上、nが大きいとUMVUと同じ最適性を持つらしい(漸近有効性)。もう最尤推定だけでよくないか?

 

8.検定論

5章で一般的な枠組みを定めた統計的推定のバリエーションの二つ目として、パラメタをそのまま扱うのではなく、パラメタが存在する領域についての仮説を検証する検定がある。検定では母数空間を排反に分けることで帰無仮説と対立仮説を立て、決定関数は帰無仮説の受容を示す0か棄却を示す1の二択とし、リスクは0-1損失で与える。

帰無仮説と対立仮説の設定慣習

帰無仮説と対立仮説をどう定めるかは慣習に過ぎないが、対立仮説は異常や有効などの「顕著な事態」の検出として設定されることが多い。もともと検定では誤って棄却する可能性(第一種の過誤)は低く、誤って受容する可能性(第二種の過誤)は高く設定するというこれもやはり慣習があるため、「誤って帰無仮説を受容するのは構わないが、誤って帰無仮説を棄却するのはやばい」というリスクヘッジに合わせているのだ。対立仮説として設定される典型例としては新薬の有効性、工場での不良検出、数学的な仮定の誤りがある。
これら二種類の過誤の確率はトレードオフである。第一種の過誤の確率を低くするには受容に寄せて保守的に、第一種の過誤の確率を低くするには棄却に寄せて挑戦的に決定関数を作ることになるからだ。一般的な慣習としては、まず第一種の過誤の確率を重く見てαで抑えるようにコントロールした上で、次に第二種の過誤の確率を可能な限り小さくする(ただしこちらは値を決めない努力目標)ように決定関数を定めることになる。

補足387:他の書籍だと「第一種の過誤はコントロールできるが第二種の過誤はコントロールできない」などと書いてあることがあり、数学的には同じ操作のはずなのに何故その差が生じるのかが不明だった。しかしこの書籍では「数学的には対称だが慣習的にそのような手続きで検定を行っているに過ぎない」と明記されていてわかりやすかった。

もちろん過誤の確率は決定関数に依存するため、結局のところは今までと同じように決定関数の決め方や評価方法が問題となる。話の枠組みは決定関数をリスク関数で評価するという一般的な方式から特に変化していないのだが、検定問題では慣習的に帰無仮説を棄却する確率を検出力と呼んでリスク関数の代わりに用いる。
また、決定関数と同値な表現として、標本空間を決定関数の値によって受容域と棄却域に分割することもよく行われる。更に、検定は統計量に対して行うことが一般的であるため、実際にはある統計検定量Tに対して閾値として棄却限界cを定めてTがcより小さければ受容、Tがcより大きければ棄却という方式になることが多い(Tがcより大きい確率が検出力となる)。

決定関数の評価①:帰無仮説の下での検出力を抑える

まず、第一種の過誤の確率をαで抑えることについて。
ある決定関数について、帰無仮説のもとでの検出力の上限をサイズと呼ぶ。すなわちサイズとは第一種の過誤が起きる確率の最大値であり、これが有意水準α以下であればこの決定関数はとりあえず第一の条件を満たす。
ただ、Tがcより大きいときに決定としては一様に棄却するとしても、Tの値によって棄却の強さは変わってくるため、棄却時にはその強さを数値化しておいた方が便利だ。その指標として、帰無仮説が棄却されたとき帰無仮説のもとで検定統計量Tの実現値について片側確率の上限をp値とする。通常の検定では棄却限界を決めてから統計量が棄却されるかどうか見るのとは逆に、p値では逆に棄却された統計量からそれが棄却されるような棄却限界がどんなサイズの検定に対応しているかを判断するわけだ。p値は帰無仮説の信憑性と解釈でき、p値が小さいほど棄却は強力なものになる。

決定関数の評価②:対立仮説の下での検出力を上げる

次に、対立仮説のもとでの検出力を最大にすることについて。対立仮説のもとで全てのパラメタに対して検出力が最大になる検定を一様最強力検定(UMP検定)と呼び、これが理想的な検定であることは明らかだ。
帰無仮説と対立仮説がいずれも単純仮説の場合、最強力検定(MP検定)は尤度比を統計検定量とすることで得られる。棄却限界をc、尤度比がcに一致したときの棄却確率をrとする。この検定のサイズをαとすれば、有意水準αの検定では最強力検定となる。この構成方法においてはcとrを定めてからαが定まるという順序だが、実際にはcとrの関数としてαを求めた上で適切にcとrを選ぶ。このMP検定の構成法をネイマン・ピアソンの補題と呼ぶ。証明は容易であり、尤度比の条件式を用いれば「対立仮説のもとでの検出力の差」を「帰無仮説のもとでの検出力の差」に変換できる。

この方法は片側検定の場合には容易に拡張できる。密度関数がある統計量Tに対して単調尤度比を持つ場合、Tを代わりに検定統計量として同様に検定関数を構成する。ネイマン・ピアソンの補題による判定では検定統計量が棄却限界に対して大か小かだけが争点となるのであるから、検定統計量が単調に変化する限りは不等号を変化させないため、片側検定に拡張してよいというだけだ。

両側検定での不偏性による妥協

単調性を満たす片側検定においてはUMP検定が構成できる一方、両側検定の場合はこの方法は用いることが出来ないため、不偏性という性質を満たす決定関数のクラスに対してUMP検定を構成することで妥協する(UMPU検定)。不偏性とは任意の対立仮説のもとでの検出力が有意水準以上となることであり、常に有意水準の確率で帰無仮説を棄却するような検定よりも良い結果を出すということを示す。
正直この項目はよくわかっておらず、両側検定ではUMP検定が構成できないことは良いとしても、不偏性を付け加えてクラスを絞ることが何故有効なのかがイマイチ判然としない。

代替案としての尤度比検定

点推定においてUMVUが存在するとは限らなかったことと同様、検定においてもUMPUが存在するとは限らない。この場合も尤度比を用いた尤度比検定によって一般的な検定方式を得ることができる。ただし検定における尤度比検定は点推定における最尤推定と異なりnが大でもUMPUになるとは限らないようだ(しかし、その代わりに分布収束という非常に良い性質を持っている)。
尤度比を「帰無仮説のもとでの最大尤度」に対する「対立仮説のもとでの最大尤度」の比率と定義する。つまり対立仮説のもとでの最大確からしさが、帰無仮説のもとでの最大確からしさに比してどのくらい大きいかという指標である。尤度比が閾値以上なら、つまり対立仮説の相対的な確からしさが一定以上なら帰無仮説を棄却する。
ちなみに対立仮説でのみ自由に動けるパラメタの個数をpとすれば、帰無仮説のもとでnを∞に飛ばしたとき対数尤度比は自由度pのカイ二乗分布に分布収束するらしい。これによって漸近的ではあるが有意水準αの検定を容易に得られることが尤度比検定を汎用的なものにしている。もう尤度比検定だけでよくないか?

 

9.区間推定

点推定の発展として、パラメタの推定量だけではなくその誤差がどのくらいあるのかを知りたいという需要がある。区間推定はこのニーズに応え、推定したい量のばらつき度合いを示す区間を返す。このように挙動としては点推定の発展形だが、実際に区間推定を構成する手続きは点推定ではなく検定から派生する。

信頼域の構成

真の母数θがある区間に含まれる信頼係数が一定値以上のとき、その区間を信頼区間と言う。確率ではなく信頼係数と呼ぶのが面倒なところで、真の母数は事前に決まっており固定された値なので確率とは解釈できないことによっている。変わるのは区間であって真の母数ではないし、かつ、区間が決まったら事後的には真の母数はそこに確率0で含まれるか確率1で含まれないかのいずれかであって、確率0≤p≤1で含まれるわけではない。

信頼区間における信頼係数を確認するには、確率変数に関する分布関数の形に変形して分布に基づいた確率を求めることになるが、実際に信頼区間を構成する際には概ねその逆を辿ると考えて良い。帰無仮説が単純仮説であるような検定において、受容域A(θ)は帰無仮説で仮定したパラメタθの関数として表せる。つまり受容域はパラメタの値を標本空間の部分集合に移す写像と見做せる。これを逆に解いて、ある標本を母数区間の部分集合に移すような写像が信頼区間S(X)となる。つまり、信頼区間とはあるXに対してそれが受容されるような検定を作った場合に帰無仮説で仮定されるパラメタの値の範囲となる。

信頼区間の最適性

検定において決定関数が不偏性や一様最強力性で評価されたように、信頼区間も同様のいくつかの最適性を持つ。信頼区間における不偏性とは真でない母数を含む確率が1-信頼係数以下になること、一様最強力不偏性とは不偏性を満たす信頼区間のクラスの中であらゆる真でない母数に対してそれが含まれる確率が一様に最小になること。受容域A(θ)と信頼区間S(X)が一対一で対応していることから容易に予想されるように、不偏性と一様最強力不偏性は受容域と信頼区間の相互変換に対して常に保たれる。ちなみに、一様最強力不偏性とは信頼域の体積の期待値が最小になるという性質も備えている。
この辺、どうせ検定の最適性を満たしたあとに機械的に変換を施すという手続きで信頼区間を構成するので、問題があるならまだしも良好な性質しかないということであればわざわざ意識することも無さそうで割と何でもいい。

代替案としての最尤推定に基づく信頼区間

毎回最後に登場して全てを終わらせる尤度が区間推定にも出現してしまった。ここでは点推定における最尤推定の素朴な拡張として登場し、最尤推定量は標本数が大きいときに平均が真の母数、分散がフィッシャー情報量の逆数である正規分布に漸近することを用いる。要するに正規分布に従うことにして区間推定を行えば良いだけなので、元の分布に関わらず瞬殺できてしまう。尤度が強すぎる件。