「過剰適合」の例え

 「シグナル&ノイズ」では,次のような例えで過剰適合を説明しています。

例えば,あなたがコソ泥で私がボスだとしよう。私はあなたに,中学校で使われるようなダイヤル錠の開け方(ピッキングの方法)を見つけるように命令する。私はいつでもどこでも高い確率でピッキングできる方法が知りたい。あなたには練習用に赤と黒と青という3つの錠を渡す。
 数日後,あなたは私のところにきて,絶対確実な方法を見つけたと言う。錠が赤なら27-12-31で開く。黒なら44-14-19,青なら10-3-32だ。
 残念ながら,それではダメだ。あなたは確かにその特定の3つの錠を開ける方法を見つけた。しかし,それでは応用がきかない。番号を知らなくても開けられるようにはなっていない。
(中略)
あなたが持ってきた解答は,一般的な問題に対してあまりにも限定的なものだ。これが過剰適合である。そしてこれが間違った予測につながる。

 全く役に立たない馬鹿馬鹿しい解答ですが,そもそも「私」が練習用に3つの錠を与えたのが間違いですね。3つの錠だけをいくら調べても,一般的な方法を見つけるのは絶望的です。しかし,3つしか錠がなければ,それを調べるしか方法はないわけで,他の場所で落とした鍵を,街灯の下だけで探す状況と似ています。これは,観測記録の少ない大地震の予知に対応しています。

 では,調べる錠が沢山あれば解答が得られるかというと,今度は,干し草の山の中の針を探す状況になるかもしれません。しかも,針があるのかないのか分からないとしたら探求心もくじかれます。中小規模も含めた地震予知の研究はこの状況にも似ているように思います。探求心をくじかれない強靭な精神を持つ研究者が一縷の希望で奮闘していますが。

 もう少し正確な例えをすれば,地震予知研究は干し草の中から針を探すというより,膨大なニセ針の中から本物の針を見つけだすことに近いかもしれません。本物の針候補は比較的簡単に見つかりますが,ニセ針だったというのが,地震予知の歴史です。さらに,本当に本物の針は存在するのかという疑念もあるんですね。

 本物がない状況ということで思い浮かんだのは「ポチコン」です。ご存知ない方に説明すると,「ポチコン」とはパズル誌「二コリ」に載っているコンテストです。四角の枠に中に,乱雑にばらまかれたポチ(点)を線でつないで出来る図形の面白さを競い合うコンテストです。点のつなぎ方は無数にあり,正解もありません。それでも,応募者は自分の解答が最良だと信じ,そのパターンが見えてきます。地震予知研究者に,地震の発生するパターンが見えてくるかのように。

 ただし,「ポチコン」には厳しいルールがあります。総ての点を使わなければならないのです。余計な点は無視して良ければ,パターンを作るのは容易になります。誰でも知っているその例が「星座」です。宇宙の星の配列には何らかの法則があるのは確かでしょうが,夜空を眺めているだけではその法則を見つけ出すのは難しそうです。地震予知研究が見つけ出そうとしているのは,宇宙の法則なのでしょうか,星座なのでしょうか。