Kolmogorov–Smirnov testは不滅

A8バナー広告

朝、大学に向かうときに大きな道路工事に出くわした。舗装をすべて剥がしてしまい、地面がむき出しの状態になっていた。こういう時、2輪で走ると、かなり警戒してしまう。ぼくの車両は三輪なので、かなり安定してる。三輪でよかったと思った。

昼食時に、同僚と軽い話をする。ふと、統計検定の話になった。なかなか話が噛み合わない。同僚は「どんな分布を仮定するのか?」と質問してくれるが、ぼくは「null distributionを仮定してsample permutationするんだよ」と回答。話が噛み合わない。

それもそのはず、同僚はone sample testのことを話していたのに、ぼくはtwo sample testのことを話していた。ぼくの研究作業ではtwo sample testしてしていないので、てっきりtwo sample testのことだろうと思いこんでいた。まぁ、統計テストといえば、ふつうはone sample testとことを意味するよね。

昼過ぎ、同僚と少し時間をとってホワイトボードの前で雑談。同僚はKolmogorov–Smirnov testのすごさについて語ってくれた。ぼくにとってKolmogorov–Smirnov testといえば、教科書に載っている古臭い検定テストで、「研究結果の結果検証に使うツール」くらいにしか思ってなかったので、いい雑談だった。

同僚がいうには、「Kolmogorov–Smirnov testはuniversal」とのこと。たぶん、「普遍」ってことを言いたかったんだろう。「普遍」の根拠はこんな感じ。

Kolmogorov–Smirnov testの核となる式はこれ

sup | F_n(x) - F(x) |

where F_n(x) が仮説分布, F(x) がサンプルから求める経験分布。

で、このとき、supにはどんな距離尺度を使っても良い。そして、kolmogorov-Smirnov test自体はパラメタに依存しない。だから、universalに使える存在ってこと。

ぼくは安易に思ったことは、「距離尺度が任意で良いならば、高次元を扱える距離尺度を持ってきたら、もっと強くなるんじゃね?」。同僚いわく、高次元のkolmogorov-Smirnov testに取り組んでる人はかなり少ない、とのこと。まだ理論的に完成していないそうだ。

午後は論文よみ。Simulatorの結果を微分近似する論文を読んだ。なんせ、慣れない分野なので、読みづらい。Riemann Problemという解法を知らないことに気がついた。こいつは、初期値問題の一種で、時間と座標の両方が存在する空間を扱える解法のようだ。きっと、機械工学出身者ならば知っているだろう。ぼくのように非工学出身者はこういう風に知識が抜けているので、よく困る。

最終的に、このチュートリアルビデオを50%くらいを理解した。

雑記

Posted by blog_author