データ分析は難しい~イカサマの見破り方?
ここにコインがあります。
コインを5回連続で投げてみましょう。
①オモテ
②オモテ
③オモテ
④オモテ
⑤オモテ
でした。なんと(!)5回連続オモテでした。
このコインは、イカサマのコインだと断言できるでしょうか。
物理的にコインは切ったり、スキャンしたりして調べることはできません。
そのため、このコインがイカサマだと判断するかは、(純粋に)このコインを投げて、出たオモテとウラの出方で評価・判断する必要があります。
直感的に、確率を使って、考えるのは、わかると思います。
しかし、客観的に説明をしようとすると、難しいのは
なぜ確率を使うのか(→【Ⅰ】)、
どのように確率を使うのか(→【Ⅱ】)、
それをどのようにイカサマか否かを判断する資料とするのか(→【Ⅲ】)、
というところです。
順番に考えていきましょう。
【Ⅰ】
話を少し日常的な事象に置き換えてみると、
例えば、「Aさんは既婚者だ」、という仮説が正しいか、を考えるとき、
①Aさんは左手の薬指に指輪をしている。
②Aさんは「挙式のためハワイに行った」と言っていた。
③Aさんは毎日手作りのお弁当を持参している。
という事実から、結論として、Aさんは既婚者だと結論を導くことになります。
確かに、①②③には、
①←Aさんは指輪好き。
②←結婚前の旅行で、挙式後婚姻届出前に破局。
③←Aさんは料理好き。
という可能性は、抽象的にはあるでしょう。
しかし、それでも「一般には(≒経験則では)」①②③の事実を総合すると既婚者であると判断してよさそうです。
あえて数値化すると、
①左手の薬指に指輪・・・80%は既婚者だろう
②ハワイで挙式・・・・・80%は既婚者だろう
③手作り弁当・・・・・・60%は既婚者だろう
①②③の事実が、互いに独立であれば、
仮説が成立しない可能性は、
(1-0.8)×
(1-0.8)×
(1-0.6)
=0.016
となります。
1-0.016=98.4%
よって、98.4%の確率で、Aさんは既婚者だということになります。
このように、結論が2択に絞られる場面では(例えば、既婚か未婚か、20歳以上か否か、暴行を行ったか否か)それが起こりうる確率(≒期待値)を考えると解決が図られるケースが数多く存在します。
今回の問題に戻って考えると、
コインはオモテかウラしかありえません(コインを投げたら、コインが倒れず、側面で立ったなどの「ウルトラC」は考えません)。そして、結論はコインがイカサマか否かですから、結論は、2択に絞られる場面です。そこで、「確率を使うと結論が導けるのでは?」と考えていくことになります。
【Ⅱ】
さて、通常の(=イカサマではない)コインにおいてオモテが出る“確率”を調べてみましょう。
当たり前ですが、
オモテが出る確率は、1/2です。
ウラが出る確率も、1/2です。
つまり、「2回に1回は、ウラが起きる」はず。
しかし、今回のデータは、
ウラが5回つまり、1/2×1/2×1/2×1/2×1/2=1/32、つまり、32回に1回しか起きないことが今、起こっています。イカサマの疑いが高いように見えます。
そもそも、「Aは既婚者かもしれない」と疑っていた場合、「Aは既婚者だ」と考えて、それにかかわる事情①②③を掘り出しました。
「〇〇かもしれない」と疑うときは、
「●●だ」と断定して、仮説を立てるのが効果的な場面があります。
特に、○○か●●が二者択一のときは、数学で習った背理法の考え方を使って、
「イカサマかもしれない」と疑うときは、
「ちゃんとしたサイコロだ」と仮定して(疑っている事実と反対の、あるべき事実)、
する手法を使います。
今回は、「コインは、イカサマかもしれない」と疑っている場面ですから、
「ウラが出る確率は1/2だ」という、仮説を立てることになります。
【Ⅲ】
背理法は、一定の事実を仮定して、矛盾を導き、正解を導く数学の証明方法の一つです。
今回もそれにならって、矛盾がないか見てみましょう。
コインは、32回に1回のことが起こったが、
それをみて、コインがイカサマか否かをどう判断するかです。
32回に1回のことがあり得ないと考える人もいるでしょう。
しかし、
32回に1回のこともあり得るのではないか、と考える人もいます。
重要なのは、
イカサマかどうかをどのような水準で考えるか、です。
※なお、この水準の目安として、統計学では、「有意水準」を決めておきます。
どのあたりまで行けば、イカサマか、を決めておくということです。
1/32=3.125%
100回に3回くらい起こるが、これはイカサマと判断してよいかどうか。
結局は、慎重に考えるしかないのです。
しかし、答えはない。
ここまで読んで来てもらって、申し訳ないところですが、イカサマかどうかは、このような数値だけでは決められず、個人が、どのように考えるかという部分に依存しているものなのです。
【Ⅳ:まとめとおまけ】
結論、データ分析は難しい、ということになります。
実にもやもやしますね。
しかし、突破口はあります。
お気づきの方もいると思いますが、試行を増やす、つまり、
コインを更に何回も投げればよいのです。
そうすれば、
1/32→1/64→1/128→・・・・→1/1048576(2の20乗=20回連続オモテ)
怪しい→怪しすぎる→もうイカサマと考えてよい→・・・→イカサマに間違いない
という結論が得られるはずです。
以上は、統計学の考え方では、
【Ⅰ】2者択一の問題に設定して、確率を使う
【Ⅱ】帰無仮説を立てる
【Ⅲ】あらかじめ有意水準を決めておき、帰無仮説を棄却するかどうかを判断する
という枠組みで考えています。
ところで、裁判の世界でも、
暴行・傷害の被害者Aが、Bが加害者であるとして、Bを訴えた場合、
B側が、「自分は犯人ではない」と主張するケースがあります。
このケースでは、
「暴行を行ったか否か」
という2者択一の場面ですから、
同様の思考枠組みで犯人性を認定することがありうるケースです。
例えば、私が担当した事案でも、
①:怪我の診断書
①´:「Bにやられた」という被害者Aの供述
②:BからAに対する「おれには勝てない」という暴行直後のメール
③:職場内でのトラブル
が前提事実として認められる事案で、
あえて数値化すれば、
①+①´=50%
②=40%
③=10%
つまり、それぞれ単独で見ても、Bが暴行の犯人との証明がなされた、というには今ひとつ足りないという状況でしたが、
これを互いに独立した事実とみると、
Bが犯人という仮説が成立しない可能性は、
(1-0.5)×(1-0.4)×(1-0.1)=0.27
となり、Bは73%の確率で犯人であるという計算となります。
さらに、実際の事案では、①+①´の事情に加えて、例えば、①´´怪我の状況から判断して、「事故」という抽象的な可能性は極めて低く、「人」が関与したことは明らかである、という事実が認められる事案でした。そうすると、Bが犯人ではないとすれば、他の人から受けた暴行について、Aが、事件直後から一貫して、Bが犯人だと、話をでっち上げていることになります。しかし、②のメールを見ると、そのような可能性は低く、AがBの犯行をでっち上げたとは判断しえないという論理展開をすることが可能です。実際、私が担当した裁判でも、上記のような論理操作を行って最終準備書面を提出し、尋問後の裁判所の心証が覆り、判決では、勝訴したケースがあります。
ただし、裁判などの現実世界では、そもそも2者択一のルールが適用できる場面は限定的ですし、データの数も限られています。過去の事実が審理対象ですから、試行回数を増やすこともできません。イカサマを見破る技術をいくら磨いても「真実」を発見することは、極めて難しく、AI技術などによりデータ分析が今後進んでも、真実発見に向けた慎重な仕組みの構築への努力は、永遠に終わらないと考えるべきでしょう。