相関関係と因果関係の違い…ちょっと難しいデータ分析の話!

今回は、仕事の話を少しだけ。

テーマは「相関関係と因果関係」です。

私は、コンサルティングの仕事のツールとして、データ分析をずっと活用してきました。

最近、コロナのニュースが多いため、テレビや雑誌などを見ていても、この2つを混同している例をたくさん見かけるようになりました。

このため、少し記事にしてみたいと思いました。

簡単ですが、興味のある人はどうぞ。

相関関係とは?

まず、相関関係から見ていきましょう。

相関関係とは

「Aの値の大きさと、Bの値の大きさに関連性がある」

関係のことを言います。

もう少し踏み込むと、

「Aの値が大きくなると、Bの値も大きくなる時は、の相関関係がある」

と呼び、逆に、

「Aの値が大きくなると、Bの値が小さくなる時は、の相関関係がある」

と呼んでいます。

ひとつ例を挙げます。

Aをスポーツテストの結果、Bを勉強の成績だと仮定します。

まず、スポーツテストの結果と勉強の成績のふたつを軸にして、単純にグラフにしてみます。

その結果、スポーツテストの結果のいい生徒は、勉強の成績もよかったということが分かったとしましょう。

この場合、AとB、つまり

”スポーツテストの結果と勉強の成績には(正の)相関関係がある”

と言います。

難しい数式は省きますが、相関関係の強さを表す定量的な指標として、相関係数というものが使われます。

相関係数は-1から1までの値をとり、

・-1に近いと負の相関がある
・0に近いと相関がない
・1に近いと正の相関がある

となっています。

単純に2種類のデータから、それぞれに関係があるかないかを調べているのです。

これはまだ簡単ですよね。(エクセルで一発です。)

因果関係とは?

次に、因果関係を見ていきましょう。

因果関係とは

「Aが原因となって、Bの結果となった」

関係のことを言います。

日本語的には「原因」「結果」につながりがある関係のことを指しています。

先ほどの例で見ていきましょう。

Aをスポーツテストの結果、Bを勉強の成績だと仮定したとき、AとBには正の相関関係がありました。

しかし、

”スポーツテストの結果がいいから、勉強ができるようになったんだ”

と言いきることができるでしょうか?

勉強時間とか、親の所得とか、塾に通っているかどうかとか、勉強ができるようになった理由は、他にもあるかもしれません。

つまり、スポーツテストの結果をよくすることが、勉強の成績を上げることに直接つながったとは言い切ることはできません。

この場合、スポーツテストの結果と勉強の成績に因果関係があるとは言えないのです。

旬な話題(うがい薬とコロナ)

相関関係があっても、因果関係があるとは限らないという例を紹介しました。

実は、相関関係の有無はすぐに証明できても、因果関係の証明はとんでもなく難しいんです。

例えば、ビールとおつまみの売上には相関関係があるでしょう。

しかし、因果関係となると、どうでしょう。

ビールとおつまみは一緒に食べる人が多いので、影響はありそうに見えます。

しかし、おつまみではなく、ビールの売上は、実は、暑さ(気温)との影響のほうが大きいのかもしれません。

とりあえず、

”因果関係を完全に証明することはとても難しい”

と認識しておけばいいと思います。

旬なネタとしては、昨日、大阪府知事が提案したうがい薬

寝耳に水の発表でびっくりした人も多いのではないでしょうか。

個人的には、どこかで逃げ回っているリーダーよりも、可能な範囲で何らかの手を打とうとしている大阪府知事の姿勢のほうが、支持するに値すると思います。

しかし、提案の内容としてはどうでしょう。

”一部の軽症者が、うがい薬を使ったら、使わなかった人よりも、治った人が多かった”

ことは相関関係に他なりません。(実際、グラフも提示して説明されていました。)

しかし、それを拡大解釈して、

”うがい薬を使えば、コロナを防ぐことができる”

ことは拡大解釈しすぎですよね。(特にメディア)

とても因果関係があるとは言えません。

私は専門ではありませんが、医学的にも意見は分かれているようです。

因果関係を証明するのはとても難しいのです。

このように、相関関係と因果関係を意識しながらニュースを聞くと、結構面白いかもしれませんね。