最終更新日:
因果推論の考え方と主な手法
こんにちは。スキルアップAIの深作です。私は現在、政治学についてのデータ分析の研究に取り組んでいます。今回はそのデータ分析で使っている「因果推論」という考え方について紹介したいと思います。この記事を通じて因果推論に対するイメージを掴んでいただけたら幸いです。
1.「因果推論」とは
「2つのことがらのうち、どちらかが原因で、どちらかが結果である」状態を因果関係があるといいます[1]。そして、データに基づいて因果関係を推定することを因果推論といいます。なお、因果関係と相関係数は別の概念です。相関関係と因果関係の両方があるという場合もあれば、相関関係はあるが因果関係がないという場合もあります。
因果推論について具体的な例を挙げると、「店舗Aで広告を出したところ、売上が上がった。この売上が上がった原因は本当に広告なのか、それとも偶然であったり、別の要因なのではないか」を推定するといったことが考えられます。
久米ら[2]によると、ある2つの事象について因果関係があることを示したい場合、以下の3条件を満たす必要があります。
「原因の変化と結果の変化を同時に観測することができる(相関関係があること)」・・・①
「原因は結果に先行して起こる」・・・②
「他の変数原因と結果の変化を観測することができる」・・・③
この3つの条件のうちの③の条件を満たすことは、現実的には非常に困難です。なぜなら、「他の変数の影響が無い状況において、」という部分が現実に反しているからです。因果推論では、現実に反していることを反事実といいます。当然、反事実は観測されません。本当に知りたいことを観測できないということで、この問題は「因果推論の根本問題」と呼ばれています。[3]
2.「統計的因果推論」について
「因果推論の根本問題」に取り組む際には、通常、統計学が用いられます。このため、統計学を用いて因果推論を行うことを特に「統計的因果推論」といいます。
「統計的因果推論」では、基本的に、「特定の変数があるかどうか」以外の条件に違いがないとみなすことができるかどうかを統計学を用いて検証します。因果推論では、「特定の変数があるかどうか」以外の条件に違いがないことを同質であると表現します。
具体的な例を挙げます。「広告を出した店舗A」と「広告を出していない店舗B」があるとし、「広告の効果」を導きたいとします。そこで、この2店舗の差異が「広告を出したことだけ」といえるかどうかを統計学を用いて検証します。
上記の例では、店舗Aと店舗Bでは、立地条件などが異なるため、「特定の変数があるかどうか」以外の条件に違いがないことを示すことは困難です。このため実際には、いくつかのデータを集めて、平均的に差異がないかどうかを検証します。
前述した久米ら[2]の3条件のうち、①と③がこの反事実との比較によって立証する事ができます。
条件①については、広告を出した店舗Aでのみ売上が上がり、広告を出していない店舗Bでは売上が上がっていないことを確認します。
条件②については、広告を出した後の売上を比較することで原因が結果より先行していることを確認します。
条件③については、「広告を出したかどうか以外は同質の2グループ」を用意していることから、この条件を満たしているといえます。
「統計的因果推論」では、このように統計学を用いて、検証したい原因となる変数以外を同じとする2グループの比較を行い、因果関係を検証します。
3.「統計的因果推論」で用いられる主な手法
ここでは「統計的因果推論」にて主に用いられる手法として、「ランダム化比較試験」、「差分の差分法」、「回帰不連続デザイン」の3つを紹介します。
1つ目の「ランダム化比較試験」は最も一般的に想起される実験です。グループを無作為に2つに分けて、片方にだけ影響を与え(例:広告を打つ、投薬をする)、もう片方のグループには与えないようにします。このとき比較対象を無作為(ランダム)にグループに分けることで比較対象の差を平均します。「ランダム化比較試験」では、この差を統計学的に考察します。
2つ目の「差分の差分法」は元々あった差異を考慮し、その差異の変化を見る手法です。英語では「Difference in Differences」となるため、「DID法」と呼ばれることもあります。
下記画像の例を考えます。グループ Aとグループ Bには最初10の差があり、グループ Aとグループ Bの差は、時間に応じて、同じように変化すると仮定します。(黒点線と青線)
この仮定に反し、実際にはグループ Bは赤線のように上昇しました。このとき、赤線と黒点線の差が今回の原因がもたらした結果となります。「差分の差分法」では、この差を統計学的に考察します。
3つ目の「回帰不連続デザイン」は、連続する数値の中で、ある区切りを境に結果がどの程度変わるかを検証する手法です。
例えば、「高齢者への医療費補助は高齢者の来院をしやすくするか」を調べたいときに、医療費の負担割合が2割から1割に切り替わる前後の「74歳」と「75歳」の来院数を調べることで、高齢者に対する医療費の補助がどれだけ効果があるのかがわかります。「回帰不連続デザイン」では、この効果を統計学的に考察します。
4.おわりに
本ブログでは、因果推論の概要を紹介しました。現実世界では、相関関係と因果関係が区別されずに、施策の効果が議論されることが往々にしてあります。因果関係があるかどうかを知りたいときに、相関関係しか確認しない場合、不適切な意思決定につながりかねません。
「本当にそれは原因と結果の関係なのか」、「それともただの偶然なのか」といったことを知りたい場合には、統計的因果推論を活用してみましょう。
本記事が因果推論についてのイメージを掴むことのお役に立てば幸いです。
スキルアップAIでは、関連講座として「DS検定リテラシーレベル対応 データサイエンティスト基礎講座」を開講中です。 本講座では、データサイエンティストになるために欠かせない知識を基礎から体系的に学びます。是非ご検討ください。
また、毎週水曜日に実践的AI勉強会「スキルアップAIキャンプ」を開催しています。勉強会では、様々な実践的テーマを取り上げ、データ分析・AI開発の実務力アップにつながるヒントをご提供します。講師が参加者の皆さんからの質問や悩みに答えるコーナーもあります。
興味がある方はぜひ参加してみてください!
5.参考文献
- [1] 中室牧子, 「原因と結果」の経済学 データから真実を見抜く思考法, ダイヤモンド社, 2017年
- [2] 久米郁男, 原因を推論する 政治分析方法論のすゝめ, 有斐閣, 2013年
- [3] 佐藤 俊樹, 社会科学と因果分析 ウェーバーの方法論から知の現在へ, 岩波書店, 2019年, p287
【監修】スキルアップAI 取締役CTO 小縣信也
AI指導実績は国内トップクラス。「太陽光発電発電量予測および異常検知」など、多数のAI開発案件を手掛けている。日本ディープラーニング協会主催2018E資格試験 優秀賞受賞、2019#1E資格試験優秀賞受賞。著書「徹底攻略ディープラーニングE資格エンジニア問題集」(インプレス)。
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
公開日: