【木曜日39】研修評価本(8)RCT

木曜日

【木曜日39】研修評価本(8)RCT

○研修評価に関連して「RCT:ランダム実験モデル」本です。 

===

『政策評価の理論と技法』龍・佐々木(2020)

・2000年に発行した本書で解説した「ロジックモデル」という概念と、
 投入→活動→結果→成果というフローチャートは、現在広く適用されるようになった。

・2010年代末ごろから、RCTランダム実験モデルを適用した評価が日本でも現れるようになった。

・2000年には、日本評価学会が設立された。

・政策(Policy)に基づいて施策(Program)が形成され、施策は多数の個別事業(Project)によって成り立っている。

・政策評価による評価の対象は、4種類ある:
 1)理論(セオリー)
 2)実施過程(プロセス)
 3)改善効果(インパクト)
 4)効率性(コスト・パフォーマンス)

・キャンベル(1969)は、政策決定は実験結果に基づくべきであると主張。(科学的評価 Scientific evaluation)
・クロンバック(1980)は、政策評価は未だアートであると反論。(実用的評価 Utilization-focused evaluation)

・政策評価の歴史

・最も初歩的な評価の原型は、1930年代のアメリカの教育分野と公共衛生の分野に見ることができる。その、第二次世界大戦中のアメリカで、軍人のモラル評価、人事政策、広告の効果の評価が実施された。
・1950年代の終わりには「政策分析」が幅広く用いられるようになった。

・従来の政策過程(サイクル型)から、新しい直線型(ライン&エンド型)へ。

・セオリー評価は、投入→活動→結果→成果という一連の流れを明らかにする評価。

・プロセスセオリー:投入→活動→結果の因果関係を説明する理論
 インパクトセオリー:結果→成果の因果関係を説明する理論

・実施上の失敗の3類型:
 1)不完全な実施 2)間違った実施 3)標準化されていない実施

・インパクト評価の12種類
 A.実施・比較グループ両方が存在するケース
 (1)ランダム実験モデル
 (2)準実験モデル
   ①回帰・分断モデル
   ②マッチング・モデル
   ③統計的等化モデル
   ④一般指標モデル
 B.実施グループしか存在んしないケース
 (3)クロスセクションモデル
 (4)時系列モデル
 (5)パネルモデル
 (6)シンプル事前・事後比較モデル
 C.簡便的アプローチ
 (7)エキスパート評価
 (8)受益者評価
 (9)行政官評価

・RCTを適用する際の制約:
 1)社会要因による影響の除去が難しい
 2)実施コストが高い、時間がかかる
 3)倫理的制約を敏感に考慮する必要あり

・モデル選定フローチャート

・「政策評価」の7人のパイオニアたち

・評価の哲学者 スクリベン 評価研究における「哲学の父」 評価を「価値づけの科学 Science of Valueing」とすることを志向した。

・実験主義 キャンベル
・アンチ実験主義 クロンバック 統計学の巨人が社会実験をあからさまに批判

・定性的手法の重視 ステイク ケーススタディーの利用を提案

・「パフォーマンス・メジャーメント」とは「公共サービスやプログラムの成果と効率性を定期的に測定する事」である。

===

『The Methodology of Evaluation』Scriven,M.(1966)

 SOCIAL SCIENCE EDUCATION CONSORTIUM. PUBLICATION 110.
https://files.eric.ed.gov/fulltext/ED014001.pdf

・知的進化は、巨人の肩に乗ることで可能になる。
・私は、クロンバック教授の研究に対して、特別な義務があることを白状しなければならない。

・評価のRole役割と、Goal目標には明確な違いがある。
・評価の目標は、常に同じで、価値(merit,worth,value)の推定 estimation である。

・2種類の評価:Formative、Summative

・教育分野のように、人にまつわる領域だと、モラル価値判断が必要になり、それは本質的に主観的なものである。

・クロンバックの主張:実験群と統制群の比較は適切とは言えない
・彼のこの主張(統制群は重要ではない)は、非常に大きな影響があった。

○う~ん、自分の力不足で読み込めてない。クロンバックの「アンチ実験主義」に応えようとしたものだとは思うけど。

===

『効果検証入門〜正しい比較のための因果推論/計量経済学の基礎』安井 翔太、 株式会社ホクソエム 著 (2020)

・効果に求められる性質として最も重要なものは 「再現性」。

・効果を宣伝したい専門家がその情報を信じるに至った経験を数値に具体化したに過ぎず、専門家の主張や思い込みをデータで可視化しただけのものもある。

・問題になるのは、 比較が正しくできていないために、因果関係を示すことができていないこと。

・「因果推論(Causal Inference)」はこのような比較の問題に着目し、与えられたデータを使ってどうすれば より正しい比較ができるのか? を考える統計学の一分野である。

・本書で扱う計量経済学は、大まかにいえばDonald Rubinによる因果推論のアプローチによって経済的な事象の効果を評価するために用いる分野。

・企業で直面する分析課題では、介入や施策がすべてのユーザに対して行われることがあり、この場合は介入を受けなかったというデータを手に入れることができない。

・何らかのアクションが、売上などのビジネス上重要なKPI(Key Performance Index)に与えた影響を「効果」と考える。

・データから得られた分析結果と、本当の効果の乖離を「バイアス」と呼ぶ。

・効果を知りたい施策をランダムに割り振り、その結果として得られたデータを分析して比較することは、 RCT( 無作為化比較試験、 Randomized Controlled Trial)と呼ばれ、様々な科学分野で効果を検証する際に利用されている。

・有意差検定は何でもかんでも効果を保証するような道具ではない。

・分析の都合を最優先した介入の割り当てを行うことになるため、介入がビジネスにもたらす影響に関しては度外視しており、ビジネスの観点においては多くのコストが発生する。

・RCTによってランダムにアクションを選択するということは分析の上で非常に都合の良い状況を作り出す一方で、ビジネスを実施する側にとっては大きなコストになってしまう可能性がある。

・「多重共線性 」とは、回帰モデルに含まれている変数のうちの2つが強い相関を持つ状況のことを指す。この場合、推定されるパラメータの標準誤差が変化してしまうため、検定の結果が大きく歪んだものとなってしまう。

・回帰分析は共変量の選定が重要。

・回帰分析は非常に手軽で取り組みやすいというメリットがある反面、目的変数 Y と共変量 X の関係について入念にモデリングを行わなければならないというデメリットがある。

・配車アプリとして有名なUberは、RDDを使って経済学者と分析を行なっていることでも有名な企業

・これらの手法を「どのような環境」で「どのように使うか」が重要

・因果推論がビジネスに価値をもたらす状態になるためには、 より正しい情報がより多くのビジネス上の価値をもたらす という条件が必要である。

===

『RCT大全――ランダム化比較試験は世界をどう変えたのか』

アンドリュー・リー、 上原裕美子 著(2020)みすず書房

・調査対象を無作為に分けて比較する研究手法、ランダム化比較試験(RCT:randomized controlled trial)と言う。

・「学べば学ぶほど、自分がどれほど無知であるか気づかされる」というアルベルト・アインシュタインの哲学を、彼ら(ランダミスタ)の多くが身をもって実践している。

・RCTで真実を追究する人々のことを、ノーベル賞受賞経済学者アンガス・ディートンは「ランダミスタ randomista」と呼ぶ。

・ランダミスタは、厳密なエビデンスを利用しなかった結果が往々にして、このような「HiPPO(ヒッポ)」──「最も高い給料をもらっている人の意見 Highest Paid Person’s Opinion」に流れてしまうことを知っている。

・お話というものがドライなエビデンスよりも往々にして魅力的であるせい

・被験者を二つのグループに無作為に割り当てる──片方は介入を受け(介入群)、もう片方は介入を受けない(対照群) ──というやり方以上に優れた方法で反実仮想を判断する策は、単純に言って存在しない。

・錠剤の色も、効果に対する患者の認識を変える。RCTによって、うつ病の緩和には黄色い錠剤にすべきであることがわかった( 40)。痛みの緩和なら白い錠剤、不安感を鎮めるなら緑の錠剤だ。鎮静剤は青、興奮剤は赤が最も効く。

・C.S.パースは天才だった。なかでもよく知られているのは哲学者としての研究だ。プラグマティズムと呼ばれる思想の礎を築いている。
・パースのRCTは、実験心理学という学問分野の登場を予示するものであった。

参考:https://www.learn-well.com/blog/2021/03/classical-pragmatism.html

・フィッシャーにとっては、ロザムステッド農業試験場を優先すべき一つの理由があった。データだ。この研究所は数十年前から農業に関するRCTを行なっているため、フィッシャーが開発していた統計手法に使える素材が得られたのだ。

・社会政策の分野で 40 年にわたりRCTを行なってきたジュディス・ゲロンは、研究者が守るべき原則を数多く掲げている。「実験にかかわる要素が複雑だからやれない、とは絶対に言ってはならない」「無作為に割り当てるのは納得がいかないと詰め寄られても、絶対に曖昧な返答をしないこと。現場の人[実験の現場担当者] から、対照群にはどうしても措置を拒否しなければならないのか、と問われたら、「そうだ」と答えること」「実験にはっきりと熱意を持たないなら、その人は実験を理解していない」など

・無作為割当の重要なポイントとは」とゲロンは結論づけている。「これが透明性の塊であることです。コインを投げる、裏表で2つ以上のグループを作る、結果の平均を計算する、引き算をする、その威力は貴重である。

・著名な教育学者はRCTを否定する傾向があるのだ。現実はRCTで測れるほど単純ではないとか、一部の生徒を対照群にするのは非倫理的であるとか、RCTは政治的に実現不可能であると彼らは主張する。

・社会改革への熱意と、介入の効果を調べる厳密な評価は、いわば二人三脚なのだ。

・複数の実験結果を統合して分析することを「メタアナリシス」と言う──修復的司法が確かに犯罪発生率を低下させるという結論が導かれた。

・国連が指摘しているとおりだ。「痛烈な皮肉であるが、女性は自分に対して愛情を抱く存在、さらには自分を守ってくれる存在だと期待した相手から、最も殺されやすい。

・無作為の選抜は倫理的かという問いに対する一つの考え方として、そのプログラムの効果を確信しているかどうか、それ次第だということもできる。

・開発経済学ほど、政策に対するRCTの活用が急速に伸びている分野は、ほかにないかもしれない。

・だが実のところ、マイクロクレジットを絶賛する声の根拠となっていたのは、もっぱら相関関係と因果関係を区別できていない逸話や評価だったのだ。
・マイクロクレジットが期待したほどの人生の変化をもたらせなかった理由の一つは、比較的少額の資金を高金利で貸し付けていたこと。

・たった1時間の啓発映像の視聴で、持続的な変化が生じていたことがわかった。

・短期間ながら実に的確なRCTが行なわれている。1998年5月の時点ではあえて半分の村だけにプログレサを開始し、残りの半分には1999年 12 月に開始することにしたのだ。これにより、1年半という短期間だけのRCTが成立し、2グループを比較することが可能となった。

○時間差RCTなら実現可能かも。

・最善の実験とは単にプログラムを調べるだけでなく、「他の状況に一般化可能な仮説」が見つかる実験のことなのだ。

・社会科学におけるRCTを指して、フィールド実験と言うこともある。
・ビジネスにおけるRCTは、たいてい「A/Bテスト」と呼ばれる。

・経営コンサルタントだったマシュー・スチュワートは著書『マネジメントの神話 The Management Myth』で、経営コンサルティングは科学というより手品に近いと看破した。

・ネガティブな投稿を読んだ翌日にはフェイスブックへのアクセスが減る。人の機嫌は友人の機嫌につられている。ポジティブな感情もネガティブな感情も伝染するということだ。

・RCTが本質として、きわめてシンプルであるからだ。シンプルであるがゆえに、他の研究結果とまたがった比較も容易にできる。そのため発見に疑わしさがあれば明るみに出るのだ。

・単一被験者法(N of 1 実験)は、私たちが世界を知るためにランダム化を活用する新しい手法の一つなのだ。

・RCTの否定派に、否定する根拠を尋ねたとき、よく返ってくる答えの一つが、対照群を設けることが非倫理的であるから、というものだ。

・優れたランダミスタは、社会問題の解決に情熱を燃やしながらも、プログラムが掲げた目標を満たすかどうかという点には、必ず疑いのまなざしをもっている。

・ものごとの評価方法の優劣を決める熾烈な競争において、RCTは金メダルなのだ。実際、多くの研究者はエビデンス階層という考え方を支持しており、その頂点にはRCTがある。

・タチの悪い研究者がゴミのような仮説を 20 個ほど用意して着手し、そのうち一つくらいは単なる偶然によって 95%レベルで統計的に有意となることも、当然考えられる。そしたら残りの 19 件を打ち捨てて、おや不思議、発表できる論文の出来上がりだ。

・最も再現を試みやすい研究はRCT。

・きちんと設計されていない実験をひそかに行なう風潮から、厳密な実験を行なって世間に公表する風潮へと変化した。

・政治にRCTを取り入れるのは、心理学者ドナルド・キャンベルが「実験的社会」と呼ぶ世界を作ることにつながる。キャンベルは「実験的社会」を、「自己批判の精神をもった社会で、ものごとをありのままに語り、真実を直視し、自己防衛的にならない」とした。

・アメリカの経済的成功は「上手に失敗する」ことにルーツがあると論じた。リスクに挑戦することを奨励し、失敗を許し、失敗から学んでいく組織で、成功が育まれていくのだ

・新しい介入のインパクトを、何も介入を受けない対照群と比較するのが、RCTの最もシンプルなアプローチ。

===

投稿者:関根雅泰

コメントフォーム

ページトップに戻る