2011年冬学期「教育調査の計量分析」

授業

2011年冬学期(火曜日)は「教育調査の計量分析」という授業を受けています。
かなり手ごわい授業です。
毎回、授業最初に小テストがあり、数学問題も多く、正直ついていけてません。
が、「大事なところだけ押さえられればいいや」と開き直り参加しています。
お陰で、今まで訳が分からなかった統計の一部が
ほんの少しだけ見えてきた気がします。

授業のふり返りメモを共有します(あくまで私の理解の範囲です)
===
(第1回は仕事があり欠席)
===
■第2回 10月11日
●テスト
・無作為抽出とは
・教育歴と年収の関係を
●無作為抽出
・乱数表 意図的に作られたもの 全て無作為ではない
・ある関数を使って 疑似乱数 
 数列のくり返しが起こらないよう 等確率でなく?
・結果的に偏りがない状態を作るために
・さいころの各目がでる確率は、ひとしく1/6か? NO
 偏りのない結果を実現できない
★結果として等しくなるよう仮定=期待値 必ず起こるはずのこと 
・Random Sampling 本質は単なる概念 
 手続きとして近似的に、さいころや乱数表を使う
・そもそも検定不能な約束事 全ての事象が等確率で生起する
 試行の結果状態により定義される(期待値)
★推測統計の知 部分を調べて全体を最もらしく推定する 
 
 無作為抽出と言う概念を展開することで、推測統計の知が大きく広がった
 この約束事が成立しているという前提
・部分から全体を推測する=推測統計 
 そのためには無作為抽出という約束事が成立しているという前提
●先週のテスト
・どうすれば全体のごく一部しかないサンプルから
 母集団について知ることができるのか
・作為=てきとーにやる ではない 
 結果の状態が等しく選ばれるようにという
 がっちりした約束事がある→とっても作為的
・無作為=母集団に属する全ての要素を全て等確率で抽出
・こうなるはず=期待値 
★無作為抽出の結果=期待値 期待される平均値
・ランダムサンプリングの概念を考えた人はすごい
  フィッシャー? ガウス? 宿題
●サンプリング
・サンプリング=特定の1回に何が起こるか分からない 
 何回かやれば期待値に収束していく
・サンプル平均→母平均 ここに穴がある 飛躍がある
・サンプルという部分から、全体を知る ランダムサンプリングを前提 
 ブレ幅が小さいほど説得力ある
・だからサンプルの平均をもって、母集団の平均としましょう 
 というのは飛躍がある
・1回のサンプルで得られた値が、どのくらいの確率で
 母集団にもあてはまるといえるのか
 条件を入れて、精度を高める
 ブレの範囲を決める ブレ幅が少ないケースを採用する 
 バラつきの小さいサンプル 分散が小さい
・バラつきの幅が小さい状態を作るには そうすれば不偏推定量?を使える
★そのためには、サンプル数を多くする そうすれば中心極限定理が使える
・サンプルが多い方が良いというのは、この定理から来ている
・完全とは言えない ゼロとは言えないけど少ない 
 危険率 有意水準 フィッシャーの5%
・世論調査 2000人/1億 が目安
・サンプルを調べることで、母集団の分散を知ることができるか? 散らばり具合
・サンプルの平均が不偏推定量となった
・サンプルの分散 Nで割る分散
 母集団の分散 n-1で割る分散
・これが混在しているので、統計の教科書は分かりにくい
===
■第3回 10月18日
●テスト 基礎知識を理解する
・平均、分散、標準偏差について説明せよ
・正規分布について説明せよ
・帰無仮説について説明せよ
●ミニテスト A5
●レポート
・論理 サイエンスのルール 
 数理統計がどういう構造をもっているのか 最初に学ぶべきは論理
・A(十分条件)→B(必要条件) ?
・サンプル 林さん (すごいなー)
・有意(全体の縮図)VS ランダム 
 有意=属性の選択
・全数調査ができるようになったのは最近
●サンプリング
・無作為抽出をいかに実現するか
 何回やっても全ての事象が結果として等間隔でおこる 
 特定の1回では何が起こるか分からない
・どうすればランダムサンプリングをできるのか
 1)乱数表、さいころを使う 
   ← 手間がかかる 統計の発想 楽したい 部分から全体
 2)等間隔抽出法 ← 特定の1回に偏りが起こる可能性 
    例)A団地(角部屋)B団地(低層階)
 3)層化抽出法 比例割り当て法 
・完全なランダムは危険 少し有意に層化してサンプルをとる
・おかしな調査結果が出た場合は、
 まずサンプルを疑うこと 現場にいくこと
・何故調査するのか 環境を規定する要因を知りたいから
 しかしサンプリングするためには、あらかじめ影響しそうな要因を
 把握しておく必要がある
★あらかじめ結果がわかっていなければ、サンプリングできない
 分かっている結果を、再調査したもの 
 知っていることを再確認するのが、量的調査
 あたりをつけるために、質的調査を行う
 対象のことが分かっていないと、質問紙を作れない
 (影響しそうな要員を外して作ってしまう)
 層化サンプリングもできない
・偏りをもたらしそうな要因(性別、年齢、職場規模等)を
 最初にコントロール?するのが層化サンプリング、
 分析の中でサブグル―プを作るのが、統制
(Kさんはちょっと違うとのこと)
●ネット調査の問題
・モニターがプロ化してしまう 
 調査者が喜びそうな回答をしてしまい バイアスがかかる
・調査の正しさは架空の概念 代表性のこと?
・一定の誤差の中で、こういうことが起こっているのではというのが調査 
 1回目と2回目の調査で結果は違うもの
・部分から全体を知るという無理をしているがために、
 どこかに無理が出てくる
 帰無仮説は採択されることはないなど 
 都合の悪い結論が導き出されることはない
・穴をいかに小さくするかが統計手法の発展
●統計的検定
・なぜやるのか 
・何らかの基準があって、差のあるなしを判断する
・再現可能、公開、誰でもできるクリアーさ サイエンス
・次回はカイ二乗検定
===
■第4回 10月25日
●教科書
・どれがよいかは人に聞く 教科書によって得意分野がある
●テスト
・Q1 クロス表 どのような分析を行うことができるか分析せよ
 Q2 統計的検定で用いられる「有意水準(危険率)」という
    概念について説明せよ
・調査は無作為抽出によるものとするという点がポイント
・ここが分かれば、統計の設計ができる 無作為抽出がどう生きてくるのか
・分析の仕方には色々ある 正解は一つではない 
 慣習的に使っているデフォルトスタンダード
 正しいかどうかは問題ではない 
 5%水準もフィッシャーが恣意的に決めたもの
・危険率も分野によってちがう 分野での決まりごと
●カイ二乗
・穴がある 意図的に結果をねつ造できる 
 素人であればだませる うのみにできない
・作為しないと、無作為にならない 実際、無作為抽出は難しい
・そんなに数学は難しくない
・マンガでわかる は分からない 統計を自然言語で語ることはできない
 腹をきめて数式を使った方が楽
●先週までの復習
・期待値 無作為抽出の結果
・数学的定理を証明する難しさ2つ
 -定理が成り立つための条件が必要
 (前提条件が少ないほど、適用範囲が広がる)サンプルの多さが必要
 -あくまで近似である
 大数の法則、中心極限定理
・nが少ないときでも、補正することでカバーできる どう補正?
・サンプリングは一回なのに、多数回やったという前提で
 考える統計は、いわば論理のすり替え
 それを認めた上で、確からしさ、信頼性を追求 
 1回しか調べてなくてもなんとか 許容できるよねと
・理解する=イノベーションの追体験 
 作った人の経験 数学をとけばわかる
●カイ二乗
・調査をする目的 仮説を確認して白黒つけたい 
 そのためには基準、線引きが必要
・線を引く難しさ 
 -判定基準をどうするか
 -母集団にあてはまるか
・これを上手くやったのが、推測統計 カイ二乗検定
・「職種による年収差はない」が1%水準で棄却されたとすれば、
 どの程度の差、勤続年数は、等さらなる疑問が出てくるはず
 「職種による年齢差はない」が5%で棄却されなければ、
 なぜ違いがないのか、相関を打ち消している第3の変数は
 何かといった疑問が浮かぶ
 これらをあらかじめシミュレーションしておく 
 結果のパターンが想定できない調査は良い調査では無い
・協力→能力 関係あるとしたら、
 なぜ?誰との関係?どの程度の関係?
・調査票を作った段階で、報告書を作ってしまう 
 集計結果を予測する
・期待度数 予測値
・Pijをどう決める? 帰無仮説
・無作為抽出による 多数回やった結果 
 母集団でもきっとこういう分布になっているのでは
・どの属性をみても分布が一様な母集団=Pij 
 関係がない 帰無仮説
  ↓
 サンプルからの不偏推定量? 
 = ランダムサンプリング サンプル Xij
・関係が無い状態を、分布が一様と決めた点がまずすごい
・H0 帰無 架空の母集団
・この先どう論理を展開するか
・この帰無仮説を棄却したい 
 そのために どうしたらいいのか (宿題)
 かい離していれば、カイ二乗が大きくなる 
 差が小さければ、カイ二乗は小さくなる
・独立 関係が無い にも色んなパターンがあるが、
 あえて確率Pijと規定した そこがすごい
 
 数学的に上手く設定したことが、カイ二乗のポイント
・関係があるという結論を得るために、
 関係が無いという帰無仮説を棄却する
===
■第5回 11月1日 
●雑談
・論理的帰結、必然と選択の違い
●テスト
・カイ二乗検定を行う場合の注意点について述べよ
・帰無仮説が棄却されたとき、次にどのような分析を行うことができるか
・クロス表分析について、検定結果を解釈せよ
●授業の考え方
・数学的定理を前提として受け入れる
・データのインプリケーション?解釈を理解することは難しくない
・ソフトを使えば「正しい答え」がでる
 それだけでよければ、この授業を受ける必要はない
・ブラックボックスを理解したければ、苦難の道
●カイ二乗検定
・クロス表 - 両者が独立か否か
・サンプルから母集団に関する仮説の検定を行う 
 これは難しいことをやっている
・カイ二乗の穴 大ウソ エラー バグがある 
 論理構成の穴、 プラクティカルな穴
・n サンプル数の違い 
 仮説を棄却したければ、サンプルを増やせばよい=関連性がある
 仮説を棄却したくなければ、サンプルを少なくすればよい=関連性がない
・(基準となるサンプル数はあるのか?)
・先行研究と同じようなサンプル数でやり、
 違いがあれば変化を主張できる
・カイ二乗を数学的に説明する (宿題) 
 数学定理を使う nがK倍増えると、カイ二乗もK倍になる?
・皆が、カイ二乗検定を使っているのが不思議 
 (それ以外の検定方法があるのか?)宿題
・調査の目的は「分布が一様であるか(帰無仮説)」
 ではなくて、その先の何らかの法則性
 だからカイ二乗にこだわらず、他の分析方法に習熟したほうが良い
・これはこれで使って、その先の分析は別のモノを使う
・統計 どれも危ない 
 できないことをやろうとしている(部分から全体を知る)
・どこを無理してやっているのかが分かれば、
 この程度なら許容できるかの判断ができる
・これを知っていれば、ブラックボックスで誤魔化されない
・データのインプット→危ない推論→厳密な数学定理→危ない推論→結果
 数学者にとっては厳密でも、調査者にとっては厳密ではない
 例)中心極限定理 nが大きくなると、近づく  近づくって
●考えるポイント 5点 これが分かれば、統計的検定が分かる 
 どのような問題設定を構築するのか
 1.何が知りたいか
 2.帰無仮説の設定
 3.統計量t(あるいはカイ二乗)はどのように与えられるか
 4.棄却域の設定
 5.検定の実行
これらを理解の型として使う カイ二乗で分かれば、他のもわかる
・ある統計量tは、ある分布に従う 調査t1、t2、t3
●PPTのスライド
・都合のよい仮説が立てられるということ
・母集団 サンプル クロス表データ 
 →仮説 検証 サンプルを比較できれば、判断できる
・帰無仮説=Pij 数学に落とし込めないとだめ 
 例)2回ふったさいころは正しい 1/36 等確率で出る
・カイ二乗のイノベーション 
 母集団が特性Aを有するかどうかについて、
 サンプルを通して判定(検定)できる
 例外的なサンプル特性b(ケース2)が表れる確率は、
 5%(定理があるので)
・こういうロジックを受け入れるのが統計的検定
 「このくらいだったらありえるよね」
・帰無仮説の作り方 何かが否定された結果、
 自分の知りたいことが言える
 「偽であると判断される」
・分布は一様/一定である=帰無仮説 
 それが棄却されれば、自分の言いたいことが言える
○OJT行動の全て一様? 棄却されれば自分の言いたいことが言える
・統計的検定 ロジック=ストーリー これに乗っかれば、
 強く主張できますよ 決して正しいわけではない
 母集団Aのもとでは、5%という低い確率でしか
 実現しないような特性を有するサンプルbが、現実にえられた
  ↓
 サンプルbが現実にえられたならば、
 その母集団はおそらく特性Aを持たない(仮説Aは偽である)
 この判断が誤りである確率はたかだか5%である
  ↓
 サンプルbが現実にえられたならば、
 その母集団に関する仮説Aは危険率5%で棄却される
・起こり得ないことがおこった 
 それは母集団とは違うのではないですか というロジック
・論理的必然 とは違うロジック 選択の結果 
 これを使いましょうというロジック
●Q&L
・K.ポッパー 「科学的発見の論理」 反証可能性
 全ての科学的真理は、否定されるもの 暫定的なもの 
・全称命題 例)からすは黒いかいなか 
 100匹くらい 全てを調べられない
 正しいかどうか実証できない 不可知
・こういう考え方が統計の背景にはある 
●棄却域
・この設定が難しい
・次回に
===
■第6回 11月8日
●先週
・カイ二乗検定のロジックは込み入っている
・ロジックを組む 論理が通る ための訓練
・このロジックが分かれば、他にも応用が可能
・理解するためのキーワードが「有意水準」「帰無仮説の採択」
●テスト
・有意水準とは、帰無仮説が採択されるとは?
・回帰分析の結果について説明せよ
・帰無仮説=母集団にあって2つの属性が独立している
     =分布が一様である
     =偏りがない
・回帰分析 レグレッション 
 勉強している人が陥る穴がある 穴とは?
●カイ二乗検定
・クロス表を作成することで、関連を調べることができる
・客観的指標がないか
・母集団A → ランダムサンプリング 
 → ケース1 母集団Aの特性に対応した特性aを有する
            ↓
   ケース2 例外的(5%)にしか実現しない特性bを有する
○ケース1だけであれば、検定はできないのかも。だから2を設定する?
・部分から全体を推測するという無謀な試み 
 だからこそ説得的なロジックを造りたい
・危険率 自然言語にはない特殊な概念
・例外的な出来事が起こった
 →それを「まれな出来事が起こった」とせず
 →「仮定(母集団Aである)が誤っていた」という強引が推論をする
 (母集団Bであったと)→この推論(母集団Bであった)が誤りである
 可能性について「危険率」5%と表記する
・危険率5%の高低(1%の方が低い)は判断できるが、
 枠組みそのものの正しさは分からない
・強い仮定を恣意的に導入することで、
 判断が可能となる 先に議論が進む
○「例外的」という判断はどうやってするのか? 恣意的?
・もうひとつ難しいことがある それが棄却域
・棄却域に対応する概念=対立仮説(H1)
・H0 帰無仮説 が誤りであれば、
 H1 対立仮説が正しいと言える そういう風に設定
・H0=サイコロに偏りがない 
 H1=1が出やすい(偏った)サイコロ
・全事象=H0+状態A,B,C・・・ 
 となっているが、あえて
 全事象=H0+状態A H0が正しい/状態A という風に設定
・対立仮説が正しい場合を、棄却域としましょう
・棄却域が何故右側に? 
 カイ二乗の計算式に則って 
 一様から極端に離れた状態になると、カイ二乗値は大きくなる
・棄却域が決まるのは、対立仮説H1があるから。
 H0が誤りであれば、データはこのあたりに来るはず=H1
・H0:一様分布 H1:一様から極端に離れた状態
・希少性(%)だけでなく、分布の場所を決めるのが、対立仮説
・これが、第一のエラー、第二のエラーにつながる
●宿題
・この図式を理解する 教科書を読んで ここまでの筋道を
・11月14日(月)朝までに 
===
■第7回 11月15日
●テスト
・回帰 レグレッション 線形でやるということは前提がある
・データが満たしていなければならない条件 
・手法を使うことが適切なデータであるかどうか(プロット、散布図を見る)
・可否は問わない 
●レポート課題
・単回帰の検定における
  帰無仮説と対立仮説
  検定に用いる統計量tとその理論的背景(数学的定理)
  棄却域の設定
 についてまとめよ (来週まで)
●カイ二乗検定
・ケース1において、仮説Aが誤りであるかは分からない 
 思考実験してもできない
 母集団からの情報からは判断不能である
・部分から全体を知るために、ケース2なら議論ができる
・希少な出来事があって、それは仮説が間違っていたといましょう
・n=総サンプル xij =サンプル  pij=各セルの期待値
・帰無仮説 H0:一様分布 例)年収は異ならない
 対立仮説 H1:極端に離れた状態 例)年収は大きく異なる
・何故右端にくるのか
・統計的検定では、仮説が正しいという前提のもとで、
 確率的には起こり得ないが、
 まれな現象が起きた時、仮説を棄却する
 この判断が誤っている危険率 5%~1%
・仮説が正しいのにも関わらず、棄却してしまう 
 第一種の誤り Positive False 偽陽性
・極端なケース 中卒0、大卒100 
 だから二乗するとカイ二乗値は大きな値となる
 だからカイ二乗値が右端にくる
・対立仮説が正しい場合(極端な状況)、
 カイ二乗値は大きな値をとる そこを棄却域として設定した
・H0が誤り=H1が正しい にも関わらず棄却しない危険
 第2種の誤り Negative False 偽陰性
・これらの誤りを減らすためにカイ二乗値が大きな値をとる
 (分布の右端)時に、H0を棄却するとしてはどうか。
 これが棄却域を分布の右端に設定する理由である
・検定 このロジックが分かれば、応用できる 
 このロジックはかなり危ういが
・帰無仮説H0が誤りという状態を限定するために、
 対立仮説H1を設定する 
・カイ二乗の落とし穴 サンプル数を増やせば棄却できる 
 カテゴリー(ランク)を調整すると危険率を大きくも小さくもできる
 
 アフターコーディングによって、結果が変わってしまう 
 これがこの手法の原因
・カイ二乗をやってあやしいことをやっていたら疑う
・コード化されたデータによって計算される コードを変えれば結果も変わる
 だから盲目的に使うものではない 先行研究を踏まえてかく
○ここでミニ紙を配布
●検証
・そもそも何を検証したいのか どのような関係があるのか Regression 
・自然社会現象は、非線形であるにも関わらず、線形をなぜ当てはめるのか
  -見て分かりやすいから -昔はPCも無く、線形しか計算できなかったから
・回帰は簡単で、暫定的に使うのはよい
・関数形の当てはめかた データを見て近似的に近いモデル 
 か、理論的に導出する
・重要な操作性
 因果関係は恣意的に選択されている X→Y Y→X 
 両方ありうる モデルの設定も恣意的
・なぜそのモデルを選んだのか 妥当性 
 先行研究でやられているから、手順を基に自身のオリジナリティを主張
・三原則 独立変数は先行 独立と従属は共変 他の変数の統制
●来週
・計算法 R二乗について理解しているという前提で授業する
・単回帰を終わらせて、重回帰に入る
・単回帰 Y=a×1+b
 重回帰 Y=a1×1+a2×2+C 
・重回帰の場合、多重共線性 マルチコ 
===
(第8回は仕事で欠席)
===
■第9回 11月29日
●22日 8回目は欠席
●テスト
・Y=a1x1+a2x2+bなる回帰分析について、統計的検定を行う場合の
 帰無仮説の設定について考察せよ
・都道府県データ 面白い分析をするには? ←クラスター分析
●レポート
・2月7日(火)授業終了時に
・半年間受けて 自分で課題を設定して
・手続きとして使うために知るべき基本的な考え方 
 その考え方についてレポートを書く
・多変量解析に関連して 自分の興味のあるところ?
●たけださんのレポート
・残差変数 他の独立変数の影響を受けているところと受けていないところ
●単回帰 (先週
・Y=ax1+b
●重回帰
・Y=a1x1+a2x2+b
・パラメターの求め方
・説明力を上げることが重要 
 どのような説明変数を加えれば、モデルの説明力を上げることができるか
・説明力を上げる変数 残差が小さくなる変数
・単回帰に比べて、説明力を高める第2の変数x2は?
・Y=cx1+d x2=ex1+f この残差2つの相関が高くなるよう 
 そうすれば説明力が高くなる
・いかに説明力が高い変数を見つけるか これが重回帰のポイント!
 V1とW1の相関が高い場合?、多重共線性が起こる マルチコ
・相関が高いと、多重共線性が起き、決定係数がでかくなる
 X1とX2の相関が高いと、w(残差)が小さくなるから
・多重~が起こると、回帰分析は使えない
・変数間の相関が高いと、回帰分析ができない(高さの基準は分野ごと)
・その場合は、相関が高いので変数を一つにするか、
 主成分分析をしてそこで得られたパラメターを使う
・モデルの選択 R2 説明力が高くなるようなデータ 
 あるいは 理論から~のはずだということで選ぶ
 最終的には、自由度調整済み決定係数を使う
・アプリケーションが便利になったので、一挙に計算できる 
 中は分からなくてもよいが、この授業ではやる
・検定は、単回帰と同じ
・レポート 年内 重回帰分析を実際に回して ?
・回帰分析は、線形を前提としている 
 複雑な現象に対して、本当に線形でいいのかという問題
 線形モデルは、5~10年後にはなくなるかも 
 それでも複雑なものをシンプルにモデル化するという考え方は参考になる
●クラスター分析
・複雑なデータをまとめる
・類似性に基づいて、対象をクラスター(集落)化する
・類似性をいかに計測するか? 
・まずはデータをプロットする データ間の距離を図る
 個体間の距離を測定するために、いくつかの手法がある 群平均法など
・ユークリッド距離と重心 距離の近さを見る
・クラスター分析には、2つの問題がある
・1)手法を変えると結果も変わる
  状況に応じた使い分けが必要 それぞれ長所短所がある
・距離だけでなく、散らばり度合を見る 
 分布に着目する それがマハラノビスの汎距離法
 散らばりも加味して、グループ間の距離を出す 
・多変量解析においては、データの散らばり、分布に着目すること!
○2つめの問題は?
===
■第10回 12月6日
●テスト
・クラスター分析 群内でデータの分布に大きな違いがみられる場合
 ←分散を組み込んで計算
●クラスター分析
・5つの手法を使って、~という結果がでた その考察
  ← よいレポート例
 
・クラスター分析は、本授業ではMust
・マハラノビスの汎距離 (ユークリッド距離)2を分散で除す
・ある未知の個体が、どのグループに属するか 過去のデータはある
 その際に役立つのが、クラスター分析 および N次元のときは、判別分析
●判別分析
・最初にやるのは、
 1)データをプロットする
 2)線形性の仮定をおく
・どうすれば、2つのグループ(合格、失格)に綺麗にわけられるか
・合格、失格Gの総合点の差が大きいほど、奇麗に分けられる
・計算 
・Total S.S = Exp. S.S. + Residual S.S
       説明できる 残差
・典型的な2つの状況を想定する
・群内変動が小さく、群間変動が大きい → 綺麗に判別できる
 郡内変動が大きく、群間変動が小さい → わけにくい
・ST=SB+SW
 全変動 群間 群内
・相関比
・1)相関比 SB/STが最大
 2)合成変数Zの分散が1
 3)2つのグループの重心の中点を通る
   (という制約条件を加えて計算しやすくする)
・判別分析の不具合点 (クラスター分析の2つ目の問題)
・同じような分散であるという前提 
・等分散の検定を行う → OK → 相関比を使う
           → NG → 無視する か マハラノビスの汎距離を使う
・あまりにひどい分散でなければOK
・線形判別ができるときは、等分散を前提としている
●多変量解析のまとめ
・データ⇔手法 データによって使える手法に違いがある
・数学的定理の前提条件を理解する
・底通する考え方を理解する 線形モデル 最小二乗 
相関比 正規分布 カイ二乗分布 t分布 F分布
●レポート案
・分散が違うにも関わらず、線形判別を使った場合、何が起こるか 
●主成分分析
・来週から、年内は 主成分分析
===
■第11回 12月13日
●テスト
・N次元から1次元を抽出する
●授業のポイント
・多変量解析を理解する上でのポイント
 -基本的なロジックの構成を理解
 -数学的定理とデータをすり合わせる 数学的定理の前提条件を理解する
 
・部分から全体を知る という無理を通すので、
 どこかに危ない橋を渡っている それがどこかを知る
・モデル選択の理由 基準はない
・多変量解析の本質的限界 = 前提の妥当性は問わないこと?
・手法群の背景にある思想や哲学を学ぶ 
・思想や哲学、ロジックを学ぶために、古典的な多変量解析の手法を学ぶ
・古典的=プリミティブなので分かりやすい
・高度化された手法はもう無理 ブラックボックス化
●モデル設定のポイント
・恣意的に設定した関係性の強度を測定する
・データの散らばりから、基準を創出する
 -回帰分析 定量変数 外的基準(目的変数)あり
 -クラスター分析 外的基準なし
 -判別分析 外的基準あり
・手法選択のポイント ↑
●主成分分析
・主成分分析と因子分析の違い
・主成分分析=データ→総合指標 因子分析=潜在変数→データ
  潜在変数 → データ → 総合指標
   (因子分析)   (主成分分析)
・主成分分析が、因子分析の一部になっている理由
 数学的には同じ計算式のため 
・主成分と因子分析 どちらを使うかは最初に決める
・主成分分析を実際にやってみて、レポートを出す
・データ → 総合指標
 
例)2次元 → 1次元
  数学、英語→ 総合点数
・線型関数にあてはめる
・軸を回転させる 90度を保って 直交回転
・分散の合計は、回転前、後は同じになる
・縦軸がゼロに近い(ミニマム)なるよう 
 横軸の分散がマックスに大きくなったとき
 第一成分の分散が最大になるように
・分散の和は常に一定
・Z=ax+by Zが作りたい総合指標 Zの分散が最大になるように
・解けない式を解くためにどうするか? 
 数学的定理を使う ラグランジュの未定乗数法
・漠然としたアイデアを、数学的定理につなげることができれば勝ち
●数量化三類
・分散の散らばりに着目して、パターンを抽出する
 パターンが出ない場合は、寄与率が低くなる 説明率が低い
・データは、定性的、外的基準なし
・パターンがあるときは、対角線上に綺麗にでる 相関関係のよう
・数量化の問題
・分析に使うデータによって解釈が変わる カテゴリーを外したり
・どのカテゴリーを設定するかで、結果が変わる 
どのカテゴリーを選ぶかは、本人次第
●多変量解析
・によって得られる分析結果は、
 与えられたデータが示す規則性のパターンでしかない
・社会の現実を正確に反映したものではない
・サンプリング 調査対象のみならず、質問項目自体もサンプリングしている
・恣意的に、質問項目をサンプリングしているが、この点は議論されていない
・自覚が必要
・多変量解析=次元を縮減
・対象が一緒でも、質問によって出てくる結果が違う!
●最終レポート
・趣旨は、多変量解析について考えること
・例)主成分分析と因子分析の違い 統計的検定の意味とは
・多変量解析のすごさ(できないことを可能にするイノベーション)
 と限界(必然的に付随する)
・考え方、発想を学んでほしい
・まじめにレポートをやれば、良い点
・手法を正確に理解し、そのことが的確に反映された分析を行う
 ことができるかどうかが、本授業の最大のポイント
・次回 (1月17日)因子分析 
===
■第12回 2012年1月17日
●テスト
・テストの点数を規定している要因(IQ)について分析(算出)せよ
 →因子分析でとく
●先週 主成分分析
・データ→総合指標 それらのデータに顕著な?
・ある程度説得的で、その手法で解ける ので、標準的な手法となった
・目的に合致しているか=どういうモデルをたてたのか 
 (主成分分析の場合、線形結合をして、最もバラつきが大きいもの)
●因子分析
・背景に何らかの規定要因があるのでは という仮説
・仮説によって、因子分析と主成分分析のどちらを使うかが決まる
・因子数をいくつに設定するか 原因として想定する変数はいくつか
 「因子を仮定した」という表現が正しい
・因子は一つ、二つと仮定 ← 本来は先行研究に従って考える
 SPSSの固有値等による因子数の決定は、報告書レベル 
 論文は、新規性 先行研究では因子数が1つだったが、
 質的調査を踏まえて本研究では2つに設定 
 その方がモデル適合度が高かった これすなわち新しい発見
・どういう仮説を立てたかが大事
 実際は、色々な手法を試してみて、モデル適合度が高いから使ったというケース
・古典的な多変量解析に共通するアプローチ
 →変量x、y、zの分散、共分散を求める。では計算してみましょう。
 (計算はできないので、俺はあきらめ)
・アプリケーションではなく、人間がしなくてはいけない所が残る
 (Mさんの質問:最終レポートテーマ)
・多変量解析の常套手法
 1)共分散を0に仮定する 2)分散1を仮定する
・筋が通った説明ができるため、因子分析はメジャーは手法になっている。
・ここまでが、因子分析の一番プリミティブな形
 3変量1因子モデル
・これがもっとややこしくなる モデルを拡張すると難しくなる
●因子分析の難しさ
・多変量解析においては、まず仮定をたてて、数字をいれて計算する
・因子分析で出てくるマジックワード「因子の回転」
・外から制約条件をいれて、解を求めようとする
・観測変数が増えて、潜在因子も増える=モデルの拡張
・解くために、様々なテクニックを使う
・3変量1因子モデルまでは何とかとけても、
 3変量2因子、4変量1因子になると解けなくなる
・どのくらいの拡張が許容されるのか どのモデルがOKなのか
 数学的手入りを探せ! Ledermannの限界 Kがある数以下であればOK
●宿題
・本授業にふさわしいと考える最終レポート課題を考える
・社会現象→データ→多変量解析手法→社会現象の解釈
●来週
・拡張した因子分析の難しさと面白さ  
・仕事で欠席予定
===
1月24日、31日は仕事で欠席
===
■第15回 2012年2月7日 
●テスト
・因子分析のモデルにおいて、線形代数の定理(スペクトル分解)を
 用いずに、因子負荷量の近似値を得る方法について
 →最小二乗法を用いる
・この授業で学んだことを踏まえ「多変量解析(計量分析)」とは
 何かという問いに自分の言葉で答えよ
 →「部分から全体を推測する」という無理を通すための
   説得力あるロジックを作ること=計量分析
●今日のテーマ
・知識の理解が壊れている?
・この先どう勉強するか、計量分析を
●これまでの復習
・統計的検定は、ポイントを押さえればOK。
 型が分かっていれば理解できる
 3点が分かれば、検定を実行できる。
 1)帰無仮説 2)統計量tと期待分布 
 3)対立仮説に対応した棄却域の設定
・多変量解析を理解する上でのポイント
 構造を見出す:クラスター分析、因子分析、主成分分析
 どういう手法を使うか モデルの選択は主観
・解くための1パターンテクニックがある 例)共分散=0
●共分散構造分析
・因子分析のモデルで、スペクトル分解はややこしいので、
 最小二乗法を使う。すると大きな利点がある。
 スペクトル分解を使わないことで得られるメリット。
 スペクトル分解は、飽和モデルを想定している。
 全ての因子に矢印が出ているモデル。
 最小二乗法であれば、無理ある条件(矢印が出ていない)でも
 使える。
 →つまりモデル設定の自由度が高まるというメリットがある。
  モデルの拡張ができる。
・因子分析から共分散構造分析へのジャンプ
 -スペクトル分解を使わずに、最小二乗法を使うことで、
  モデル設定の自由度が広がった。
 -そのため、10年前から共分散構造分析が使われている。
 -因子分析はいずれ使わなくなるのでは
・AMOSは学生なら無料で使える 簡単
・AMOSになると、中身は理解できない 
○そうすると、信用するしかない?
・モデルの検定
  評価基準:カイ二乗検定 
   帰無仮説は「パス図で設定したモデルは正しい」
   棄却されなければ、消極的にモデルは支持される。
  適合度:RMR 0に近いほどモデルはデータに適合
  適合度:GFI 0.9以上であれば、モデルはデータに適合(最大1)
●最後に
・これからどう勉強するか
 
 因子分析までは数学的に理解できても、共分散構造分析以降は難しい
・古典的一般線形モデル→最新のデータマイニング
・追体験を通じて初めて理解できる 先人の苦闘
・古典は、プリミティブだからこそ分かりやすく、初学者には価値がある
・理解してソフトを使うか、ソフトに使われるか
・知識社会=人間が知識に負けた社会
 思考を停止するために、方法論にすがる
・社会調査法の現状
 結果が分かっていることの確認にしか使えない
 結果が分かっていないと、良い調査はできない
○結果を分かるためには、仮説(先行研究、経験則)?
・リアルな社会→単純化によるモデル設定と抽象概念の操作的定義→
  データ→多変量解析→分析結果→解釈→社会へのインプリケーション
・ニセ科学は、二分法で断言する。(キッパリ!)
 誠実な科学者は、断言しない。 (モヤモヤ~)
 計量分析も、ニセ科学に近いのでは
 多変量解析=単純化のための手法
・多変量解析教の信者もいる
 あたかも正しい答えを教えてくれるかのように
・どう勉強するか
 お勧め本「集合知のプログラミング」
 統数研に行く
・計量分析 やるなら徹底的にやるか、やらないか
 ほどほどは難しい 二極化
===
ありがとうございました。

投稿者:関根雅泰

コメントフォーム

CAPTCHA


ページトップに戻る