統計検定2級:DAY4

bullet, journal, closed-2428875.jpg

言い訳を並べたDAY3から間が空いてしまったが、兎にも角にも統計検定2級だけはとっておこうということで学習を本格的に開始した。

具体的にはUdemyの統計検定2級対策講座に取り組んだ。記述統計の途中まで。

具体的には、以下の内容を学んだ。

  • 変数の種類
  • ヒストグラムと累積分布
  • 中心と散らばりの指標
  • 要約統計量と箱ひげ図
  • 散布図と共分散·相関係数
  • 偏相関係数
  • 回帰直線
  • 決定係数

偏相関係数辺りから(特に数式についての)理解が怪しくなってきたが、良い講座に当たった気がする。

未習熟のトピックを整理しておく。

  • 偏相関係数[数式は覚えようと思えば覚えられそうだが、グラフ上で考えるとどういうことか等が分からない]
  • 回帰直線[α’とβ’の導出]
  • 決定係数[この指標がやりたい事は分かったが、数式のSr/Syのイメージが難しい]

βの導出について、相関係数(Rxy)を用いることやYについて解く一次関数なので分母にSx分子にSyが来ることは式を見ながら考えればイメージはつかないでもないが腹落ちはしていない。xとyは単位(というか説明しているもの)が異なるのは理解出来、あとちょっとという感じもするのでこれは演習を通してある日突然分かるレベルの理解度と認識しておく。

決定係数について、分散や標準偏差が分かったようでまだ頭の中で整理出来ていない(自分のものにできていない)事が理解を難しくしているように感じる。

これまで見た説明では標準化の有用性が分からなかったのだがそれが分かったり、式だけではなくグラフを用いて説明してくれるのでかなり分かりやすかったりした。

今回、標準化得点が偏差値の仲間(正確には偏差値が標準化得点の一種らしい)であることに初めて思い至った。説明が上手いと思う。

そして私の場合数学力が低いせいで式を見てもグラフがパッとイメージできないためグラフを見せながら数式を解説してくれるのが大変ありがたい。

また、きっちり統計学を学ぶ意義を垣間見た気がしてモチベーションが上がった。

例えば、決定係数(R2)は何を表しているのか。

決定係数はどの程度の数値なら実務上使用に耐えうるモデルなのかはググれば一応参考となる情報が出てくるが、決定係数はαが平均、βが0の直線と比較した場合の当てはまりの良さを表していることを知っていればグラフで表現した場合どんな事が起こっているのか分かりやすくなる。更に例えば絶対的な参考値ではなく相対的なものではないか等と言う自分なりの考えも浮かぶ。

また、これは合わせて回帰直線が被説明変数と説明変数の平均の値を通過する事を知っているとより立体的なイメージが出来る。グラフを見ているとだんだん確率分布のグラフにも似ているように見えてきたのも面白かった。

共分散なんかも、「いかにも機械的に」データの分布を理解する方法という感じがしてニヤリとしてしまった。こういったアプローチはコンピュータと相性が良いだろう。

楽勝だと思っていた記述統計で数式に出くわして挫けそうだし、復習しないと定着しなさそうな理解度である事を感じて道のりの長さに目眩がしそうだが、良い教材に出会えたかも知れないと言う事が今後の支えになる予感がする。

充実したDAY4だった。

上部へスクロール