note1
連続量に対する変化を表現するグラフには、折れ線グラフが適している。横軸が量的に連続して変化する変数のため。
また離散量を表すグラフには棒グラフが適している。横軸が量的に連続して変化する変数ではないため。
AとBの相関関係を考えるときそれ以外のCが影響していることはある。第3の変数が第1第2の両方の変数に特定の影響を及ぼしているという疑似相関がある場合が考えられる。
ピアソンの積率相関係数は外れ値の影響を受けることがある。
相関係数は2つの変数間の直線関係の強さを測っているといえる。
負の相関が高くなると最終的に-1になる。
0は相関がない状態。
年収のようなデータを数値要約する際には、中央値と四分位偏差が適している。
あるデータが正規分布していると仮定されるとき、そのデータの平均値、中央値、最頻値は等しくなる。
偏差値を用いることで異なるテストの成績を比較することができる。
質的変数どうしの関係の強さ数値要約するための指標は連関係数(coefficient of association)。カテゴリー数がともに2である場合の質的変数どうしの関係の強さを数値要約するために用いる指標の代表的なものにφ係数(phi coefficient)がある。
母集団とは対象全体であり、標本とは抽出された一部の対象である。通常、分析の対象となるデータは標本である。
統計的検定とは、問題にしている変数の母数に関する条件間の差の有無などについて確率論的に判断するための分析方法である。
あるデータ間に差がみられるとき、偶然による差なのか、意味のある差なのかを統計的に判断する。
差があるという仮説(対立仮説、偶然ではない)の正否について吟味するために、差がないという仮説(帰無仮説、偶然である)を否定することで差があると判断する。
例えば、サイコロを10回振った時に差がないという仮説(帰無仮説)に最も合致した結果は(偶数:奇数=5:5)である。
つまり、差がないということはサイコロが正確に作られていることである。