データの分析
相関関係
問題《共分散の公式》
データ $x = x_1,$ $\cdots,$ $x_n$ と $y = y_1,$ $\cdots,$ $y_n$ の共分散 $s_{xy}$ について
\[ s_{xy} = \overline{xy}-\bar x\cdot\bar y\]
が成り立つことを示せ.
ただし, $\bar x,$ $\bar y,$ $\overline{xy}$ はそれぞれ $x,$ $y,$ $xy$ の平均値を表す.
解答例
共分散の定義により,
\[\begin{aligned}
s_{xy} &= \frac{1}{n}\sum_{k = 1}^n(x_k-\bar x)(y_k-\bar y) \\
&= \frac{1}{n}\sum_{k = 1}^n(x_ky_k-\bar xy_k-x_k\bar y+\bar x\cdot\bar y) \\
&= \frac{1}{n}\sum_{k = 1}^nx_ky_k-\bar x\cdot\frac{1}{n}\sum_{k = 1}^ny_k-\bar y\cdot\frac{1}{n}\sum_{k = 1}^nx_k+\frac{1}{n}\cdot n\bar x\cdot\bar y \\
&= \overline{xy}-\bar x\cdot\bar y-\bar y\cdot\bar x+\bar x\cdot\bar y \\
&= \overline{xy}-\bar x\cdot\bar y
\end{aligned}\]
が成り立つ.
参考
\[ s_{xy} = \overline{xy}-\bar x\cdot\bar y \quad \cdots [1]\]
において $x = y = X$ とすると, 分散の公式
\[ V(X) = E(X^2)-E(X)^2 \quad \cdots [2]\]
が得られる.
つまり, 共分散の公式 $[1]$ は分散の公式 $[2]$ の一般化である (「期待値の線形性」を使った別証明はこちらを参照).
問題《相関係数の値の範囲》
データ $x = x_1,$ $\cdots,$ $x_n$ とデータ $y = y_1,$ $\cdots,$ $y_n$ の相関係数は $-1$ 以上 $1$ 以下であることを示せ.
実数 $a_1,$ $\cdots,$ $a_n,$ $b_1,$ $\cdots,$ $b_n$ に対して「コーシー=シュワルツの不等式」
\[ (a_1b_1\!+\!\cdots\!+\!a_nb_n)^2 \leqq (a_1{}^2\!+\!\cdots\!+\!a_n{}^2)(b_1{}^2\!+\!\cdots\!+\!b_n{}^2)\]
が成り立つこと (こちらを参照) は証明なしに使ってよい.
解答例
$x$ の平均値を $\bar x,$ $y$ の平均値を $\bar y$ とおいて, $a_k = x_k-\bar x,$ $b_k = y_k-\bar y$ $(1 \leqq k \leqq n)$ とおくと,「コーシー=シュワルツの不等式」
\[\left(\sum_{k = 1}^na_kb_k\right) ^2 \leqq \left(\sum_{k = 1}^na_k{}^2\right)\left(\sum_{k = 1}^nb_k{}^2\right)\]
から
\[\begin{aligned}
\frac{|s_{xy}|}{s_xs_y} &= \frac{\left|\dfrac{1}{n}\displaystyle\sum_{k = 1}^na_kb_k\right|}{\sqrt{\dfrac{1}{n}\displaystyle\sum_{k = 1}^na_k{}^2}\sqrt{\dfrac{1}{n}\displaystyle\sum_{k = 1}^nb_k{}^2}} \\
&= \sqrt{\frac{\left(\displaystyle\sum_{k = 1}^na_kb_k\right) ^2}{\left(\displaystyle\sum_{k = 1}^na_k{}^2\right)\left(\displaystyle\sum_{k = 1}^nb_k{}^2\right)}} \leqq 1
\end{aligned}\]
が得られる.