Границы коэффициента корреляции
Хорошо известно, что значение коэффициента корреляции
двух случайных величин X и Y не может выходить за пределы интервала от -1 до 1. Отсюда часто возникает иллюзия, что какими бы ни были распределения X и Y, их корреляция может принимать произвольные значения в этом интервале. Иногда это справедливо. Например, если X и Y имеют нормальные распределения, то их корреляция действительно может иметь любое значение между -1 и 1. Однако, в общем случае это неверно. На данной странице приведены примеры маргинальных распределений компонент случайного вектора (X,Y), при которых диапазон значений коэффициента корреляции его компонент оказывается уже, чем [-1,1].
Распределения Бернулли
Пусть случайные величины X и Y имеют распределения Бернулли с параметрами p, q, соответственно, то есть,
Тогда их совместное распределение вполне определяется параметром m = P ( X = 1, Y = 1 ), значения которого лежат в границах Фреше [max(0 , p+q-1) , min(p , q)]. Значение коэффициента корреляции в данном примере равно
Границы Фреше для m, а также интервал возможных значений коэффициента корреляции при различных значениях параметров p, q приведены в следующей таблице.
P( X = 1 ) = p, P( X = 0 ) = 1 — p, P( Y = 1 ) = q, P( Y = 0 ) = 1 — q. | (2) |
p | q | Интервал для m | Интервал для r(X,Y) |
0.2 | 0.6 | [0 , 0.2] | [-0.612 , 0.408] |
0.2 | 0.8 | [0 , 0.2] | [-1 , 0.25] |
0.4 | 0.8 | [0.2 , 0.4] | [-0.612 , 0.408] |
0.6 | 0.8 | [0.4 , 0.6] | [-0.408 , 0.612] |
Почему ?
Как известно из теории, равенство коэффициента корреляции 1 эквивалентно наличию между случайными величинами X и Y линейной зависимости Y = a X + b с положительным коэффициентом a. Другими словами, случайная величина Y получается из случайной величины X преобразованиями сдвига и масштаба, которые не изменяют форму распределения. Поэтому между случайными величинами, имеющими распределения различной формы, не может быть идеальной положительной корреляции.
Аналогично, равенство r(X,Y) = -1 означает совпадение формы распределений случайных величин X и -Y; если формы этих распределений различны, то между X и Y не может быть идеальной отрицательной корреляции. И чем сильнее отличаются формы X и Y ( -Y), тем дальше лежат возможные значения коэффициента корреляции от 1 (-1).