Лабораторная работа № 3. Решение задачи линейного корреляционного и регрессионного анализа Цель работы – выявить связь между случайными переменными путем оценки коэффициентов корреляции и при установлении этой связи конкретизировать ее, построив регрессионную модель.
1. Теоретический обзор
Коэффициент корреляции характеризует тесноту связи между случайными переменными и в генеральной совокупности. Коэффициент корреляции определяется через корреляционный момент (ковариацию) по формуле:
. (3.1)
Известно, что является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными. Для линейно независимых случайных величин . Но даже и для зависимых СВ может быть равен 0. В этом случае СВ и называют некоррелированными.
Пусть получена выборка пар СВ и . Тогда коэффициент корреляции можно оценить по выборочным данным следующим образом:
. (3.2)
Вспомним "хорошие" (несмещённые, состоятельные и эффективные) оценки:
(3.3)
; (3.4)
; (3.5)
. (3.6)
Тогда эмпирический коэффициент корреляции определяется по формуле:
. (3.7)
Как и выборочный коэффициент корреляции принимает значения в интервале , причем граничные значения достигаются только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, обусловленных неполной коррелированностью СВ или ошибками измерений, приводит к уменьшению абсолютного значения . Эмпирический коэффициент корреляции дает состоятельную, но смещённую оценку. Однако при величина смещения составляет менее 1%. Для оценки точности выборочного значения удобно использовать некоторую функцию от :
. (3.8)
Распределение случайной величины можно аппроксимировать нормальным распределением с соответствующим средним и дисперсией:
. (3.9)
Даже для независимых случайных величин (СВ) эмпирический коэффициент корреляции может быть отличен от "0" вследствие случайного рассеивания результатов измерения. Т.е. из-за выборочной изменчивости необходимо проверять, свидетельствует ли не нулевые значения выборочного коэффициента корреляции о существовании статистически значимой корреляции между исследуемыми СВ и . Сделать это можно, проверив гипотезу , причем отклонение гипотезы будет свидетельствовать о принятии альтернативной гипотезы корреляция значимая.
Из (3.9) следует, что при выборочное распределение будет нормальным со средним и дисперсией . Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид:
. (3.10)
Здесь уровень значимости, стандартное нормальное распределение .
Если корреляционный анализ установит степень взаимосвязи двух и более случайных величин, логичен следующий шаг – построение модели этой связи. Такая модель дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. А методы решения подобных задач носят название "регрессионный анализ".
В линейный регрессионный анализ [3] входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных и . Предполагается, что независимые переменные (факторы, объясняющие переменные) влияют на значения зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i = 1, ..., n требуется построить функцию , которая приближенно описывала бы изменение Y при изменении X:
.
Предполагается, что множество допустимых функций, из которого подбирается , является параметрическим:
.
Здесь неизвестный параметр (вообще говоря, многомерный). При построении будем считать, что
, (3.11)
где первое слагаемое – закономерное изменение от , а второе – - случайная составляющая с нулевым средним; является условным математическим ожиданием при условии известного и называется регрессией Y по X.
Пусть и одномерные величины; обозначим их и , а функция имеет вид , где . Учитывая имеющиеся наблюдения , полагаем:
, (3.12)
где независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений. Эта процедура называется методом наименьших квадратов (МНК).
Построим оценку параметра так, чтобы величины
,
называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:
по (3.13)
Чтобы упростить формулы, положим в (3.12) , тогда получим:
. (3.14)
Здесь . Минимизируем сумму квадратов отклонений
, (3.15)
приравняв нулю частные производные по и
. (3.16)
Полученную систему линейных уравнений решим относительно и . Учитывая, что на практике у нас имеется ограниченная выборка из пар наблюденных значений и , решение системы легко находится:
где (3.17)
. (3.18)
Свойства оценок
Нетрудно показать, что если , то
, т.е. оценки несмещенные;
;
Если дополнительно предположить нормальность распределения , то
оценки и нормально распределены и независимы;
остаточная сумма квадратов (3.15) независима от , а величина распределена по закону "хи-квадрат" с степенями свободы.
Оценка для и интервальные оценки коэффициентов линейной регрессии
Свойство 5) дает возможность несмещенной оценки неизвестного значения величиной
(3.19)
Поскольку независима от и , отношения
и , где (3.20)
имеют распределение Стьюдента с степенями свободы. Тогда соответствующие доверительные интервалы (при доверительной вероятности ) будут равны
,
. (3.21)
Здесь и соответствующие квантили распределения Стьюдента с степенями свободы. Таким образом, найденные интервалы (3.21) с доверительной вероятностью накрывают определяемые параметры (теоретические коэффициенты регрессии).
Проверка гипотез относительно коэффициентов линейной регрессии
На первом этапе регрессионного анализа наиболее важной является задача установления линейной зависимости между переменными и . С этой целью сформулируем гипотезы:
линейная зависимость отсутствует, коэффициент угла наклона прямой незначимо отличается от нуля;
линейная зависимость значительная и коэффициент угла наклона не равен нулю.
При проверке гипотезы воспользуемся статистикой и, если выполняется условие
(3.22)
то гипотезу следует отклонить при уровне значимости .
Другой способ (в данном случае эквивалентный (3.22)) проверки гипотезы состоит в вычислении статистики
(3.23)
распределенной, если верна, по закону Фишера с числом степеней свободы 1 и . Если
(3.24)
где квантиль уровня , то гипотеза отклоняется с уровнем значимости .
Аналогичным образом проверяется гипотеза о статистической значимости нулю коэффициента регрессии (свободный член линейного уравнения равен нулю): .
Особый интерес представляет выборочное распределение при конкретном значении . Так как ведет себя как СВ, распределенная по нормальному закону, для нее тоже можно построить доверительный интервал. Соответствующая статистика имеет вид:
. (3.25)
В выражении (3.25) величина это выборочное стандартное отклонение наблюденного значения от предсказанного , равное
. (3.26)
Проверка качества уравнения регрессии
Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации.
Рассмотрим следующие вариации (суммы квадратов отклонений):
(total sum of square) разброс фактических значений от их среднего арифметического;
(regression sum of square) разброс обусловленный регрессией от их среднего арифметического;
(error sum of square) разброс за счет случайных отклонений от функции регрессии.
Оказывается,
(3.27)
т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина это доля вариации значений , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика
(3.28)
называется коэффициентом детерминации.
При регрессия ничего не дает, т.е. знание не улучшает предсказания для по сравнению с тривиальным . Другой крайний случай означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение , тем лучше качество подгонки (регрессионной модели).
|