Ю. Я. Кацман статистическая обработка экспериментальных данных

Скачать 0.6 Mb.

Название	Ю. Я. Кацман статистическая обработка экспериментальных данных
страница	3/5
Тип	Лабораторная работа

filling-form.ru > бланк доверенности > Лабораторная работа

1 2 3 4 5

Лабораторная работа № 3.

Решение задачи линейного корреляционного и регрессионного анализа

Цель работы – выявить связь между случайными переменными путем оценки коэффициентов корреляции и при установлении этой связи конкретизировать ее, построив регрессионную модель.

1. Теоретический обзор

Коэффициент корреляции

характеризует тесноту связи между случайными переменными

в генеральной совокупности. Коэффициент корреляции определяется через корреляционный момент (ковариацию)

по формуле:

. (3.1)

Известно, что

является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными. Для линейно независимых случайных величин

. Но даже и для зависимых СВ

может быть равен 0. В этом случае СВ

называют некоррелированными.

Пусть получена выборка

пар СВ

. Тогда коэффициент корреляции можно оценить по выборочным данным следующим образом:

. (3.2)

Вспомним "хорошие" (несмещённые, состоятельные и эффективные) оценки:

(3.3)

; (3.4)

; (3.5)

. (3.6)

Тогда эмпирический коэффициент корреляции определяется по формуле:

. (3.7)

Как и

выборочный коэффициент корреляции принимает значения в интервале

, причем граничные значения достигаются только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, обусловленных неполной коррелированностью СВ или ошибками измерений, приводит к уменьшению абсолютного значения

. Эмпирический коэффициент корреляции

дает состоятельную, но смещённую оценку. Однако при

величина смещения составляет менее 1%. Для оценки точности выборочного значения

удобно использовать некоторую функцию от

. (3.8)

Распределение случайной величины

можно аппроксимировать нормальным распределением с соответствующим средним и дисперсией:

. (3.9)

Даже для независимых случайных величин (СВ) эмпирический коэффициент корреляции может быть отличен от "0" вследствие случайного рассеивания результатов измерения. Т.е. из-за выборочной изменчивости необходимо проверять, свидетельствует ли не нулевые значения выборочного коэффициента корреляции о существовании статистически значимой корреляции между исследуемыми СВ

. Сделать это можно, проверив гипотезу

, причем отклонение гипотезы будет свидетельствовать о принятии альтернативной гипотезы

корреляция значимая.

Из (3.9) следует, что при

выборочное распределение

будет нормальным со средним

и дисперсией

. Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид:

. (3.10)

Здесь

уровень значимости,

стандартное нормальное распределение

.

Если корреляционный анализ установит степень взаимосвязи двух и более случайных величин, логичен следующий шаг – построение модели этой связи. Такая модель дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. А методы решения подобных задач носят название "регрессионный анализ".

В линейный регрессионный анализ [3] входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

. Предполагается, что

независимые переменные (факторы, объясняющие переменные) влияют на значения

зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (X_i , Y_i), i = 1, ..., n требуется построить функцию

, которая приближенно описывала бы изменение Y при изменении X:

.

Предполагается, что множество допустимых функций, из которого подбирается

, является параметрическим:

.

Здесь

неизвестный параметр (вообще говоря, многомерный). При построении

будем считать, что

, (3.11)

где первое слагаемое – закономерное изменение

от

, а второе –

- случайная составляющая с нулевым средним;

является условным математическим ожиданием

при условии известного

и называется регрессией Y по X.

Пусть

одномерные величины; обозначим их

, а функция

имеет вид

, где

. Учитывая имеющиеся наблюдения

, полагаем:

, (3.12)

где

независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Общепринята такая процедура определения коэффициентов

, при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений. Эта процедура называется методом наименьших квадратов (МНК).

Построим оценку параметра

так, чтобы величины

,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

по

(3.13)

Чтобы упростить формулы, положим в (3.12)

, тогда получим:

. (3.14)

Здесь

. Минимизируем сумму квадратов отклонений

, (3.15)

приравняв нулю частные производные по

. (3.16)

Полученную систему линейных уравнений решим относительно

. Учитывая, что на практике у нас имеется ограниченная выборка из

пар наблюденных значений

, решение системы

легко находится:

где

(3.17)

. (3.18)

Свойства оценок

Нетрудно показать, что если

, то

, т.е. оценки несмещенные;
;

Если дополнительно предположить нормальность распределения

, то

оценки и нормально распределены и независимы;
остаточная сумма квадратов (3.15) независима от , а величина распределена по закону "хи-квадрат" с степенями свободы.

Оценка для

и интервальные оценки коэффициентов линейной регрессии

Свойство 5) дает возможность несмещенной оценки неизвестного значения

величиной

(3.19)

Поскольку

независима от

, отношения

, где

(3.20)

имеют распределение Стьюдента с

степенями свободы. Тогда соответствующие доверительные интервалы (при доверительной вероятности

) будут равны

. (3.21)

Здесь

соответствующие квантили распределения Стьюдента с

степенями свободы. Таким образом, найденные интервалы (3.21) с доверительной вероятностью

накрывают определяемые параметры (теоретические коэффициенты регрессии).

Проверка гипотез относительно коэффициентов линейной регрессии

На первом этапе регрессионного анализа наиболее важной является задача установления линейной зависимости между переменными

. С этой целью сформулируем гипотезы:

линейная зависимость отсутствует, коэффициент угла наклона прямой незначимо отличается от нуля;

линейная зависимость значительная и коэффициент угла наклона не равен нулю.

При проверке гипотезы воспользуемся

статистикой и, если выполняется условие

(3.22)

то гипотезу

следует отклонить при уровне значимости

.

Другой способ (в данном случае эквивалентный (3.22)) проверки гипотезы

состоит в вычислении статистики

(3.23)

распределенной, если

верна, по закону

Фишера с числом степеней свободы 1 и

. Если

(3.24)

где

квантиль уровня

, то гипотеза

отклоняется с уровнем значимости

.

Аналогичным образом проверяется гипотеза о статистической значимости нулю коэффициента регрессии

(свободный член линейного уравнения равен нулю):

.

Особый интерес представляет выборочное распределение

при конкретном значении

. Так как

ведет себя как СВ, распределенная по нормальному закону, для нее тоже можно построить доверительный интервал. Соответствующая статистика имеет вид:

. (3.25)

В выражении (3.25) величина

это выборочное стандартное отклонение наблюденного значения

от предсказанного

, равное

. (3.26)

Проверка качества уравнения регрессии

Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации.

Рассмотрим следующие вариации (суммы квадратов отклонений):

(total sum of square) разброс фактических значений от их среднего арифметического;

(regression sum of square) разброс обусловленный регрессией от их среднего арифметического;

(error sum of square) разброс за счет случайных отклонений от функции регрессии.

Оказывается,

(3.27)

т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина

это доля вариации значений

, обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика

(3.28)

называется коэффициентом детерминации.

При

регрессия ничего не дает, т.е. знание

не улучшает предсказания для

по сравнению с тривиальным

. Другой крайний случай

означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение

, тем лучше качество подгонки (регрессионной модели).

1 2 3 4 5

	2 Обработка пдн лиц, состоящих в трудовых отношениях с Оператором Испдн совокупность содержащихся в базах данных персональных данных и обеспечивающих их обработку информационных технологий и технических...		Термины 4 3 обработка персональных данных клиентов ООО «дельта телеком» Ответственный за организацию обработки и обеспечение защиты персональных данных 8
	Обработка персональных данных воспитанников согласие родителей /законных... Для соблюдения требований закона n 152-фз «О персональных данных» (ПДн) доу должен получить от родителей каждого воспитанника согласие...		«Организация обработки экспериментальных данных для перезарядочной... Федеральное государственное бюджетное учреждение национальный исследовательский центр
	Анкета соискателя Обработка персональных данных ведется с целью рассмотрения Вашей кандидатуры на должность		Инструкция по оформлению анкеты и автобиографии Во исполнение Федерального закона от 27. 07. 2006 №152-фз «О персональных данных» обработка персональных данных кандидата, содержащихся...
	Методическая разработка урока по финансовому учету «Составление и... Составление и обработка товарного отчета №44 Роговой Л. А. Запись отчета в ведомость по учету товаров		Предмет Договора ...
	2. обработка бланков ответов №1 Первичная обработка бланков, проводимая в рцои, включает в себя совокупность следующих процедур		Руководство нато по каталогизации Автоматическая обработка данных (adp) для обмена информацией в системе кодификации нато

Ю. Я. Кацман статистическая обработка экспериментальных данных

Лабораторная работа № 3.

Решение задачи линейного корреляционного и регрессионного анализа

Похожие: