Ю. Я. Кацман статистическая обработка экспериментальных данных


НазваниеЮ. Я. Кацман статистическая обработка экспериментальных данных
страница3/5
ТипЛабораторная работа
filling-form.ru > бланк доверенности > Лабораторная работа
1   2   3   4   5

Лабораторная работа № 3.

Решение задачи линейного корреляционного и регрессионного анализа


Цель работы – выявить связь между случайными переменными путем оценки коэффициентов корреляции и при установлении этой связи конкретизировать ее, построив регрессионную модель.

1. Теоретический обзор

Коэффициент корреляции характеризует тесноту связи между случайными переменными и в генеральной совокупности. Коэффициент корреляции определяется через корреляционный момент (ковариацию) по формуле:

. (3.1)

Известно, что является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными. Для линейно независимых случайных величин . Но даже и для зависимых СВ может быть равен 0. В этом случае СВ и называют некоррелированными.

Пусть получена выборка пар СВ и . Тогда коэффициент корреляции можно оценить по выборочным данным следующим образом:

. (3.2)

Вспомним "хорошие" (несмещённые, состоятельные и эффективные) оценки:

(3.3)

; (3.4)

; (3.5)

. (3.6)

Тогда эмпирический коэффициент корреляции определяется по формуле:

. (3.7)

Как и выборочный коэффициент корреляции принимает значения в интервале , причем граничные значения достигаются только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, обусловленных неполной коррелированностью СВ или ошибками измерений, приводит к уменьшению абсолютного значения . Эмпирический коэффициент корреляции дает состоятельную, но смещённую оценку. Однако при величина смещения составляет менее 1%. Для оценки точности выборочного значения удобно использовать некоторую функцию от :

. (3.8)

Распределение случайной величины можно аппроксимировать нормальным распределением с соответствующим средним и дисперсией:

. (3.9)

Даже для независимых случайных величин (СВ) эмпирический коэффициент корреляции может быть отличен от "0" вследствие случайного рассеивания результатов измерения. Т.е. из-за выборочной изменчивости необходимо проверять, свидетельствует ли не нулевые значения выборочного коэффициента корреляции о существовании статистически значимой корреляции между исследуемыми СВ и . Сделать это можно, проверив гипотезу , причем отклонение гипотезы будет свидетельствовать о принятии альтернативной гипотезы корреляция значимая.

Из (3.9) следует, что при выборочное распределение будет нормальным со средним и дисперсией . Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид:

. (3.10)

Здесь уровень значимости, стандартное нормальное распределение .

Если корреляционный анализ установит степень взаимосвязи двух и более случайных величин, логичен следующий шаг – построение модели этой связи. Такая модель дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. А методы решения подобных задач носят название "регрессионный анализ".

В линейный регрессионный анализ [3] входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных и . Предполагается, что независимые переменные (факторы, объясняющие переменные) влияют на значения зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i = 1, ..., n требуется построить функцию , которая приближенно описывала бы изменение Y при изменении X:

.

Предполагается, что множество допустимых функций, из которого подбирается , является параметрическим:

.

Здесь неизвестный параметр (вообще говоря, многомерный). При построении будем считать, что

, (3.11)

где первое слагаемое – закономерное изменение от , а второе – - случайная составляющая с нулевым средним; является условным математическим ожиданием при условии известного и называется регрессией Y по X.

Пусть и одномерные величины; обозначим их и , а функция имеет вид , где . Учитывая имеющиеся наблюдения , полагаем:

, (3.12)

где независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений. Эта процедура называется методом наименьших квадратов (МНК).

Построим оценку параметра так, чтобы величины

,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

по (3.13)

Чтобы упростить формулы, положим в (3.12) , тогда получим:

. (3.14)

Здесь . Минимизируем сумму квадратов отклонений

, (3.15)

приравняв нулю частные производные по и

. (3.16)

Полученную систему линейных уравнений решим относительно и . Учитывая, что на практике у нас имеется ограниченная выборка из пар наблюденных значений и , решение системы легко находится:

где (3.17)

. (3.18)

Свойства оценок

Нетрудно показать, что если , то

    1. , т.е. оценки несмещенные;



    2. ;

Если дополнительно предположить нормальность распределения , то

    1. оценки и нормально распределены и независимы;

    2. остаточная сумма квадратов (3.15) независима от , а величина распределена по закону "хи-квадрат" с степенями свободы.

Оценка для и интервальные оценки коэффициентов линейной регрессии

Свойство 5) дает возможность несмещенной оценки неизвестного значения величиной

(3.19)

Поскольку независима от и , отношения

и , где (3.20)

имеют распределение Стьюдента с степенями свободы. Тогда соответствующие доверительные интервалы (при доверительной вероятности ) будут равны

,

. (3.21)

Здесь и соответствующие квантили распределения Стьюдента с степенями свободы. Таким образом, найденные интервалы (3.21) с доверительной вероятностью накрывают определяемые параметры (теоретические коэффициенты регрессии).

Проверка гипотез относительно коэффициентов линейной регрессии

На первом этапе регрессионного анализа наиболее важной является задача установления линейной зависимости между переменными и . С этой целью сформулируем гипотезы:

линейная зависимость отсутствует, коэффициент угла наклона прямой незначимо отличается от нуля;

линейная зависимость значительная и коэффициент угла наклона не равен нулю.

При проверке гипотезы воспользуемся статистикой и, если выполняется условие

(3.22)

то гипотезу следует отклонить при уровне значимости .

Другой способ (в данном случае эквивалентный (3.22)) проверки гипотезы состоит в вычислении статистики

(3.23)

распределенной, если верна, по закону Фишера с числом степеней свободы 1 и . Если

(3.24)

где квантиль уровня , то гипотеза отклоняется с уровнем значимости .

Аналогичным образом проверяется гипотеза о статистической значимости нулю коэффициента регрессии (свободный член линейного уравнения равен нулю): .

Особый интерес представляет выборочное распределение при конкретном значении . Так как ведет себя как СВ, распределенная по нормальному закону, для нее тоже можно построить доверительный интервал. Соответствующая статистика имеет вид:

. (3.25)

В выражении (3.25) величина это выборочное стандартное отклонение наблюденного значения от предсказанного , равное

. (3.26)

Проверка качества уравнения регрессии

Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации.

Рассмотрим следующие вариации (суммы квадратов отклонений):

(total sum of square) разброс фактических значений от их среднего арифметического;

(regression sum of square) разброс обусловленный регрессией от их среднего арифметического;

(error sum of square) разброс за счет случайных отклонений от функции регрессии.

Оказывается,

(3.27)

т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина это доля вариации значений , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика

(3.28)

называется коэффициентом детерминации.

При регрессия ничего не дает, т.е. знание не улучшает предсказания для по сравнению с тривиальным . Другой крайний случай означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение , тем лучше качество подгонки (регрессионной модели).
1   2   3   4   5

Похожие:

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2 Обработка пдн лиц, состоящих в трудовых отношениях с Оператором
Испдн совокупность содержащихся в базах данных персональных данных и обеспечивающих их обработку информационных технологий и технических...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconТермины 4 3 обработка персональных данных клиентов ООО «дельта телеком»
Ответственный за организацию обработки и обеспечение защиты персональных данных 8

Ю. Я. Кацман статистическая обработка экспериментальных данных iconОбработка персональных данных воспитанников согласие родителей /законных...
Для соблюдения требований закона n 152-фз «О персональных данных» (ПДн) доу должен получить от родителей каждого воспитанника согласие...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon«Организация обработки экспериментальных данных для перезарядочной...
Федеральное государственное бюджетное учреждение национальный исследовательский центр

Ю. Я. Кацман статистическая обработка экспериментальных данных iconАнкета соискателя
Обработка персональных данных ведется с целью рассмотрения Вашей кандидатуры на должность

Ю. Я. Кацман статистическая обработка экспериментальных данных iconИнструкция по оформлению анкеты и автобиографии
Во исполнение Федерального закона от 27. 07. 2006 №152-фз «О персональных данных» обработка персональных данных кандидата, содержащихся...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconМетодическая разработка урока по финансовому учету «Составление и...
Составление и обработка товарного отчета №44 Роговой Л. А. Запись отчета в ведомость по учету товаров

Ю. Я. Кацман статистическая обработка экспериментальных данных iconПредмет Договора
...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2. обработка бланков ответов №1
Первичная обработка бланков, проводимая в рцои, включает в себя совокупность следующих процедур

Ю. Я. Кацман статистическая обработка экспериментальных данных iconРуководство нато по каталогизации
Автоматическая обработка данных (adp) для обмена информацией в системе кодификации нато

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск