Скачать 0.72 Mb.
|
Таблица дисперсионного анализа регрессии
Если нулевая гипотеза отклонена, встает вопрос о значимости каждого коэффициента регрессии в отдельности, т.е. необходимо выяснить, какие из коэффициентов регрессии равны нулю, а какие значимо отличны от нуля? Такая проверка осуществляется на основе статистик Стьюдента, вычисленных для свободного члена и для каждого коэффициента регрессии. Статистика Стьюдента для свободного члена уравнения регрессии вычисляется по формуле: ta = a / Sa , где Sa – стандартная ошибка свободного члена уравнения регрессии: Для коэффициентов регрессии t-статистики равны: = bk /, где – стандартные ошибки коэффициентов регрессии: Вычисленные статистики Стьюдента сравниваются с критическими значениями , найденными по таблице t – распределения с фиксированным и степенями свободы = n – 1. Если, например, > , то это означает, что коэффициент при переменной xk в уравнении регрессии значимо отличен от нуля и влияние переменной xk на моделируемый показатель можно признать значимым. При компьютерных расчетах вместе со статистикой Стьюдента вычисляется и выборочный уровень значимости или р-величина. По ее значению и определяется значимость каждого параметра уравнения регрессии. Показатель MSE является одной из характеристик точности уравнения регрессии и называется остаточной дисперсией. Корень квадратный из MSE называется стандартной ошибкой оценки регрессии (Sy,x) и показывает, какую ошибку в среднем мы будем допускать, если значение зависимой переменной будем оценивать по уравнению регрессии на основе известных значений независимых: переменных. Итак: Кроме того, этот показатель в неявном виде участвует в определении коэффициента множественной детерминации (R2), т. к. = Отсюда следует смысл коэффициента множественной детерминации. Он показывает долю вариации результирующего показателя, обусловленную вариацией включенных в уравнение регрессии независимых переменных. Коэффициент множественной детерминации обычно выражают в процентах, поэтому, например, если R2 = 75 %, то это означает, что изменение зависимой переменной на 75 % объясняется изменением включенных в уравнение регрессии независимых переменных, а остальные 25 % – это изменения, обусловленные неучтенными факторами, в том числе и случайными отклонениями (ошибками). Корень квадратный из коэффициента множественной детерминации называется коэффициентом множественной корреляции: Коэффициент множественной корреляции показывает тесноту линейной корреляционной связи между зависимой переменной и всеми независимыми переменными. По сути дела – это коэффициент корреляции между фактическими и расчетными значениями зависимой переменной. Ясно что, R2 изменяется от нуля до единицы, и равен единице, если SSE = 0, т. е. когда связь линейная функциональная, и равен нулю, если SST = SSE, т. е. когда связь отсутствует. Значимость коэффициента множественной детерминации определяется на основе критерия Фишера: с m степенями свободы числителя и (n – m – 1) степенями свободы знаменателя. Известно, что коэффициент множественной детерминации является завышенной оценкой точности уравнения регрессии, поэтому разработана преобразованная форма этого коэффициента, имеющая вид: , где – исправленное (adjusted) (c учетом степеней свободы) значение коэффициента множественной детерминации. В отличие от будет убывать, если в уравнение регрессии будут добавляться незначимые независимые переменные. Исправленный коэффициент детерминации всегда меньше неисправленного и является несмещенной оценкой для коэффициента множественной детерминации. Как уже отмечалось, одной из предпосылок МНК является независимость отклонений e = y – друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков. Разработано несколько методов проверки на автокорреляцию остатков. Большинство статистических пакетов прикладных программ используют метод Дарбина – Уотсона. Он основан на гипотезе о существовании автокорреляции остатков между соседними членами ряда. Этот критерий использует статистику Для d-статистики найдены критические границы (du – верхняя и dl – нижняя), позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне значимости , известном числе независимых переменных m и объеме выборки n. Процедура принятия и непринятия гипотезы об отсутствии автокорреляции в остатках изображена ниже.
dl du 4-du 4-dl Рис. 4.1 Процедура принятия решения об автокорреляции остатков Если вычисленное значение d–статистики попало в область неопределенности критерия, то это означает, что нет статистических оснований ни отклонить, ни принять нулевую гипотезу об отсутствии автокорреляции в остатках. Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в определении спецификации уравнения и либо вернуться к набору включаемых в уравнение регрессий переменных, либо к форме регрессионной зависимости. 4.4 Тренировочный пример Пусть имеются показатели работы предприятия за 4 года по кварталам: у – рост производительности труда (%), х1 – отношение фонда зарплаты к затратам рабочего времени (руб./чел.-час), х2 – коэффициент текучести кадров ((%) и х3 – энерговооруженность производства (квт./чел.). Провести корреляционно – регрессионный анализ этой информации для чего:
При решении этой задачи воспользуемся готовыми результатами расчетов на основе стандартных[ статистических ППП STATGRAPHICS Pius и STATISTICA. Сами статистические данные здесь не приводятся. Приведем описательные статистики для переменных (см. рис.4.2) Рис. 4.2 Описательные статистики Здесь в первом столбце перечислены изучаемые переменные, во втором – объем выборки для каждой переменной, в третьем (mean) – выборочные средние значения переменных, в четвертом и пятом, соответственно, минимальные и максимальные значения переменных в выборке, а в последнем – выборочные стандартные отклонения для соответствующих переменных.
В силу симметрии будем анализировать только ее верхнюю часть (рис. 4.3). Как видно из рис., все коэффициенты корреляции значимы на 5-ти процентном уровне значимости (все р-величины < 0.05). Следовательно, незначимых переменных нет. Переменные х1 и х3 коллинеарны (коэффициент корреляции между ними > 0,7). В уравнение регрессии эти две переменные одновременно включать не рекомендуется. Рис. 4.3 Матрица парных коэффициентов корреляции Далее приводится отчет о множественной регрессии. Рис. 4.4 Отчет о множественной регрессии 2. Выпишем уравнение регрессии. Во второй строке заголовке отчета о регрессии указывается, что зависимой переменной является переменная у. Далее приводятся заголовки столбцов. В столбцах Parameter и Estimate отражены перечень зависимых переменных и оценок коэффициентов при них в уравнении регрессии (в первой строке – свободный член уравнения). Следовательно, в нашем случае уравнение регрессии имеет вид (с округлением во втором знаке): = 41,09 + 0,19х1 + 1,01х2 + 0,23х3. Если подходить формально, то коэффициенты при переменных в уравнении показывают, что если, например, изменить х1 на 1 руб./чел.-час., то рост производительности труда изменится на 0,19%, а изменение х3 на 1 квт./час. приведет к росту производительности труда на 0,23%. Однако, наличие коллинеарных переменных искажает смысл этих коэффициентов, о чем речь ниже. 3. Исследуем уравнение регрессии на точность. Сначала проанализируем таблицу дисперсионного анализа (средняя часть отчета – Analysis of Variance). Как известно, при таком анализе проверяется нулевую гипотеза о том, что все коэффициенты регрессии равны нулю. Эта проверка проводится на основе статистики Фишера. Для нашей задачи табличное (критическое) значение критерия Фишера (F0.025:3:12) равно 4,47. Как известно, оно определяется при фиксированном уровне значимости и известных числе степеней свободы числителя и знаменателя (у нас они соответственно равны 0,05, 3 и 12). Сравнивая критическое значение со значением, вычисленным в таблице дисперсионного анализа, (как видно, оно равно 80,07), получаем, что F0.025:3:12 < F =80,07. Следовательно, нулевая гипотеза отклоняется. Этот же вывод можно сделать на основе р-величины, указанной в последнем столбце таблицы дисперсионного анализа. Р-величина < 0,05, что снова говорит в пользу альтернативной гипотезы, а именно: не все коэффициенты регрессии равны нулю. На следующем этапе анализа точности уравнения регрессии необходимо выяснить, какие из коэффициентов регрессии равны нулю, а какие значимо отличны от нуля. Как известно, осуществляется это на основе статистик Стьюдента, рассчитанных для каждого коэффициента регрессии. В нашем случает табличное значение статистики Стьюдента t0,025;15 = 2,13. Сравнивая его с вычисленными значениями для каждого коэффициента (в столбце T statistic отчета о регрессии) видим, что только для коэффициента при х3 статистика Стьюдента больше табличного (3,17 > 2.13). Значит, в нашем уравнении только один коэффициент регрессии не равен нулю (при х3). Т.е. формально на рост производительности труда значимо влияет только один показатель – энерговооруженность производства, а два других показателя – не влияют. Однако, при анализе матрицы парных коэффициентов корреляции мы сделали другой вывод. Объясняется это наличием коллинеарности. Аналогичный вывод о значимости коэффициентов регрессии можно сделать, опираясь на р-величины, указанные в последнем столбце анализируемой таблицы (столбце p-Value). Только для коэффициента при х3 р-величина меньше 0,05 (свободный член уравнения регрессии мы не анализируем) Продолжим анализ точности уравнения регрессии по другим критериям, указанным в конце отчета о регрессии. Коэффициент множественной детерминации (R-squared) равен 95,24 %. Это означает, что изменение показателя роста производительности труда на 95,24 % зависит от изменения включенных в регрессию переменных. Исправленный коэффициент множественной детерминации (R-squared (adjusted for d.f.)) несколько меньше неисправленного (равен 94,05 %), что подтверждает ранее сделанный вывод о наличии в уравнении незначимых переменных. Стандартная ошибка оценки регрессии (Standard Error of Est.), равная 1,605, показывает, что, оценивая показатель роста производительности труда по данному уравнению регрессии, мы будем в среднем ошибаться на 1,605 %, т.к. этот показатель измеряется в процентах. Следующий показатель точности уравнения регрессии имеет тот же смысл, что и предыдущий, но рассчитывается по несколько другой формуле и всегда меньше предыдущего. Статистика Дарбина – Уотсона в нашем случае равна 1,8. Табличные значения для нашей задачи равны: dl = 0.86, du = 1.73 (чтобы их найти, необходимо знать объем выборки и число переменных в модели), следовательно, механизм проверки гипотезы о наличии автокорреляции остатков следующий: Есть автокорр. Обл. неопр. Нет автокорр. Обл. неопр. Есть автокорр. -------------0,86-----------1,73---------------2,27-----------3,14------------------ В нашем случае d = 1,8 и вошла в область, указывающую, что автокорреляция остатков отсутствует. Следовательно, спецификация уравнения была проведена верно. 4. Исключим из уравнения незначимый фактор х2 (с наименьшей t-статистикой, равной 1,69). После пересчета имеем новое уравнение регрессии (см рис. 4.5). Проанализируем это уравнение. Оно по-прежнему значимо (р-величина в дисперсионном анализе < 0,05). Все коэффициенты уравнения регрессии стали значимыми (р-величины для коэффициентов стали < 0,05). Коэффициент множественной детерминации изменился незначимо (стал = 94,1%). Стандартная ошибка оценки почти не изменилась (равна 1,7). Проверим остатки на автокорреляцию. Статистика Дарбина –Уотсона равна 1,9. Поскольку изменилось число объясняющих переменных (стало = 2), изменились и табличные значения этой статистики. Табличные значения в этом случае равны: dl = 0,98, du = 1,54. Механизм проверки гипотезы о наличии автокорреляции остатков теперь следующий: Есть атокорр. Обл. неорпред. Нет автокорр. Обл. неопред. Есть автокорр. -------------0,98------------1,54------------2,46--------------3,02---------------- d = 1,9 снова попало в область, указывающую на отсутствие автокорреляции, т.е. спецификация и этого уравнения верна. Рис. 4.5 Отчет о регрессии (исключена незначимая переменная) О смысле коэффициентов регрессии и здесь надо говорить осторожно, т.к. переменные х1 и х3 также коллинеарны (коэффициент корреляции для них равен 0,93). 5. Рассчитаем для второго уравнения -коэффициенты и коэффициенты эластичности. Имеем: b1 = 0,25, b3 = 0,22, =84,7, = 198,4, S = 12,4, S = 15,25 , = 112,04, Sy = 6,58.(см. рис.). Тогда 1 = 0,25 (12,4/6,58) = 0,47, 3 = 0,22 (15,25/6,58) = 0,51, Э1 = 0,25 (84,7/112,04) = 0,2, Э3 = 0,22 (198,4/112,04) = 0,4. На основе -коэффициентов заключаем, что в нашем примере энерговооруженность производства сильнее влияет на рост производительности труда, чем показатель отношения фонда зарплаты рабочих к затратам рабочего времени (2 > 1). На основе коэффициентов эластичности заключаем, что при изменении энерговооруженности производства на 1 % рост производительности труда изменится на 0,4 %, а при изменении показателя отношения фонда зарплаты рабочих к затратам рабочего времени на 1 % рост производительности труда изменится на 0,2 %. |
Методические указания предназначены для студентов заочного отделения по специальности 120301 «Землеустройство» исодержат программу... | Методические указания предназначены для самостоятельного изучения предмета, выполнения контрольной работы и подготовки к экзамену... | ||
Методические указания предназначены для студентов I и II курсов экономических специальностей дневного и заочного отделений. Методические... | Настоящее издание адресовано студентам I курса всех технических специальностей, изучающим английский язык на заочном отделении нгту,... | ||
Пм 01 «Документирование хозяйственных операций и ведение бухгалтерского учета имущества организации» | Методические указания и контрольные задания по инженерной графике /дгту ростов-на-Дону, 2007 стр. 40 | ||
Методическое пособие предназначено для обучающихся заочного отделения по специальности 080114 "Экономика и бухгалтерский учет (по... | Методические указания, программа, решение типовых задач, программированные вопросы для самопроверки и контрольные задания для студентов-заочников... | ||
ПМ. 04. Осуществление профессионального применения законодательства и иных нормативных правовых актов Российской Федерации, регулирующих... | Пм 02. Ведение бухгалтерского учета источников формирования имущества, выполнение работ по инвентаризации имущества |
Поиск Главная страница   Заполнение бланков   Бланки   Договоры   Документы    |