Ю. Я. Кацман статистическая обработка экспериментальных данных


НазваниеЮ. Я. Кацман статистическая обработка экспериментальных данных
страница4/5
ТипЛабораторная работа
filling-form.ru > бланк доверенности > Лабораторная работа
1   2   3   4   5

2. Корреляционный и регрессионный анализ в пакете Statistica 6.0

Анализ проведем с данными, представленными в файле Product. sta. Приведенные наблюдения по 45 предприятиям легкой промышленности, отражают статистические связи между стоимостью основных фондов (Fonds, млн руб.) и средней выработкой на 1 работника (Product, тыс. руб.). Также представлен вспомогательный признак – z: z = 1 – предприятие федерального подчинения, z = 2 – муниципальное.

Для построения корреляционной матрицы воспользуемся модулем: StatisticsBasic Statistic and TablesCorrelation matrices. Выберем все переменные и нажмем кнопку Summary.

Матрица коэффициентов корреляции – симметрична относительно главной диагонали. Значения на главной диагонали равны 1 и не указывают на строгую линейную зависимость, т.к. они получены при делении i – й дисперсии на саму себя. Остальные значения могут быть либо близки к нулю (менее 0.1), либо отличаются от 0. Возникает вопрос, эти флуктуации обусловлены статистикой выборки, либо переменные действительно коррелированны? Эту задачу можно корректно решить в рамках проверки гипотезы о равенстве нулю эмпирического коэффициента корреляции (гипотеза ), если коэффициент корреляции значимо отличается от нуля, то принимается альтернативная гипотеза – переменные коррелированны.

В приведенной таблице коэффициенты, значимо отличные от ноля выделены красным. Все оценки проведены для уровня значимости .

Для получения более подробной информации в закладке Options отметим пункт Display r, p-levels.

Теперь матрица коэффициентов примет вид:



Рис. 3.1. Результаты линейного корреляционного анализа

Анализ результатов свидетельствует, что для переменных Fonds и Product коэффициент корреляции незначимо отличается от 0 с вероятностью ~ 0.0001, т.е. принимаем альтернативную гипотезу – переменные коррелируют.

Убедимся, что предположение о линейной зависимости переменных не лишено смысла, для чего предварительно построим диаграмму рассеяния, выполнив последовательно действия Graphs - 2D Graphs - Scatter plots - Variables - X: Fonds, Y : Product, Advanced, Graphs Type: Regular, Fit (подбор): Linear , Elipse, Normal coefficient 0.95- OK - OK (см. рис. 3.2).



Рис. 3.2. Диаграмма рассеяния с подобранной прямой регрессии

Диаграмма рассеяния с наблюдениями, вытянутыми вдоль линии регрессии подтверждает наши предположения. На следующем этапе приступим к количественному анализу, используя при этом модуль Multiple Regression (множественная регрессия).

В стартовом диалоговом окне этого модуля при помощи кнопки Variables указываем зависимую переменную Dependent var: Product и независимую Independent var: Fonds - OK. В поле Input file указывается тип файла с данными Raw Data – данные в виде строчной таблицы. В поле MD deletion указываем способ исключения из обработки недостающих данных Casewise (игнорируется вся строка, в которой есть хотя бы одно пропущенное значение).

После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК появляется окно результатов регрессионного анализа Multiple Regressions Results. Прежде, чем анализировать полученные результаты, опишем наиболее важные параметры полученной регрессионной модели:

  • Multiple R – коэффициент множественной корреляции, характеризующий тесноту линейной связи между зависимой и всеми независимыми переменными;

  • – коэффициент детерминации, выражающий долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения;

  • adjusted R – скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает не всегда, а только в том случае, когда частный F–критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение и adjusted R;

  • F – критерий используется для проверки значимости регрессии (в качестве нулевой гипотезы проверяется гипотеза – между зависимой и независимыми переменными нет линейной зависимости);

  • df – числа степеней свободы для F– критерия;

  • p – вероятность нулевой гипотезы для F– критерия;

  • Standard error of estimate – стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой;

  • Intercept – оценка свободного члена уравнения;

  • Std.Error – стандартная ошибка оценки свободного члена уравнения;

  • t – критерий для оценки свободного члена уравнения;

  • p – вероятность нулевой гипотезы для свободного члена уравнения.

  • Beta – β – коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

В окне Multiple Regression Results получили такие результаты: коэффициент детерминации R2 = 0.597; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.000000 (т.е. p < 10-6). Нажмем кнопку Regression summary – получим таблицу результатов (рис. 3.3).

N=45

Regression Summary for Dependent Variable: Product (Product.sta) R= ,77227708 R?= ,59641189 Adjusted R?= ,58702612 F(1,43)=63,544 p<,00000 Std.Error of estimate: 5,0082

Beta

Std. Err.

of Beta

B

Std. Err.

of B

t(43)

p-Level

Intercept







11,50212

2,128204

5,404612

0,000003

Fonds

0,772277

0,096880

1,43440

0,179942

7,971466

0,000000

Рис. 3.3. Результаты линейного регрессионного анализа

В ее заголовке повторены результаты предыдущего окна; в столбцах приведены: В – значения оценок неизвестных коэффициентов регрессии; St. Err. of B – стандартные ошибки оценки коэффициентов, t – значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента; plevelуровень значимости принятия этой гипотезы. В данном случае, поскольку значения p-level очень малы (меньше 10-5), гипотезы о нулевых значениях коэффициентов отклоняются с высоким уровнем значимости. Итак, линейная модель имеет вид:

Product = 11.5 + 1.43 Fonds.

Соответствующие стандартные ошибки коэффициентов равны: 2.1 и 0.18. Значение коэффициента детерминации R2 = 0.597 достаточно велико (R = 0.77, т.е. 77 % всей изменчивости объясняется вариацией фондов).

Было бы логично предположить, что при более однородной совокупности предприятий – для предприятий федерального подчинения (z=1) регрессионная модель окажется более качественной. Предварительно визуально оценим данные процедурой Scatterplot (при отборе наблюдений используем кнопку Select casesUse selection conditions for this Analysis/Graph onlyInclude casesSpecific, selected by:→By Expression: z=1. Сравнивая диаграммы рассеяния рис.3.2 и рис. 3.4 видим, что эллипс рассеяния более вытянут вдоль регрессионной прямой, причем все наблюдения находятся внутри эллипса.



Рис. 3.4. Диаграмма рассеяния для предприятий федерального подчинения

Возвращаемся в окно Multiple Regression - Select cases - в окне Case Selection Conditions (условия выбора наблюдений z = 1) - OK - OK - в окнах M.R.Results и Regression summary получаем результаты:

N=15

Regression Summary for Dependent Variable: Product (Product.sta) R= ,94717253 R?= ,89713581 Adjusted R?= ,88922318 F(1,13)=113,38 p<,00000 Std.Error of estimate: 2,6886

Beta

Std. Err.

of Beta

B

Std. Err.

of B

t(43)

p-Level

Intercept







12,51054

1,753810

7,13335

0.000008

Fonds

0,947173

0,088953

1,44356

0,135571

10,64802

0.000000

Рис. 3.5. Регрессионный анализ предприятий федерального подчинения

Теперь линейная модель примет вид:

Product = 12.51 + 1.44 Fonds.

Коэффициент детерминации увеличился с 0.597 до 0.897, значения остальных параметров тоже улучшились (ошибки уменьшились).

Для расчета по полученному регрессионному уравнению значений зависимой переменной (Product) по значениям независимой переменной (Fonds) воспользуемся кнопкой (раздел Residuals/assumptions/prediction). Зададим значение Fonds = 18, и учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (см. рис. 3.6).

Variable

Predicting Values for (Product.sta)

variable: Product

Include condition: z=1

B-Weight

Value

B-Weight

* Value

Fonds

1,443557

18,00000

25,98403

Intersept







12,51054

Predicted







38,49457

-95,0%CL







36,15750

+95,0%CL







40,83164

Рис. 3.6. Предсказанные точечные и интервальные оценки зависимой переменной

Анализ остатков

Остатки – это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели.

Кнопка Perform residual analysis в модуле Residuals/assumptions/prediction запускает процедуру всестороннего анализа остатков регрессионного уравнения (см. рис. 3.7). При анализе остатков следует учитывать ряд существенных факторов:

  • Если модель подобрана правильно, то остатки (столбец Residuals в Predicted & Residuals Values) будут вести себя достаточно хаотично, в известном смысле они будут напоминать белый шум.

  • В остатках не будет систематической составляющей, резких выбросов, в чередовании их знаков не будет никаких закономерностей, остатки будут независимы друг от друга.

При анализе остатков весьма полезной характеристикой является расстояние Махаланобиса (Mahalanobis Distance). Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра (среднюю точку). Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве. Соответственно, значения расстояния Махаланобиса, которые достаточно отличаются от остальных, указывают на выбросы.



Рис. 3.7. Анализ остатков регрессионной модели

Для наглядного анализа поведения остатков построим их на нормальной вероятностной бумаге (Normal plot of residuals) рис. 3.8.



Рис. 3.8. Анализ остатков на нормальной вероятностной бумаге

Отсутствие больших отклонений и группирование остатков вдоль прямой свидетельствует о высоком качестве модели.
1   2   3   4   5

Похожие:

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2 Обработка пдн лиц, состоящих в трудовых отношениях с Оператором
Испдн совокупность содержащихся в базах данных персональных данных и обеспечивающих их обработку информационных технологий и технических...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconТермины 4 3 обработка персональных данных клиентов ООО «дельта телеком»
Ответственный за организацию обработки и обеспечение защиты персональных данных 8

Ю. Я. Кацман статистическая обработка экспериментальных данных iconОбработка персональных данных воспитанников согласие родителей /законных...
Для соблюдения требований закона n 152-фз «О персональных данных» (ПДн) доу должен получить от родителей каждого воспитанника согласие...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon«Организация обработки экспериментальных данных для перезарядочной...
Федеральное государственное бюджетное учреждение национальный исследовательский центр

Ю. Я. Кацман статистическая обработка экспериментальных данных iconАнкета соискателя
Обработка персональных данных ведется с целью рассмотрения Вашей кандидатуры на должность

Ю. Я. Кацман статистическая обработка экспериментальных данных iconИнструкция по оформлению анкеты и автобиографии
Во исполнение Федерального закона от 27. 07. 2006 №152-фз «О персональных данных» обработка персональных данных кандидата, содержащихся...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconМетодическая разработка урока по финансовому учету «Составление и...
Составление и обработка товарного отчета №44 Роговой Л. А. Запись отчета в ведомость по учету товаров

Ю. Я. Кацман статистическая обработка экспериментальных данных iconПредмет Договора
...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2. обработка бланков ответов №1
Первичная обработка бланков, проводимая в рцои, включает в себя совокупность следующих процедур

Ю. Я. Кацман статистическая обработка экспериментальных данных iconРуководство нато по каталогизации
Автоматическая обработка данных (adp) для обмена информацией в системе кодификации нато

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск