Ю. Я. Кацман статистическая обработка экспериментальных данных


НазваниеЮ. Я. Кацман статистическая обработка экспериментальных данных
страница1/5
ТипЛабораторная работа
filling-form.ru > бланк доверенности > Лабораторная работа
  1   2   3   4   5
Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

"ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ"

Ю. Я. Кацман

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Методические указания к лабораторным работам
(Цикл лабораторных работ)

Издательство ТПУ

Томск 2008
УДК 519.22(07.07)
Составитель: Ю.Я. Кацман
Методические указания к лабораторным работам (цикл лабораторных работ) по дисциплине "Статистическая обработка экспериментальных данных". Томск: Изд. ТПУ, 2008.– 37c.

Методические указания разработаны для магистрантов, обучающих по программе: " Компьютерный анализ и интерпретация данных". Целью данной работы является изучение основных статистических методов анализа и интерпретации экспериментальных (случайных) данных с использованием математического пакета STATISTICA. В методических указаниях по каждой лабораторной работе приведены краткие теоретические сведения, варианты заданий и контрольные вопросы для самопроверки. В работе приведены примеры решения задач с помощью пакета STATISTICA.

Рекомендовано к печати Редакционно-издательским Советом

Томского политехнического университета


Рецензент: Останин С.А., кандидат технических наук, доцент кафедры программирования ФПМК ТГУ.


© Томский политехнический университет, 2008

© Оформление. Издательство ТПУ, 2008

© Ю.Я. Кацман, 2008


Введение 2

Лабораторная работа № 1. 3

Первичная обработка эмпирических данных 3

Лабораторная работа № 2. 12

Проверка статистических гипотез 12

Лабораторная работа № 3. 24

Решение задачи линейного корреляционного и регрессионного анализа 24

Введение


Математизация знаний, опирающаяся на мощную техническую поддержку в виде современных ЭВМ, привела к широкому применению математико-статистических методов в работе специалистов. Дисциплина "Статистическая обработка экспериментальных данных" особенно необходима специалистам, деятельность которых связана с компьютерной обработкой данных: студентам, инженерам, магистрантам, аналитикам...

Для анализа данных и представления полученных результатов используется специальный пакет STATISTICA. Следует учесть, что использование этого пакета требует глубоких теоретических знаний статистических методов, умения строить статистические модели, корректировать параметры модели и анализировать полученные результаты.

Цикл лабораторных работ состоит из 5 индивидуальных заданий. Все работы выполняются на персональных компьютерах с ОС Windows. Статистический анализ данных проводится с использованием пакета STATISTICA 6.0 [1].

По каждой лабораторной работе необходимо представить отчет, который должен включать следующие пункты:

  • Постановку задачи и цель исследований.

  • В отчете необходимо привести исходные данные и результаты анализа, полученные при использовании различных модулей пакета.

  • Данные анализа необходимо проиллюстрировать таблицами и графиками (используя пакет STATISTICA).

При успешном выполнении задания и правильном оформлении отчета студент (магистрант) допускается к защите лабораторной работы. Защита работы предусматривает знание всех изученных статистических методов по конкретной теме.

Лабораторная работа № 1.

Первичная обработка эмпирических данных


Цель работы – ознакомиться с простейшими приемами статистической обработки результатов наблюдений: группирование данных, получение выборочных характеристик, нахождение доверительных интервалов при заданном уровне значимости.

1. Теоретический обзор

Вспомним основные определения и понятия:

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Вариантами называют наблюдаемые значения .

Вариационным рядом называется последовательность вариант, записанных в возрастающем порядке.

Частота обозначается и равна числу наблюдений варианты .

Объём выборки равен , где число различных значений вариант, наблюдаемых в опыте.

Относительными частотами (частостями) называется отношение соответствующих частот к объему выборки: .

Статистической функцией распределения случайной величины называется функция, определяющая для каждого значения относительную частоту события

(1.1)

Показано (теорема Гливенко), что при статистическая функция распределения стремится по вероятности к интегральной функции распределения: , а свойства аналогичны свойствам .

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Малой выборкой называется такая выборка, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и достижением заданных значений точности и достоверности.

При группировании данных соблюдаются определенные правила:

  1. Объем выборки должен быть достаточно велик .

  2. Число интервалов группирования (число групп) должно находиться в интервале .

  3. Необходимо, по возможности, охватывать всю область данных.

  4. Интервалы группирования не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.

Существует множество различных формул для определения оптимального числа групп выборки объемом , приведем одну из них – формулу "Стерджесса":

. (1.2)

Построив гистограмму относительных частот (частот) – аналог плотности распределения, мы сможем оценить вид распределения эмпирической выборки.

На следующем этапе анализа данных оценим числовые (точечные) характеристики выборки. Однако не забудем, что для установления качества или "правильности" любой оценки будем использовать свойства (требования) "хороших оценок": несмещенность, эффективность и состоятельность.

Числовые характеристики эмпирического распределения называются выборочными характеристиками. Рассмотрим некоторые из них:

  • выборочное среднее

; (1.3)

  • выборочная дисперсия (несмещённая) и среднее квадратическое отклонение

; (1.4)

; (1.5)

  • выборочный коэффициент асимметрии

; (1.6)

  • выборочный коэффициент эксцесса

; (1.7)

Вычисленные характеристики не позволяют судить о степени близости выборочных значений к оцениваемому параметру. Более предпочтительная процедура – построения интервала, который накрывает оцениваемый параметр с известной степенью достоверности. Такой подход называется "интервальным оцениванием".

Рассмотрим искомую процедуру. Пусть для параметра получена несмещённая оценка . Оценим возможную при этом ошибку. Назначим достаточно большую вероятность (например: ), такую, что событие с вероятностью можно считать практически достоверным. Теперь найдем такое значение , для которого выполняется соотношение

(1.8)

Выразим диапазон возможных значений ошибки, обусловленный заменой на , в явном виде, причем, ошибки большие по абсолютной величине будут появляться с малой вероятностью :

. (1.9)

Таким образом, с вероятностью неизвестное значение параметра попадает в интервал

(1.10)

Вероятность принято называть доверительной вероятностью, а интервал доверительным интервалом.

Считая эмпирическую выборку объема распределенной по нормальному закону, построим доверительные интервалы для математического ожидания и дисперсии:

  1. доверительный интервал для математического ожидания нормального распределения при известной дисперсии определяется следующим образом.

Рассмотрим статистику , имеющую нормальное распределение . Следовательно, согласно (1.9) запишем

, (1.11)

где и – квантили стандартного нормального распределения . Запишем неравенство (1.11), выполняющееся с вероятностью относительно :

. (1.12)

Так как квантили нормального распределения связаны соотношением и определяются по таблицам, окончательно получим

. (1.13)

  1. доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии определяется следующим образом.

Так как дисперсия неизвестна, то непосредственно воспользоваться нормальным распределением нельзя. Однако известно, что случайная величина

, (1.14)

где несмещенная оценка выборочного среднеквадратичного отклонения имеет распределение Стьюдента (распределение) с числом степеней свободы . Для нахождения доверительного интервала потребуем, чтобы выполнялось равенство аналогичное (1.11):

, (1.15)

Величина определяется по таблицам распределения Стьюдента для заданного уровня значимости (доверительной вероятности) и числа степеней свободы . Квантили распределения Стьюдента связаны соотношением аналогичным нормальному распределению: . Запишем неравенство в выражении (1.15) относительно :

. (1.16)

Таким образом, для математического ожидания нормального распределения с неизвестной дисперсией, доверительный интервал определяется соотношением (1.15), а значение равно:

(1.17)

  1. Доверительный интервал для оценки дисперсии по выборочной дисперсии для нормального распределения строится аналогично выражению (1.11):

 

Вспомним, что выборочная дисперсия и дисперсия нормального распределения связаны следующим соотношением:

, (1.19)

где случайная величина имеет хи-квадрат распределение с степенями свободы. Отсюда следует, что квантили и будут определяться по таблицам распределения. Для заданной доверительной вероятности или, что тождественно, уровня значимости потребуем, чтобы площадь под кривой, лежащая левее левого квантиля, равнялась площади под кривой, расположенной правее правого квантиля, т.е.:

. (1.20)

Тогда из (1.19), учитывая (1.20), получим соответствующие границы интервала:

. (1.21)

2. Анализ данных в пакете Statistica 6.0

Первичную обработку эмпирических данных можно провести, используя данные (файл) из папки StatSoft\STATISTICA 6\Examples, однако мы создадим новый файл (выборку).
Создание файла данных

Запустим программу Statistica и последовательно выполним команды FileNew. Во всплывшем меню Create New Document заполним поля Number of variable1; Number of cases125; As a stand-alone window. Будет создана пустая таблица (файл данных), состоящая из одного столбца и 125 строк. Документ можно сохранить – Save as Lab_1.sta. Заполним таблицу данными, распределенными по закону . Для этого правой клавишей мыши щелкнем по имени переменной. Во всплывшем меню выбираем опцию Variable Specs…., затем в меню переменной в нижнем поле Long name … зададим вид функции Functions распределения случайных данных:

=VNormal(Rnd(1);5;3) ;

Можно задать другие законы распределения эмпирических данных, например:

=Rnd(100) равномерно распределенные на [0; 100];

= VExpon(Rnd(1);5) показательное распределение .

Построение вариационного ряда

Для построения вариационного ряда нужно правой клавишей мыши щелкнуть по имени переменной и во всплывшем меню выбрать опцию Sort Cases. Не забудьте указать направление сортировки – от меньшего, к большему. При необходимости сохранить исходные данные, вариационный ряд можно построить в следующей переменной, предварительно скопировав в нее данные. К сожалению, анализировать вариационный ряд большой выборки достаточно сложно, поэтому применим группирование данных.

Группирование данных

В программе существуют различные модули для группирования данных и построения различных графиков. Прежде, чем группировать данные, качественно оценим, насколько наша выборка близка к нормальному распределению. С этой целью построим график на нормальной вероятностной бумаге. Выполним последовательно команды StatisticsBasic Statistics/TablesDescriptive StatisticsNormal probability plot; Variable – Normal (см. рис. 1.1).

Для группирования данных воспользуемся командами GraphsHistograms→2D Histograms. В открывшемся меню выберем опции Variables – Normal, Graph type – Regular, Fit type – Normal, Categories – 50 (число интервалов группирования). Опция Fit type строит на гистограмме частот теоретическую кривую, имеющую те же параметры, что и исходные данные. Построенные графики можно отредактировать и сохранить
(см. рис. 1.2).


Рис. 1.1. График исходной выборки на нормальной вероятностной бумаге

При анализе графика следует учесть, чем ближе исходные данные к нормальному распределению, тем точнее они лягут на теоретическую прямую.









Рис. 1.2. Гистограмма частот (группированных)

На приведенных гистограммах (рис. 1.2) сплошной линией изображено нормальное распределение с параметрами равными выборочным характеристикам.

Числовые (точечные) характеристики выборки

Расчет характеристик выборки осуществим с помощью модуля Basic Statistics/Tables и процедуры этого модуля Descriptive Statistics. В открывшемся меню выберем имя переменной – Normal и перейдем на вкладку Advanced. Здесь можно выбрать интересующие нас характеристики, но, нажав клавишу Select all stats, выберем все. Отметим, что наряду с точечными характеристиками здесь рассчитываются границы доверительного интервала математического ожидания выборки при неизвестной дисперсии: Interval95%. По умолчанию доверительная вероятность равна 95 %, при необходимости этот параметр можно изменить. Все характеристики сведены в таблицу (рис. 1.3).

Рис. 1.3. Выборочные характеристики исходных данных

Интервальное оценивание

Так как процедуры нахождения доверительного интервала для математического ожидания при известной дисперсии и нахождения доверительного интервал для оценки дисперсии по выборочной дисперсии для данных, распределенных по нормальному закону, в пакете Statistica не реализованы, проведем эти расчеты вручную:

  • определение доверительный интервал для математического ожидания нормального распределения при известной дисперсии;

Согласно выражению (1.13) нам необходимо определить квантиль распределения . Для этого воспользуемся калькулятором вероятности: StatisticaProbability CalculatorDistributions. В открывшемся окне выберем распределение Z (Normal), затем выберем опцию Two-tailed, а в окне p: – соответствующее значение доверительной вероятности и команду Compute. Соответствующее значение квантиля получим в окне X:. При необходимости имеется возможность распечатать график распределения с соответствующими квантилями – Create Graph, Send to Report.

  • нахождение доверительного интервала для оценки дисперсии по выборочной дисперсии;

Для нахождения доверительного интервала (1.21) необходимо найти квантили распределения и . Как и ранее воспользуемся калькулятором вероятности и выберем распределение Chi? – “хи-квадрат”. В поле df: – число степеней свободы , в поле p: – соответствующее значение, равное половине уровня значимости и команду Compute. Для нахождения второго квантиля необходимо в поле p: – набрать значение равное команду Compute. Второй квантиль можно найти, не изменяя поле p:, а выделив поля Invers и (1-Cumulative p), затем выполним команду Compute.

Теперь, используя инженерный калькулятор (Windows Калькулятор Плюс), по формулам (1.12) и (1.21) определим границы соответствующих интервалов.

3. Задание

  1. Изучить основные модули системы Statistica 6.0.

  • Ознакомиться с графическими возможностями программы, визуализацией исходных данных и результатов анализа.

  • Научиться автоматически создавать отчет в системе Statistica.

  1. Провести первичный статистический анализ случайных данных:

  • получить случайную выборку заданного объема с заданным законом распределения;

  • исследовать различные способы группирования данных;

  • вычислить (получить) основные выборочные (точечные) характеристики;

  • считая случайную выборку распределенной по нормальному закону, вычислить доверительные интервалы для математического ожидания и дисперсии при заданной доверительной вероятности.

Конкретные задания для каждого варианта приведены в табл. 1.1. В таблице принятыы следующие обозначений:

– гауссово распределение с соответствующим математическим ожиданием и средним квадратическим отклонением;

равномерное распределение на интервале от l до u;

показательное (экспоненциальное распределение) с соответствующим параметром .

Таблица 1.1



Распределение

n

β



Распределение

n

β

1

N(5,3)

105

0.9

14

R[-5, -1]

160

0.83

2

R[1, 5]

110

0.91

15

E[0.333]

166

0.84

3

E[5]

125

0.92

16

N(-2,10)

175

0.85

4

N(2,10)

115

0.93

17

R[40, 100]

170

0.86

5

R[4, 10]

122

0.94

18

E[0.111]

177

0.87

6

E[0.2]

130

0.95

19

N(15,25)

134

0.88

7

N(15,2)

135

0.96

20

R[35, 60]

143

0.89

8

R[5, 20]

140

0.97

21

E[10]

177

0.9

9

E[1]

137

0.98

22

N(11,11)

144

0.91

10

N(12,1)

145

0.99

23

R[0, 1]

155

0.92

11

R[4, 15]

147

0.80

24

E[3.33]

180

0.93

12

E[0.1]

150

0.81

25

N(-5,1)

185

0.94

13

N(-5,3)

111

0.82

26

R[-5, 5]

190

0.95


4. Контрольные вопросы

  1. Каковы основные задачи математической статистики?

  2. Как связан объем выборки с возможностью группирования данных?

  3. Как необходимо увеличить объем выборки для увеличения оптимального количества интервалов вдвое, согласно формуле "Стерджесса"?

  4. Каковы свойства эмпирической функции распределения?

  5. Какими свойствами обладают “хорошие оценки”?

  6. Можно ли задать значение доверительной вероятности равным единице?

  7. Как связан параметр λ с числовыми характеристиками показательного распределения?
  1   2   3   4   5

Похожие:

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2 Обработка пдн лиц, состоящих в трудовых отношениях с Оператором
Испдн совокупность содержащихся в базах данных персональных данных и обеспечивающих их обработку информационных технологий и технических...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconТермины 4 3 обработка персональных данных клиентов ООО «дельта телеком»
Ответственный за организацию обработки и обеспечение защиты персональных данных 8

Ю. Я. Кацман статистическая обработка экспериментальных данных iconОбработка персональных данных воспитанников согласие родителей /законных...
Для соблюдения требований закона n 152-фз «О персональных данных» (ПДн) доу должен получить от родителей каждого воспитанника согласие...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon«Организация обработки экспериментальных данных для перезарядочной...
Федеральное государственное бюджетное учреждение национальный исследовательский центр

Ю. Я. Кацман статистическая обработка экспериментальных данных iconАнкета соискателя
Обработка персональных данных ведется с целью рассмотрения Вашей кандидатуры на должность

Ю. Я. Кацман статистическая обработка экспериментальных данных iconИнструкция по оформлению анкеты и автобиографии
Во исполнение Федерального закона от 27. 07. 2006 №152-фз «О персональных данных» обработка персональных данных кандидата, содержащихся...

Ю. Я. Кацман статистическая обработка экспериментальных данных iconМетодическая разработка урока по финансовому учету «Составление и...
Составление и обработка товарного отчета №44 Роговой Л. А. Запись отчета в ведомость по учету товаров

Ю. Я. Кацман статистическая обработка экспериментальных данных iconПредмет Договора
...

Ю. Я. Кацман статистическая обработка экспериментальных данных icon2. обработка бланков ответов №1
Первичная обработка бланков, проводимая в рцои, включает в себя совокупность следующих процедур

Ю. Я. Кацман статистическая обработка экспериментальных данных iconРуководство нато по каталогизации
Автоматическая обработка данных (adp) для обмена информацией в системе кодификации нато

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск