Оглавление введение

Скачать 0.69 Mb.

Название	Оглавление введение
страница	2/5
Тип	Дипломная работа

filling-form.ru > Заполнение бланков > Дипломная работа

1 2 3 4 5

ГЛАВА 2. ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В ТЕСТИРОВАНИИ
§2.1 ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ТЕСТОЛОГИИ
2.1.1 Предмет статистической обработки

Все современные тесты построены на основе статистической теории измерений, а в основе определения тестов как стандартизированного инструмента лежит идея эталона оценки [21].

В учебно-методической литературе появилось большое количество разнообразных тестов, причем не всегда хорошего качества. Как утверждает Шкерина [21], как правило, это является результатом некачественной обработки тестовых заданий. Поэтому в такой ситуации для создателей теста (тестовых заданий) необходимо владеть методами статистической обработки для оценки качества тестовых заданий.

Оценка качества тестовых заданий заключается в расчете таких характеристик, как валидность, надежность, дифференцирующая способность. Рассмотрим эти понятия подробнее.

Валидность одна из важнейших характеристик теста, которая означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей. Для различных видов валидности могут быть использованы одни и те же методы определения и, наоборот, одни и те же данные могут быть интерпретированы с точки зрения разных типов валидности [14].

Надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Фактически коэффициент надежности показывает корреляционную связь между результатами измерений, проведенных в одинаковых условиях. При определении надежности исходят из того, что в каждом измерении присутствуют истинный (Т) и искажающий (Е) компоненты. Определение надежности заключается в оценке соотношения этих компонентов в данных проведенного тестирования [21].

Дифференцирующая способность (ДС) - способность тестового задания дифференцировать (различать) сильных (способных) от слабых. Майоров поясняет это понятие на примере. Представим себе, что мы провели тестирование группы учащихся. В составе этой группы были отличники, хорошисты и двоечники. Логично предположить, что отличники справятся с тестом лучше, чем двоечники. Но выясняется, что с одним из заданий и двоечники, и отличники справились одинаково успешно или неуспешно. Оказывается, такое случается, если задание обладает существенными недостатками. Типичными недостатками низкодискриминативных заданий являются: излишняя сложность, запутанность формулировки; очевидность решения; абсурдность, нереальность вариантов ответов; появление двух и более правильных ответов, не оговоренных в условии. Действительно, в том случае, если задания обладают перечисленными недостатками, вероятность того, что с ними одинаково справятся (не справятся) и отличники, и двоечники довольно высока [14].

Существуют различные подходы к описанию и расчету этих характеристик. Все они основаны на статистической теории измерения. Но для расчета этих характеристик необходимо сначала подсчитать и проанализировать различные статистические показатели, которые описаны в классической теории тестирования.

Далее мы рассмотрим основные понятия статистики, для того чтобы при анализе методов оценки качества педагогического теста нам было легче понимать, в чем они заключаются.
2.1.2 Основные понятия статистики

Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов [7].

Многие авторы [4,14,17,20,21] используют разные обозначения статистических понятий. В этом параграфе мы соотнесем и систематизируем основные понятия статистики, которые мы будем использовать при анализе методов обработки педагогического теста (тестовых заданий).

Исходным понятием статистики является понятие случайной величины. Случайной называют величину, которая в результате испытания примет одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены [7]. При статистической обработке тестов (тестовых заданий) мы используем две случайные величины:

первая случайная величина характеризует испытуемых;
вторая случайная величина характеризует задания.

Далее рассмотрим следующие основные понятия статистики. К ним относятся:

Среднее значение – сумма всех значений, деленная на их количество

;

Дисперсия – среднее значение квадрата отклонения

;

Среднее квадратическое отклонение – квадратный корень из дисперсии

;

Коэффициент корреляции – отношение корреляционного момента к произведению средних отклонений этих величин

[7].
Мы рассмотрели основные понятия статистической теории измерения, которые мы будем использовать далее при анализе методов статистической обработки качества заданий теста. В следующем пункте рассмотрим первичные и вторичные статистические показатели.
2.1.3 Первичные и вторичные статистические показатели

Условно статистические показатели, описанные в классической теории тестирования, мы можем разделить на две группы: первичные (базовые) и вторичные. К первичным относятся те показатели, которые используются в различных статистических методах оценки качества теста. Вторичные показатели – те, которые вычисляются с помощью первичных. Рассмотрим подробнее первичные и вторичные показатели, и разберем на примере, как они вычисляются. Представим результаты выполнения теста ЕГЭ в виде таблицы (таблица 1).

Первичные:

Общий тестовый балл . Получается сложением всех единиц соответствующей строки;
Средний тестовый балл группы . Вычисляется как частное суммы всех тестовых баллов и количества испытуемых в группе.

,
где

- количество испытуемых. В рассматриваемом примере

;

Достижение -го испытуемого . Находится как частное количества правильно выполненных заданий и общего числа заданий.

,
где

- количество правильно выполненных заданий,

- общее число заданий.

Среднее достижение группы - частное от суммы всех достижений группы на общее число испытуемых.

,
в нашем примере

Отклонение достижения каждого учащегося от достижения группы - разность среднего достижения группы и достижения -го испытуемого.

Также первичные показатели характеризуют достижения испытуемых, на основании которых делаются выводы об уровне усвоения материала и качестве его усвоения на этом уровне.

Далее рассмотрим вторичные показатели:

Среднее отклонение достижений испытуемых . Вычисляется по формуле

,
в нашем примере

.
Таблица 1. Вычисление первичных и вторичных показателей.

Испы- туемые	Задания										Общий тестовый балл Х	Достижение	Отклонение
Испы- туемые	1	2	3	4	5	6	7	8	9	10
1	1	1	0	1	0	0	0	1	1	0	5	0,5	0,06
2	1	1	0	0	0	1	0	0	0	1	4	0,4	0,16
3	0	1	0	1	0	1	0	0	1	1	5	0,5	0,06
4	1	1	1	0	0	1	1	1	1	1	8	0,8	0,24
5	0	0	0	1	1	1	0	0	0	1	4	0,4	0,16
6	1	1	1	1	0	0	1	0	1	1	7	0,7	0,14
7	1	1	1	0	0	0	1	0	1	1	6	0,6	0,04
8	1	1	1	1	1	1	0	0	1	1	8	0,8	0,24
9	1	0	0	0	1	0	1	0	1	0	4	0,4	0,16
10	0	0	1	0	1	0	1	0	1	1	5	0,5	0,06
11	1	0	0	0	1	1	1	1	0	0	5	0,5	0,06
12	1	1	1	1	1	0	0	1	0	0	6	0,6	0,04
Промежуточные вычисления
Расчет первичных показателей
Расчет вторичных показателей

Сумма квадратов отклонений от средней арифметической оценки . Вычисляется по формуле

,
для рассматриваемого примера

Дисперсия тестовых результатов . Вычисляется по формуле

,
для нашего примера

Стандартное отклонение по тесту . Находится как корень из дисперсии

.
В нашем случае

Коэффициент корреляции . Существует несколько формул для вычисления коэффициента корреляции, и все они используются в разных статистических методах оценки качества педагогического теста. Мы будем рассматривать эти формулы в процессе анализа методов.
Коэффициент надежности . Аналогично, как и с коэффициентом корреляции, в каждом методе используют разные формулы для вычисления коэффициента надежности. Рассмотрим их в процессе анализа методов.

Расчет перечисленных показателей также составляет основу методики количественной оценки качества педагогического теста. Как уже отмечалось раньше, с их помощью оцениваются валидность, надежность и дифференцирующая способность, которые являются основными характеристиками качества педагогического теста.

Мы рассмотрели 11 статистических показателей (5 первичных и 6 вторичных), которые используются в классической теории тестирования. Эти показатели мы будем использовать при анализе методов оценки качества педагогического теста. В следующем параграфе мы рассмотрим методы оценки основных характеристик (валидность, надежность, дифференцирующая способность) качества педагогического теста, учитывая рассмотренные выше первичные и вторичные показатели.
§2.2 МЕТОДЫ СТАТИСТИЧЕСКОЙ ОЦЕНКИ КАЧЕСТВА ТЕСТА
Методы оценки основных характеристик теста состоят из двух частей:

Вычисление некоторой величины или характеристики;
Интерпретация полученного результата, в соответствии с нормой. Норма определяется согласно специфике теста.

Как правило, прежде чем применять методы статистической обработки к тестовым заданиям, сначала используют описательную статистику, которая заключается в вычислении статистических показателей. Рассмотрим их.

Первый из них

- среднее отклонение достижений испытуемых. Далее рассчитываем три взаимосвязанных показателя:

- сумма квадратов отклонений от средней арифметической оценки.
- дисперсия.
- стандартное отклонение по тесту.

По величине

можно судить о доверительном интервале достижений испытуемых. В окрестности

находится большинство достижений группы. Дисперсия тестовых результатов показывает интервал (меру разброса), в котором находятся все полученные баллы испытуемых, включая стандартное отклонение по тесту и ошибку измерения. По величине стандартного отклонения можно судить о статистическом характере распределения результатов [21]. Если средний тестовый балл равен

, а

, то в интервале

находятся баллы, набранные большинством тестируемых.

Рассмотрим некоторые классические методы оценки основных характеристик теста (валидность, надежность, дискриминативность).
2.2.1 Методы оценки валидности

Напомним, что валидность в теории тестирования означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей [21]. Из анализа литературы [4,14,17,20,21] мы выделили два метода оценки валидности. Рассмотрим их.

Метод 1. Вычисляется коэффициент корреляции каждого тестового задания с суммой индивидуальных тестовых баллов испытуемых, который показывает, насколько Валино данное задание отличает слабых от сильных.

А. Коэффициент корреляции

рассчитывается по формуле [14]:

,
где

- средний арифметический балл испытуемых, успешно выполнивших

-е задание теста,

- средний арифметический балл испытуемых, не справившихся с

-м заданием,

- стандартное отклонение по

-му заданию,

- стандартное отклонение по всему тесту.

В. Значение коэффициента корреляции интерпретируется следующим образом:

0,7 – 1 – связь очень сильная;
0,5 – 0,7 – средняя;
0,3 – 0,5 – слабая.

Метод 2. Также как и в предыдущем методе вычисляется коэффициент корреляции, который показывает силу (интенсивность) линейной связи заданий между собой.

А. Коэффициент корреляции вычисляется по формуле Пирсона [21]:

,
где

- сумма квадратов отклонений по заданиям

- количество правильных ответов на то и другое задание соответственно;

- сумма попарных произведений тестовых баллов, полученных по каждому из заданий.

В. В случае положительной корреляции, можно говорить о линейной зависимости между заданиями (чем больше учащихся решат задание j, тем больше решат и задание k). Если коэффициент корреляции высокий, то задания взаимозаменяемы. Отрицательная корреляция свидетельствует об обратной линейной связи. В случае нулевой корреляции такого рода зависимость отсутствует [21].

Вывод: оба метода заключаются в вычислении коэффициента корреляции. Первый метод вычисляет коэффициент корреляции каждого тестового задания с суммой индивидуальных тестовых баллов испытуемых, второй – корреляцию между заданиями.
2.3 МЕТОДЫ ОЦЕНКИ НАДЕЖНОСТИ
Как уже говорилось выше, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Методы оценки надежности заключаются в вычислении коэффициента надежности разными способами.

Метод 1 – метод половинного деления. Тест делится на две равные части и подсчитывается сумма баллов, набранных испытуемыми по каждой из половин. Полученные величины коррелируются между собой по формуле Пирсона [21]. Полученный коэффициент

показывает надежность теста при коррелировании его половин, он говорит о внутренней состоятельности теста.

А. Коэффициент надежности теста вычисляется по формуле Спирмана-Брауна [21]:

,
где

- коэффициент надежности теста по двум половинам.

В. Значение коэффициента надежности в этом методе интерпретируется следующим образом: если коэффициент надежности принимает значение от 0,8 до 1, то надежность хорошая, от 0,5 до 0,8 – удовлетворительная и менее 0,5 – неудовлетворительная.

2-й метод – метод подсчета средней корреляции заданий теста.

А. Надежность этим методом вычисляется по формуле [21]:

,
где

- средняя корреляция,

- сумма средних значений в корреляционной таблице [21, стр.13, табл.2],

- общее число заданий.

В. Результаты вычисления в этом методе интерпретируются также как и в предыдущем.

3-й метод.

А. Коэффициент надежности вычисляется по формуле Кюдера-Ричардсона [20]:

,
где

- число заданий в тесте,

- сумма дисперсий заданий теста,

- дисперсия.

В. Результаты интерпретируются аналогично предыдущим методам.

4-й метод - метод оценки высоких и низких достижений группы. Для расчета коэффициента надежности используется разбиение тестируемых на две группы. При достаточно большом количестве испытуемых каждая из этих групп составляет примерно 0,27 от общего количества.

А. Коэффициент надежности рассчитывается по формуле [20]:

,
где

- средние достижения групп с наиболее высокими и наиболее низкими результатами соответственно (группа испытуемых делится на две равные части) [20].

В. Результаты интерпретируются аналогично предыдущим методам.

Вывод: мы рассмотрели четыре метода нахождения надежности. В трех методах используют корреляционную связь, в одном учитывают достижения группы. Заметим, что коэффициенты надежности найденные разными методами отличаются. Приведем пример таблицы значений коэффициента надежности, полученный разными способами, который рассчитывался по результатам теста ЕГЭ [20].

Таблица 2. Значения коэффициента надежности, рассчитанного разными способами.

Метод половинного деления	Метод подсчета средней корреляции	Формула Кюдера-Ричардсона	Метод оценки достижений группы
0,864 (очень хорошая)	0,773 (удовлетв.)	0,784 (удовлетв.)	0,508 (неудовлетв.)

Из таблицы можно сделать вывод о значительной доле субъективной составляющей в методе оценки достижений группы, то есть коэффициент надежности теста, найденный с помощью этого метода, существенным образом зависит от уровня достижения испытуемых. Другие рассмотренные методы оценки надежности более объективны.
2.4 МЕТОДЫ ОЦЕНКИ ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
Дифференцирующая способность (ДС) - способность тестового задания дифференцировать (различать) сильных (способных) от слабых [14]. Рассмотрим несколько методов вычисления дифференцирующей способности.

Метод 1 - вычисление коэффициента дискриминации.

А. В этом методе вычисляется коэффициент дискриминации по формуле [14]:

,
где x – среднее арифметическое значение всех индивидуальных оценок по тесту,

- среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу,

- среднеквадратическое отклонение индивидуальных оценок по тесту для выборки, n – число испытуемых, правильно решивших задачу,

- общее число испытуемых.

В. Коэффициент дискриминации задачи может принимать значение от -1 до +1. Высокий и значимый положительный коэффициент является показателем того, что задача хорошо разделяет испытуемых с высокими и низкими оценками по тесту. Высокий, значимый отрицательный коэффициент свидетельствует о непригодности задачи для теста. Если значение коэффициента близко к 0, то задачи должны рассматриваться как некорректно сформулированные [14].

2-й метод – вычисление дискриминативности с применением метода крайних групп.

А. В этом методе вычисляется дифференцирующая способность (дискриминативности) с применением метода крайних групп, то есть при расчете учитываются результаты учащихся, наиболее и наименее успешно справившихся со всем тестом. Как правило, берут от 10 до 30% лучших и худших по результатам выполнения всего теста. Индекс дискриминации задания вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно решивших ее [14].

,
где

- количество учащихся в группе лучших, верно выполнивших данное задание,

- количество учащихся в группе худших, верно выполнивших данное задание,

- общее количество испытуемых в группе лучших,

- общее количество испытуемых в группе худших.

В. В этом методе, также как и в предыдущем, индекс дискриминации может изменяться в пределах от +1 (когда с заданием справились все учащиеся лучшей группы и ни один ученик из худшей группы) до -1 (когда складывается обратная ситуация – в лучшей группе никто не справился, а в худшей справились все). Задания с отрицательным значением индекса дискриминации или со значением, близким к нулю, не могут быть признаны удовлетворительными, и в них следует искать существенные ошибки. Показатель индекса дискриминации, больший 0,3, следует признать удовлетворительным [14].

3-й метод – сравнение средних достижений испытуемых, показавших наиболее высокие и наиболее низкие результаты.

А. Дифференцирующая способность вычисляется по формуле:

,
где

- средние достижения групп с наиболее высокими и наиболее низкими результатами соответственно (группа испытуемых делится на две равные части) [21].

4-й метод – проведение тестирования дважды в одной и той же группе в течение некоторого периода времени.

А. В этом методе дифференцирующая способность вычисляется по формуле:

,
где

- число правильных ответов по тесту, данных во время первого и второго тестирования соответственно, N – число испытуемых [21].

5-й метод – сравнение результатов выполнения одного и того же теста в разных группах.

А. И в последнем методе дифференцирующая способность вычисляется по формуле [21]:

,
где

- число правильных ответов по тесту, данных в первой и второй группах,

- число испытуемых в каждой из групп.

В. Интерпретация результатов в последних трех методах следующая: дифференцирующая способность теста считается удовлетворительной, если показатель

[21].

Вывод: можно заметить, что формулы нахождения дискриминативности 2-м и 3-м методами практически не отличаются. Разница заключается лишь в том, что в первом случае мы используем метод крайних групп. В 4-м и 5-м методах особенностью является ситуация тестирования (проведение тестирования дважды в одной группе и сравнение результатов в разных группах).

1 2 3 4 5

	Инструкция пользователя Москва 2016 Оглавление Оглавление 2 1 введение... Услуга «Запись в первый класс» предоставляется в электронном виде через портал государственных услуг Московской области		Инструкция пользователя Москва 2016 Оглавление Оглавление 2 1 введение... Услуга «Запись в первый класс» предоставляется в электронном виде через портал государственных услуг Московской области
	Социология учебное пособие новосибирск 2006 оглавление Введение. Учебные цели		Оглавление Введение Председателя Всемирного координационного совета российских соотечественников, проживающих за рубежом
	Оглавление введение Обеспечение условий по подготовке граждан к выполнению нормативов и требований комплекса гто		Оглавление введение 3 Информационные материалы о мерах государственной поддержки сельского хозяйства и социального развития сельских территорий
	Образец оглавления курсовой работы оглавление введение Определение понятий «пол» и «гендер» и становление гендерной теории		Оглавление введение 2 общие положения банкротсва физических лиц 3 Кто может подать заявление на процедуру банкротства (инициировать банкротство в суде)? 5
	Оглавление введение зачем мы создаем доктрину Макрос государственности глава “империя не умирает. Она передается” Глава потенциал русской цивилизации		Методика освидетельствования контрольно-кассовой техники программно-технический... Данная методика разработана с учетом следующих нормативно-правовых актов и документов

Оглавление введение

Похожие: