ݺߣ

ݺߣShare a Scribd company logo
ПРОВЕДЕНИЕ ПРОБНОГО ТЕСТИРОВАНИЯ.  ПОКАЗАТЕЛИ КАЧЕСТВА ТЕСТОВ . Лекция 7
Цели пробного тестирования: 1) выявление заданий, в которых есть недостатки (несоответствие трудности  заданий уровню подготовленности испытуемых; непонятные или двусмысленные формулировки заданий, выявление неработающих дистракторов в заданиях закрытой формы и др.); 2) определение статистических характеристик тестовых заданий и теста в целом.
Результаты заносятся в специальную таблицу -  матрицу тестовых результатов .  Результаты конкретного испытуемого, называются  профилем ответов . По результатам апробационного тестирования определяются характеристики тестовых заданий -  трудность  и  дискриминативность.
№  испытуемого  i  №  задания  j Индивидуальный балл X i 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 0 0 0 0 6 2 1 1 0 0 0 0 0 0 0 0 2 3 0 0 0 0 0 0 0 1 0 0 1 4 1 1 0 1 1 1 1 1 1 1 9 5 1 0 1 0 1 1 0 0 0 0 4 6 1 1 1 0 0 0 0 1 0 0 4 7 1 1 1 1 0 1 0 0 0 0 5 8 1 1 1 1 0 0 0 0 0 0 4 9 1 1 1 1 1 1 1 1 1 0 9 10 1 1 1 1 1 0 1 0 0 0 6 Число правильных ответов Y j 9 8 7 6 5 5 3 4 2 1 50
№  испытуемого  i  №  задания  j Индивидуальный балл X i 1 2 3 4 5 6 7 8 9 10 3 0 0 0 0 0 0 0 1 0 0 1 2 1 1 0 0 0 0 0 0 0 0 2 5 1 0 1 0 1 1 0 0 0 0 4 6 1 1 1 0 0 0 1 0 0 0 4 8 1 1 1 1 0 0 0 0 0 0 4 7 1 1 1 1 0 1 0 0 0 0 5 1 1 1 1 1 1 1 0 0 0 0 6 10 1 1 1 1 1 0 0 1 0 0 6 9 1 1 1 1 1 1 1 1 1 0 9 4 1 1 0 1 1 1 1 1 1 1 9 Число правильных ответов Y j 9 8 7 6 5 5 4 3 2 1 50
Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания - это доля учащихся, которые справились с заданием.  Трудность задания вычисляется по формуле  Иногда вводится доля неправильных ответов -  q , которая определяется по формуле q = 1 - p
В рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности p=q=0,5, которые обеспечивают максимальную дисперсию теста  Это произведение достигает максимального значения  (0,5 х 0,5 = 0,25) при р = 0,5.
Одно из важнейших требований, которое предъявляется к заданиям с выбором ответа - это правдоподобность дистракторов (равноценная вероятность выбора дистрактора при неправильном ответе). Оценка качества дистрактора называется  дистракторным анализом.   Идеальное распределение долей. №  задания  1 ответ 2 ответ* 3 ответ 4 ответ j 0,1 0,7 0,1 0,1
Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами № задания Всего Распределение ответов испытуемых 1-й ответ 2-й ответ 3-й ответ 4-й ответ кол. % Кол. % кол. % кол. % 1 96 8 8,2 1 1,0 65 67,0* 22 23,0 2 96 4 4,1 20 21,0 2 2,1 70 72,0* 3 97 19 20,0 29 30,0 24 25,0* 25 26,0 4 93 18 19,0 10 10,0 59 61,0* 6 6,2 5 96 47 48,0 33 34,0* 9 9,3 7 7,2 6 97 0 0,0 6 6,2 91 94,0* 0 0,0 7 90 19 20,0 24 25,0 40 41,0* 7 7,2 8 93 3 3,1 11 11,0 2 2,1 77 79,0* 9 86 31 32,0 1 1,0 22 23,0 32 33,0* 10 97 35 36,0 23 24,0 39 40,0* 0 0,0
Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых.  Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых.
Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп. (r  дис ) j  = (p 1 ) j  - (p 0 ) j ,  или (r  дис ) j  = ((P 1 ) j  - (P 0 ) j )/100%, если трудность задана в процентах  где  r - индекс дискриминативности, p 1  - доля правильных ответов в сильной подгруппе (27 % от всего количества), p 0  - доля правильных ответов в слабой группе (27 %).
№  задания P j  для всех испытуемых Группа Индекс r дис P j  для слабой P j  для сильной 1 21,0 6,5 32,0 0,26 2 94,0 90,0 97,0 0,065 3 64,0 42,0 97,0 0,55 4 59,0 68,0 58,0 -0,097 5 27,0 16,0 29,0 0,13 6 70,0 29,0 94,0 0,65 7 30,0 13,0 42,0 0,29 8 12,0 9,7 16,0 0,065 9 33,0 16,0 52,0 0,35 10 73,0 42,0 90,0 0,48
С помощью подсчета значений  бисериальной или точечно-бисериальной корреляции  также оценивается валидность отдельных заданий теста.  формула для нахождения  точечно-бисериального коэффициента В целом задание можно считать валидным, если r pbis  близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно.
Основными показателями качества теста являются надежность и валидность теста.
Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом: X = T + E
Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.
Чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее.
Надежность теста (коэффициент надежности теста - r н ) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.
Оценка надежности теста. Для оценки надежности нормативно-ориентированного теста используются две группы методов. 1) Двукратное тестирование: 1.1. ретестовый метод; 1.2. метод параллельных форм. 2) Однократное тестирование  2.1 метод расщепления теста; 2.2 с применением формулы Кьюдера-Ричардсона (сокращенно  KR  - 20).
Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования. Коэффициент надежности: x i  – индивидуальный балл i-ого студента при ответе на тест в первом тестировании y i  – индивидуальный балл i-ого студента при ответе на тест при повторном тестировании
∑   (Y i ) 2 ∑ (X i ) 2 ∑   X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N  Y N Y N X N N студент  … (Y 2 ) 2 (X 2 ) 2 X 2  Y 2 Y 2 X 2 2 студент  (Y 1 ) 2 (X 1 ) 2 X 1  Y 1 Y 1 X 1 1 студент
Метод параллельных форм. Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания, тождественные по трудности, дифференцирующей способности и др., т.е. параллельные формы теста.
Коэффициент надежности: x i  – индивидуальный балл i-ого студента при ответе на тест X y i  – индивидуальный балл i-ого студента при ответе на тест Y
∑   (Y i ) 2 ∑ (X i ) 2 ∑   X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N  Y N Y N X N N студент  … (Y 2 ) 2 (X 2 ) 2 X 2  Y 2 Y 2 X 2 2 студент  (Y 1 ) 2 (X 1 ) 2 X 1  Y 1 Y 1 X 1 1 студент
Однократное тестирование (метод расщепления теста). Он основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х)  и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста.
Коэффициент надежности вычисляется по формуле:
Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного  корректируется по формуле Спирмена-Брауна
Метод Кьюдера-Ричардсона. Формула Кьюдера-Ричардсона (сокращенно KR - 20) может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно).
Коэффициент надежности вычисляется по формуле:
K – коэффициент надежности m – число заданий в тесте p j  - доля правильных ответов на j-е задание теста (количество верных ответов на задание, деленное на общее число студентов) q j  – доля неверных ответов на j-е задание q j =1- p j s x 2  – дисперсия индивидуальных баллов. N – число студентов x i  – индивидуальный балл i – го студента ( Индивидуальный балл испытуемого  – это количество заданий, на которые студент ответил правильно).
Для нормативно-ориентированного теста Величина надежности Оценка надежности 0,90 - 0,99 Отличная 0,80 - 0,89 Хорошая 0,70 - 0,79 Удовлетворительная Менее 0,70 Неудовлетворительная
Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.
Таблица сопряжения результатов критериально-ориентарованного теста. Тест В Зачет  Незачет А D C B Незачет Зачет Тест А
А, B, C, D - доли испытуемых, получивших «зачет» или «незачет» по результатам  двух тестов. Каждая доля определяется как отношение числа испытуемых, попавших в подгруппы (A, B, C, D), к общему количеству испытуемых. Соответственно A + B + C + D = 1 Большие доли A и D свидетельствуют о постоянстве результатов, т.е. если по тесту А получен «зачет/незачет», то и по тесту В тоже получен «зачет/незачет», соответственно можно говорить высокой надежности теста.
Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью фи-коэффициента корреляции.
Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле æ   = (P - Pc)/(1 - Pc), где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.
Pc вычисляется по формуле  Pc = (c + d)(d + b) + (a + b)(c + a) Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи- и каппа-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.
Способы повышения надежности теста. Увеличение количества заданий теста.  Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа. Индивидуальный балл испытуемого при выполнении заданий закрытого типа при дихотомической оценке (1/0) есть сумма правильных ответов.
Для минимизации эффекта угадывания, можно использовать следующую формулу где X i  - количество правильных ответов, W i  - количество неверных ответов, L - количество вариантов ответов в задании.
Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, т.е. способность теста измерять то, для чего он предназначен. Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста. (Анастази А.; Майоров А.Н.): содержательную валидность, критериальную и конструктную (концептуальную).
1) Содержательная валидность (content validity). Имеется в виду соответствие теста как измерительного инструмента той области содержания, знания и умения которой проверяются данным тестом. В зависимости от выбранного подхода при создании теста будут предъявляться различные требования к содержательной валидности.
2) Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной  (степень соответствия между результатами тестирования и внешним критерием).
Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.
s x 2  – дисперсия индивидуальных баллов  N – число студентов отклонение тестового балла  i – го студента от среднего  балла по тесту  отклонение экспертного балла  i – го студента от среднего  арифметического экспертных о ценок
Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.
3) Конструктная (концептуальная) валидность.  Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и  требует доказательства.

More Related Content

What's hot (14)

Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
Kurbatskiy Alexey
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
Edward Babushkin
уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)
Елена Гришко
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАДОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ITMO University
лин уравнения с параметрами
лин уравнения с параметрамилин уравнения с параметрами
лин уравнения с параметрами
Елена Гришко
решение уравнений с параметрами
решение уравнений с параметрамирешение уравнений с параметрами
решение уравнений с параметрами
Елена Гришко
Введение в курс составления тестов.
Введение в курс составления тестов.Введение в курс составления тестов.
Введение в курс составления тестов.
gilraenanarion
уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1
Аркадий Захаров
2010 егэ математика
2010 егэ математика2010 егэ математика
2010 егэ математика
Airat Yusupov
завдання з параметрами
завдання з параметрамизавдання з параметрами
завдання з параметрами
Елена Гришко
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
Kurbatskiy Alexey
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
Edward Babushkin
уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)уравнения с-параметрами (логарифм,показат,тригон)
уравнения с-параметрами (логарифм,показат,тригон)
Елена Гришко
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАДОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ОЦЕНКА ЧИСЛА ПОБЕДИТЕЛЕЙ ЗАКЛЮЧИТЕЛЬНЫХ ЭТАПОВ ОЛИМПИАД
ITMO University
лин уравнения с параметрами
лин уравнения с параметрамилин уравнения с параметрами
лин уравнения с параметрами
Елена Гришко
решение уравнений с параметрами
решение уравнений с параметрамирешение уравнений с параметрами
решение уравнений с параметрами
Елена Гришко
Введение в курс составления тестов.
Введение в курс составления тестов.Введение в курс составления тестов.
Введение в курс составления тестов.
gilraenanarion
уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1
Аркадий Захаров
2010 егэ математика
2010 егэ математика2010 егэ математика
2010 егэ математика
Airat Yusupov
Корреляция и МНК (семинар)
Корреляция и МНК (семинар)Корреляция и МНК (семинар)
Корреляция и МНК (семинар)
Kurbatskiy Alexey

Viewers also liked (9)

M.Torres & L.Ferreria Empordàfieldtrip
M.Torres & L.Ferreria EmpordàfieldtripM.Torres & L.Ferreria Empordàfieldtrip
M.Torres & L.Ferreria Empordàfieldtrip
Ins Màrius Torres
Media Preliminary
Media PreliminaryMedia Preliminary
Media Preliminary
SarahElizabethR
NyNy
Ny
Dani Angeles
Seasons1 ESO
Seasons1 ESOSeasons1 ESO
Seasons1 ESO
Ins Màrius Torres
лекция 1
лекция 1лекция 1
лекция 1
cezium
Wateruses
WaterusesWateruses
Wateruses
Ins Màrius Torres
лекция 6
лекция 6лекция 6
лекция 6
cezium

Similar to лекция07 (20)

Позиционный анализ для магистров
Позиционный анализ для магистровПозиционный анализ для магистров
Позиционный анализ для магистров
Alexan Khalafyan
лабораторная02 97
лабораторная02 97лабораторная02 97
лабораторная02 97
cezium
Проверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptxПроверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptx
ergashevsarvar07
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
Alexan Khalafyan
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
Kh Ider
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
Vladimir Tcherniak
10 алг мерзляк_полонский_задачн_2010_рус
10 алг мерзляк_полонский_задачн_2010_рус10 алг мерзляк_полонский_задачн_2010_рус
10 алг мерзляк_полонский_задачн_2010_рус
Aira_Roo
Формирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаФормирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного теста
ITMO University
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
РЦОКОиИТ (Санкт-Петербург)
1890 математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
1890  математика. подг. к огэ в 2016г. диагностические работы 2016 -144с1890  математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
1890 математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
SpringRus
Сравнение выборок
Сравнение выборокСравнение выборок
Сравнение выборок
Kurbatskiy Alexey
математика сборник 11 класс
математика сборник 11 классматематика сборник 11 класс
математика сборник 11 класс
Roman Prilipa
123eeewefeefefeffewfwefwefwefwef9475.pptx
123eeewefeefefeffewfwefwefwefwef9475.pptx123eeewefeefefeffewfwefwefwefwef9475.pptx
123eeewefeefefeffewfwefwefwefwef9475.pptx
kalzhanovnurlyhan
КР 2 с решением
КР 2 с решениемКР 2 с решением
КР 2 с решением
Kurbatskiy Alexey
Доверительные интервалы
Доверительные интервалыДоверительные интервалы
Доверительные интервалы
Kurbatskiy Alexey
Методики оценки рекомендательных систем
Методики оценки рекомендательных системМетодики оценки рекомендательных систем
Методики оценки рекомендательных систем
Witology
конференция декабрь 2016 3 стороны точности ответа на вопрос
конференция декабрь 2016 3 стороны точности ответа на вопросконференция декабрь 2016 3 стороны точности ответа на вопрос
конференция декабрь 2016 3 стороны точности ответа на вопрос
NatalyaGataullina
3 стороны точности ответа на вопрос и три инструмента для его оценки
3 стороны точности ответа на вопрос и три инструмента для его оценки3 стороны точности ответа на вопрос и три инструмента для его оценки
3 стороны точности ответа на вопрос и три инструмента для его оценки
NatalyaGataullina
Позиционный анализ для магистров
Позиционный анализ для магистровПозиционный анализ для магистров
Позиционный анализ для магистров
Alexan Khalafyan
лабораторная02 97
лабораторная02 97лабораторная02 97
лабораторная02 97
cezium
Проверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptxПроверка Гипотез Критерий Пирсона01 .pptx
Проверка Гипотез Критерий Пирсона01 .pptx
ergashevsarvar07
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
Alexan Khalafyan
Regress 2015.05.011
Regress 2015.05.011Regress 2015.05.011
Regress 2015.05.011
Kh Ider
Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4Прикладная эконометрика. Лекция 4
Прикладная эконометрика. Лекция 4
Vladimir Tcherniak
10 алг мерзляк_полонский_задачн_2010_рус
10 алг мерзляк_полонский_задачн_2010_рус10 алг мерзляк_полонский_задачн_2010_рус
10 алг мерзляк_полонский_задачн_2010_рус
Aira_Roo
Формирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного тестаФормирование целевой функции оценки качества раскатки слоеного теста
Формирование целевой функции оценки качества раскатки слоеного теста
ITMO University
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
8.2. Подходы к диагностике метапредметных результатов обучения в рамках предм...
РЦОКОиИТ (Санкт-Петербург)
1890 математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
1890  математика. подг. к огэ в 2016г. диагностические работы 2016 -144с1890  математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
1890 математика. подг. к огэ в 2016г. диагностические работы 2016 -144с
SpringRus
математика сборник 11 класс
математика сборник 11 классматематика сборник 11 класс
математика сборник 11 класс
Roman Prilipa
123eeewefeefefeffewfwefwefwefwef9475.pptx
123eeewefeefefeffewfwefwefwefwef9475.pptx123eeewefeefefeffewfwefwefwefwef9475.pptx
123eeewefeefefeffewfwefwefwefwef9475.pptx
kalzhanovnurlyhan
Доверительные интервалы
Доверительные интервалыДоверительные интервалы
Доверительные интервалы
Kurbatskiy Alexey
Методики оценки рекомендательных систем
Методики оценки рекомендательных системМетодики оценки рекомендательных систем
Методики оценки рекомендательных систем
Witology
конференция декабрь 2016 3 стороны точности ответа на вопрос
конференция декабрь 2016 3 стороны точности ответа на вопросконференция декабрь 2016 3 стороны точности ответа на вопрос
конференция декабрь 2016 3 стороны точности ответа на вопрос
NatalyaGataullina
3 стороны точности ответа на вопрос и три инструмента для его оценки
3 стороны точности ответа на вопрос и три инструмента для его оценки3 стороны точности ответа на вопрос и три инструмента для его оценки
3 стороны точности ответа на вопрос и три инструмента для его оценки
NatalyaGataullina

More from cezium (20)

обучение, его стурктура
обучение, его стурктураобучение, его стурктура
обучение, его стурктура
cezium
основные аспекты эффективности и их интерпретация
основные аспекты эффективности и их интерпретацияосновные аспекты эффективности и их интерпретация
основные аспекты эффективности и их интерпретация
cezium
метрологическое обеспечение испытаний
метрологическое обеспечение испытанийметрологическое обеспечение испытаний
метрологическое обеспечение испытаний
cezium
программы и методы сертификационных испытаний
программы и методы сертификационных испытанийпрограммы и методы сертификационных испытаний
программы и методы сертификационных испытаний
cezium
проверки документации и ее применения на соответствие международным
проверки документации и ее применения на соответствие международнымпроверки документации и ее применения на соответствие международным
проверки документации и ее применения на соответствие международным
cezium
порядок взаимоотношений предприятий....
порядок взаимоотношений предприятий....порядок взаимоотношений предприятий....
порядок взаимоотношений предприятий....
cezium
мотивация к сертификации1
мотивация к сертификации1мотивация к сертификации1
мотивация к сертификации1
cezium
системы сертификации, требования к аккредитации
системы сертификации, требования к аккредитациисистемы сертификации, требования к аккредитации
системы сертификации, требования к аккредитации
cezium
системы сертификации, требования к сертификации
системы сертификации, требования к сертификациисистемы сертификации, требования к сертификации
системы сертификации, требования к сертификации
cezium
международное сотрудничество в области сертификации.
международное сотрудничество в области сертификации.международное сотрудничество в области сертификации.
международное сотрудничество в области сертификации.
cezium
стандарты на системы обеспечения качества окружающей среды2003
стандарты на системы обеспечения качества окружающей среды2003стандарты на системы обеспечения качества окружающей среды2003
стандарты на системы обеспечения качества окружающей среды2003
cezium
оценка факторов, влияющих на качество программных продуктов(2)
оценка факторов, влияющих на качество программных продуктов(2)оценка факторов, влияющих на качество программных продуктов(2)
оценка факторов, влияющих на качество программных продуктов(2)
cezium
современные модели качества программного обеспечения
современные модели качества программного обеспечениясовременные модели качества программного обеспечения
современные модели качества программного обеспечения
cezium
международные и отечественные стандарты на системы управления качеством проду...
международные и отечественные стандарты на системы управления качеством проду...международные и отечественные стандарты на системы управления качеством проду...
международные и отечественные стандарты на системы управления качеством проду...
cezium
лекция 5
лекция 5лекция 5
лекция 5
cezium
лекция 4
лекция 4лекция 4
лекция 4
cezium
лекция 3
лекция 3лекция 3
лекция 3
cezium
обучение, его стурктура
обучение, его стурктураобучение, его стурктура
обучение, его стурктура
cezium
основные аспекты эффективности и их интерпретация
основные аспекты эффективности и их интерпретацияосновные аспекты эффективности и их интерпретация
основные аспекты эффективности и их интерпретация
cezium
метрологическое обеспечение испытаний
метрологическое обеспечение испытанийметрологическое обеспечение испытаний
метрологическое обеспечение испытаний
cezium
программы и методы сертификационных испытаний
программы и методы сертификационных испытанийпрограммы и методы сертификационных испытаний
программы и методы сертификационных испытаний
cezium
проверки документации и ее применения на соответствие международным
проверки документации и ее применения на соответствие международнымпроверки документации и ее применения на соответствие международным
проверки документации и ее применения на соответствие международным
cezium
порядок взаимоотношений предприятий....
порядок взаимоотношений предприятий....порядок взаимоотношений предприятий....
порядок взаимоотношений предприятий....
cezium
мотивация к сертификации1
мотивация к сертификации1мотивация к сертификации1
мотивация к сертификации1
cezium
системы сертификации, требования к аккредитации
системы сертификации, требования к аккредитациисистемы сертификации, требования к аккредитации
системы сертификации, требования к аккредитации
cezium
системы сертификации, требования к сертификации
системы сертификации, требования к сертификациисистемы сертификации, требования к сертификации
системы сертификации, требования к сертификации
cezium
международное сотрудничество в области сертификации.
международное сотрудничество в области сертификации.международное сотрудничество в области сертификации.
международное сотрудничество в области сертификации.
cezium
стандарты на системы обеспечения качества окружающей среды2003
стандарты на системы обеспечения качества окружающей среды2003стандарты на системы обеспечения качества окружающей среды2003
стандарты на системы обеспечения качества окружающей среды2003
cezium
оценка факторов, влияющих на качество программных продуктов(2)
оценка факторов, влияющих на качество программных продуктов(2)оценка факторов, влияющих на качество программных продуктов(2)
оценка факторов, влияющих на качество программных продуктов(2)
cezium
современные модели качества программного обеспечения
современные модели качества программного обеспечениясовременные модели качества программного обеспечения
современные модели качества программного обеспечения
cezium
международные и отечественные стандарты на системы управления качеством проду...
международные и отечественные стандарты на системы управления качеством проду...международные и отечественные стандарты на системы управления качеством проду...
международные и отечественные стандарты на системы управления качеством проду...
cezium
лекция 5
лекция 5лекция 5
лекция 5
cezium
лекция 4
лекция 4лекция 4
лекция 4
cezium
лекция 3
лекция 3лекция 3
лекция 3
cezium

лекция07

  • 1. ПРОВЕДЕНИЕ ПРОБНОГО ТЕСТИРОВАНИЯ. ПОКАЗАТЕЛИ КАЧЕСТВА ТЕСТОВ . Лекция 7
  • 2. Цели пробного тестирования: 1) выявление заданий, в которых есть недостатки (несоответствие трудности заданий уровню подготовленности испытуемых; непонятные или двусмысленные формулировки заданий, выявление неработающих дистракторов в заданиях закрытой формы и др.); 2) определение статистических характеристик тестовых заданий и теста в целом.
  • 3. Результаты заносятся в специальную таблицу - матрицу тестовых результатов . Результаты конкретного испытуемого, называются профилем ответов . По результатам апробационного тестирования определяются характеристики тестовых заданий - трудность и дискриминативность.
  • 4. № испытуемого i № задания j Индивидуальный балл X i 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 0 0 0 0 6 2 1 1 0 0 0 0 0 0 0 0 2 3 0 0 0 0 0 0 0 1 0 0 1 4 1 1 0 1 1 1 1 1 1 1 9 5 1 0 1 0 1 1 0 0 0 0 4 6 1 1 1 0 0 0 0 1 0 0 4 7 1 1 1 1 0 1 0 0 0 0 5 8 1 1 1 1 0 0 0 0 0 0 4 9 1 1 1 1 1 1 1 1 1 0 9 10 1 1 1 1 1 0 1 0 0 0 6 Число правильных ответов Y j 9 8 7 6 5 5 3 4 2 1 50
  • 5. № испытуемого i № задания j Индивидуальный балл X i 1 2 3 4 5 6 7 8 9 10 3 0 0 0 0 0 0 0 1 0 0 1 2 1 1 0 0 0 0 0 0 0 0 2 5 1 0 1 0 1 1 0 0 0 0 4 6 1 1 1 0 0 0 1 0 0 0 4 8 1 1 1 1 0 0 0 0 0 0 4 7 1 1 1 1 0 1 0 0 0 0 5 1 1 1 1 1 1 1 0 0 0 0 6 10 1 1 1 1 1 0 0 1 0 0 6 9 1 1 1 1 1 1 1 1 1 0 9 4 1 1 0 1 1 1 1 1 1 1 9 Число правильных ответов Y j 9 8 7 6 5 5 4 3 2 1 50
  • 6. Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания - это доля учащихся, которые справились с заданием. Трудность задания вычисляется по формуле Иногда вводится доля неправильных ответов - q , которая определяется по формуле q = 1 - p
  • 7. В рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности p=q=0,5, которые обеспечивают максимальную дисперсию теста Это произведение достигает максимального значения (0,5 х 0,5 = 0,25) при р = 0,5.
  • 8. Одно из важнейших требований, которое предъявляется к заданиям с выбором ответа - это правдоподобность дистракторов (равноценная вероятность выбора дистрактора при неправильном ответе). Оценка качества дистрактора называется дистракторным анализом. Идеальное распределение долей. № задания 1 ответ 2 ответ* 3 ответ 4 ответ j 0,1 0,7 0,1 0,1
  • 9. Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами № задания Всего Распределение ответов испытуемых 1-й ответ 2-й ответ 3-й ответ 4-й ответ кол. % Кол. % кол. % кол. % 1 96 8 8,2 1 1,0 65 67,0* 22 23,0 2 96 4 4,1 20 21,0 2 2,1 70 72,0* 3 97 19 20,0 29 30,0 24 25,0* 25 26,0 4 93 18 19,0 10 10,0 59 61,0* 6 6,2 5 96 47 48,0 33 34,0* 9 9,3 7 7,2 6 97 0 0,0 6 6,2 91 94,0* 0 0,0 7 90 19 20,0 24 25,0 40 41,0* 7 7,2 8 93 3 3,1 11 11,0 2 2,1 77 79,0* 9 86 31 32,0 1 1,0 22 23,0 32 33,0* 10 97 35 36,0 23 24,0 39 40,0* 0 0,0
  • 10. Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых. Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых.
  • 11. Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп. (r дис ) j = (p 1 ) j - (p 0 ) j , или (r дис ) j = ((P 1 ) j - (P 0 ) j )/100%, если трудность задана в процентах где r - индекс дискриминативности, p 1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p 0 - доля правильных ответов в слабой группе (27 %).
  • 12. № задания P j для всех испытуемых Группа Индекс r дис P j для слабой P j для сильной 1 21,0 6,5 32,0 0,26 2 94,0 90,0 97,0 0,065 3 64,0 42,0 97,0 0,55 4 59,0 68,0 58,0 -0,097 5 27,0 16,0 29,0 0,13 6 70,0 29,0 94,0 0,65 7 30,0 13,0 42,0 0,29 8 12,0 9,7 16,0 0,065 9 33,0 16,0 52,0 0,35 10 73,0 42,0 90,0 0,48
  • 13. С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оценивается валидность отдельных заданий теста. формула для нахождения точечно-бисериального коэффициента В целом задание можно считать валидным, если r pbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно.
  • 14.
  • 15. Основными показателями качества теста являются надежность и валидность теста.
  • 16. Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
  • 17. По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом: X = T + E
  • 18. Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.
  • 19. Чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее.
  • 20. Надежность теста (коэффициент надежности теста - r н ) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.
  • 21. Оценка надежности теста. Для оценки надежности нормативно-ориентированного теста используются две группы методов. 1) Двукратное тестирование: 1.1. ретестовый метод; 1.2. метод параллельных форм. 2) Однократное тестирование 2.1 метод расщепления теста; 2.2 с применением формулы Кьюдера-Ричардсона (сокращенно KR - 20).
  • 22. Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования. Коэффициент надежности: x i – индивидуальный балл i-ого студента при ответе на тест в первом тестировании y i – индивидуальный балл i-ого студента при ответе на тест при повторном тестировании
  • 23. (Y i ) 2 ∑ (X i ) 2 ∑ X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N Y N Y N X N N студент … (Y 2 ) 2 (X 2 ) 2 X 2 Y 2 Y 2 X 2 2 студент (Y 1 ) 2 (X 1 ) 2 X 1 Y 1 Y 1 X 1 1 студент
  • 24.
  • 25. Метод параллельных форм. Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания, тождественные по трудности, дифференцирующей способности и др., т.е. параллельные формы теста.
  • 26. Коэффициент надежности: x i – индивидуальный балл i-ого студента при ответе на тест X y i – индивидуальный балл i-ого студента при ответе на тест Y
  • 27. (Y i ) 2 ∑ (X i ) 2 ∑ X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N Y N Y N X N N студент … (Y 2 ) 2 (X 2 ) 2 X 2 Y 2 Y 2 X 2 2 студент (Y 1 ) 2 (X 1 ) 2 X 1 Y 1 Y 1 X 1 1 студент
  • 28.
  • 29. Однократное тестирование (метод расщепления теста). Он основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста.
  • 31. Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна
  • 32. Метод Кьюдера-Ричардсона. Формула Кьюдера-Ричардсона (сокращенно KR - 20) может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно).
  • 34.
  • 35. K – коэффициент надежности m – число заданий в тесте p j - доля правильных ответов на j-е задание теста (количество верных ответов на задание, деленное на общее число студентов) q j – доля неверных ответов на j-е задание q j =1- p j s x 2 – дисперсия индивидуальных баллов. N – число студентов x i – индивидуальный балл i – го студента ( Индивидуальный балл испытуемого – это количество заданий, на которые студент ответил правильно).
  • 36. Для нормативно-ориентированного теста Величина надежности Оценка надежности 0,90 - 0,99 Отличная 0,80 - 0,89 Хорошая 0,70 - 0,79 Удовлетворительная Менее 0,70 Неудовлетворительная
  • 37. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.
  • 38. Таблица сопряжения результатов критериально-ориентарованного теста. Тест В Зачет Незачет А D C B Незачет Зачет Тест А
  • 39. А, B, C, D - доли испытуемых, получивших «зачет» или «незачет» по результатам двух тестов. Каждая доля определяется как отношение числа испытуемых, попавших в подгруппы (A, B, C, D), к общему количеству испытуемых. Соответственно A + B + C + D = 1 Большие доли A и D свидетельствуют о постоянстве результатов, т.е. если по тесту А получен «зачет/незачет», то и по тесту В тоже получен «зачет/незачет», соответственно можно говорить высокой надежности теста.
  • 40. Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью фи-коэффициента корреляции.
  • 41. Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле æ = (P - Pc)/(1 - Pc), где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.
  • 42. Pc вычисляется по формуле Pc = (c + d)(d + b) + (a + b)(c + a) Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи- и каппа-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.
  • 43. Способы повышения надежности теста. Увеличение количества заданий теста. Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа. Индивидуальный балл испытуемого при выполнении заданий закрытого типа при дихотомической оценке (1/0) есть сумма правильных ответов.
  • 44. Для минимизации эффекта угадывания, можно использовать следующую формулу где X i - количество правильных ответов, W i - количество неверных ответов, L - количество вариантов ответов в задании.
  • 45. Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, т.е. способность теста измерять то, для чего он предназначен. Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста. (Анастази А.; Майоров А.Н.): содержательную валидность, критериальную и конструктную (концептуальную).
  • 46. 1) Содержательная валидность (content validity). Имеется в виду соответствие теста как измерительного инструмента той области содержания, знания и умения которой проверяются данным тестом. В зависимости от выбранного подхода при создании теста будут предъявляться различные требования к содержательной валидности.
  • 47. 2) Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).
  • 48. Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.
  • 49.
  • 50. s x 2 – дисперсия индивидуальных баллов N – число студентов отклонение тестового балла i – го студента от среднего балла по тесту отклонение экспертного балла i – го студента от среднего арифметического экспертных о ценок
  • 51. Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.
  • 52. 3) Конструктная (концептуальная) валидность. Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства.