2. Цели пробного тестирования: 1) выявление заданий, в которых есть недостатки (несоответствие трудности заданий уровню подготовленности испытуемых; непонятные или двусмысленные формулировки заданий, выявление неработающих дистракторов в заданиях закрытой формы и др.); 2) определение статистических характеристик тестовых заданий и теста в целом.
3. Результаты заносятся в специальную таблицу - матрицу тестовых результатов . Результаты конкретного испытуемого, называются профилем ответов . По результатам апробационного тестирования определяются характеристики тестовых заданий - трудность и дискриминативность.
6. Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания - это доля учащихся, которые справились с заданием. Трудность задания вычисляется по формуле Иногда вводится доля неправильных ответов - q , которая определяется по формуле q = 1 - p
7. В рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности p=q=0,5, которые обеспечивают максимальную дисперсию теста Это произведение достигает максимального значения (0,5 х 0,5 = 0,25) при р = 0,5.
8. Одно из важнейших требований, которое предъявляется к заданиям с выбором ответа - это правдоподобность дистракторов (равноценная вероятность выбора дистрактора при неправильном ответе). Оценка качества дистрактора называется дистракторным анализом. Идеальное распределение долей. № задания 1 ответ 2 ответ* 3 ответ 4 ответ j 0,1 0,7 0,1 0,1
9. Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами № задания Всего Распределение ответов испытуемых 1-й ответ 2-й ответ 3-й ответ 4-й ответ кол. % Кол. % кол. % кол. % 1 96 8 8,2 1 1,0 65 67,0* 22 23,0 2 96 4 4,1 20 21,0 2 2,1 70 72,0* 3 97 19 20,0 29 30,0 24 25,0* 25 26,0 4 93 18 19,0 10 10,0 59 61,0* 6 6,2 5 96 47 48,0 33 34,0* 9 9,3 7 7,2 6 97 0 0,0 6 6,2 91 94,0* 0 0,0 7 90 19 20,0 24 25,0 40 41,0* 7 7,2 8 93 3 3,1 11 11,0 2 2,1 77 79,0* 9 86 31 32,0 1 1,0 22 23,0 32 33,0* 10 97 35 36,0 23 24,0 39 40,0* 0 0,0
10. Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых. Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых.
11. Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп. (r дис ) j = (p 1 ) j - (p 0 ) j , или (r дис ) j = ((P 1 ) j - (P 0 ) j )/100%, если трудность задана в процентах где r - индекс дискриминативности, p 1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p 0 - доля правильных ответов в слабой группе (27 %).
12. № задания P j для всех испытуемых Группа Индекс r дис P j для слабой P j для сильной 1 21,0 6,5 32,0 0,26 2 94,0 90,0 97,0 0,065 3 64,0 42,0 97,0 0,55 4 59,0 68,0 58,0 -0,097 5 27,0 16,0 29,0 0,13 6 70,0 29,0 94,0 0,65 7 30,0 13,0 42,0 0,29 8 12,0 9,7 16,0 0,065 9 33,0 16,0 52,0 0,35 10 73,0 42,0 90,0 0,48
13. С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оценивается валидность отдельных заданий теста. формула для нахождения точечно-бисериального коэффициента В целом задание можно считать валидным, если r pbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно.
16. Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
17. По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом: X = T + E
18. Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.
19. Чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее.
20. Надежность теста (коэффициент надежности теста - r н ) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.
21. Оценка надежности теста. Для оценки надежности нормативно-ориентированного теста используются две группы методов. 1) Двукратное тестирование: 1.1. ретестовый метод; 1.2. метод параллельных форм. 2) Однократное тестирование 2.1 метод расщепления теста; 2.2 с применением формулы Кьюдера-Ричардсона (сокращенно KR - 20).
22. Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования. Коэффициент надежности: x i – индивидуальный балл i-ого студента при ответе на тест в первом тестировании y i – индивидуальный балл i-ого студента при ответе на тест при повторном тестировании
23. ∑ (Y i ) 2 ∑ (X i ) 2 ∑ X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N Y N Y N X N N студент … (Y 2 ) 2 (X 2 ) 2 X 2 Y 2 Y 2 X 2 2 студент (Y 1 ) 2 (X 1 ) 2 X 1 Y 1 Y 1 X 1 1 студент
24.
25. Метод параллельных форм. Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания, тождественные по трудности, дифференцирующей способности и др., т.е. параллельные формы теста.
26. Коэффициент надежности: x i – индивидуальный балл i-ого студента при ответе на тест X y i – индивидуальный балл i-ого студента при ответе на тест Y
27. ∑ (Y i ) 2 ∑ (X i ) 2 ∑ X i Y i ∑ Y i ∑ X i (Y N ) 2 (X N ) 2 X N Y N Y N X N N студент … (Y 2 ) 2 (X 2 ) 2 X 2 Y 2 Y 2 X 2 2 студент (Y 1 ) 2 (X 1 ) 2 X 1 Y 1 Y 1 X 1 1 студент
28.
29. Однократное тестирование (метод расщепления теста). Он основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста.
31. Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна
32. Метод Кьюдера-Ричардсона. Формула Кьюдера-Ричардсона (сокращенно KR - 20) может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно).
35. K – коэффициент надежности m – число заданий в тесте p j - доля правильных ответов на j-е задание теста (количество верных ответов на задание, деленное на общее число студентов) q j – доля неверных ответов на j-е задание q j =1- p j s x 2 – дисперсия индивидуальных баллов. N – число студентов x i – индивидуальный балл i – го студента ( Индивидуальный балл испытуемого – это количество заданий, на которые студент ответил правильно).
36. Для нормативно-ориентированного теста Величина надежности Оценка надежности 0,90 - 0,99 Отличная 0,80 - 0,89 Хорошая 0,70 - 0,79 Удовлетворительная Менее 0,70 Неудовлетворительная
37. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.
39. А, B, C, D - доли испытуемых, получивших «зачет» или «незачет» по результатам двух тестов. Каждая доля определяется как отношение числа испытуемых, попавших в подгруппы (A, B, C, D), к общему количеству испытуемых. Соответственно A + B + C + D = 1 Большие доли A и D свидетельствуют о постоянстве результатов, т.е. если по тесту А получен «зачет/незачет», то и по тесту В тоже получен «зачет/незачет», соответственно можно говорить высокой надежности теста.
41. Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле æ = (P - Pc)/(1 - Pc), где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.
42. Pc вычисляется по формуле Pc = (c + d)(d + b) + (a + b)(c + a) Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи- и каппа-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.
43. Способы повышения надежности теста. Увеличение количества заданий теста. Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа. Индивидуальный балл испытуемого при выполнении заданий закрытого типа при дихотомической оценке (1/0) есть сумма правильных ответов.
44. Для минимизации эффекта угадывания, можно использовать следующую формулу где X i - количество правильных ответов, W i - количество неверных ответов, L - количество вариантов ответов в задании.
45. Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, т.е. способность теста измерять то, для чего он предназначен. Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста. (Анастази А.; Майоров А.Н.): содержательную валидность, критериальную и конструктную (концептуальную).
46. 1) Содержательная валидность (content validity). Имеется в виду соответствие теста как измерительного инструмента той области содержания, знания и умения которой проверяются данным тестом. В зависимости от выбранного подхода при создании теста будут предъявляться различные требования к содержательной валидности.
47. 2) Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).
48. Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.
49.
50. s x 2 – дисперсия индивидуальных баллов N – число студентов отклонение тестового балла i – го студента от среднего балла по тесту отклонение экспертного балла i – го студента от среднего арифметического экспертных о ценок
52. 3) Конструктная (концептуальная) валидность. Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства.