Клайн Пол

Конечно, как утверждает
Ферпосон, распределение показателей, которое дает тест - это фун-
кция трудности заданий и их взаимной коррелированности, а это
влияет не только на надежность, но также и на дискриминативность,
которая равна 0,86 в том случае, когда слишком мало простых и
слишком мало трудных заданий; 0,90 для биномиального и 0,93 для
бимодального распределений. Из всего этого следует, что при конст-
руировании теста то, до какой степени нашей целью является дости-
жение максимальной надежности или максимальной дискримина-
тивности, зависит от назначения теста.
Валидность
Когда показатели надежности и дискриминативности соответст-
вующим образом вычислены, то не может быть никаких разночтений
в толковании результатов. В случае с валидностью сделать такие
точные статистические заключения невозможно. Вместо этого долж-
но быть представлено свидетельство в пользу валидности теста. Это
свидетельство трактуется так, чтобы продемонстрировать валид-
ность теста, но такие интерпретации являются в высокой степени
субъективными. В настоящем разделе главы будут изложены лучшие
методы представления такого свидетельства.
В первой главе были полностью описаны различные виды валид-
ности тестов, и в соответствии с ними будут излагаться процедуры
установления валидности.
Очевидная валидность
Это тривиальный аспект теста, связанный только с тем, какое он
производит впечатление. Если по какой-либо причине тест должен
быть очевидно валидным, то достаточно просто спросить у испытуе-
мых, принимающих участие в процедуре оценки и отбора заданий
для теста, представляется ли он им хорошим средством измерения
данной переменной или нет. Очевидная валидность важна для при-
влечения испытуемых к работу над тестом.
Природа этого явления (снижения надежности при высокой дискриминативнос-
ти) сложнее. Подробнее о психометрическом парадоксе см.: БурлачукЛ.Ф. (1989)
(Прим.ред.)
205
Конкурентная валидность
Этот показатель получают из корреляций (или факторных нагру-
зок) с другими тестами, которые предназначены для измерения той
же переменной. Для эффективного изучения конкурентной валид-
ности существует несколько правил, представленных ниже, хотя они
ничем не отличаются от тех, которые имеют место в любой области
научной психологии.
(1) Убедитесь, что выборка испытуемых отражает ту категорию
лиц (популяцию), для которой данный тест предназначен, особенно
по отношению к полу, возрасту, уровню образования и социальному
положению. Тесты, разработанные для психиатрических целей, дол-
жны предъявляться соответствующим группам пациентов.
(2) Убедитесь, что выборки достаточно велики для получения
статистически значимых корреляций, могущих быть затем использо-
ванными в факторном анализе. Минимальное количество испытуе-
мых - 200.
(3) Используйте настолько широкое разнообразие других тестов
данной переменной, насколько возможно - чтобы убедиться, что
корреляция получена благодаря близости групповых факторов, а не
специфических. Например, если вы пытаетесь тестом измерить ",
то используйте вербальные и невербальные средства измерения "g,
созданные различными авторами.
(4) Если используется факторный анализ, убедитесь, что получе-
на простая структура.
(5) При обсуждении результатов четко объясняйте, какие корре-
ляции и нагрузки факторов можно ожидать. Это позволяет читателю
судить о психологическом значении этих результатов.
Исследования конкурентной валидности, удовлетворяющие этим
критериям, должны дать недвусмысленное свидетельство валиднос-
ти, которое не может быть методологически опровергнуто.
Прогностическая валидность
Здесь основной проблемой является выделение критерия предска-
зания. Хотя это представляет трудность всегда, все же степень труд-
ности изменяется в зависимости от типа теста. Обычно для тестов
способностей и интересов прогностическую валидность продемон-
стрировать легче, чем для личностных тестов. В общем, правила,
которым желательно следовать, подобны приведенным для конку-
рентной валидности.
(1) Что касается комплектования выборок испытуемых, то все
предыдущие замечания остаются в силе.
206
(2) Существенно важен размер выборки. Если используются мно-
жественные корреляции с акцентированием внимания на весовых
коэффициентах ft (индексе значимости данного теста в прогнозе по
данному критерию), то выборка должна быть расщеплена или под-
вергнута процедуре кросс-валидизации, так как значения весовых
коэффициентов/? могут изменяться от исследования к исследованию.
(3) При использовании факторного анализа должна быть получе-
на простая структура.
(4) Должна быть показана надежность используемого критерия.
Последняя процедура особенно важна, поскольку неудовлетвори-
тельная надежность измерений снижает корреляции.
УМЕНЬШЕНИЕ КОРРЕЛЯЦИЙ ВСЛЕДСТВИЕ НЕУДОВЛЕТ-
ВОРИТЕЛЬНОЙ НАДЕЖНОСТИ
Исходя из классической модели погрешностей измерений может
быть показано, что можно оценить, какой была бы корреляция между
двумя тестами, если бы для них было получено высокое значение
коэффициента надежности. Эта оценка может быть вычислена по
формуле (вывод этой формулы см. в Nunnally, 1978):
- - "а
V/-11 n.-i
где га - скорректированное значение коэффициента корреля-
ции, П1 - эмпирическое значение коэффициента корреляция, гц -
значение надежности для переменной 1, /-22 - значение надежности
для переменной 2.
Эта формула применяется для корректировки при неудовлетвори-
тельной надежности по обеим переменным. Если необходимо прове-
сти коррекцию только при неудовлетворительной надежности кри-
терия, то тогда в знаменатель подставляется только значение надеж-
ности для критерия.
ШАГИ ВЫЧИСЛЕНИЯ КОРРЕКЦИИ ПРИ НЕУДОВЛЕТВО-
РИТЕЛЬНОЙ НАДЕЖНОСТИ
Эта формула настолько проста, что, вероятно, нет необходимости
раскладывать ее на шаги. Коротко:
(1) Вычислите произведение коэффициентов надежности для
двух тестов.
(2) Возьмите квадратный корень: уГип
(3) Разделите полученную корреляцию валидизируемого теста и
критерия на результат, полученный на шаге (2).
207
ИСПОЛЬЗОВАНИЕ КОРРЕКЦИИ
С моей точки зрения, эта формула коррекции по целому ряду
причин должна использоваться с большой осторожностью. Во-пер-
вых, в практическом применении тестов валидизируемый тест и его
критерий имеют только одно данное значение надежности: такая
коррекция не изменяет этот факт, как бы это ни было неприятно.
Значительно лучше сразу получить надежные тест и критерий, чем
применять коррекцию вследствие неудовлетворительной надежнос-
ти.
Однако, в теоретических исследованиях, где основной интерес
представляет отношение между двумя переменными, скорректиро-
ванная оценка может оказаться более лучшим показателем, чем
значение, заниженное вследствие неудовлетворительной надежнос-
ти. Тем не менее, всегда есть вероятность того, что скорректирован-
ными оценками мы введем себя в заблуждение. По этой причине
скорректированных оценок корреляций следует избегать как тако-
вых. Иноща, однако, имеет смысл привести их рядом с исходными
показателями, в зависимости от цели и характера исследований.
Использование их без указания того, что они являются следствием
коррекции, и без предоставления исходных значений будет большой
ошибкой.
Содержательная валидность
Содержательная валидность, как указывалось в главе 1, представ-
ляет интерес в основном при конструировании тестов, когда должен
быть точно определен материал, используемый для тестирования.
Очевидными примерами может быть содержание тестов математиче-
ских, музыкальных способностей, словарного запаса и знаний грам-
матики. В терминах классической модели измерений проблема со-
держательной валидности возникает при формировании выборок за-
даний из генеральной совокупности заданий. На практике же случай-
ный выбор заданий для тестирования словарного запаса, вероятно,
вряд ли даст эффективный тест, поскольку не все слова в словаре
имеют одинаковую важность. Даже случайный подбор из множества
наиболее употребительных слов не будет адекватным, так как суще-
ствуют ограничения на слова, которые мы хотим использовать в
тестировании (в зависимости от цели теста). Так, тест словарного
запаса для зарубежных врачей будет значительно отличаться от тес-
та для, скажем, зарубежных педагогов.
На практике подтверждение содержательной валидности может
быть получено только следующим образом. Подбираются эксперты в
данной области, которые указывают, какой материал они считают
208
существенно важным; затем этот материал преобразуется в задания
теста, и затем опять направляется экспертам, чтобы посмотреть, не
обнаружат ли они каких-либо грубых упущений или заданий, дубли-
рующих друг друга.
В случае личностных тестов содержательная валидность имеет
меньшее значение, хотя автор настоящей книги при конструирова-
нии тестов оральных черт личности, OPQ и OOQ (Kline, 1979), попы-
тался продемонстрировать содержательную валидность при помощи
перечисления всех психоаналитических описаний "оральной лич-
ности" в сокращенной форме, например, "зависимый", "прилипу-
чий, как пиявка", а затем преобразования их в задания теста.
Cattel (напр. 1946), при конструировании теста 16 PF, также
попытался обеспечить содержательную валидность следующим обра-
зом: (1) просмотром словаря в поисках всех терминов, описывающих
поведение; (2) избавлением от тех терминов, которые эксперты со-
чли синонимами; (3) ранжированием испытуемых по остающимся
описаниям и выделением кластеров; (4) формулированием заданий,
предназначенных для выявления этих кластеров. Это был тщательно
разработанный метод исследования всей генеральной совокупности
переменных и попытки обеспечить содержательную валидность. Ус-
пех этого предприятия является предметом споров (например, Cattel
и Kline, 1977; Howarth, 1976). Нет необходимости говорить, что по-
добная процедура может быть выполнена только при наличии огром-
ных (денежных и временных) ресурсов, и не рекомендуется обычно-
му разработчику тестов. Обычно, если только в литературе нет ясных
описаний, при конструировании тестов личности и мотивов рассмот-
рение содержательной валидности неуместно.
ПРАКТИЧЕСКИЕ ПРОЦЕДУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ СО-
ДЕРЖАТЕЛЬНОЙ ВАЛИДНОСТИ
Тесты достижений:
( 1 ) Укажите точно категорию лиц, для которых этот тест предназ-
начен.
(2) Определите навыки, подлежащие тестированию, возможно
после их анализа.
(3) Передайте этот список экспертам в данной области (учителям
и т.п.) для проверки, нет ли упущений.
(4) Преобразуйте этот список в перечень заданий, используя,
когда это возможно, равное количество заданий на каждый навык.
(5) Представьте эти задания экспертам для проверки.
209
(6) Подвергните задания обычным процедурам конструирования
тестов. В результате должен быть получен содержательно валидный
тест.
Другие тесты:
(1) Если существует литература с описаниями, просмотрите ее и
преобразуйте описания в особенности поведения.
(2) Для каждой упомянутой особенности поведения сформули-
руйте ряд заданий.
(3) Когда литература с описаниями отсутствует, получите описа-
ния поведения от грамотных специалистов; например, для изучения
зависимости инфантильных пациентов опросите их лечащих врачей
и медицинских сестер с целью получить описание зависимого пове-
дения их пациентов.
(4) Как и на шаге (2) выше, преобразуйте описания в задания.
(5) Подвергните задания теста обычным процедурам конструиро-
вания теста.
Критериально-ориентированные тесты
(criterion-referenced tests)
В области тестирования достижений и успехов в учебе, как для
детей, так и для взрослых, например, после специальных курсов
обучения, значительное место отводится тому, что зачастую пред-
ставляется как совершенно иной тип теста - критериально-ориен-
тированный тест. Полное обсуждение этой темы вы найдете у Berk
(1980), а также у Glaser (1963).
Сторонники критериально-ориентированных тестов противопо-
ставляют их тестам, ориентированным на нормы, на следующих ос-
нованиях. При использовании тестов, ориентированных на нормы,
сравниваются навыки и способности испытуемых, а в критериально-
ориентированных тестах указываются и определяются цели обучаю-
щего курса, которые закладываются в тест формулированием зада-
ний, измеряющих степень достижения этих целей.
Существует два момента, о которых стоит упомянуть. Критери-
ально-ориентированные тесты применимы только в тех случаях, ког-
да цели обучения могут быть ясно и недвусмысленно определены.
Во-вторых, и именно поэтому эта тема включена в данное рассмот-
рение, критериально-ориентированные тесты - это тесты, спроек-
тированные с целью максимизации содержательной валидности, об-
суждавшейся в предыдущем разделе. Принципиально же критери-
ально-ориентированные тесты ничем не отличаются от тестов, ори-
ентированных на нормы, хотя это верно, что для них не нужны
нормы. Что в этих тестах важно - так это просто то, какую часть
210
теста испытуемый выполнит правильно. Разработчиков же тестов,
ориентированных на нормы, не интересует сравнительная успеш-
ность; все, что они хотят знать - справился ли отдельный испытуе-
мый с данным материалом или нет.
Это различие, очевидно, не является существенным. Так, содер-
жательно валидный тест является по существу критериально-ориен-
тированным тестом с нормами. Аналогично, если критериально-ори-
ентированный тест стандартизован, то он становится содержательно-
валидным тестом, опирающимся на нормы.
Как утверждалось в случае содержательной валидности, сущест-
венная особенность при конструировании критериально-ориентиро-
ванных тестов состоит в определении целей курса обучения, так,
чтобы могли быть сформулированы задания, содержащие эти цели.
Во многих обучающих курсах для взрослых цели весьма конкретны,
и применение критериально-ориентированных тестов является оче-
видным могодом. форма заданий зависит от того, что необходимо
тестировать, а вопросы, касающиеся формы заданий полностью об-
суждались ранее, в главе по формулированию заданий.
Инкрементная и дифференциальная валидность
Как указывалось в главе 1, эти виды валидности в основном ис-
пользуются в процедурах профотбора, в которых для прогноза по
некоторому критерию комплектуется батарея тестов.
ИНКРЕМЕНТНАЯ ВАЛИДНОСТЬ: ШАГИ ПРОЦЕДУРЫ
( 1 ) Вычислите корреляцию теста с критерием и с другими тестами
батареи.
(2) Если он имеет положительную корреляцию с критерием, но
незначимо коррелирует с другими тестами, то продемонстрирована
инкрементная валидность. Такой тест будет вносить свой вклад в
множественную корреляцию Данной батареи с критерием.
(3) При факторном анализе этот тест должен нагружать тот же
фактор, что и критерий, но не фактор, нагружаемый другими теста-
ми.
ДИФФЕРЕНЦИАЛЬНАЯ ВАЛИДНОСТЬ
Для доказательства дифференциальной валидности нет общих
процедур, но если бы мы взяли пример об академической успеваемо-
сти (из главы 1, стр. 28), то дифференциальную валидность можно
было бы показать сравнением ее корреляции с различными академи-
ческими дисциплинами: значения корреляции должны значительно
различаться. Таким образом, в общем для демонстрации дифферен-
циальной валидности предполагается различие корреляций с различ-
ными аспектами данного критерия.
Конструктная валидность
Как уже говорилось, для доказательства конструктной валиднос-
ти привлекается демонстрация психологических характеристик пе-
ременных, измеряемых данным тестом. При этом могут затрагивать-
ся и другие, уже обсуждавшиеся, типы валидности. Общее описание
приведено ниже.
ПРОЦЕДУРЫ ОПРЕДЕЛЕНИЯ КОНСТРУКТНОЙ ВАЛИД-
НОСТИ
(1) Перечислите точно гипотезы, касающиеся переменных, с ко-
торыми данный тест должен коррелировать (конкурентная валид-
ность) .
(2) Перечислите точно гипотезы, касающиеся переменных, с ко-
торыми данный тест не должен коррелировать.
(3) Укажите группы, которые должны давать низкие и высокие
показатели по данному тесту.
(4) Сформулируйте гипотезу о месте данного теста в факторном
пространстве. Эта гипотеза подобна гипотезам из выше приведенных
пунктов (1) и (2).
Эти четыре гипотезы должны затем быть проверены на больших
выборках, соответствующим образом сформированных, как указано
в процедурах для установления конкурентной валидности. Специфи-
ческие группы должны быть достаточно большими, не только для
выявления статистически значимых различий, но также такими,
чтобы с уверенностью могли быть сделаны обобщения.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

А-П

П-Я

Введение в психометрическое проектирование