Клайн Пол

Вычисляется корреляция пока-
зателей для выборки испытуемых, протестированных в двух случаях.
Наименьшим удовлетворительным значением для ретестовой на-
дежности является 0,7.
При более низком значении, как указывает Guilford (1956), ис-
пользование теста становится вряд ли целесообразным, поскольку
стандартная погрешность получаемых по нему показателей будет
настолько велика, что интерпретация показателей станет сомни-
тельной. Значение и влияние этой стандартной погрешности резуль-
тата будут обсуждаться в данной главе дальше, когда вы познакоми-
тесь с так называемой классической моделью погрешностей тестов
(Nunnally, 1978), рассматриваемой в рамках дискуссии о надежно-
сти.
Хотя ретестовая надежность проста в вычислении, следует быть
очень осторожным, чтобы не повысить ее искусственно проведением
слишком близких во времени испытаний, а выборки должны быть
достаточно репрезентативными применительно к той категории лиц,
для обследования которых предназначен тест.
И наконец, в связи с этим я должен упомянуть надежность парал-
лельных форм. В этом случае конструируются эквивалентные или
параллельные наборы заданий. Таким образом, испытуемые выпол-
няют совершенно другой тест при аналогичных условиях. Однако,
имеются трудности в доказательстве того, что обе формы являются
действительно эквивалентными. Несмотря на это, на практике па-
раллельные формы тестов оказываются полезными в установлении
надежности тестов.
Валидность
Кратко рассмотрим природу валидности, второй из основных ха-
рактеристик эффективных тестов. Как и при обсуждении надежно-
сти, целью этой главы является дать читателю общее представление
для понимания задач конструирования валидных тестов. Сами же
пути достижения валидности будут полностью представлены в этой
книге далее.
Тест называется валидным, если он измеряет то, для измерения
чего он предназначен. Однако такое определение не разъясняет удов-
летворительно значения валидности. В этом случае возникает новый
1 в известной мере условен. Для
Указанный предельный коэффициент надежности в известной мере уединен, wT
проективных и некоторых других тестов личности показатель ретестовой надеж-
ности может быть ниже, при этом диагностическая ценность методики не снижа-
ется (Прим.ред.)
вопрос: как мы узнаем, что тест измеряет то, для чего он предназна-
чен? В действительности, существует много различных способов до-
казательства валидноеT тестов, и каждый из них соответствует раз-
ным аспектам этого значения. О них и пойдет речь далее в этой главе.
Очевидная (внешняя) валидность (face validity)
Говорят, что тест является очевидно валидным, если о нем скла-
дывается впечатление, что он измеряет именно то, что подразумева-
ется, особенно с точки зрения испытуемых. Очевидная валидность не
имеет никакого отношения к истинной валидности и важна постоль-
ку, поскольку взрослые испытуемые обычно не включаются в работу
с тестами, которым недостает внешней валидности, полагая порой их
глупыми и даже оскорбительными. Дети, привыкшие к школьным
контрольным проверкам, не столь восприимчивы к внешним призна-
кам теста. Очевидная валидность, таким образом, лишь помогает
добиться сотрудничества с испытуемыми.
Конкурентная валидность (concurrent validity)
Эта валидность оценивается по корреляции результатов данного
теста с результатами других тестов. Так, если мы пытаемся устано-
вить конкурентную валидность некоторого теста интеллекта, мы бу-
дем изучать его корреляцию с другими тестами, валидность которых
установлена. Этот пример наглядно иллюстрирует недостаток опре-
деления конкурентной валидности. Если уже существует другой ва-
лидный тест, достаточно эффективный, чтобы он мог использовать-
ся, то новый тест, который предстоит валидизировать, может быть в
какой-тостепениненужным. Всамомделе, этобудеттак, еслитолько
он не обладает некоторой значимой характеристикой, не присущей
другим валидным тестам. Например, если он будет очень коротким,
простым в использовании, удобным для обработки, или хотя бы будет
нравиться испытуемым, то это вполне бы оправдало разработку но-
вого теста тогда, когда существуют другие тесты для измерения дан-
ного критерия. С другой стороны, если нет эффективных тестов для
измерения данного свойства или особенности, когда новый тест за-
трагивает иные свойства или особенности индивидуума, тогда ясно,
что изучение конкурентной валидности становится затруднитель-
ным.
Иногда, когда нет тестов для измерения некоторого свойства, мож-
но попытаться использовать экспертные оценки. Здесь, однако, су-
ществуют серьезные проблемы. Валидность рейтингов может точно
так же оказаться под вопросом и, кроме того, если возможно приме-
нение рейтингов, то вряд ли здесь нужен тест.
26
В общем, конкурентная валидность полезна тогда, когда есть не-
удовлетворительно работающие тесты для измерения некоторых пе-
ременных, а новые тесты создаются в попытке улучшить качество
измерения. В случаях, подобных этому, при изучении конкурентной
валидности можно ожидать значимых, но умеренных корреляций.
Таким образом ясно, что конкурентная валидность не является до-
статочно полным аспектом валидности. Чтобы принять тест как ва-
лидный, нам, в дополнение к исследованию конкурентной валидно-
сти, потребуются дальнейшие и отличные от данного свидетельства.
Конкурентная валидность также полезна для установления факта,
чего же не измеряет тест. Тест не должен иметь корреляции с другими
тестами, измеряющими совершенно иные переменные.
Прогностическая валидность (predictive validity)
Для установления прогностической валидности теста изучаются
корреляции между показателями теста и некоторым критерием, ха-
рактеризующим измеряемое свойство, но в более позднее время.
Прогностическая валидность теста интеллекта, например, может
быть продемонстрирована корреляцией показателей в возрасте II
лет с успеваемостью в 16, в институте или даже в аспирантуре.
Многие специалисты по психометрии (напр., Cronbach, 1970) рас-
сматривают прогностическую валидность как наиболее убедительное
подтверждение эффективности теста.
Основная трудность при такой валидизации теста состоит в выбо-
ре значимого внешнего критерия. В случае тестов интеллекта кажет-
ся разумным, исходя из нашего понятия об интеллекте, использовать
будущие успехи в обучении или даже зарабатываемые деньги. Одна-
ко, поскольку очевидно существуют и другие переменные, помимо
интеллекта, которые связаны с этими критериями, такие как настой-
чивость, умение ладить с людьми, а также ряд других случайных
факторов: хорошее преподавание и наличие вакансий на работе в
подходящее время, - можно ожидать, что корреляция с показателя-
ми теста интеллекта будет умеренной. Более того, интеллект, воз-
можно, - наиболее простая переменная, для которой может быть
спланировано изучение прогностической валидности. Тесты для из-
мерения нейротизма или тревожности также могут изучаться для
установления их прогностической валидности, потому что их пока-
затели могут быть связаны с областью психических заболеваний и
лечением, хотя и здесь могут быть большие неточности, так как не
исключено появление не выявленных и не подвергавшихся лечению
случаев.
Однако, многие переменные трудно исследовать в отношении их
прогностической валидности. Например, фактор С Кэттелла - сила
"Я" (Cattell и др., 1970) - в плане выделения внешнего критерия
доставит несомненно суровое испытание даже наиболее изобрета-
тельному исследователю. Кроме того, существуют трудности, имею-
щие статистическую природу, наиболее сложная из которых -
уменьшение корреляции из-за однородности переменных. Эти тех-
нические проблемы будут обсуждаться в главе 7.
Инкрементная и дифференциальная валидность
(incremental and differential validity)
Эти два термина (обсуждавшиеся у Vernon, 1950) заслуживают
краткого упоминания. Инкрементная валидность относится к слу-
чаю, когда один тест из батареи тестов может иметь низкую корреля-
цию с критерием, но не перекрываться другими тестами из этой
батареи. Тогда этот тест имеет инкрементную валидность для отбора
в соответствии с данным критерием. Это может быть полезным в
психологических испытаниях при профотборе.
Дифференциальная валидность хорошо иллюстрируется тестами
интересов. Эти тесты умеренно коррелируют с общей университет-
ской успеваемостью, но по-разному для разных дисциплин. Таким
образом, можно сказать, что они обладают дифференциальной ва-
лидностьюдля академической успеваемости. Тесты IQ, с другой сто-
роны, имеют более высокие корреляции с принятыми в университе-
тах учеными степенями, но не могут дифференцировать по отдель-
ным дисциплинам.
Подводя итог, можно сказать, что инкрементная и дифференци-
альная валидность являются полезными показателями эффективно-
сти для тех тестов, которые предстоит использовать в процедурах
отбора.
Содержательная валидность (content validity)
Этот термин применяется, в основном, по отношению к тестам
достижений и может быть просто объяснен следующим образом. Если
можно показать, что задания теста отражают все аспекты исследуе-
мой областиповедения, тотестявляется, посуществу, валидным, при
условии, что инструкции изложены ясно. Содержательная валид-
ность не сводится к простой очевидной валидности, которая связана
с внешним видом заданий теста. Если в тесте математических навы-
ков мы хотим протестировать умение перемножать выражения в
От англ. increment - прибыль, прирост.
28
скобках и имеем задания вида (3H-2fc)(2>-3х)=?, то трудно оспаривать
валидность этого задания. Очевидно, содержательная валидность по-
лезна только для тех тестов, для которых, как в данном случае, смысл
измеряемого параметра полностью ясен.
Конструктная валидность (construct validity)
Понятие конструктной валидности впервые было введено Cron-
bach и Meehl (1955). Чтобы продемонстрировать конструктную ва-
лидность теста, необходимо настолько полно, насколько это возмож-
но, описать переменную (конструкт), для измерения которой пред-
назначен тест. Это достигается формулированием гипотез о резуль-
татах теста в свете всего того, что известно об этой переменной.
Таким образом, конструктная валидность включает в себя все подхо-
ды к определению валидности, перечисленные выше.
Понятие конструктной валидности можно, вероятно, лучше всего
пояснить на следующем примере. Ниже я формулирую гипотезы,
подлежащие проверке при установлении конструктной валидности
теста оральных черт личности - The Oral Pessimism Questionnaire
(OPQ), разработанного автором (Kline, 1978).
(1) OPQ будет коррелировать положительно, но умеренно (ввиду
их невысокой эффективности) с другими тестами, направленными на
выявление оральных черт личности.
(2) Из описания синдрома "орального пессимизма" должна на-
блюдаться умеренная корреляция с нейротизмом.
(3) Поскольку 16-факторный личностный опросник Кэттелла не
предназначен для измерения параметров, подобных данному синдро-
му, то с этим опросником не должно быть никаких корреляций.
(4) Поскольку OPQ является личностным тестом, не должно быть
значимых корреляций с переменными способностей или мотивов.
Отметим, что последняя гипотеза иллюстрирует необходимость
показывать, при исследовании конструктной валидности, чего тест
не измеряет, наряду с тем, что он измеряет.
Если все эти гипотезы получат подтверждение их истинности,
тогда все же может показаться спорным, что продемонстрирована
конструктная валидность теста OPQ как средства измерения сово-
купности личностных черт, определяемых как "оральный песси-
мизм" . Дальнейший, более непосредственный способ продемонстри-
ровать валидность теста может состоять в формулировании пятой
гипотезы, а именно, что испытуемые, имеющие высокую выражен-
ность измеряемых черт личности, покажут по OPQ более высокие
показатели, чем те, у которых она низкая.
29
Таким образом, конструктная валидность - это мощный метод
демонстрации валидности тестов, для которых установление единст-
венного критерия их обоснованности является затруднительным.
Вместо одного результата мы должны учитывать одновременно мно-
жество результатов.
С конструктной валидностью связана одна проблема, которую
следует упомянуть. Речь идет об элементах субъективности, вовле-
каемых в интерпретацию результатов по изучению конструктной
валидности. В этом случае (как это обычно и случается на практике),
когда эти результаты недостаточно однозначны, многое зависит от
мастерства, уровня развития интерпретативных навыков разработ-
чика тестов.
Заключение
Были описаны разнообразные способы установления валидности
тестов; некоторые из них коренным образом отличаются друг от
друга. Так, конструктная валидность тесно связана с нашим опреде-
лением валидного теста как теста, измеряющего то, для измерения
чего он предназначен. Это, вероятно, наиболее важный аспект валид-
ности, особенно, если тесты должны использоваться для расширения
области психологических знаний. С помощью дифференциальной
валидности устанавливается обоснованность теста для некоторых ча-
стных случаев. Это иное использование термина "валидность", кото-
рое отражает особенности его использования. Однако, в практиче-
ских приложениях тестов этот аспект валидности чрезвычайно ва-
жен.
Из обсуждения должно быть также понятно, что не может быть
какого-либо единственного показателя, демонстрирующего валид-
ность теста. Для полной ее проверки следует учитывать множество
получаемых показателей. Несмотря на это, для многих тестов (хотя
это лишь небольшая часть из общего их количества) была показана
высокая валидность и концептуальная, как в случае конструктной
валидности, и для практических целей. Более того, как это станет
ясно из дальнейшего изложения, валидность теста может фактически
гарантироваться логически обоснованными методами конструирова-
ния тестов.
Дискриминативность
Еще одной особенностью эффективных тестов является дискри-
минативность. Действительно, достижение удовлетворительного рас
пределения показателей является одной из целей разработчика тес-
та. Нет необходимости подчеркивать то, что является очевидным:
30
какова ценность психологического теста, по которому все испытуе-
мые показали одинаковые результаты? При помощи тщательного
конструирования теста можно обеспечить соответствующий уровень
дискриминативности, а это именно то, в чем тесты значительно вы-
игрывают по сравнению с другими формами испытаний. В общем,
было обнаружено, что в оценке может быть использовано около де-
вяти градаций (см. Vernon, 1950), а в опросах, вероятно, наиболее
эффективно использовать три градации: нижесреднего, средний уро-
вень и выше среднего. Подобно этому, шкалы ранжирования редко
содержат более девяти градаций. Это означает, что испытуемые раз-
биваются в лучшем случае на девять групп. Это проявляется как
недостаток по сравнению с психометрическим тестом, в котором по-
казатели могут иметь крайне широкий разброс и могут давать эффек-
тивно обрабатываемые значения стандартных показателей от 20 до
80, с крайними показателями некоторых испытуемых, выходящими
за эти пределы. Дискриминативность измеряется показателем дельта
Фергюсона и принимает максимальное значение при равномерном
(прямоугольном) распределении показателей ( Прежде, чем завершить обсуждение надежности, валидности и
дискриминативности, я кратко опишу модель измерения, в неявном
виде подразумевавшуюся во всей предыдущей дискуссии. Даже бег-
лое знакомство с этой моделью прольет свет на внутреннюю природу
конструирования тестов. Она также обеспечивает обоснованную ста-
тистическую базу для вычислений и процедур конструирования тес-
тов, рассматриваемых в данной книге.
Классическая теория погрешностей измерения
Замечание: Этот раздел о классической теории погрешностей из-
мерения - единственный в данной книге, который содержит матема-
тические формулы, а приведенные математические сведения содер-
жат лишь минимальный объем понятий, необходимый для изучения
предмета. Как я указывал, они приведены здесь, чтобы обеспечить
разумное объяснение статистических процедур конструирования те-
стов. Если они покажутся вам слишком утомительными, можно опу-
стить этот раздел или использовать его как справочный, когда воз-
никнет необходимость иметь дело с этими процедурами на практике.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

А-П

П-Я

Введение в психометрическое проектирование