Анастази А.

Может случиться, что со-
ciai iccia перепробует большое количество различных валида-
1ц-Ю1нн>1\ процедур, небольшая часть которых случайно даст положи-
-.......". ., nniluT о них. не упоминая тех, что
149 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
вое впечатление. Другая возможная опасность кроется в том, что термин
<конструктная валидность> иногда отождествляют с субъективными не-
проверенными утверждениями относительно валидности теста. Посколь-
ку конструктная валидность является столь широким и расплывчатым
понятием, ее часто истолковывают неправильно. Некоторые авторы
учебников и тестов, видимо, воспринимают ее как валидность по содер-
жанию, представленную на языке психологических категорий. В резуль-
тате они выдают за конструктную валидность чисто субъективные рассу-
ждения о том, что, по их представлениям, измеряет тест.
Еще один источник возможных недоразумений коренится в утвер-
ждении, что конструктная валидация <применяется, когда тест подлежит
интерпретации в качестве меры свойства или качества, не поддающегося
операциональному определению> (L.J.Cronbach, P.E.Meehl, 1955,
р. 282). Поскольку эта формулировка содержится в первом появившемся
в печати детальном анализе конструктной валидности, ее ошибочно
принимают за обоснование необходимости пользоваться конструктной
валидностью за неимением иных данных. То, что авторы этой формули-
ровки не имели в виду ничего подобного, говорит следующая фраза из
той же статьи: <прибегать к конструктной валидности бессмысленно, ес-
ли теоретические построения никак не согласуются с наблюдениями>
(ibid, р. 291). В этой же связи они критикуют тесты, <валидация которых
подменена логическими хитросплетениями> (ibid, р. 291). В самом деле,
измеряемый тестом теоретический конструкт, свойство или область по-
ведения можно адекватно определить только в свете данных, собранных
в процессе его валидации. Такое определение должно учитывать пере-
менные, с которыми тест значимо коррелирован, условия, реально
влияющие на его результаты, а также то, какие группы тест значимо
дифференцирует. Эти процедуры находятся в полном согласии с тем по-
ложительным, что пришло в тестирование вместе с понятием <кон-
структная валидность>. Только эмпирическое исследование соотношений
между тестовыми показателями и другими внешними данными позво-
ляет выяснить, что измеряет тест.
ГЛАВА 7. ВАЛИДНОСТЬ.
ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ

Гл. 6 была посвящена различным понятиям валидности и тому, как они
соотносятся с тем или иным назначением теста. В этой главе обсу-
ждаются способы количественного выражения валидности и интерпрета-
ция получаемых результатов. Пользующийся тестом обращается к ва-
лидности в следующих двух случаях. Первый раз, оценивая пригодность
теста для своих целей, он изучает данные о валидности, приведенные
в руководстве к тесту или в других доступных источниках. На основе
этой информации он получает представление о том, какие психические
функции тест измеряет, и решает, соответствуют ли такие функции це-
лям его использования теста. В этом случае, полагаясь на опублико-
ванные данные о валидности теста, пользователь, какие бы конкретные
процедуры при сборе таких данных ни применялись, имеет дело с кон-
структной валидностью. В гл. 6 уже отмечалось, что критерии, употре-
блявшиеся в опубликованных исследованиях, не обязательно идентичны
тем к-пт-ппые ппгттуюптайся тестом собипается ппогнозиповать. Лаже
150 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
одноименные должности на двух различных предприятиях редко совпа-
дают по своим обязанностям, точно так же, как два курса английского
языка в разных колледжах могут значительно отличаться друг от друга.
Ввиду специфичности каждого критерия, пользователю обычно реко-
мендуется проверить, если возможно, валидность выбранного теста от-
носительно локального критерия. Даже когда опубликованные данные
явно указывают на высокую валидность теста в частной ситуации, всегда
желательно их непосредственное подтверждение. При определении ва-
лидности относительно конкретных локальных критериев пользующийся
тестом оценивает его валидность второй раз. Методы, рассматриваемые
в этой главе, имеют непосредственное отношение к анализу данных ва-
лидации, получаемых самим пользователем теста, но их также можно
использовать (по крайней мере большую их часть) для понимания и ин-
терпретации сведений о валидности, приводимых в руководствах
к тестам.
КОЭФФИЦИЕНТ ВАЛИДНОСТИ И ОШИБКА ПРОГНОЗА
Измерение с оотношени я.; Коэффициент валидности есть корреляция
между показателями теста и критериальной мерой. Этот коэффициент
позволяет характеризовать валидность единственным показателем,; и по-
этому его часто приводят в руководствах к тестам, сообщая его значение
для каждого из использованных критериев. Данные, по которым вычис-
ляется коэффициент валидности, можно также представить в форме про-
гностической таблицы или карты прогноза (см. гл. 4, табл. 6, рис. 7).
Собственно говоря, такие таблицы и карты-наглядные иллюстрации то-
го, что коэффициент валидности означает для тестируемого индивида.
Напомним, что на карте прогноза приводится вероятность для испытуе-
мого, показавшего определенный результат, достижения определенного
уровня критериального выполнения. Например, с помощью табл. 6
(гл. 4, с. 96), зная результат ученика по тесту словесного мышления ба-
тареи DAT, можно определить вероятность получения им той или иной
оценки по тому или иному учебному предмету. Согласно этим данным,
коэффициент валидности такого теста равен 0,66. Если, как в приведен-
ном примере, тестовые и критериальные переменные-континуальны, то
применим уже знакомый нам коэффициент корреляции произведения мо-
ментов Пирсона. Если же исходные данные выражены в различной фор-
ме (скажем, когда критериальные переменные имеют значение <выполне-
но-невыполнено>-см. рис. 7, гл. 4), то коэффициенты корреляции
вычисляются иными методами. Конкретные процедуры вычислений
можно найти в любом учебнике по статистике.
Условия, влияющие на коэффициент валидности. Как и
в случае надежности, необходимо точно определить характер группы,
для которой найден коэффициент валидности. Один и тот же тест может
измерять различные функции, если его дать лицам разного возраста, по-
ла, образовательного уровня, рода занятий и т. д. Имея различный опыт,
испытуемые, например, могут по-разному подойти к решению одной
и той же задачи. Следовательно, тест может обладать высокой валид-
ностью относительно некоторого критерия в одной популяции и низкой
или нулевой валидностью-в другой. Он может также измерять разные
(ЬУНКЦИИ В ОаЗНЫХ ПОПУЛЯТТИЯХ ПпчтпУ w-nw паттигтаттипчнаа тп-тйпгнга uf
151 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
репрезентативна для популяции, в которой предполагается использовать
тест, валидность необходимо определить заново на соответствующей
выборке..
/ Разнородность выборки имеет для измерения валидности такое же
значение, как и для измерения надежности, поскольку обе характеристи-
ки обычно приводятся в виде коэффициентов корреляции. Напомним,
что при прочих равных условиях чем больше разброс результатов, тем
выше корреляция. Это обстоятельство необходимо иметь в виду при ин-
терпретации коэффициентов валидности, приводимых в руководствах
к тестам.
Специфическая проблема, присущая многим выборкам валидации,
связана с предварительным отбором испытуемых. Так, при определении
валидности нового теста на группе лиц, недавно принятых на работу,
критериальной мерой, очевидно, будет выполнение ими своих обязанно-
стей. Вполне вероятно, однако, что эти лица были уже отобраны теми,
кто принимает на работу. Поэтому в подобной выборке разброс показа-
телей теста и критериальной меры уменьшится на нижнем конце распре-
деления, а следовательно, снизит коэффициент валидности. А это значит,
что последующее использование теста для отбора всех поступающих на
работу, по-видимому, покажет более высокую валидность.
/ Коэффициенты валидности могут также меняться со временем
вследствие изменения норм отбора.; В качестве примера сравним коэффи-
циенты валидности, полученные с интервалом в 30 лет при обследовании
студентов Иельского университета (P. S. Bumham, 1965). Определялась
корреляция между прогностическим показателем, основанным на тестах
Совета по вступительным экзаменам в колледж, и успеваемостью в стар-
ших классах, с одной стороны, и средним баллом первокурсника-с дру-
гой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Про-
верка двумерного распределения данных легко выявила причину этого
снижения. Дело в том, что в связи с повысившимися требованиями при
приеме в колледж группа студентов во втором случае была более одно-
родной, чем в первом, по отношению как к предиктору, так и к крите-
риальному выполнению. Отсюда и падение корреляции, несмотря на то
что точность прогноза успеваемости в колледже осталась в общем пре-
жней. Иными словами, наблюдавшийся эффект вовсе не свидетельствует
о временном снижении валидности предикторов, а к такому выводу
моно бы прийти, упустив из вида различия в однородности групп.
-Для правильной интерпретации коэффициента валидности следует
принимать во внимание форму зависимости между тестом и критерием.
Определение пирсоновского коэффициента корреляции предполагает, что
эта зависимость линейна и остается одной и той же по всему диапазону
значений предиктора. Однако в ряде ситуаций это условие не выполняет-
ся (J. Fisher, 1959; D. Kahneman, 1962). Пусть для выполнения некоторой
работы требуется лишь минимальный уровень понимания читаемого, до-
статочный для прочтения инструкций, названий и т.д. Но как только
этот минимальный уровень превзойден, то от дальнейшего развития
данного умения успешность выполнения работы уже не зависит, т.е. ме-
жду тестом и выполнением работы существуют нелинейные отношения.
Проверка двумерного распределения или диаграммы рассеяния, по-
строенной по показателям теста на понимание читаемого и крите-
риальных мер, выявила бы, что уровень выполнения работы растет, пока
,-,"" ,,>nrrf -ггала тт тттт-QT "rrVPAAnir ТПНН ПОСЛб ЧеГО
152 lllIIIIUIItIhl ПСИХОЛОГИЧЕСКОГО ТГСТИРОИАПИЯ
он остается примерно тем же. Следовательно, точки на диаграмме ско-
рее группируются вокруг кривой, а не прямой линии.
В других случаях эта линия может быть и прямой, но точки, изобра-
жающие индивидуальные данные, могут отстоять от нее в верхнем конце
шкалы дальше, чем в нижнем. Предположим, что выполнение теста спо-
собности к обучению-необходимое, но не достаточное условие для ус-
воения некоторого учебного предмета. Это значит, что ученики, показав-
шие в тесте низкие результаты, справятся с ним плохо, тогда как среди
учеников с высокими результатами одни освоят предмет, а другие, из-за
недостаточной мотивации, еле его одолеют. В этом случае будет наблю-
даться большая вариативность критериального выполнения у учащихся
с более высокими тестовыми результатами, чем с более низкими. Опи-
санная особенность двумерного распределения называется гетероскеда-
стичиостыо. Определение корреляции по Пирсону предполагает наличие
гомоскедастичности, т.е. одинаковую дисперсию критерия по всей обла-
сти двумерного распределения. В приведенном примере двумерное рас-
пределение имеет форму веера, расширяющегося слева направо и снизу
вверх. Одною взгляда на двумерное распределение обычно бывает до-
статочно для установления характера соотношения между тестом и кри-
терием. Прогностические таблицы и карты прогноза также достаточно
хорошо выявляют относительную эффективность теста на разных уров-
нях.
Величина коэффициента валидности. Какова должна быть ве-
личина коэффициента валидности? На этот вопрос нет единого ответа.
так как при интерпретации коэффициента валидности нужно учитывать
ряд побочных обстоятельств. Конечно, корреляция должна быть стати-
стически значимой на некотором достаточном уровне (0,01 или 0,05-см.
гл. 5). Иными словами, прежде чем делать выводы о валидности теста,
нужно иметь уверенность в том, что данный коэффициент валидности не
появился в результате случайных выборочных отклонений от нулевого
значения.
Установив значимость корреляции между тестовыми показателями
и критерием, необходимо еще оценить величину корреляции с точки зре-
ния использования теста. Если мы хотим оценить величину индивидуаль-
ного критериального показателя (скажем, успеваемость первокурсника),
то для интерпретации коэффициента валидности уместно обратиться
к стандартной ошибке оценки, аналогично рассматривавшейся в связи
с надежностью теста ошибке измерения. Напомним, что ошибка измере-
ния указывает на допустимые пределы возможной ошибки в индиви-
дуальных показателях вследствие ограниченной надежности теста. Точно
так же ошибка оценки указывает на допустимые пределы возможной
ошибки в прогнозируемой величине индивидуального критериального
показателя как результата ограниченной валидности теста.
Ошибка оценки находится по следующей формуле:
-~
-ст1 - r,
где r -квадрат коэффициента валидности и -стандартное отклонение
критериальных показателей-.3аметим, что при полной валидности ошиб-
ка оценки была бы равна нулю. Вместе с тем если валидность теста рав-
на нулю, то ошибка оценки совпадает со стандартным отклонением кри-
териального распределения. В этих условиях прогноз равносилен
153 ВАЛИДНОСТЬ. ИЗМЕгеНИ И ИПТИРПППАЦИЯ
деление критериальных показателей. Ошибка оценки и IUUCIIMOCIH от
меняющейся валидности теста располагается между этими предельными
значениями. ______
Из формулы для (7, видно, что величина [/1 - " указывает на вели-
чину ошибки относительно ошибки простого угидыччпия, т.е. при нуле-
вой валидности. Иными словами, если ]/)- гу = 1,00, то ошибка оцен-
ки столь же велика, как и при угадывании. Пользы от теста, сле-
довательно не будет никакой. Если коэффициент валидное in равец 0,80,
то 1/1- гу= 0,60, т.е. ошибка составляет 60"" от той, которая бы-
ла бы при угадывании. Это означает, что тест позволяет делать про-
гнозы о критериальном выполнении индивида с ошибкой на 40"" мень-
шей, чем в случае угадывания.
Может показаться, что даже при такой необычно высокой валидно-
сти, как 0,80, ошибка в предсказываемых показателях все еще значи цель-
на. Если основным назначением психологического теста счтать прелска-
зание точного положения показателя ипдипида в распредслепип крше-
риальных показателей, то вывод будет совершенно обескуражипакнцпм.
С точки зрения ошибки оценки большинство тестов представляются не
особенно эффективными. Однако чаще всего при тестировании нет необ-
ходимости прогнозировать критериальное BbinoJ>nciiiic в индиви-
дуальных случаях, но требуется лишь определить, кто из испытуемых
превзойдет некоторый минимальный стандарт выполнения, или норма-
тивный показатель критерия. Каковы шансы у Мери Грин закончить ме-
дицинское училище, у Тома Хиг гипса усвоить курс дифференциальною
исчисления, а у Беверли Бруса преуспеть в качестве ас1ропавта? Кто из
поступающих, скорее всего, будет хорошим служащим, продавцом, меха-
ником? Такая информация полезна не только при отборе кадров, но
и при индивидуальном выборе профессии. Например, школьнику полез-
но знать, что у него хорошие шансы благополучно окончить юридиче-
ский факультет, даже если мы не можем с \ перечною 11.14 ч.п.ш.. будет
ли его средний балл 74 или 81.
Тест может заметно повысить эффективность прогноза, если для не-
го будет установлена любая, даже низкая, значимая корреляция с крите-
рием. В ряде случаев валидность 0,20 или 0,30 уже оправдывает включе-
ние теста в программу отбора. Для основных целей тестирования
суждение о тесте с точки зрения ошибки оценки чрезмерно строго. Су-
дить следует, принимая во внимание иные способы оценки геста, те, ко-
торые бы учитывали типы решений, осуществляемых на основе его ре-
зультатов. О некоторых из этих методов пойдет речь в следующем
разделе.
ВАЛИДНОСТЬ ТЕСТА И ТЕОРИЯ РЕШЕНИЙ
Основной подход. Предположим, 100 человек, поступающих на рабо-
ту, выполнили тест способностей и по прошествии какого-то времени
были оценены их успехи в выполнении своих обязанное} ей. На рис. 17
изображено двумерное распределение результатов тестирования и пока-
зателей выполнения работы. Корреляция между обеими переменными
несколько ниже 0,70. Необходимый минимум выполнения обязанностей,
154
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
числу людей, не справившихся с работой, а 60 случаев над чертой-спра-
вившихся с ней.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование