Клайн Пол

Давай-
те представим, что наш тест вербальных способностей состоит из
вопросов по антонимам, синонимам, пониманию, словарному запасу
и краткому конспективному изложению. Такие средства измерения,
при тщательной их разработке, имели высокие значения надежнос-
ти, порядка 0,90. Однако, если бы в стремлении достичь высокой
надежности мы использовали только один тип заданий, скажем, за-
дания на антонимы, то это значение надежности могло, несомненно,
возрасти. Однако, (и надеюсь, большинству читателей это понятно),
очень маловероятно, чтобы этот последний тест вербальных способ-
ностей имел бы более высокую валидность.
В терминах классической модели погрешностей измерений мы
можем ясно увидеть, почему этот тест с более высокой надежностью
является менее валидным. Высокая надежность теста антонимов от-
ражает тот факт, что наша выборка заданий теста (на антонимы) в
высокой степени коррелирует с гипотетической генеральной сово-
купностью заданий, то есть со всеми возможными заданиями на
антонимы. Однако, этот истинный показатель отражает не вербаль-
ные способности, а только способность подбирать антонимы. Таким
образом, можно создать валидные тесты, ограничивая выбор заданий
и конструируя генеральную совокупность заданий, однако это будет
достигнуто только за счет уменьшения валидности. Так, из этого
примера можно видеть, каким образом утверждение о том, что высо-
кая надежность противостоит высокой валидности, не является про-
тиворечащим классической модели погрешностей измерения. Как
отмечалось, все зависит от психологического значения истинных по-
казателей (в данном примере отличия вербальных способностей от
способности подбирать антонимы).
В нашем примере из сферы способностей большинство разработ-
чиков тестов не сделали бы такой ошибки, создавая высоконадежный
тест путем ограничения себя лишь одним типом заданий, потому что
конструкт вербальных способностей хорошо понятен и одних заданий
на антонимы для него недостаточно. Однако в других областях пси-
хологических измерений, особенно личности и мотивов, это не так.
166
Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк
для очерчивания области и определения конструктов используют
факторно-аналитические методы.
Следовательно, в том случае, когда переменная не может быть
определена a priori, существует реальная опасность создания тестов
с такой высокой надежностью, что, и это существенно, генеральная
совокупность заданий будет настолько ограничена, что не будет
представлять сколь-нибудь значительного психологического интере-
са, или, говоря статистическим языком, истинный показатель будет
очень специфичным и не будет коррелировать практически ни с чем.
Это в особенности имеет место тогда, когда мы имеем дело с попыткой
измерить такую переменную, как экстраверсия, которая является
некоторым кластером или синдромом характеристик. Обычно счита-
ется, что экстраверсия (напр., Eysenck и Eysenck, 1975) включает в
себя социабельность, разговорчивость, бодрость, оптимистичность,
уверенность в себе и, помимо всего прочего, интерес к внешнему
миру, а не внутреннему. Шкала экстраверсии, которая содержит в
себе все эти переменные, будет однородной, потому что они вместе
действительно образуют кластер. Однако, она неизбежно будет ме-
нее однородна и, следовательно, будет иметь меньшую надежность,
чем шкала, построенная по такой составляющей этого фактора, как
социабельность. Хотя, разумеется, последняя как тест экстраверсии
будет, несомненно, менее валидной.
Из этого рассмотрения должно быть ясно, что высокая надежность
по внутренней согласованности может противоречить высокой ва-
лидности тогда, когда измеряемая переменная охватывает широкую
область. Это утверждение, как мы уже видели, никоим образом не
обесценивает роль статистической теории погрешностей измерения,
из которой следует, что для того, чтобы результаты измерения не
зависели от погрешностей, существенно важно добиться высокого
значения надежности. Все зависит от значения истинных показате-
лей и состава генеральной совокупности заданий. Из этого следует,
что тест должен быть сделан настолько внутренне согласованным,
насколько возможно, но только не за счет ограничения содержания
заданий. Следовательно, при конструировании тестов необходимо
иметь четкое представление о заданиях, которые мы собираемся
включить в окончательную версию теста (в том, что касается их
содержания), а не просто отбирать из множества заданий те, которые
обеспечивают наибольшее значение надежности. В противном слу-
чае мы создадим тесты ложных особенностей (bloated specifics) (Cat-
tell, 1973). Таким образом, можно заключить, как это и предполага-
ется в нашей модели погрешностей измерения, что надежность явля-
ется существенной характеристикой, но не главной.
Источники неудовлетворительной надежности
Теперь мы должны обратиться к одному важному вопросу, с кото-
рым теория погрешностей измерения сталкивается, однако на реше-
ние которого она не направлена - к вопросу об источниках неудов-
летворительной надежности. Этот вопрос имеет огромное значение
для практики разработки тестов, вероятно даже большее, чем для
теории, поскольку если эти источники нам известны, то становится
возможным, по крайней мере в некоторых случаях, устранить их
влияние при помощи процедур конструирования тестов.
(1) Субъективное оценивание. Субъективное оценивание являет-
ся общим источником ошибок. При таком оценивании допускаются
различия между результатами различных экспериментаторов и меж-
ду результатами работы одного и того же экспериментатора в разных
случаях. Очевидно, что это снижает корреляции между заданиями и,
следовательно, резко уменьшает значение коэффициента а. Очевид-
ным решением этой проблемы будет использование только тех типов
заданий, результаты выполнения которых могут быть обработаны
объективно. При использовании таких заданий источником неудов-
летворительной надежности может стать только случайная ошибка
при подсчетах. Все полезные типы заданий для разных тестов уже
обсуждались в главах 2-4.
(2) Угадывание. Эта проблема обсуждалось уже в главе 2 (стр. 88).
Угадывание ответов испытуемыми действительно снижает надеж-
ность тестов. Однако, как указывалось, оно в основном влияет на
задания с ответами типа "истинно-ложно", использование которых
не рекомендуется в любом случае. При большом количестве заданий
влиянием угадывания вообще можно пренебречь.
(3) Понятные задания. Как указывалось в главе 3, использование
понятных, недвусмысленных заданий улучшает надежность лично-
стных тестов (стр. 97).
(4) Величина теста. Как было показано в главе 1 (стр. 36), чем
длиннее тест, тем он надежнее. Для удовлетворительной надежности
обычно достаточно двадцати заданий.
(5) Инструкции к тесту. Инструкции к тесту должны быть не-
двусмысленными и понятными. Неоднозначные инструкции приво-
дят к неудовлетворительной надежности. При помощи инструкций
можно легко изменять уровень трудности заданий. Например, с ин-
струкцией "составьте эту фигуру из четырех элементов", задание
выполнить легче, чем с инструкцией "составьте эту фигуру из эле-
168
ментов", если испытуемым предъявляется шесть элементов. Если
необходимо изменить инструкции, то следует заново провести все
статистические процедуры.
(6) Неудовлетворительная ретестовая надежность. Nunnally
( 1978) проводит различия между ошибками, встречающимися в рам-
ках проведения одного теста, и ошибками, появляющимися при тес-
тированиях, проведенных через определенный промежуток времени;
последние являются источником неудовлетворительной ретестовой
надежности. Очевидно, что здесь важными факторами являются из-
менения в условиях тестирования, а также вариации в самочувствии
обследуемых. Могут сыграть роль как субъективность оценивания
показателей, так и реальные различия между заданиями, если ис-
пользуются параллельные формы теста. Нельзя путать реальные
изменения в выраженности измеряемой переменной с неудовлетво-
рительной надежностью или погрешностью измерения.
(7) Другие источники ошибок. Другие источники ошибок при
измерениях исходят от испытуемых, а не от заданий теста. Достаточ-
но лишь упомянуть о них. Испытуемый может почувствовать себя
нехорошо в процессе работы над тестом, так что его производитель-
ность ухудшится. Для некоторых может быть слишком жарко или
слишком холодно в помещении. Испытуемые могут ошибиться в фор-
ме задания и, следовательно, указать неверные ответы, или они мо-
гут перевернуть две страницы одновременно, и таким образом про-
пустят ряд вопросов. Могут проявиться усталость, скука и повлиять
на результаты выполнения последних заданий. Очевидно, что суще-
ствует большое количество таких возможных причин ошибок.
Таковы основные источники ошибок в тестах, снижающие их
надежность.
Выборка испытуемых для изучения надежности
Все выводы, которые могут быть сделаны на основании надежно-
сти теста об отношении показателей теста к истинным показателям,
предполагают, конечно, что значения корреляций или дисперсий в
уравнениях являются точными. Истинно это или нет, зависит от
подбора адекватной выборки испытуемых в исследованиях надежно-
сти.
Решающее значение при формировании такой выборки имеют две
переменные.
Объем выборки
Поскольку, как и любая другая статистическая величина, стан-
дартная погрешность коэффициента корреляции связана с объемом
169
выборки, на которой она была получена, то вполне естественно, что
должны использоваться большие выборки, чтобы минимизировать
погрешность такого рода. Решение вопроса о том, каков минималь-
ный объем выборки, позволяющий пренебречь этим источником по-
грешности, является до некоторой степени произвольным. GuiSford
(1956), обсуждая этот момент по отношению к факторному анализу,
предполагает в качестве минимума 200 испытуемых. Nunnally
(1978), несколько более строго, говорит о 300. Автор этой книги
исследовал стандартные погрешности корреляций при указанных
объемах выборки и пришел к выводу, что с выборкой из 200 испыту-
емых этот источник погрешностей уже можно не принимать в расчет.
Таким образом, рекомендуется, чтобы исследования надежности те-
стов выполнялись на выборках с объемом не менее 200, хотя и жела-
тельны большие объемы. Для точности вычислений по формуле К-
R20, в которой используется процент от количества испытуемых,
давших ключевые ответы, необходимы большие выборки, и 200 - это
в данном случае, конечно, лишь желательный минимум.
Состав выборки
Однако, даже более важным, чем объем выборки, является ее
состав. Большая, но несоответствующая по составу, выборка может
дать нам полностью ошибочные значения надежности.
Во-первых, существенно, чтобы выборка отражала ту категорию
лиц (популяцию), для которой предназначен тест. Если мы разраба-
тываем тест для высококвалифицированных работников, то показа-
тели надежности должны быть получены именно на этой специали-
зированной выборке. Если тест предназначен для обычных граждан,
то наша выборка должна отражать данную категорию населения.
Аналогично, надежность теста, разработанного для нужд психиат-
рии, должна быть показана на соответствующих пациентах. Не име-
ет смысла доказывать, что тест для испытуемых с отклонениями от
нормы надежен, например, на выборке из школьников.
Для теста, предназначенного к использованию в разных группах,
часто полезно показать, что он надежен для каждой группы в отдель-
ности. Здесь допустимы объемы выборок ниже 200. Например, если
показана устойчивая, высокая надежность для выборок из 100 сту-
дентов, ЮОбывших пациентов психиатрической клиники и 100 шко-
льных учителей, тогда мы можембыть уверены, чтоонбудетнадежен
в этих группах. Обратите внимание, что одна конкретная выборка из
300 испытуемых нс была бы репрезентативной для каждой из этих
групп.
С точки зрения надежности тестирования, нет необходимости в
столь же тщательной комплектации выборок, как при стандартиза-
ЦЕИ (см. главу 8). Так, нет необходимости в том, чтобы выборка точно
отражала разнообразные параметры генеральной совокупности (все-
го населения). Однако, это не должны быть только студенты или
только почтовые служащие или лица из какой-либо другой особой
группы, которые, как это случается, могли быть протестированы.
Причина, по которой выборки должны отражать ту категорию
лиц, для которой разрабатывается тест, состоит в том, что для раз-
личных особых групп значение корреляций между заданиями могут
изменяться, как и дисперсии заданий. Так, если мы опять рассмотрим
формулу K-R20 (1.8)- особый случай коэффициента О. для дихото-
мических заданий:
k
k-l
PQ

(1.8)
то можем увидеть, что если изменяется дисперсия (О у), то изменяет-
ся и надежность. Таким образом, в случае теста способностей, если
мы дадим его испытуемым, для которых он будет слишком легким
или слишком трудным, дисперсия будет незначительной (все резуль-
таты теста будут либо правильными, либо неправильными). Анало-
гично, в зависимости от выборки, Р (доля правильных ответов) и,
следовательно, Q (Р ~ 1) будут различаться. Так, если мы предло-
жим тест, созданный для различения выраженности невротических
симптомов, тем испытуемым, которые не имеют отклонений от нор-
мы, значение Р будет низким, Q - высоким, а дисперсия - незна-
чительной, что и происходит с тестом ММР1 на выборках из нормаль-
ных испытуемых.
Выводы
Таким образом, существенно, чтобы надежность теста вычисля-
лась на релевантных выборках адекватного объема.
Вычисление коэффициентов надежности
В этом разделе будут описаны шаги, необходимые для вычисления
различных коэффициентов надежности, обсуждавшихся ранее.
Коэффициент а
Не может быть никакого сомнения в том, что коэффициент о. -
это наиболее эффективное средство измерения надежности примени-
тельно к классической модели погрешностей измерения, и s идеаль-
171
ных обстоятельствах (при наличии достаточного времени и средств)
он всегда должен быть рассчитан. Формула (1.7):
1 -
Scr?

(1.7)
где k - это количество заданий, О у - квадрат стандартного от-
клонения для всего теста, S(7?- сумма квадратов стандартных
отклонений для заданий.
Для дихотомических заданий может быть использована формула
K-R20 :

где "LPQ=0 и Р - доля испытуемых, давших ключевые
ответы на задания, aQ=l -Р.
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ПО ФОРМУЛЕ K-R20 ДЛЯ ТЕ-
СТА Y (ВЫЧИСЛЕНИЕ 5.1)
(1) Вычислите дисперсию для показателей теста. Это дает нам
.
(2) Вычислите долю испытуемых, давших ключевые ответы для
каждого задания. Это дает нам значение Р для каждого задания.
(3) Для каждого задания вычтите Р из 1. Это дает нам Q.
(4) Для каждого задания перемножьте Р и Q. Это дает нам PQ.
(5) Просуммируйте РОдля всех заданий: Т. PQ.
(6) Затем легко может быть применена формула K-R20, где k -
количество заданий.
В справочнике Л.Ф.Бурлачук, С.М.Морозов (1989) в формуле Кьюдера-Ричард-
сона этот коэффициент Р назван индексом трудности, выраженным в виде доли :
/ - NilN , где NI - количество испытуемых, правильно выполнивших задание;
N - общее количество испытуемых. В данной книге правило для вычисления Р
нигде явно не задано (аналогично кратко формула K-R20 приведена и в гл. 1 ). В
гл. 6 указано: P~NI/N , - но в формуле для точечно-бисериальной корреляции.
Впрочем, это не столь существенно, так как в обеих формулах используется про-
изведение PQ, асами значения сомножителей: Р~ 1 -NI/N, wQ~ 1-P~Ni/N
, или J"" NI/N , Q~ I-P ~ I- NI/N ,- на значение произведения не влияют
(Прим.перев.)
Здесь Р-1-NI/N.
172
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ДЛЯ КОЭФФИЦИЕНТА а (ВЫ-
ЧИСЛЕНИЕ 5.2)
(1) Вычислите дисперсию для показателей теста. Это дает нам
.
(2) Вычислите дисперсию для каждого задания.
(3) Просуммируйте дисперсии для заданий. Это дает нам lJi .
Формула для вычисление дисперсии:
-ц
где х - отклонение каждого показателя от среднего значения.
На практике проще работать непосредственно с необработанными
("сырыми") показателями, и формула может быть записана:
-
где Х - необработанный показатель.
Вычисление надежности теста при расщеплении
его пополам
Надежность теста при расщеплении изменяется в зависимости от
того конкретного разбиения заданий, которое мы произвели. Nun-
nally (1978) утверждает, что ее следует рассматривать как оценку
коэффициента а, а в дихотомическом случае мы должны, следова-
тельно, всегда использовать формулу K-R20. Однако при этом упу-
щен один важный момент.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

А-П

П-Я

Введение в психометрическое проектирование