А-П

П-Я

 


Под стандартизацией шкалы понимают линейное преобразование
масштаба нормальной (или искусственно нормализованной) шкалы,
В общем случае формула стандартизации выглядит так:
_ i
2,-о---+М, (3.1.13)
о
где х, - исходный балл по <сырой> шкале, для которой доказана нор-
мальность распределения;
Х - среднее арифметическое по <сырому> распределению;
S - <сырое> стандартное отклонение;
М - математическое ожидание по выбранной стандартной шкале;
о - стандартное отклонение по стандартной шкале.
Если шкала подвергалась предварительной искусственной нормализа-
ции интервалов, то формула упрощается:
z.=az,+M. (3.1.14)
Приведем параметры для наиболее популярных стандартных шкал:
1) Т-шкала Маккола (тест-опросник ММР1 и др. тесты):
М==50 и (т=10,
2) шкала /Q: М==100 и о=15,
3) шкала <стэнайнов> (целочисленные значения от 1 до 9- стан-
дартная девятка): М=5,0 и <т=2,
4) шкала <стенов> (стандартная десятка, 16PF Кэттелла):
М=5,5 и <т=2.
Чтобы различать стандартные баллы, полученные с помощью ли-
нейной стандартизации и нелинейной нормализации интервалов,
Р. Кэттелл ввел понятие <.S-стенов> и <п-стенов>. Таблицы <п-стенов>,
естественно, точнее отражают квантили эмпирического нормального
распределения. Для наглядности приведем образец такой таблицы для
фактора А из тест-опросника 16PF:
Сырые очки 0-4 5-6 7 8-9 10-12 13 14-15 16 17-18 19-20
Стены 12345 67 89 10
Применение стандартных шкал позволяет прибегать на практике к
более грубым, приближенным способам проверки типа распределения
тестовых баллов. Если, например, процентильная нормализация с пе-
реводом в стены и линейная нормализация с переводом в стены по
63
STR.64
"формуле (3.1.13) дают совпадающие целые значения стенов для каж-
дого Y, то это означает, что распределение обладает нормальностью с
точностью до <стандартной десятки>. .
Применение стандартных шкал необходимо для соотнесения ре-
зультатов по разным тестам, для построения <диагностических профи-
-лей> по батарее тестов и тому подобных целей.
Проверка устойчивости распределения. Общая логика проверки ус-
тойчивости распределения основывается на индуктивном рассуждении:
если <половинное> (полученное по половине выборки) распределение
хорошо моделирует конфигурацию целого распределения, то можно
предположить, что это целое распределение будет также хорошо моде-
лировать распределение генеральной совокупности.
Таким образом, доказательство устойчивости распределения озна-
чает доказательство репрезентативности тестовых норм. Традицион-
ный способ доказательства устойчивости сводится к выяснению хоро-
шего приближения эмпирического распределения к какому-либо тео-
ретическому. Но если эмпирическое распределение не приближается к
теоретическому, несмотря на значительное увеличение численности вы-
борки, то приходится прибегать к более общему индуктивному методу
доказательства.
Простейший его вариант может быть сведен к получению таблиц
перевода <сырых> очков в нормализованную шкалу по данным всей
выборки, затем применению этих таблиц для каждого испытуемого из
половины .выборки: если распределение нормализованных баллов и;
половины выборки хорошо приближается к нормальному, то это зна
чит, что заданные таблицами нормализации тестовые нормы определе
ны устойчиво. Близость к нормальному распределению проверяется i
помощью критерия Колмогорова (при п<200 целесообразно использо
вать более мощные критерии <хи-квадрат> или <омега-квадрат>).
При этом под <половиной> выборки подразумевается случайная по
ловина, в которую испытуемые зачисляются случайным образом -
помощью двоичной случайной последовательности (типа подбрасыва
яиЯ монетки и т.п.). В более общем случае такой простейший мето
установления однородности двух эмпирических распределений може
быть применен и при разбиении выборки по какому-либо систематич<
скому признаку. Если, в частности, по какому-либо из популяционн
-значимых признаков (пол, возраст, образование, профессия) психолс
получает значимую неоднородность эмпирических распределений, i
это значит, что относительно данных популяционных категорий тест<
вые нормы должны быть специализированы (одна таблица норм -
для мужчин, другая -- для женщин и т. д.).
Более статистически корректный метод проверки однородности W]
распределений, полученных при расщеплении выборки на равные ч
сти, опять же связан с применением критерия Колмогорова. Для это
с табличным значением сравнивается величина:
K,=max\F"-F"\Vn!4, (3.1.1
где F/i - кумулятивная относительная частота для /-того интерва
шкалы по первой половине выборки;
Fj4 - та же частота дл.я второй половины;
ч - численность полной выборки;
Ке - эмпирическое значение статистики Колмогорова.
Точные значения квантилей распределения Колмогорова для оп
деления размеров выборки можно найти в кн.: Мюллер П. я др., 19
Применение критерия Колмогорова не зависит от нормальности
STR.65
лого распределения и.от необходимости производить нормализацию ин-
тервалов.

Итак, априорная предпосылка нормальности распределения тесто-
вых баллов основывается скорее на принципах операционального удоб-
ства, чем на теоретической необходимости. Психометрически коррект-
ные процедуры получения устойчивых тестовых норм возможны с по-
мощью специальных методов непараметрической статистики (крите-
рий <хи-квадрат> и т. п.) для распределений произвольной формы. Вы-
бор статистической модели распределения - законный произвол пси-
хометриста, пока сам тест выступает в качестве единственного этало-
на измеряемого свойства. В этом случае остается лишь тщательно сле-
дить за соответствием сферы применения диагностических норм той
выборке испытуемых, на которых они были получены. Произвольность
в выборе статистической модели шкалы исчезает, когда речь заходит
о внешних по отношению к тесту критериях.
Репрезентативность критериальных тестов. В тестах по критерию в
качестве реального эталона применяется критерий, ради которого соз-
дается тест - целевой критерий. Особое значение такой подход имеет
в тех областях практики, где высокие результаты могут дать узкоспе-
циализированные диагностические методики, нацеленные на очень кон-
кретные и узкие критерии. Такая ситуация имеет место в обучении:
тестирование, направленное на получение информации об уровне усво-
ения определенных знаний, умений и навыков (при профессиональном
обучении), должно точно отражать уровень освоения этих навыков и
тем самым давать-надежный прогноз эффективности конкретной про-
фессиональной деятельности, требующей применения этих навыков.
Так возникают <тесты достижений>, по отношению к которым крите-
риальный подход уже сегодня обнаружил свою высокую эффективность
(Гуревич К. М., Лубовский В. И., 1982).
Рассмотрим операциональную схему Шкалирования, применяемую
при создании критериального теста. Пусть имеется некоторый крите-
рий С, ради прогнозирования которого психодиагност создает тест X.
Для простоты представим С как дихотомическую переменную с двумя
значениями - 1 и Q.C=\ означает, что1-тый субъект достиг крите-
рия (попал в <высокую> группу по критерию), С(=0 означает, что
1-тый субъект не достиг критерия (попал в <низкую> группу). Психо-
диагност применяет на нормативной . выборке тест X, и в результате
каждый индивид получает тестовый балл Xi. После этого как для
каждого индивида из, выборки становится известным значение С (иног-
да на это требуются месяцы и годы после момента тестирования), пси-
ходиагност группирует индивидов по порядку возрастания балла Х и
для каждого деления исходной шкалы сырых тестовых баллов подсчи-
тывает эмпирическую вероятность Р попадания в <высокую> группу по
критерию. На рис. 5 проиллюстрированы . распределения вероятности
Р(С;= 1) в зависимости от X.
Очевидно, что кривая на рис. 5 по своей конфигурации может со-
вершенно не совпадать с кумулятивной кривой распределения частот
появления различных X. Кривая, представленная на рис. 5, является
эмпирической линией регрессии С по X. Теперь можно сформулировать
основное требование к критериальному тесту: линия регрессии должна
быть монотонной функцией С от X. Иными словами, ни для одного бо-
лее высокого значения Х вероятность Р не должна быть меньшей, чем
для какого-либо менее высокого значения X. Если это условие выпол-
няются, то открывается возможность для критериального шкалирования
3 Зак. 508 65
STR.66
сырых баллов X. Так же как в случае с интервальной нормализацией
когда применяется поточечный перевод интервалов Х в интервалы 2
для которых выполняется нормальная модель распределения, так i
при критериальном шкалировании к делениям сырой шкалы Х приме
няется поточечный перевод прямо в шкалу Р на основании эмпириче
ской линии регрессии. Например, если испытуемый А получил по тест
Х 18 <сырых> очков и этому результату соответствует Р=0,6, то испы
туемому А ставится в соответствие показатель 60%.
Конечно, любая эмпирическая кривая является лишь приближенно:
моделью той зависимости, которая могла бы быть воспроизведена н
Рис. 5. Иллюстрация эмпирической
зависимости между вероятностью
критериального события Р(С==1) и
величиной Х тестового балла
Рис. 6. S-образная зависимость i
роя.тности критериального событ
Р от нормального распределение
диагностического параметра Х
генеральной совокупности. Обычно предполагается, что на генерал
ной совокупности линия регрессии. С по Х должна иметь более сгл
женную форму. Поэтому обычно предпринимаются попытки аппрокс
мировать эмпирическую линию регрессии какой-либо функциональн
зависимостью, что позволяет затем производить прогноз с применен
ем формулы (а не таблицы или графика).
Например, если линия регрессии имеет вид приблизительно так<
какой изображен на рис. 6, то применение процентильной нормали:
ции позволяет получить простую линейную регрессию С по нормали:
ванной шкале Z. Это как раз тот случай, когда имеет место экви)
лентность стратегии, использующей выборочно-статистические тестов
нормы, и стратегии, использующей критериальные нормы.
Операции по анализу распределения тестовых баллов, построен
тестовых норм и проверке их репрезентативности. В заключение эт
параграфа коротко опишем действия, которые последовательно д
жен произвести психолог при построении тестовых норм.
1. Сформировать выборку стандартизации (случайную, или стра
фицированную по какому-либо параметру) из той популяции, на к(
рой предполагается применять тест. Провести на каждом испытуе1
из выборки тест в сжатые сроки (чтобы устранить иррелевантный {
брос, вызванный внешними событиями, происшедшими за время об<
дования).
2. Произвести группировку <сырых> баллов с учетом выбран
интервала квантования (интервала равнозначности). Интервал oi
деляется величиной W/m, где W=Xma-x- Xmin - размах; m - кол]
ство интервалов равнозначности (градаций шкалы).
3. Построить распределение частот тестовых баллов (для задан
STR.67
интервалов равнозначности) в виде таблицы и в виде соответствую-
.щих графиков гистограммы и кумуляты.
4. Произвести расчет среднего и стандартного отклонений, а также
асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о
значимости асимметрии и эксцесса. Сравнить результаты проверки с
визуальным анализом кривых распределения.
5. Произвести проверку нормальности одного из распределений с
помощью критерия Колмогорова (при п<200 с помощью более мощ-
ных критериев) или произвести процентильную .нормализацию с пере-
водом в стандартную шкалу, а также линейную стандартизацию и
сравнить их результаты (с точностью до целых значений стандартных
<очков).
6. Если совпадения не будет - нормальность отвергается, тогда
произвести проверку устойчивости распределения расщеплением вы-
борки на две случайные половины. При совпадении нормализованных
баллов для половины и для целой выборки считать нормализованную
шкалу устойчивой.
7. Проверить однородность распределения по отношению к варьи-
.рованию заданного популяционного признака (пол, профессия и т. п.)
-с помощью критерия Колмогорова. Построить в совмещенных коорди-
натах графики гистограммы и кумуляты для полной и частной выбо-
рок. При значимых различиях разбить выборку на разнородные под-
выборки.
8. Построить таблицы процентильных и нормализованных тестовых
.норм (для каждого интервала равнозначности <сырого> балла). При
наличии разнородных подвыборок для каждой Подвыборки должна
быть своя таблица.
9. Определить критические точки (верхнюю и нижнюю) для дове-
рительных интервалов (на уровне Р<0,01) с учетом стандартной
ошибки в определении среднего значения.
10. Обсудить конфигурацию полученных распределений с учетом
предполагаемого механизма решения того или иного теста.
II. В случае негативных результатов - отсутствия устойчивых
<орм для шкалы с заданным числом градаций (с заданной точностью
прогноза критериальной деятельности) - осуществить обследование
<)олее широкой выборки или отказаться от плана использования данно-
го теста.
3.2. НАДЕЖНОСТЬ ТЕСТА
В дифференциальной психометрике проблемы валидности и надеж-
ности тесно взаимосвязаны, тем не менее мы последуем традиции раз-
дельного изложения методов проверки этих важнейших психометриче-
ских свойств теста.
Надежность и точность. Как уже отмечалось в 3.1, общий раз-
брос (дисперсию) результатов произведенных измерений можно пред-
ставить как результат суммации двух источников разнообразия: само-
го измеряемого свойства и нестабильности измерительной процедуры,
обусловливающей наличие ошибки измерения. Это представление вы-
ражено в формуле, описывающей надежность теста в виде отношения
истинной .дисперсии к дисперсии эмпирически зарегистрированных
баллов:
i.
s
(3.2.1)
67
STR.68
Так как истинная дисперсия и дисперсия ошибки связаны очевид-
ным соотношением, формула (3.2,1) легко преобразуется в формулу
Рюлона:
(3.2.2)
Одиее
распределение
Распределение 1 Распределение
эмпирическом / инШидумьнвго
среднего ~\ /~\\Вчта
где а - надежность теста; S - дисперсия ошибки;
Si - дисперсия теста (эмпирическая);
S - истинная дисперсия (дисперсия измеряемого свойства).
Величина ошибки измерения - обратный индикатор точности из-
мерения. Чем выше ошибка, тем шире диапазон неопределенности на
шкале (доверительный интервал индивидуального балла), внутри ко-
торого оказывается статистически
возможной локализация истинного
балла данного испытуемого. Таким
образом, для проверки гипотезы о зна-
чимости отличия балла испытуемого
от среднего значения оказывается не-
достаточным только оценить ошибку
среднего, нужно еще оценить ошибку
измерения, обусловливающую разбро
в положении индивидуального балла
Возникает картина, схематически пред
ставленная на рис. 7.
Как же определить ошибку изм(
рения? На помощь приходят коррел?
ционные методы, позволяющие опр<
делить точность (надежность) чер(
устойчивость и согласованность р
зультатов, получаемых как на ypoal
целого теста, так и на уровне о
дельных его пунктов.
Рис. 7. Соотношение общего распре-
деления, распределения индивиду-
ального балла и распределения эм-
пирического среднего: Sm-стан-
дартное отклонение эмпирического
среднего, S" - стандартное отклоне-
ние (дисперсия) ошибки
Надежность целого теста. 1. Надежность-устойчивость (ретестов
надежность). Измеряется с помощью повторного проведения теста
той же выборке испытуемых, обычно через две недели после первс
тестирования. Для интервальных шкал подсчитывается хорошо изве
ный коэффициент корреляции произведения моментов Пирсона:
ltst
2х112х21
"12=
Vi - (2х1 In) (2х1, - (2x")2/n)
где хц - тестовый балл i-того испытуемого при первом измере1
X2i - тестовый балл того же испытуемого при повторном и:
рении;
ч - количество испытуемых.
Оценка значимости этого коэффициента основывается на неско.
иной логике, чем это обычно делается при проверке нулевой гипотез
о равенстве корреляций нулю. Высокая надежность достигается т(
когда дисперсия ошибки оказывается пренебрежительно малой. С
сительную долю дисперсии ошибки легко установить из формулы
STR.69
=--i-- (3.2.4)
"
Таким образом, для нас существеннее близость к единице, а не от-
даленность от нуля. Обычно в тестологической практике редко удает-
ся достичь коэффициентов, превышающих 0,7-0,8. При г==0,75 относи-
тельная доля стандартной ошибки равна 1-0,75 == 0,5. Этой ошиб-
кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-
лученное отклонение индивидуального тестового балла от среднего по
выборке оказывается, как правило, завышенным.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58