Надежность как научная характеристика теста: К сожалению, что-то пошло не так

Надежность психологического теста — это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков
  3. Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

,

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Wikimedia Foundation. 2010.

Средства контроля диагностических качеств психологических тестов Математические…

Привет, Вы узнаете про средства контроля диагностических качеств психологических тестов, Разберем основные ее виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое средства контроля диагностических качеств психологических тестов , настоятельно рекомендую прочитать все из категории Математические методы в психологии

В пособии размещен информация, касающаяся одного из главных аспектов разработки психодиагностических методик, а именно средств контроля надежности и валидности тестов. Знание принципов построения и свойств теста как исследовательского инструмента относятся к особо важным в профессиональной подготовке специалистов психологов.Благодаря им обеспечивается научно обоснованное использование психодиагностических методов и квалифицированная интерпретация полученных за их помощью данных. Вместе с развернутым толкованием показателей валидности и надежности Приведены данные о Некоторых вторых принципиальных характеристики психологических тестов.

 В пособии размещена информация, касающаяся одного из главных аспектов разработки психодиагностических методик, а именно средств контроля надежности и валидности тестов. Знание принципов построения и качеств теста как исследовательского инструмента относятся к особо важных в профессиональной подготовке специалистов психологов. Благодаря им обеспечивается научно обоснованное использование психодиагностических методов и квалифицированная интерпретация полученных с их помощью данных. В то же время с развернутым толкованием показателей валидности и надежности приведены данные о некоторых другие важные характеристики психологических тестов.

Руководство ориентирован на углубленное изучение курса «Психологическая диагностика» для студентов специальностей «Психология», «Социология» и «Преподаватель-исследователь» и может быть полезным для специалистов, использующих в своей работе психологические тесты или психодиагностическую информацию, а также для всех, кто интересуется проблемами измерения человеческой личности.

Рецензенты: В. А. Романец, акад. АПН Украины 
Н. Н. Корнев, проф., Д-р психол. наук

содержание

Введение

1. Надежность психологических тестов и способы ее определения

1.1. Определение надежности как показателя качества психологического теста 

1.2. Погрешность измерения и надежность теста 
1.3. Методики определения надежности психологических тестов

1.3.1. ретестовой надежность 
1.3.2. Надежность параллельных форм 
1.3.3. Надежность частей теста

1.4. Определение надежности проективных тестов

2. Валидность психологического теста

2.1. валидность содержания 
2.2. эмпирическая валидность

2.2.1. критерий валидизации 
2.2.2. исходная валидность 
2.2.3. конструктной валидность

2.3. коэффициенты валидности 
2.4. очевидная валидность 
2.5. Валидность проективных тестов

3. Внутренняя согласованность заданий теста

4. Дискриминативнисть заданий теста

5. Показатели тяжести заданий теста

список литературы

Введение

Практическая психодиагностика относится к ведущим отраслям прикладной психологии; ее цель — разработка средств построения и использования методик измерения качеств личности, ранжирования ее свойств, выявление главных черт, психологических характеристик, особенностей протекания психических процессов, состояний и т. Эта отрасль психологии едва ли не древнейшие традиции в истории научной психологии. Благодаря развитию психологической диагностики в течение последних десятилетий разработано немало направлений психологического обследования личности, появились новые тестовые процедуры, ориентированные на углубленное исследование структур и составляющих индивидуальности. Главными направлениями применения психологических тестов в общественной практике есть сферы обучения, воспитания и подготовки кадров, а также отрасли производства, медицины.

Широкое использование средств измерения психологической индивидуальности обусловливает необходимость в подготовке квалифицированных специалистов по этой специальности. Психологический тест является чрезвычайно сложной исследовательской процедурой. Научно обоснованные выводы, адекватный анализ психодиагностической информации может осуществлять только специалист соответствующего профиля. В кругу необходимых специальных знаний психолога-диагноста ведущее место принадлежит осведомленности в вопросах теории и практики по контролю диагностических свойств имеющихся и впервые разрабатываемых тестовых методик. Информация о надежности, валидность, пределы использования, влияние различных условий обследования обязательно должен предусматривать использование того или иного теста. Знание сути психологических показателей, того, что именно измеряет тест и как хорошо он это делает, позволяют не просто механически следовать инструкциям разработчиков методики, а сознательно относиться к постановке диагноза.

Необходимость сложной подготовительной работы, предшествующей практическому использованию теста, подчеркивали авторы первых психометрических процедур. Особенно подчеркивалась необходимость специальной психометрической подготовки специалиста-исследователя. В этой связи целесообразно, на наш взгляд, привести высказывание А.Шуберта из предисловия к переводу на русский язык шкалы для исследования умственного развития ребенка Бине-Симона: «… Кажущаяся простота метода часто приводит к большим злоупотреблениям, Которые Штерн иронически назвал «бинетизированием».Крайним образцом такового может служит Опубликованная в Германии в 1911 г. работа, в которой рекомендуется ввести употребление шкалы в войсках, поручает исследование унтер-офицерам. Всякое психологическое исследование требует как достаточных психологических знаний, так и экспериментального опыта … Применяя этот метод, говорил Бине, следует остерегаться всякой механизации: «Это не весы, на которых за пятачок может взвеситься каждый» (А.Шуберт, 1927. — С . 9-10).

В этом пособии рассмотрены вопросы структуры надежности и валидности психологического теста, основные средства их определения, виды показателей, отражающих эти психодиагностические характеристики тестов. В то же время с углубленным анализом надежности и валидности психологических процедур представлена ​​информация о других главные категории контроля диагностического качества отдельных видов психологических тестов (внутренняя согласованность, дискриминативнисть задач, анализ субъективных трудностей при решении отдельных задач, модераторы, пределы использования теста).

 

1.1. Определение надежности как показателя качества психологического теста

Надежность (в англоязычной психологической литературе эквивалентом этого срока является термин «reliability») — это характеристика психодиагностической методики, отражает степень точности измерений, осуществляемых с помощью данного теста, а также устойчивость результатов теста относительно влияния посторонних случайных факторов, которые не являются объ объектами исследования. Как свидетельствуют действующие в США Стандарты разработки учебных и психологических тестов (Standards for Educational and Psychological Tests), надежность и валидность являются важнейшими характеристиками методики как инструмента психодиагностического исследования.

На результат психологического исследования обычно влияет огромное количество неучтенных факторов. Например, состояние эмоциональной сферы, степень усталости исследуемого, мотивационная направленность на исследования со стороны его субъекта, если эти показатели не входят в круг специально испытуемых, а также такие случайные факторы, как освещение в помещении, температура и влажность, уровень шума, час суток и множество других. Любое изменение ситуации исследования усиливает влияние одних или ослабляет действие других. В совокупности влияние неучтенных факторов приводит рассеяния (дисперсию) результатов психологического измерения. Общее рассеяния результатов тестового обследования можно, таким образом, считать результатом влияния двух категорий факторов: изменчивости самого измеряемого психологического явления, черты личности, интеллекта и т.д. и нестабильности самой измерительной процедуры.

В широком смысле надежность теста — это показатель того, насколько обнаружены у подопытных лиц различия в тестовых данных является отражением настоящей различия в измеряемых психологических свойствах, и наоборот, в какой мере они могут быть следствием случайных ошибок и артефактов.

В более узком смысле понятие надежности, непосредственно связано с методиками определения устойчивости показателей теста, является надежность как мера согласованности результатов теста, полученных при первичном и последующем его использовании для одних и тех же испытуемых в разные моменты времени, или при использовании различных (но таких, что можно сопоставлять по результатам) наборов тестовых заданий или при каких-то других изменениях условий исследования.

Распределение оценок, имеющих члены выборки за выполнение теста, который измеряет какую-то одну психологическую характеристику, в идеальном случае теоретически совпадает с нормальным распределением. При этом дисперсия может считаться как «дозтеменна» (то есть такая, что отражает вариативность только показателя, который исследуется). Каждый подопытный занимает свое место, что определяется оценкой теста, и теоретически это место для каждого подопытного из выборки является устойчивым. В этом случае при повторном выполнении теста теми же лицами мы будем наблюдать распределение мест на шкале оценок, идентичен предыдущему. Тогда методика, как инструмент измерения данного психологического фактора, считается точной и максимально надежной. В реальных обстоятельствах оценки и ранговые места испытуемых по каждому следующему исследования могут меняться и распределение ранговых мест той или иной степени отличаться от первичного. Итак, дисперсия нового распределения реально выше «истинную» на значение дисперсии погрешности измерения. Все это можно представить в виде формулы, характеризующий надежность как отношение «истинной» к реальной (эмпирической) дисперсии:

где а — надежность теста; S 2 t — «истинная» дисперсия; S 2 e — дисперсия погрешности; S 2 x — эмпирическая дисперсия оценок теста.

Как видим, надежность теста тесно связана с погрешностью измерения, используемая для определения диапазона возможных колебаний измеряемой величины под влиянием случайных и побочных факторов. Размер S 2 t / S 2 х выступает как основной показатель достоверности и устойчивости измерений и называется коэффициента надежности теста (r t).

Погрешность измерения находится в обратной зависимости по отношению показателя достоверности (чем шире диапазон значений, в котором предположительно регистрируется результат определенного подопытного, тем меньше точность измерения). Относительную долю дисперсии погрешности легко, исходя из уравнения

В большинстве методик, применяемых на практике, редко удается достичь таких коэффициентов надежности, превышающих значение 0,7-0,8. При r t = 0,8 относительная доля стандартной погрешности измерения составляет 0,45 = √ (1 — 0,8), а эмпирическое значение отклонения тестового балла от среднего его значения оказывается завышенным. Для коррекции эмпирического значения в практических исследованиях используют уравнение

где х t — достоверное значение тестового балла; X 1 — эмпирический балл испытуемого; r t — коэффициент надежности; х — среднее значение оценок по тесту.

Например, в подопытного при обследовании по шкале Векслера оценка вербального показателя интеллекта равен 107 баллам. Ceредне значение для шкалы составляет 100, надежность r t = 0,89. Вероятное значение х t составит, баллов:

X t = 0,89 * 107 + 0,11 * 100 = 106,2.

Особое значение для правильной интерпретации оценок теста а учетом его надежности имеет показатель погрешности измерения. Остановимся подробнее на раскрытии сути этого критерия.

1.2. Погрешность измерения и надежность теста

Погрешность измерения — это статистический показатель, отражающий степень точности конкретных измерений в выборке.

При проведении эмпирических психологических исследований почти никогда не удается достичь полного совпадения значений измеряемых параметров в различных сериях опытов, даже при использовании выборки, состоящий из тех же испытуемых. Конечно, значение измеряемого показателя флуктуирует в определенных пределах. Например, многократно повторяя тест по выявлению общих способностей в одной и той же ребенка, можно обнаружить, что оценки меняются в определенном интервале — допустим, от 108 до 115 баллов. Аналогично при повторном анализе одной или нескольких выборок среднее значение (х) также распределяется в интервале на оси X.

Колебания результатов измерения в определенном диапазоне значений могут быть связаны с систематическими или случайными факторами. К категории факторов, вызывающих систематические погрешности, можно, в частности, отнести какое-то постоянное и одинаковое отклонение от стандарта проведения теста, к которому прибегает конкретный исследователь, неточности в процедуре обработки первичной информации (например, технические ошибки в «ключи») и др. В этих случаях результаты измерений отличаются от истинных на более или менее постоянную величину. Случайные ошибки возникают из самых разных — объективных или субъективных — причин. Величина случайных ошибок и характеризует главным образом точность метода.

При большом количестве наблюдений Индивидуальные оценки или их средние значения образуют свой распределение, статистические показатели которого отражают погрешность измерения, характерную для. данного метода.

Погрешность измерения — статистическое явление, в определении которого определенную роль играют закономерности, присущие закону нормального распределения. Благодаря случайным ошибкам, которые зависят от огромного количества различных факторов, влияющих на конечный результат, распределение эмпирических оценок и их средних при повторных наблюдениях имеет вид нормального закона. Исходя из основных свойств нормального распределения, можно подсчитать, что примерно 68% измерений располагаются в интервале ± σ, около 95% — в интервале ± 2σ и 99% — в диапазоне ± 2,5σ распределения значений повторных наблюдений. Таким образом, для того чтобы установить, в каких пределах и с какой заранее заданной вероятностью будет находиться настоящая оценка, необходимо определить стандартное отклонение такого распределения. В табл. 1 приведены данные десятикратного обследования одного подопытного с помощью теста общих способностей. Стандартное отклонение

в данном случае составляет 3; из этого следует: с вероятностью P = 0,05 (95% от общего количества измерений) можно надеяться, что достоверное значение показателя будет находиться в пределах значений 100 ± 6 баллов, или от 94 до 106 баллов по шкале данного теста (среднее значение измеряемого показателя составляет 100).

Таблица 1. Распределение погрешности измерения общего показателя теста по шкале Векслера

Надежность теста можно определить в виде стандартной погрешности измерения (σ m), что также называется стандартной погрешности. В случае интерпретации индивидуальных показателей эта мера является полезнее коэффициент надежности (r t).Исходя из коэффициента надежности стандартную погрешность измерения определяют по формуле

где S x — стандартное отклонение результатов теста в выборке; r t — коэффициент надежности, определенный для этой же выборки.

Важным аспектом использования критерия погрешности измерения в психологической диагностике является оценка надежности методики и вероятности ошибки по анализу и интерпретации различий между данными в испытуемых. Представление результатов в виде интервальных возможных значений предостерегает от ошибочного толкования различных результатов как отражение реальной динамики измеряемого свойства у подопытных, а также ошибочной интерпретации разногласий между средними показателями в выборках, что сопоставляются.

При сопоставлении тестовых оценок — при наличии сведений о стандартные показатели погрешности для одного и другого тестов (или субтестов) — стандартную погрешность расхождения можно определить как

или то же самое с использованием коэффициента надежности:

где S x — стандартное отклонение, в данном случае одинаково для двух тестов.

Для иллюстрации изложенного в разделе приведем такой пример. Допустим, нам необходимо убедиться в том, действительно ли у конкретного испытуемого имеет место расхождение в оценках вербальных и практических субтестов по шкале Векслера, или разница в данных может быть связана с погрешностью измерения. Известно, что для шкалы измерения интеллекта Д.Векслера значение r t вербальных субтестов составляет 0,96, практических — 0,93; значение стандартного отклонения для обеих шкал — 15. Тогда

Таким образом, для установления разницы с вероятностью 68% необходима разница в оценках (что будет свидетельствовать о расхождении в результатах) примерно в 5 баллов. При стандартной вероятности P 0,05, принятой предельной для психологических исследований, значение σ д умножается на 2 и получаем около 10 баллов. Иными словами, если в подопытного оценка по вербальной шкале составляет 105, а по практической — 115 баллов, то при стократно повторении исследования лишь 5 раз вероятно произойдет то, что оценки по шкалам будут одинаковыми. Этого будет достаточно для утверждения: конкретный подопытный справляется с вербальными заданиями теста лучше, чем с практическими. Если разница в баллах будет меньше, чем 10, такое утверждение будет считаться недостоверным.

 

 

Нужно, видимо, признать, что ни одна из существующих психодиагностических процедур не является идеальной с точки зрения ее надежности. Показатели надежности теста могут существенно меняться в случае незначительных, на первый взгляд, вариаций условий проведения тестирования, изменения характера тестовых заданий, а также в зависимости от степени сложности задач для подопытного. Стандартный комплекс сведений о психодиагностические методики имеет, конечно, информацию о тех или иных показатели надежности, но подсчитать или определить критерии стабильности результата для одного случая использования того или иного теста практически невозможно.

На характеристики надежности, определяются эмпирическим путем, существенное влияние оказывает характер выборки, которая используется для проверки теста по показателям надежности. Особое значение здесь имеет диапазон расхождения в оценках, точнее в ранговых местах подопытных или их групп в общей выборке. Так, если оценки испытуемых локализоваться в относительно узком диапазоне значений и будут близки друг к другу, можно надеяться, что и в случае повторного исследования эти оценки также будут располагаться плотной гомогенной группой. Возможные изменения ранговых мест отдельных испытуемых будут внешне незначительными. Коэффициент надежности в таком случае будет завышен. Такое же безосновательное завышение коэффициентов может возникнуть в случае анализа надежности, осуществляется на материале выборки, которая состоит из контрастных групп, например из лиц, которые имеют высокие и самые низкие оценки по тесту. Тогда эти отдаленные друг от друга итоге не перекрываться за счет случайных факторов.

В практической психодиагностике при разработке указаний и методических материалов к тесту конечно обусловливается характер групп, для которых определялись показатели надежности. Индексы надежности нередко подсчитываются для контингентов испытуемых, которые отличаются по полу, возрасту, уровню образования, специальности и т. Д. В некоторых случаях показатели надежности подсчитывают отдельно и для высоких и низких оценок теста.

Разнообразие характеристик и показателей надежности теста так же велико, как и разнообразие условий, которые могут влиять на результат теста. Во все же широко практическое применение получили несколько методов характеристики надежности. это:

  • ретестовой надежность;
  • надежность параллельных форм теста;
  • надежность частей теста.

1.3.1. ретестовой надежность

Ретестовой надежность — это средство определения надежности пси-ходиагностичнои методики, при котором показатели точности и устойчивости результатов определяются путем повторного исследования. Надежность в этом случае устанавливается как мера совпадения результатов первого и повторного обследований или как степень сохранности ранговых мест обследованных в выборке по ретест. Коэффициент надежности r t равен коэффициенту корреляции между данными таких обследований. Если в исследуемом тесте для измерения психологического свойства используют количественную интервальную шкалу, то при определении результатов можно применить коэффициент корреляции Пирсона. Для порядковых шкал как меру устойчивости результатов при перетестуванни можно использовать коэффициент ранговой корреляции Спирмена или Кендела.

При определении показателя ретестовой надежности особое значение приобретает выбор интервала ретест, то есть времени, проходит между первичным и следующим опытом. Вполне Естественным является то, что с увеличением этого интервала показатели корреляции между данными исследований приобретают тенденцию к снижению. После прохождения значительного промежутка времени ретест вероятность возникновения побочных факторов существенно возрастает; могут также оказаться последствия вполне закономерных возрастных изменений психологических свойств, измеряемых с помощью теста, могут произойти определенные события, влияющие на состояние и особенности развития исследуемых психологических свойств. По этой причине при определении ретестовой надежности пытаются устанавливать не очень длительные интервалы времени (до нескольких месяцев). При определении надежности методик,

используют для обследования детей младшего возраста, такие интервалы должны быть еще меньше из-за того, что в этом контингенте испытуемых возрастные изменения большинства психологических свойств личности осуществляются интенсивнее. Несмотря на указанную тенденцию, при установлении качества теста проводятся повторные испытания со значительным интервалом ретест, что может составлять несколько лет. Такая процедура используется для оценить не столько ретестовой надежность, сколько определить прогностическую валидность, элементы конструктной валидности, особенно те, которые связаны с так называемой дифференциацией показателей теста по возрастному критерию.

Указанные показатели будут рассматриваться в последующих главах пособия.

По определению ретестовой надежности, то, конечно, ограничиваются анализом кратковременных случайных изменений в результатах, которые и характеризуют тест как измерительную процедуру. Интервал ретест подбирают только исходя из определения динамики устойчивости результата методики течение определенного времени. Несмотря на явную простоту определения ретестовой надежности как принципа анализа устойчивости показателей теста, этот способ имеет существенные недостатки. Опишем самые значительные из них.

При повторном использовании одних и тех же задач, особенно в условиях относительно короткого интервала ретест, у подопытных возможно формирование навыков работы с «данной психодиагностических методик. Улучшение показателей под влиянием результатов, возникающие при этом, будет различаться степенью проявления в отдельных испытуемых в зависимости от их индивидуальных особенностей .. Это приведет к заметной изменения ранговых мест отдельных испытуемых и — соответственно — к искусственному уменьшению коэффициента надежности. К еще более заметного влияния на результаты анализа надежности приводит запоминания подопытными отдельных решений или ответов. В этом случае человек отражает в повторном исследовании предварительное распределение правильных и ошибочных решений. По этой причине результаты обоих случаев использования теста не будут независимыми друг от друга, показатель корреляции между ними окажется искусственно завышенным.

Одним из путей уменьшения влияния фактора тренировки на оценку ретестовой надежности может стать предварительное формирование устойчивого навыка к работе с данной методикой. Но при таком подходе количество повторов теста неизбежно будет расти, что приведет к увеличению количества решений, которые запоминаются подопытным. Такие меры могут быть рекомендованы только для методик типа тестов скорости (speed test), состоящие из большого количества внешне одинаковых задач.

Для других методик единственным приемлемым путем снижения влияния тренировки является увеличение интервала ретест. Однако, как было указано, увеличение этого интервала вступает в противоречие с определением надежности как характеристики теста, а не как меры устойчивости самого психологического конструкта.

Для большинства тестов общих способностей характерно постепенное улучшение показателей ретестовой надежности в старших контингентов испытуемых. Это является следствием тщательного контроля условий выполнения теста, конечно, легче реализовать при работе с подопытными старшего возраста. Другим фактором, приводит к таким изменениям вычислительных показателей ретестовой надежности, является относительное замедление с течением времени темпов развития. При измерении показателей надежности с помощью повторного тестирования в возрастных группах, подвержены относительно слабых динамических изменений исследуемой психологической черты, будет зарегистрировано менее случайных колебаний результатов в промежутке между опытами. Существование этой закономерности требует отдельных определений ретестовой надежности для различных возрастных групп испытуемых. Особенно существенное это для тестов, предназначенных для исследований в широком возрастном диапазоне. К таким методикам преимущественно относят батареи тестов интеллекта широкого назначения (таких, как шкала Станфорд-Бине, детские шкалы Векслера, Матрицы Равена, тест структуры интеллекта R.Amthauer и некоторые другие). Заметим, что относительное улучшение показателей надежности с возрастом обследуемых не является универсальным законом. Вполне естественно — с этим приходится считаться при определении надежности тестов, предназначенных для пожилых людей, — влияние факторов различного темпа инволюционных изменений, наоборот, способствовать ухудшению показателей надежности в старших возрастных группах.

Приведенные особенности и недостатки метода разрахунку надежности путем ретест приводят к тому, что такой подход может считаться пригодным лишь для ограниченного круга методик, для которых возможно многократное использование одного и того же комплекса задач. К таким методам можно отнести сенсомоторные пробы, уже упомянутые тесты скорости, а также ряд других, отличаются большим количеством тестовых заданий (например, Миннесотский многофакторный опросник личности).

1.3.2. Надежность параллельных форм

Попытка компенсировать часть недостатков метода определения надежности путем ретест привела к разработке средства надежности параллельных форм. При этом используется такая процедура. Одни и те же испытуемые с выборки определения надежности исследуются с основным вариантом теста, а затем — с каким-то заданным интервалом ретест — с использованием вспомогательного набора, которым может стать параллельная или совместная форма теста. Понятие параллельной формы теста требует дополнительного объяснения. В такой формой обычно понимают близок к первичному по критериям надежности и валидности, а также по другим психодиагностическими характеристиками вариант теста. Последний разрабатывается с целью эквивалентной замены первичного теста. Разработка нескольких модификаций одного и того же теста, которые различаются по конкретным составом тестовых заданий, ориентированная на повышение достемен ности повторного тестирования одних и тех же испытуемых через небольшие интервалы ретест. Приведем пример. Перед практическим психодиагностическим исследованием стоит задача выяснить характер психофармакологического действия разработанного препарата на эмоциональную сферу пациентов. Для этого перед приемом лекарств больным предлагается ответить на вопрос опросника, предназначенного для измерения некоторых особенностей эмоциональных состояний. Через некоторое время после начала действия препарата процедура обследования повторяется. При повторном использовании одних и тех же пунктов (заданий, вопросов) имеет место опасность проявления тенденции у испытуемых отражать в своих ответов не текущее состояние, а припоминание того что отвечалось на те же вопросы в предыдущем обследовании. Естественно, это приведет к искажению результатов. Использование в двух вариантах разных, но эквивалентных по определяемыми показателями наборов задач позволяет минимизировать негативное ретестовой влияние.

Несмотря на то, что параллельная форма теста добирается таким образом, чтобы оба варианта теста были максимально совместимыми с главными диагностическими характеристиками, выбранные варианты теста не всегда имеют одинаковые средние показатели и стандартное отклонение. В этом случае обязательным условием для параллельной формы теста является обеспечение возможности приведения показателей обеих форм друг к другу с помощью специальных коэффициентов, или таблиц евкивалентности.

Параллельные формы теста следует отличать от так называемых уравновешенных форм, состоящих из задач, которые попарно подбирают таким образом, чтобы был соблюден принцип наиболее возможной совпадения структуры и состава задач. Параллельные и уравновешенные формы, в свою очередь, следует отличать от эквивалентных форм. Последние могут состоять из различных по сути задач, но давать достаточно близки по количеству или по сути статистические выводы. Общий термин, объединяющий приведены варианты тестов — сопоставлены формы. В американской психологической литературе употребляются несколько иные наименования разновидностей сопоставленных форм — коррелированы (correlated), дублированные (dubiicated), уровни (equal) и подобные (similar).

Самые известные и распространенные в отечественной психологической диагностике методики, имеют Парал ;. ли формы — опросник личности Айзенка, тест R.Amthauer’a и некоторые другие.

Наличие одного из видов

продолжение следует…

Продолжение:


Часть 1 Средства контроля диагностических качеств психологических тестов
Часть 2 Средства контроля диагностических качеств психологических тестов
Часть 3 Средства контроля диагностических качеств психологических тестов
Часть 4 Средства контроля диагностических качеств психологических тестов
Часть 5 Средства контроля диагностических качеств психологических тестов

Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.

Наука, Образование : Научная литература: прочее : 6.3. Оценивание надежности и валидности педагогических тестов : Виктор Звонников : читать онлайн

6.3. Оценивание надежности и валидности педагогических тестов

Общие представления о надежности и валидности были введены ранее. Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы [28, 36]. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста. На практике стараются использовать вторую группу методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов. Обычно вне зависимости от метода оценка надежности строится на подсчете корреляции между двумя наборами данных. Логика рассуждений при этом довольно проста: чем выше корреляция, тем надежнее тест.

Для маленькой выборки корреляцию можно оценить визуально, как в приведенном далее примере (табл. 6.8). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 студентов.

Тест А обладает оптимальной надежностью, так как результаты 10 студентов остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице. Тест В абсолютно ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Полное отсутствие воспроизводимости баллов испытуемых указывает на минимальную надежность теста, поэтому (rн)в = –1. Тест С обеспечивает хаотичное изменение результатов, хотя баллы отдельных студентов (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность 3-го теста близка к нулю. Естественно, что рассмотренные гипотетические ситуации не встречаются на практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов.


Таблица 6.8 Результаты двукратного выполнения трех тестов


Ретестовый метод оценки надежности (test-retest reliability) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Обычно повторное тестирование проводится через 1–2 недели, когда испытуемые еще не успели забыть учебный материал и незначительно продвинулись в усвоении новых знаний. При таких условиях повторного предъявления теста низкая корреляция между результатами тестирования будет следствием не изменения состояния испытуемых, а применения ненадежного теста.

Для подсчета коэффициента надежности по методу повторного тестирования используется формула

(6.9)

где (rн)рет— коэффициент надежности теста по ретестовому методу, Xi— индивидуальный балл i-го испытуемого в первом тестировании, Yi— индивидуальный балл i-го испытуемого во втором тестировании (i = . 1, 2, …, N).


Для удобства вычисления коэффициента надежности по ретестовому методу данные можно заносить в табл. 6.9.

Пример подсчета по табл. 6.9 можно привести для исходной матрицы. Выбирая ее данные в качестве результатов первого тестирования и добавляя результаты произвольные второго тестирования можно подсчитать коэффициент надежности ретестовым методом (табл. 6.10).

После подстановки чисел из нижней строчки таблицы в формулу (6.9) коэффициент надежности будет

Фокус в группе: почему ошибается тест на COVID-19 | Статьи

ПЦР-тесты на COVID-19 часто выдают ошибочный результат. Причину этого решили выяснить французские ученые. Они проанализировали 80 пациентов с положительным анализом ПЦР и 80 — с отрицательным при наличии всех остальных симптомов коронавирусной инфекции и плохим КТ легких. Исследователи обнаружили маркеры сильного воспаления (С-белок) и высокие тромбоциты у больных из второй группы. Российские эксперты сомневаются в возможности прямого влияния этих факторов на результаты ПЦР-исследований. По их мнению, невысокая точность тестов связана с тем, что вирус на момент взятия анализа уже «спустился» ниже носоглотки, или забор мазка производили люди без нужных навыков.

Загадочные связи

В исследовании приняли участие пациенты 11 госпиталей из Франции и Бельгии. Ученые отобрали экспериментальную и контрольные группы по 80 человек в каждой из Университетского госпитального Центра в Нанте, медицинского центра в Авиньоне, клинике Сен-Пьер в Оттиньи (Бельгия) и др.

80 человек имели все признаки COVID-19, но при этом отрицательный ПЦР-тест. В контрольной группе другие 80 пациентов имели такие же признаки заболевания, но при этом положительный подтвержденный анализ. Группа ученых во главе с французским медиком Жан-Батистом Ласкарру пыталась ответить на вопрос: отличаются ли какие-то клинические, биологические или рентгенологические характеристики у этих больных? Что именно мешает ПЦР-анализу точно диагностировать COVID-19?

Фото: ИЗВЕСТИЯ/Павел Бедняков

В результате проведенной работы исследователи пришли к выводу, что на результаты ПЦР-теста не влияет ни время проведения анализа (длительность отсрочки от появления первых симптомов), ни терапия, которая во многих случаях была одинаковой, ни время, проведенное в стационаре, ни смертность в обоих группах, ни процент попадания на ИВЛ. Однако наличествуют биохимические показатели крови, которые ясно коррелируют с ложноотрицательным ПЦР-тестом. Это высокие тромбоциты и показатели С-белка (белок острой фазы, концентрация которого в крови повышается при воспалении).

В статье не объяснено, как именно эти характеристики крови влияют на результаты теста, там лишь описана корреляция, суть которой еще предстоит понять. Интересно также, что меньшую ложноотрицательность показывают пациенты с головной болью и усталостью. У них ПЦР-тест чаще срабатывает правильно.

Фото: ИЗВЕСТИЯ/Кристина Кормилицына

Французские ученые указывают на ограниченность ПЦР-тестов на COVID-19, которые далеко не всегда правильно интерпретируют причину заболевания. «КТ грудной клетки обладает более высокой чувствительностью для диагностики COVID-19 и может рассматриваться как основной инструмент для обнаружения инфекции в зоне эпидемии», — говорят авторы статьи.

Известно, что средняя чувствительность ПЦР-тестов и так невысока — 60–70%. Однако, судя по данному исследованию, ее точность можно оценить как еще более низкую. Что ставит под сомнение смысл тестов ПЦР, например, при возвращении из заграничных поездок, выходе с карантина в школы, институты и на работу.

Ищем объяснение

Российские эксперты сомневаются во влиянии высоких тромбоцитов и содержания С-белка на результат ПЦР-теста, хотя и не отрицают, что корреляция может иметь место.

— Авторы статьи нашли корреляцию, но суть ее не пояснили, — сказал руководитель лаборатории геномной инженерии МФТИ Павел Волчков. — ПЦР-тест на COVID-19 — это мазок из ротоглотки. А С-белок находится в сыворотке крови. Вряд ли одно может влиять на другое. Однако я не отрицаю, что описанная в статье корреляция может иметь место.

Павел Волчков объяснил, что есть высокосходящиеся корреляции, которые являются статистически достоверными. Например, количество съеденного мороженого может напрямую коррелировать с количеством утонувших. Это происходит потому, что мороженое чаще едят летом, когда устанавливается жаркая погода. Тогда же начинается и купальный сезон. Но это не значит, что мороженое приводит к утоплению, отметил эксперт.

Фото: ИЗВЕСТИЯ/Андрей Эрштрем

В случае с ложноотрицательными тестами тоже нужно найти не корреляцию, а причину. Ученый считает, что она может заключаться в отсутствие вируса в рото- и носоглотке части пациентов. С экспертом согласен директор Института медицинской паразитологии, тропических и трансмиссивных заболеваний им. Е.И. Марциновского Сеченовского университета (вуз — участник проекта повышения конкурентоспособности образования «5-100») Александр Лукашев.

— Во время первой волны в Китае в феврале 2020 года было показано, что если брать материал из бронхов или легких, то поставить диагноз можно практически во всех случаях. Но это делать нецелесообразно — сложно, неприятно для больного и очень опасно для врача. То есть дело не в чувствительности теста, а в том, что по физиологическим причинам вирус уже «спустился» ниже, — сообщил ученый «Известиям».

По словам Александра Лукашева, результаты ПЦР-анализа зависят от того, когда взят тест. Ведь известно, что наиболее высокое содержание вируса фиксируется еще до появления клинических симптомов. Что касается высоких тромбоцитов и содержания в крови реактивного С-белка — это скорее характерно для более поздних стадий болезни, отметил эксперт в разговоре с «Известиями».

— У ПЦР-теста техническая чувствительность обычно выше 98%, — пояснил Александр Лукашев. — Но его практическая чувствительность у больных COVID-19 может быть и 60%, и 70% по физиологическим причинам — вируса в ротоглотке просто нет. И эти проблемы едины для тестов любых производителей во всем мире.

Отрицает прямое влияние высоких тромбоцитов в крови и реактивного С-белка на ПЦР-тест и заместитель директора по научной работе ИФХЭ РАН Олег Батищев.

— Параметры крови на то, что находят на слизистых, принципиально не могут влиять, — подчеркнул эксперт. — Однако тесты действительно дают ложноотрицательные результаты, так как сам этот мазок не так просто взять. Для этого нужна определенная подготовка как врачу, так и пациенту.

Фото: ИЗВЕСТИЯ/Кристина Кормилицына

Олег Батищев отметил, что если человек за два часа до анализа поел или попил воды, ПЦР-тест может не сработать.

— Особенно высока частота ложных срабатываний, когда пациент берет мазок самостоятельно, как это делалось у нас в первую волну, чтобы минимизировать контакты. Сам себе человек так глубоко в ротоглотку залезть вряд ли может. Думаю, причина ложноотрицательности этих тестов именно в заборе материала, — сообщил эксперт «Известиям».

Подтвердил эту информацию и специалист компании «Инвитро», врач клинической лабораторной диагностики Дмитрий Бусыгин. Он также считает, что на данные ПЦР-теста высокие тромбоциты и С-белок повлиять никак не могут, они лишь отражают реакцию организма на инфекцию.

Эксперт напомнил, что в постановке диагноза можно ориентироваться на дополнительные лабораторные данные, в том числе и антитела. Если же сомнения остаются, на этот случай предусмотрено несколько заборов ПЦР-мазка.

Оценка благонадежности — IntegriTEST — Midot

Оценка благонадежности — IntegriTEST — Midot

Тест на благонадежность для кандидатов

IntegriTEST, флагманский продукт Midot, оценивает благонадежность кандидатов и вероятность их последующего деструктивного рабочего поведения. Этот проверенный, точный и высокоэффективный тест является стандартным инструментом отбора кандидатов, используемым тысячами организаций во всем мире. С помощью IntegriTEST вы сможете улучшить подбор персонала для своей компании

Очередной нанятый Вами работник может привести вашу компанию к успеху или к краху

Низкая благонадежность может приводить к совершению должностных преступлений, краже имущества, денег или информации, а также взяточничеству и нарушению норм компании. Ведущие научные исследования показали, что тесты на благонадежность позволяют спрогнозировать не только деструктивное поведение, но и общую производительность на рабочем месте! IntegriTEST от Midot — это онлайн тест на благонадежность, позволяющий оценить риск совершения кандидатами нарушений на рабочем месте путем оценки их ценностей и представлений о нормах, а также моделей поведения.

Новая версия IntegriTEST, выпущенная в 2019 году, значительно расширила возможности тестирования: в части опросника кандидаты могут теперь давать произвольные ответы, что помогает им предоставить более открытую и точную информацию. Специалисты по подбору персонала теперь могут использовать нашу новую форму компьютерного отчета как единую форму для проверки результатов, ознакомления с ответами, добавления и отправки собственных заметок.

Характеристики

Формат проведения:
online

Подходит для:
всех должностей и уровни

Время тестирования:
приблизительно 20 минут

Количество вопросов:
96–202 (в зависимости от версии)

Место проведения:
в офисе или удаленно

Отчеты:
моментально, онлайн

Уровень владения языком:
7 классов

Формат ответа:
выбор из предложенных вариантов

«Нанимая работника, вы надеетесь получить три качества: благонадёжность, интеллект и деловую активность. Но если первого нет, два остальных убьют вас».
У. Баффет

Персонализация, оптимизация, релевантность

  • Выбирайте из 30 готовых версий или создавайте неограниченное количество индивидуальных версий и тестовых вопросов в соответствии с потребностями и политиками Вашей компании. Тесты могут быть базовыми или расширенными, вы можете настроить тест под каждую должность.
  • Стандартизируйте тестирование — интегрируйте Ваши информационные вопросы в IntegriTEST, определите правила и просмотрите все ответы в отчете.
  • Создавайте индивидуальные нормы с помощью выбора вариантов ответов для конкретных вопросов, чтобы получить максимальную отдачу от теста в Вашей компании.

Принимайте лучшие решения с помощью интерактивных отчетов

  • Результаты тестов отображаются максимально четко, для принятия наилучших решений в каждом отчете вы получите рекомендации для последующего уточнения.
  • Используйте онлайн бенчмарк для определения эффективности Вашей компании и ее сравнения с другими группами.
  • Для принятия качественных решений о приеме на работу поделитесь ключевыми ответами кандидата, а также информацией по итогам собеседования со своими коллегами и непосредственным руководителем.

Высокая точность и научная обоснованность

  • IntegriTEST неоднократно доказывал свою высокую точность, которая была подтверждена серией независимых научных исследований, проведенных в различных странах (см. наш список научных публикаций).
  • Уникальный математический алгоритм оценивает не только ответы тестируемого, но и выявляет модели поведения, которые позволяют определить потенциальные риски тестируемого.
  • Наш новый IntegriTEST основан на самых современных психологических методах и позволяет получать максимально достоверные ответы.

Повысьте эффективность процесса отбора кандидатов. Экономьте время, деньги и ресурсы

Используйте IntegriTEST от Midot в качестве предварительного инструмента отбора и максимально эффективно работайте с большими группами кандидатов.

  • Получите пароль доступа и адаптируйте онлайн-тест к своим потребностям всего за несколько минут.
  • Тестирование можно выполнять в любом месте и в любое время. Продолжительность теста составляет около 20 минут. Доступ к результатам теста предоставляется онлайн сразу же после его завершения.
  • Интерактивная анкета составлена в нейтральной форме и не вторгается в личную жизнь. Дополнительные вопросы отображаются в ней только при необходимости.

Эффективные инструменты специалиста по найму персонала

Потратив более 40 лет на сбор данных и статистики, Midot предлагает Вам высококачественные и не имеющие равных инструменты оценки и сравнения.

  • Сравнивайте результаты тестов кандидатов и просматривайте показатели производительности вашей компании и ее структурных подразделений в сравнении с эталонными показателями других групп.
  • Получайте справочную информацию и профессионально сформулированные вопросы для последующих собеседований.
  • Используйте всплывающие окна с комментариями во время собеседования, чтобы вставлять пояснения и идеи, которые покажутся вам ценными. Поделитесь ими со своими коллегами и руководителями

Мы стремимся постоянно быть лидером в своей области

Гарантированное получение точных результатов теста имеет решающее значение, поскольку подобные тесты могут существенно повлиять на карьеру и жизнь людей, а также безопасность и успех компании. Компания Midot является мировым лидером в тестировании на благонадежность не только потому, что она первой начала работать в данной сфере, является крупнейшей на сегодняшний день и ее тесты получили самое широкое распространение в мире- ее лидерство также обусловлено страстной приверженностью профессионализму и науке.

  • Вот уже более 40 лет мы предлагаем тестирование на благонадежность, постоянно прогнозируя будущее.
  • Никакой другой разработчик тестов не провел такой большой объем исследований и не опубликовал так много рецензируемых научных работ, как Midot.
  • В своем тесте IntegriTEST мы продолжаем внедрять инновации, используя новые методики и услуги. Новый тест предоставляет больше возможностей для индивидуальной настройки, а также является более безопасным и надежным, чем когда-либо прежде.

Podium, высокоэффективная система оценки

  • Централизованное управление всем процессом оценки
  • Podium легко адаптировать к потребностям вашей организации
  • Все ваши оценки и аналитика использования в одном месте.
  • Облачные, безопасные и современные технологии.
Попробуйте его

IntegriTEST проходил проверки и валидацию в течение последних 30 лет, благодаря чему он является весьма эффективным и точным инструментом для тестирования на благонадежность в профессиональной деятельности.

  • Компании, нанимающие новых работников с использованием IntegriTEST, сообщают, что эти работники не только более надежны и заслуживают большего доверия, но и, в конечном итоге, работают намного эффективней.
  • 92% протестированных кандидатов отмечают, что тест IntegriTEST является понятным, недискриминационным, а также не вторгается в личную жизнь и имеет непосредственное отношение к их работе. Кроме того, кандидаты сообщили, что компании, которых заботит трудовая этика, производят на них положительное впечатление и вызывают желание работать в них.
Запросите демо-версию

Шкалы

IntegriTEST выдает общий рекомендательный балл на основе результатов анализа возможности совершения кандидатом нарушений на работе в будущем.

В каталоге представлены адаптированные версии IntegriTEST для 13 различных категорий бизнеса. Выбирайте базовые или расширенные версии, включающие набор дополнительных вопросов.

Тест содержит базовые и дополнительные оценочные шкалы:

откровенность

толерантность в обслуживании

наркотики/алкоголь на работе

Кроме того, специалисты по найму персонала могут выбрать заранее настроенные версии из каталога Midot, либо разработать свои собственные версии на основе конкретных требований.

В расширенной версии возможен выбор блоков тематических вопросов:

употребление алкоголя

употребление наркотиков

азартные игры

сексуальные домогательства

финансовые затруднения

криминальное прошлое

трудовая этика

информационная безопасность

безопасность труда

вовлеченность сотрудника в работу

история вождения автомобиля

Оцените потенциальный риск нарушений на работе

Преимущества для наших клиентов

Становясь клиентом Midot, вы получаете доступ к выбранным вами инструментам тестирования, управлению вашим аккаунтом и широкому спектру дополнительных услуг, таких как обучение и поддержка пользователей, профессиональные консультации, анализ рентабельности инвестиций, адаптация теста к специфическим задачам бизнеса, оптимизация выставления баллов (скоринга) и пр. Мы будем поддерживать вас на всех этапах вашей работы.

ОБУЧЕНИЕ

С самого первого дня и в течение всего цикла работы клиенты получают неограниченное обучение администраторов системы.

ПОДДЕРЖКА

Команда Midot постоянно готова ответить на запросы пользователей.

ИССЛЕДОВАНИЯ

Уникальные научные разработки и публикации в рамках десятков академических исследований по всему миру обеспечивают надежное обоснование при принятии решений и позволяют выполнять точный подсчет результатов исследования.

КОНСУЛЬТАЦИИ

Профессиональная команда Midot всегда готова помочь в анализе данных и проведении собственных исследований компании по результатам тестирований.

Отчеты — принимайте обоснованные решения

Результаты тестирования доступны онлайн сразу после завершения теста. С учетом балльных оценок можно легко составить шорт-лист кандидатов. Кроме того, можно  моментально получать расширенную информацию для углубленного анализа. Все данные легко экспортируются в Excel для статистического анализа и принятия управленческих решений.

Узнайте больше о других продуктах:

SafetyTEST

Оценка потенциальных рисков участия кандидатов и сотрудников в несчастных случаях на рабочем месте

УЗНАЙТЕ БОЛЬШЕ

StabiliTEST

Разработан для снижения рисков досрочного ухода сотрудников

Добро пожаловать на сайт Мидот!

Мы используем cookies на нашем сайте для настройки информации для пользователей. Посещая наш сайт, вы даете согласие на использование cookies. Для получения более подробной информации вы можете посмотреть нашу Политику Конфиденциальности.

Закрыть

Психометрические показатели теста (надежность, валидность)

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Знание психометрики необходимо для критичности…:

— в понимании ограниченности методик;

— в понимании допущений, которые были сделаны при разработке;

— в понимании валидности и надежности и т.д.

Основные психометрические характеристики:

— надежность;

— валидность.

Внимание!

Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

Надежность теста и ее виды

НАДЕЖНОСТЬ (устойчивость) – это такая характеристика методики, которая позволяет оценить постоянство тестовых показателей (т.е. устойчивость результатов теста к действию посторонних, случайных факторов).

«Надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

На надежность методики влияет (посторонние факторы):

— нестабильность диагностируемого свойства;

— несовершенство диагностических методик:

 – небрежно составленная инструкция;

 – разнородные по своему характеру задания;

 – нечетко определенная область измерения;

 – нечетко прописанная процедура обследования.

— меняющаяся ситуация обследования:

 – разное время дня;

 – разная                 освещенность помещения;

 – посторонние шумы;

 – погода и т.д.

— манера поведения психолога:

 – разная стимуляция клиента на выполнение задания и т.д.

— состояние клиента (колебание в этих состояниях):

 – настроение;

 – усталость и т.д.

— элемент субъективизма в способах оценки/ интерпретации результатов (особенно при открытых ответах и т.п.).

Для того, чтобы надежность методики была высокой, методика должна быть стандартизирована (все д.б. прописано: процедура проведения, область исследования и т.д.).

Виды надежности:

РЕТЕСТОВАЯ НАДЕЖНОСТЬ – вид надежности, который определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики.

(Чем выше коэффициент корреляции, тем выше надежность, т.е. мы получаем примерно то же самое распределение).

Определение временного интервала:

С увеличением временного интервала – показатели корреляции имеют тенденцию к снижению (т.к. имеет место влияние посторонних факторов).

Пр: могут произойти естественные временные изменения.

Обычно выбираются непродолжительные временные интервалы: от 2 недель до 2–4 месяцев (это зависит от возраста обследуемых. Чем старше, тем больше можно делать интервал, и наоборот).

Слишком маленький интервал:

→ проблема запоминания;

→ проблема интереса.

НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ – проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста).

Требования к созданию параллельных форм теста:

1. Количество заданий д.б. одинаково.

2. Типы заданий в обеих формах д.б. унифицированы (приведены в соответствие) в плане психологического содержания, уровня и пределов трудности, охвата тех или иных операций.

3. Задания в тесте д.б. распределены по трудности одинаковым образом.

4. обе формы должны иметь примерно одинаковое среднее значение и среднее отклонение.

5. Процедура применения отдельных форм, техника оценивания результатов д.б. унифицированы.

НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА (одномоментная надежность/ надежность-согласованность) – характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Надежность проверяют на результатах…:

1) Результаты теста расщепляются на части (чаще всего путем деления на четные и нечетны пункты).

2) По каждой половине рассчитываются суммарные баллы.

3) Между двумя рядами баллов по испытуемым рассчитываются допустимые коэффициенты корреляции.

Разделение теста на части → уменьшение величины этого теста → уменьшение/ снижение достоверности результатов.

Преимущества данного вида надежности:

1) Отсутствие влияния факторов, порождаемых повторным тестированием: эффект упражнения, снижение мотивации и т.д.

2) Менее трудоемок (пр: не надо разрабатывать параллельную форму теста, проводить повторное обследование и т.д.).

Валидность теста и ее виды

ВАЛИДНОСТЬ – это характеристика, которая включает в себя сведения об области измеряемых свойств и репрезентативности диагностической процедуры по отношению к ним.

Валидность – это такая характеристика, которая показывает то, что измеряет данная методика и насколько хорошо она это делает.

Валидность — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Виды валидности:

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ – характеризует степень соответствия заданий теста измеряемой области психических свойств.

Закладывается уже на стадии разработки теста.

Устанавливается экспертами.

Этапы валидизации теста:

1. Определяется круг измеряемых свойств и (или) видов деятельности. Происходит расчленение свойства/ деятельности на элементы.

2. Разрабатывается модель тестовой деятельности или модель свойства, содержание которой подбирается путем выделения наиболее важных элементов реальной деятельности.

3. Проводится анализ степени соответствия разработанной модели реальной деятельности/ свойству (степень соответствия результатов 1 и 2 этапов).

КРИТЕРИАЛЬНАЯ/ эмпирическая ВАЛИДНОСТЬ – включает в себя текущую и прогностическую валидность.

— отражает степень соответствия прогноза и диагноза определенному кругу критериев измеряемого свойства.

Текущая валидность – степень соответствия диагноза.

Прогностическая валидность – степень соответствия прогноза.

В качестве критерия может выступать уровень достижений в какой-либо другой деятельности (производственная, научная, учебные успехи; степень развития какой-либо способности; степень выраженности какого-либо свойства личности; социально-демографические и географические данные и т.п.).

Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

КОНСТРУКТНАЯ ВАЛИДНОСТЬ – отражает степень представленности измеряемого психологического конструкта в результатах теста.

Для того, чтобы доказать валидность представленности измеряемого свойства, необходимо найти уже проверенную конструкцию, направленную на измерение того же самого.

Если такой конструкции нет, то привлекаются эксперты. При этом они работают не с тестом (как это было в случае с содержательной валидностью), а с испытуемыми из выборки стандартизации (наблюдают).

Если и это не удается, тогда прибегают к оценкам особого типа – субъективным, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним.

Виды конструктной валидности:

конвергентная валидность (схождение) – для доказательства надо выбрать какое-то психологическое свойство, которое связано (прямо или обратно) с измеряемым свойством.

дискриминативная валидность – доказывается отсутствием связи между измеряемым свойством и каким-либо другим свойством.

Различия:

Содержательная – соответствие заданий теста измеряемому свойству.

Критериальная – соответствие диагноза и/или прогноза какому-либо критерию.

Конструктная – соответствие результата теста психологическому конструкту.

КОНКУРЕНТНАЯ ВАЛИДНОСТЬ – оценивается по корреляции разработанного теста с другими, валдность которых относительно данного параметра установлена.

ОЧЕВИДНАЯ ВАЛИДНОСТЬ – описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

12.Понятие валидности, надежности, достоверности в психодиагностике

12. Понятие валидности, надежности, достоверности в психодиагностике.

Надёжность – один из критериев проверки методик. В разработку этого критерия внесли свой вклад А. Анастази, Кронбах, Торндайк.

Надёжность – относительное постоянство, устойчивость, согласованность результатов тестов при первичном и повторном измерении на одних и тех же испытуемых. Необходимо повторное измерение на той же выборке. Расхождения возможны, но они должны быть незначительны. Таким образом, надёжность говорит о точности и устойчивости результатов к действию случайных факторов.

Общий разброс может быть результатом двух групп причин:

  1. Изменчивость, присущая самому признаку.

  2. Факторы внешней среды, которые могут повлиять

Процедуры вычисления надёжности:

  1. Проведение одной и той же формы теста. (ретестовая надёжность), вычисление коэффициента корреляции. Интервал между проведением тестирования – от одного до нескольких месяцев.

  2. Проведение параллельных форм тестов. При проведении исследования с помощью эквивалентной формы теста специалист убеждается в правильности выбранного признака. Чтобы формы теста считались эквивалентными необходимо одинаковое количество заданий в обоих тестах, задания должны быть унифицированы, задания должны располагаться одинаково по степени сложности, должны быть одинаковые средние и стандартное отклонение. Используют два подхода для вычисления надёжности при помощи параллельных форм тестов:

  • Одни и те же испытуемые обследуются при помощи одного теста. А потом другого и если коэффициент корреляции больше 0.7, то надёжность высока.

  • Испытуемые делятся на две группы, одна группа проходит тест А, другая тест Б, через неделю – наоборот.

  1. Расщепление теста и вычисление коэффициента корреляции. Испытуемые выполняют две части теста, которые равноценны. В одну часть попадают все чётные задания, в другую – нечётные. Эта процедура показывает последовательность теста внутри себя, меру адекватности подбора вопросов. Вычисляется коэффициент корреляции.

Коэффициент надёжности соответствует коэффициенту корреляции Спирмена или Писрона.

Надёжность факторно-дисперсионная — способ определения надежности, основанная дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения. Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).

Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов, особых факторов, обеспечивающих тесты специфической направленности и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности

Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста, но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.

Достоверность и допустимая ошибка измерения:

Достоверность определяется критерием ошибки измерения. Ошибка – это статистический показатель, характеризующий степень точности отдельных измерений. Предполагается, что для любой черты каждый индивид имеет истинный показатель. Любой показатель, полученный в тесте отличается от его истинного значения на какую-то случайную погрешность. И если протестировать человека несколько раз, получится разброс показателя вокруг истинного значения. Это значение колеблется в определённых границах. Колебание данного значения может зависеть от систематических ошибок и случайных. Причинами систематических ошибок может быть неправильное проведение теста, не соблюдение процедуры, неточность в обработке, низкая валидность методики. Вероятны и случайные ошибки, связанные с человеческим фактором. Если в методике не заложены подобные сбои, то её нельзя считать точной. При большом количестве наблюдений индивидуальные оценки образуют определённый тип распределения статистического показателя, которые будут обнаруживать ошибки измерения. Ошибка измерения определяется статистическими методами – величиной квадратичного отклонения, связанной с дисперсией распределения отдельных измерений. Погрешность не должна превышать 5 %.

Валидность:

Валидность – способность теста измерить то, что он должен измерить по замыслу автора. Это понятие относится больше не к тесту, а к его цели. Тест может быть надёжным, но не валидным. Но если тест валиден, то он надёжен.

Источники идей валидности:

  1. Первые идеи появились ещё до создания тестов. Часто исследователи связывали результаты исследования с будущими успехами. Например, Пифагор, связывал мышление и речь при помощи интуиции.

  2. Идея о необходимости практической проверки пригодности теста. Вне практики проблема валидности не может существовать.

  3. Философские идеи: истина- соответствие мысли действительности. Критерий истинности – полезность.

  4. Измерения, которые мы делаем не очевдны, они требуют теоретической основы. Теоретико=эмпирическая валидность.

  5. Развитие статистической науки – корреляции и факторного анализа.

Пять источников породили пять видов валидности.

В начале 20 века ведущую роль играла интуиция. Если создателем теста был известный человек, то вера в валидность принималась на слово.

В 20-30 годы росли запросы практики, стали создаваться тесты на основе эмпирических источников. Было разработано 3 эмпирических подхода:

  • Все поступающие на работу проходят тест. Через какое-то время измеряется их производительность труда и эффективность. Затем шло коррелирование показателей. Таким образом, тесты использовались для полезности.

  • Сначала тестируются те, кто успешно уже работает, а затем результаты этого тестирования коррелируются с результатами кандидатов. Если есть взаимосвязь, то тест валидный.

  • Работы Бине и Симона. Для уверенности, что тест измеряет именно интеллект. Все задания теста проводились на двух группах, которые отбирались не психологами, а учителями. В 1 группе были дети с высокими умственными способностями, во 2 – с невыраженными способностями.этот способ получил название «экспертного». Далее проводилось тестирование. И если в обеих группах большинство отвечало в соответствии с ожиданиями авторов, то тест признавался валидным.

Таким образом, эмпирические методы обоснования валидности просуществовали до 50ых годов. Стали считать, что доказывать валидность можно не только с помощью практики. Анализ и соответствие теории и практики. Валидность по содержанию, сравнение с программой исследования и содержания теста. Сравнение облегчается, когда в программе выделяется проблема, цель и основные понятия. Концептуальная валидность, так как психологи интересуются соотнесением научных понятий с эмпирически наблюдаемыми фактами.

В эмпирический методах доказательства валидностиособую роль играют внешние критерии, которые служат доказательством валидности. Американские психологи Тиффани и МакКормик провели анализ использования внешних критериев и выделили их 4 типа:

  1. Критерий исполнения – количество выполненной работы, темп роста мастерства

  2. Субъективный критерий – включение различных видов ответов, которые отражают отношение к чему-либо.

  3. Физиологический критерий — используется при изучении окружающей среды.

  4. Критерий случайности – учет многих факторов.

Внешние критерии должны отвечать требованиям релевантности, свободы от помех, надёжности. Релевантность – смысловое соответствие между тестом и независимым от него жизненноважным критерием. Свобода от помех (контаминация) считается важной так как на деятельность влияет сам человек и условия его труда. Надёжность – постоянство результатов

Диагностическая (конкурентная) В. отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической В. имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа В. может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической В. оценки умственного развития, получаемой с помощью данной методики.

Валидность содержательная (внутренняя, логическая) — комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная В. требует представления в заданиях теста всех важнейших составных элементов исследуемого явления.

Дифференциальная В. — валидность, рассматривающая внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание Д.В. может быть иллюстрировано на примере тестов интересов, которые в своем большинстве обычно умеренно коррелируют с показателями общей академической успеваемости, однако в различной степени связаны с успеваемостью по отдельным дисциплинам. В. д. особенно важна как показатель диагностической ценности методик, используемых в профотборе.

Иллюзорная В. (ложная) — иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п. Такого рода утверждения принимаются почти всеми людьми в качестве точного описания их личности, что создает почву для деятельности различного рода прорицателей и предсказателей.

Инкрементная В. — (англ. incremental — приращение, прибыль) — один из компонентов критериальной валидности, прогностической валидности теста, отражающий практическую ценность методики при проведении отбора. В. и. может быть выражена количественно при помощи валидности коэффициента.

Консесусная В. (consensual validity) — тип валидности, основывающейся на установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов, хорошо знакомых с теми лицами, которые были подвергнуты тестированию. Понятие и процедура В. к. введены Р. Мак-Краэ в 1982 г. с целью обеспечения валидизации опросников личностных, которая нередко затруднена ( а иногда и невозможна) в связи с отсутствием необходимых для установления валидности критериев.

Конструктная В.—один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д.

Критериальная В. — комплекс характеристик, включающий валидность текущую и прогностическую методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве валидизации критерия выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности и т. д. При валидизации тестов достижений результат измерений сравнивается с мнением педагогов о знаниях обследуемого в определенной области, с академическими оценками, контрольными проверками и т. д. В случае валидизации профориентационных тестов и методик тестовые оценки сравниваются как с экспертными оценками коллег и руководителей, так и с объективными показателями достижений в профессиональной сфере.

Очевидная В. — пред ставление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. В. о. не является компонентом объективно устанавливаемой валидности. Вместе с тем высокая В. о. в большинстве случаев является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом.

Достаточный уровень В. о. особенно значим для методик обследования взрослых. Представления испытуемых и пользователей психодиагностической информацией о В. о. в немалой степени определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. В. о. существенно улучшает применение понятных формулировок и терминов, а также заданий, по содержанию являющихся наиболее естественными с учетом возрастной, половой, профессиональной специфики испытуемых. Неадекватно завышенная В. о. способствует более выраженному проявлению эффекта контаминации критерия.

В. о. иногда носит название внешней (face validity), или «доверительной» (faith validity), валидности.

В. по возрастной дифференциации — один из компонентов валидности конструктной, связанный с возрастной динамикой изменений исследуемого качества. Характеристика валидности по конструкту здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта или свойства.

Прогностическая В. — информация о том, с какой степенью точности и обоснованности методика {тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. В. п. отражает временной интервал, на который распространяется обоснование такого суждения. Сведения о В. п. имеют самое непосредственное отношение к раскрытию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т. з. экстраполирования результатов на будущее.

В качестве валидизации критерия могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т. д. Процедура определения В. «п. опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т. п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Валидность текущая и В. п. отражают разные цели применения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности — с другой.

Важность показателей В. п. при анализе тестовых процедур, направленных на отбор, подчеркивается введением специального понятия валидности инкрементной. Этот показатель В. п. дает информацию о том, насколько улучшается процедура отбора с применением данного теста по сравнению с традиционной (основывающейся лишь на формальных сведениях о предыдущей деятельности, анализе документов личного дела, беседах).

Содержательная В. — один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.

Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.

Текущая В. (диагностическая, конкурентная)— характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, притязаний, вербальный интеллект, тревожность и т. д. В более узком значении В. т. — установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования.

Своеобразным показателем В. т. является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка и т. д.).

Экологическая В. — валидность теста по отношению к измеряемому свойству в контексте определенной ситуации. В. э. является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В. Н. Дружинин, 1990).

Эмпирическая В.—совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области валидности критериальной и двум ее видам: валидности текущей и валидности прогностической. Если при определении валидности содержательной оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников информации (для вынесения суждения о соответствии заданий теста содержанию предмета измерения), то В. э. измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений — оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна).

4 Основные характеристики хорошего теста

Следующие пункты выделяют четыре основные характеристики хорошего теста. Характеристики: 1. Достоверность 2. Надежность 3. Объективность 4. Нормы.

Признак № 1. Срок действия:

Первой важной характеристикой хорошего теста является действительность. Тест должен действительно измерять то, для чего он был разработан. Валидность часто оценивается путем изучения того, насколько результаты теста соответствуют некоторым критериям, то есть тому же поведению, личным достижениям или характеристикам, которые отражают атрибут, который тест предназначен для измерения.

Оценка достоверности любого теста требует тщательного выбора соответствующей меры критерия, и разумные люди могут не согласиться с тем, какая мера критерия лучше. То же самое и с тестом на интеллект. Разумные люди могут не соглашаться относительно наилучшего критерия оценки интеллекта в школьных оценках, рейтингах учителей или некоторых других показателях.

Если мы хотим проверить достоверность теста, мы должны выбрать один или несколько критериев для атрибута, для проверки которого предназначен тест.После того, как критерии критериев определены, можно сравнить баллы людей по этим критериям с их оценками на тесте и проверить степень соответствия тому, что они говорят нам о валидности теста.

Только действительный тест может дать полезную информацию о людях, но поправочные коэффициенты достоверности никогда не бывают такими высокими, как коэффициенты надежности. Хотя мы пытаемся добиться надежности 90 или 60, валидность, у которой есть поправки между оценками тестов и критериями, не выше, чем у нескольких тестов с низкой, но значительной валидностью, иногда может быть полезной, если они даны вместе как батарея и их результаты рассматривались вместе.Одна из причин того, что коэффициенты достоверности ниже, чем коэффициент надежности, заключается в том, что надежность теста устанавливает пределы того, насколько достоверным может быть тест.

Характеристика № 2. Надежность:

Хороший тест должен быть высоконадежным. Это означает, что тест должен давать схожие результаты, даже если его проводят разные тестировщики, разные люди выставляют оценки в разных формах теста и один и тот же человек сдает этот тест два или более раз.Надежность обычно проверяется путем сравнения различных наборов баллов.

На практике психологические тесты никогда не бывают абсолютно надежными. Одна из причин заключается в том, что со временем у людей действительно происходят изменения; например, человек, получивший низкие баллы в своей группе на начальном тестировании, может развить новые навыки, которые поднимут его на более высокую позицию в группе во время второго тестирования.

Несмотря на такие реальные изменения, лучший тест интеллекта обычно дает коэффициент корреляции надежности 90 или выше (где 1.00) указывает на полное соответствие, а 0,00 указывает на любое числовое соответствие.

Если используются тесты с низкой надежностью, их результаты следует интерпретировать с осторожностью. Чтобы повысить надежность, мы должны убедиться, что тест проводится и оценивается по действительно стандартной процедуре. Унифицирование процедуры тестирования может сделать тест более надежным.

Признак № 3. Объективность:

Под объективностью средства измерений понимается степень, в которой одинаково компетентные пользователи получают одинаковые результаты.Это предполагает субъективный фактор. Тест является объективным, когда он устраняет предвзятость мнения секретаря. Признание объективности качества в тестировании во многом повлияло на разработку возникающих и объективных типовых тестов.

Объективные тесты измеряют или оценивают все человеческое развитие в трех областях: когнитивном, аффективном и психомоторном. Как видно из названия, они основаны на конкретной цели обучения и оценки.Они обеспечивают правильное направление и, таким образом, оптимизируют весь процесс оценки. Все эти тесты всеобъемлющие.

Признак № 4. Нормы:

Хорошему тесту нужны не только надежность и достоверность, но и нормы. Нормы — это наборы баллов, полученные тем, кто предназначен для тестирования. Баллы, полученные этими группами, служат основой для интерпретации любой индивидуальной оценки.

Чтобы понять, почему нормы важны, представим тест, в котором их нет, предположим, что человек сдает недавно разработанный тест на интеллектуальные способности и требует 437 баллов I.D это «Хорошая оценка», если человек счастлив или несчастен. Очевидно, что оценка без какой-либо основы для сравнения не очень полезна.

Фактически, первое, что может сделать человек, попавший в конфликтную ситуацию, — это найти других, сдавших тест, чтобы узнать, как его или ее баллы сравниваются с их результатами. Психологи делают то же самое, когда разрабатывают нормы. Они ищут группы сравнения, результаты которых на тесте могут служить стандартом для сравнения для каждого человека, который сдает тест позже.

Надежность и последовательность в психометрии

Когда мы называем кого-то или что-то надежным, мы имеем в виду, что они последовательны и надежны. Надежность также является важной составляющей хорошего психологического теста. В конце концов, тест не был бы очень ценным, если бы он был непоследовательным и каждый раз давал разные результаты. Как психологи определяют надежность? Какое влияние это оказывает на психологическое тестирование?

Надежность — это постоянство меры.Тест считается надежным, если мы неоднократно получаем один и тот же результат. Например, если тест предназначен для измерения черты характера (например, интроверсии), то каждый раз, когда тест проводится субъекту, результаты должны быть примерно одинаковыми. К сожалению, точно рассчитать надежность невозможно, но ее можно оценить по-разному.

Тестирование-повторное тестирование надежности

Надежность повторного тестирования — это мера последовательности психологического теста или оценки.Такая надежность используется для определения устойчивости теста во времени. Надежность повторного тестирования лучше всего использовать для вещей, которые стабильны во времени, например, для интеллекта.

Надежность повторного тестирования измеряется путем проведения теста дважды в два разных момента времени. Этот тип надежности предполагает, что не будет никаких изменений в качестве или измеряемой конструкции. В большинстве случаев надежность будет выше, если между тестами прошло мало времени.

Метод повторного тестирования — это лишь один из способов определения надежности измерения.Другие методы, которые можно использовать, включают надежность между экспертами, внутреннюю согласованность и надежность параллельных форм.

Важно отметить, что надежность повторного тестирования относится только к согласованности теста, но не обязательно к достоверности результатов.

Надежность между оценщиками

Этот тип надежности оценивается двумя или более независимыми судьями, оценивающими тест. Затем оценки сравниваются для определения согласованности оценок экспертов.

Один из способов проверить надежность между экспертами — это попросить каждого эксперта присвоить каждому элементу теста оценку. Например, каждый оценщик может выставить баллы по шкале от 1 до 10. Затем вы должны вычислить корреляцию между двумя оценками, чтобы определить уровень надежности между оценщиками.

Еще один способ проверки надежности между оценщиками состоит в том, чтобы оценщики определяли, в какую категорию попадает каждое наблюдение, а затем вычисляли процент согласия между оценщиками. Таким образом, если оценщики соглашаются 8 раз из 10, тест имеет 80% -ную степень надежности между оценщиками.

Надежность параллельных форм

Надежность параллельных форм оценивается путем сравнения двух разных тестов, созданных с использованием одного и того же контента. Это достигается путем создания большого пула элементов теста, которые измеряют одинаковое качество, а затем случайного разделения элементов на два отдельных теста. Затем эти два теста следует проводить одновременно с одними и теми же испытуемыми.

Надежность внутренней согласованности

Эта форма надежности используется для оценки согласованности результатов по элементам одного и того же теста.По сути, вы сравниваете элементы теста, которые измеряют одну и ту же конструкцию, чтобы определить внутреннюю согласованность тестов.

Когда вы видите вопрос, который кажется очень похожим на другой вопрос теста, это может означать, что эти два вопроса используются для оценки надежности.

Поскольку эти два вопроса схожи и предназначены для измерения одного и того же, тестируемый должен ответить на оба вопроса одинаково, что указывало бы на внутреннюю непротиворечивость теста.

Факторы влияния

Существует ряд различных факторов, которые могут повлиять на надежность меры.Во-первых, что, возможно, наиболее очевидно, важно, чтобы объект, который измеряется, был достаточно стабильным и непротиворечивым.Если измеряемая переменная является чем-то, что регулярно изменяется, результаты теста не будут согласованными.

Некоторые аспекты тестовой ситуации также могут повлиять на надежность. Например, если тест проводится в очень жаркой комнате, респонденты могут отвлекаться и быть не в состоянии выполнить тест в меру своих возможностей. Это может повлиять на надежность измерения.

Другие вещи, такие как усталость, стресс, болезнь, мотивация, плохие инструкции и отвлекающие факторы окружающей среды, также могут повредить надежности.

Надежность и действительность

Важно отметить, что то, что тест надежен, не означает, что он действителен. Валидность относится к тому, действительно ли тест измеряет то, что, по его утверждению, измеряется.

Рассматривайте надежность как меру точности, а достоверность как меру точности.В некоторых случаях тест может быть надежным, но недействительным.

Например, представьте, что соискатели проходят тест, чтобы определить, обладают ли они определенной личностной чертой. Хотя тест может давать стабильные результаты, на самом деле он может не измерять черту, которую он призван измерять.

A Primer по валидности инструментов оценки

J Grad Med Educ. 2011 июн; 3 (2): 119–120.

Автор, ответственный за переписку: Гейл М. Салливан, доктор медицины, магистр здравоохранения, главный редактор, Journal of Graduate Medical Education , 515 N State St, Suite 2000, ude.chcu.1osn@navillusg Совет по аккредитации авторских прав для последипломного медицинского образования Эта статья цитируется в других статьях в PMC.

1. Что такое надежность?

1

Надежность относится к тому, дает ли инструмент оценки одинаковые результаты каждый раз, когда он используется в одной и той же обстановке с одним и тем же типом субъектов. Надежность по существу означает согласованных или надежных результатов . Надежность — это часть оценки достоверности.

2.Что такое действительность?

1

Достоверность исследования означает, насколько точно исследование отвечает на вопрос исследования или насколько убедительны выводы исследования. Для показателей результатов, таких как опросы или тесты, валидность относится к точности измерения. Здесь валидность означает, насколько хорошо инструмент оценки фактически измеряет основной интересующий результат. Валидность — это не свойство самого инструмента, а скорее интерпретация или конкретная цель инструмента оценки с конкретными настройками и учащимися.

Инструменты оценки должны быть надежными и действительными, чтобы результаты исследования были достоверными. Таким образом, для каждого инструмента оценки, используемого для измерения результатов исследования, необходимо проверить надежность и валидность и указать в них или цитировать ссылки. Примеры оценок включают в себя анкету с отзывами жителей, оценку курса, письменный тест, рейтинги наблюдателей в клинической симуляции, опрос для оценки потребностей и оценку учителей. Недостаточно использовать инструмент с высокой надежностью; другие критерии достоверности необходимы для подтверждения достоверности вашего исследования.

3. Как измеряется надежность?

2 4

Надежность можно оценить несколькими способами; метод будет зависеть от типа инструмента оценки. Иногда надежность называют внутренней валидностью или внутренней структурой инструмента оценки.

Для внутренней согласованности Создаются от 2 до 3 вопросов или пунктов, которые измеряют одну и ту же концепцию, и вычисляется разница между ответами. То есть измеряется корреляция между ответами.

Альфа Кронбаха — это тест на внутреннюю непротиворечивость, который часто используется для расчета значений корреляции между ответами на вашем инструменте оценки. 5 Альфа Кронбаха вычисляет корреляцию между всеми переменными в каждой комбинации; оценка высокой надежности должна быть как можно ближе к 1.

Для теста / повторного тестирования тест должен каждый раз давать одни и те же результаты, при условии, что нет интервальных изменений в том, что вы измеряете, и они часто измеряются как корреляция, с Pearson r.

Тест / повторный тест — это более консервативная оценка надежности, чем альфа Кронбаха, но для этого требуется как минимум 2 введения инструмента, тогда как альфа Кронбаха может быть рассчитана после одного введения. Для выполнения теста / повторного тестирования вы должны иметь возможность минимизировать или исключить любые изменения (т. Е. Обучение) в условиях, которые вы измеряете, между двумя измерениями. Используйте инструмент для оценки 2 раза для каждого предмета и вычислите корреляцию между 2 различными измерениями.

Межэкспертная надежность используется для изучения влияния разных оценщиков или наблюдателей, использующих один и тот же инструмент, и обычно оценивается по процентному соглашению, каппе (для бинарных результатов) или тау Кендалла.

Другой метод использует дисперсионный анализ (ANOVA) для генерации коэффициента обобщаемости , для количественной оценки того, какая ошибка измерения может быть отнесена к каждому потенциальному фактору, например, различным тестовым заданиям, предметам, оценщикам, датам введения и т. Д. .Эта модель смотрит на общую надежность результатов. 6

5. Как определяется срок действия инструмента оценки?

4 7 , 8

Для действительности инструментов оценки требуется несколько источников доказательств, чтобы обосновать, что инструмент измеряет то, что он должен измерять. , 9,10 Определение достоверности можно рассматривать как построение основанного на доказательствах аргумента относительно того, насколько хорошо инструмент измеряет то, что он должен делать.Свидетельства могут быть собраны для поддержки или не поддержки конкретного использования инструмента оценки. Доказательства можно найти в содержании , процессе ответа, отношениях с другими переменными, последствиях и .

Содержимое включает описание шагов, используемых для разработки инструмента. Предоставьте информацию, например, о том, кто создал инструмент (национальные эксперты придавали бы большую достоверность, чем местные эксперты, которые, в свою очередь, имели бы большую значимость, чем неспециалисты), и другие шаги, поддерживающие инструмент, имеют соответствующее содержание.

Процесс ответа включает информацию о том, действительно ли действия или мысли испытуемых соответствуют тесту, а также информацию об обучении оценщиков / наблюдателей, инструкции для тестируемых, инструкции по выставлению оценок и ясность этих материалов.

Связь с другими переменными включает корреляцию результатов нового инструмента оценки с другими результатами деятельности, которые, вероятно, будут такими же. Если существует ранее принятый «золотой стандарт» измерения, коррелируйте результаты прибора с показателями испытуемого по «золотому стандарту».Во многих случаях «золотого стандарта» не существует, и проводится сравнение с другими оценками, которые кажутся разумными (например, экзамены по переподготовке, объективные структурированные клинические экзамены, ротационные «оценки» и аналогичные опросы).

Последствия означает, что при наличии баллов по показателям «годен / не годен» или «отсечен» результаты, сгруппированные в каждой категории, имеют тенденцию к аналогичным результатам в других условиях. Кроме того, если участники с более низкими показателями пройдут дополнительное обучение и их оценки улучшатся, это повысит надежность инструмента.

Различные типы инструментов требуют акцентирования внимания на разных источниках достоверности доказательств. 7 Например, для оценки результатов работы жильцов наблюдателями согласие между экспертами может быть ключевым, тогда как для обследования, измеряющего уровень стресса жильцов, более важным может быть отношение к другим переменным. Для экзамена с множественным выбором содержание и последствия могут быть важными источниками доказательств действительности. Для оценок с высокими ставками (например, экзаменов комиссии) потребуются существенные доказательства, подтверждающие обоснованность. 9

Существуют также другие типы доказательств действительности, которые здесь не обсуждаются.

6. Как исследователи могут повысить надежность своих инструментов оценки?

Сначала выполните поиск в литературе и используйте ранее разработанные критерии оценки результатов. Если инструмент необходимо модифицировать для использования с вашими объектами или обстановкой, измените и опишите, как это сделать, прозрачным образом. Включите достаточно деталей, чтобы читатели могли понять потенциальные ограничения этого подхода.

Если инструменты оценки недоступны, используйте экспертов по содержанию, чтобы создать свои собственные и опробовать инструмент, прежде чем использовать его в своем исследовании. Проверьте надежность и включите в свой документ как можно больше источников доказательств действительности. Обсудите ограничения этого подхода открыто.

7. Каковы ожидания редакторов

JGME в отношении инструментов оценки, используемых в исследованиях последипломного медицинского образования?

Редакторы JGME ожидают, что обсуждение валидности ваших инструментов оценки будет прямо упомянуто в вашей рукописи, в разделе методов.Если вы используете ранее изученный инструмент в той же обстановке, с теми же предметами и для той же цели, достаточно цитировать ссылку (-ы). Дополнительное обсуждение вашей адаптации необходимо, если вы (1) модифицировали ранее изученные инструменты; (2) используют инструмент в разных условиях, предметах или целях; или (3) используют другую интерпретацию или пороговые значения. Обсудите, могут ли изменения повлиять на надежность или действительность инструмента.

Исследователям, создающим новые инструменты оценки, необходимо указать процесс разработки, меры надежности, результаты пилотных проектов и любую другую информацию, которая может придать достоверность использованию инструментов собственного производства.Прозрачность повышает доверие.

В общем, мало информации можно почерпнуть из исследований на одном месте с использованием непроверенных инструментов оценки; эти исследования вряд ли будут приняты к публикации.

8. Каковы полезные ресурсы для проверки надежности и достоверности инструментов оценки?

Ссылки на эту редакционную статью являются хорошей отправной точкой.

Сноски

Гейл М. Салливан, доктор медицины, магистр здравоохранения, — главный редактор журнала Journal of Graduate Medical Education .

Ссылки

1. Американская ассоциация исследований в области образования, Американская психологическая ассоциация, Национальный совет по измерениям в образовании. Стандарты педагогического и психологического тестирования. Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования; 1999. [Google Scholar] 2. Даунинг С.М. Надежность: о воспроизводимости данных оценки. Med Educ. 2004. 38 (9): 1006–1012. [PubMed] [Google Scholar] 3. Бекман Т.Дж., Гош А.К., Кук Д.А., Эрвин П.Дж., Мандеркар Дж. Насколько надежны оценки клинического обучения ?: обзор опубликованных инструментов.J Gen Intern Med. 2004. 19 (9): 971–977. [Бесплатная статья PMC] [PubMed] [Google Scholar] 4. Повар Д.А., Бекман Т.Дж. Современные концепции валидности и надежности психометрических инструментов. Am J Med. 2006. 119 (2): 166e7–166e16. [PubMed] [Google Scholar] 6. Бреннан Р.Л. Теория обобщаемости. Нью-Йорк, штат Нью-Йорк: Спрингер-Верлаг; 2001. [Google Scholar] 7. Даунинг С.М. Валидность: от содержательной интерпретации данных оценки. Med Educ. 2003. 37 (9): 830–837. [PubMed] [Google Scholar] 8. Даунинг С.М., Халдына TM. Угрозы действительности: преодоление помех предлагаемым интерпретациям данных оценки.Med Educ. 2004. 38 (3): 327–333. [PubMed] [Google Scholar] 9. Кейн М. Проверка программ тестирования с высокими ставками. Учебно-методические вопросы Прак. 2002; 1: 31–41. [Google Scholar] 10. Кейн М. Оценка профессиональной компетентности. Eval Health Prof. 1992; 15 (2): 163–182. [PubMed] [Google Scholar]

4 теста как измерения | Высокие ставки: тестирование на отслеживание, продвижение по службе и выпуск

Кук Т.Д. и Д.Т. Кэмпбелл 1979 Квази-экспериментирование: вопросы проектирования и анализа для полевых настроек .Чикаго, Иллинойс: Рэнд МакНалли.

Кронбах, Л.Дж. Проверка испытаний 1971 г. Стр. 443–507 в Образовательные измерения , 2-е издание, Р.Л. Торндайк, изд. Вашингтон, округ Колумбия: Американский совет по образованию.

1976 Равенство в выборе: где сходятся психометрия и политическая философия. Журнал образовательных измерений 13 (1): 31–41.

Кронбах, Л.Дж., и Г.К. Глезер 1965 Психологические тесты и решения персонала , 2-е издание. Урбана: Университет Иллинойса Press.

Embretson (Whitely), S. 1983 Конструктивная валидность: конструируемое представление в сравнении с номотетическим диапазоном. Психологический бюллетень 93: 179–197.

Eyde, L.D., G.J. Робертсон, С. Круг, К. Морленд, А.Г. Робертсон, К. Шеван, П. Харрисон, Б. Порч, А.Л. Хаммер, Э.С. Примофф 1993 Ответственное использование тестов: тематические исследования для оценки человеческого поведения . Вашингтон, округ Колумбия: Американская психологическая ассоциация.


Фельдт, Л.С. и Р.Л. Бреннан 1989 Надежность. Стр. 105–146 в Образовательные измерения , 3-е издание, Р.Л. Линн, изд. Нью-Йорк: Американский совет по образованию и Macmillan Publishing Co.

Фергюсон, Г.А. 1956. О переводе и способностях человека. Канадский журнал психологии 10: 121–131.


Гордон, Э. 1998 Человеческое разнообразие и справедливая оценка. В оценке в высшем образовании , С. Мессик, изд. Махва, Нью-Джерси: Эрлбаум.

Гросс А.Л. и В. Су 1975 Определение «справедливой» и «беспристрастной» модели выбора: вопрос коммунальных услуг. Журнал прикладной психологии 60: 345–351.


Объединенный комитет по практике тестирования 1988 Кодекс честной практики тестирования в образовании . Вашингтон, округ Колумбия: Национальный совет по измерениям в образовании.


Кейн, M.T. 1992 Подход к обоснованности, основанный на аргументах. Психологический бюллетень 112 (ноябрь): 527–535.


Леннон, Р.Т. 1956 г. Допущения, лежащие в основе использования достоверности содержания. Образовательные и психологические измерения 16: 294–304.

Linn, R.L.1973 Добросовестное пробное использование при отборе. Обзор исследований в области образования 43: 139–161.

Loevinger, J. 1957 Объективные тесты как инструменты психологической теории. Психологические отчеты 3: 635–694 (Приложение 9 к монографии).

(PDF) Характеристики хорошего теста

Характеристики хорошего теста

1.Срок действия:

Первая важная характеристика хорошего теста — это действительность. Тест

должен действительно измерять то, для чего он был разработан. Валидность часто оценивается

путем изучения того, насколько баллы теста соответствуют некоторым критериям,

— это такое же поведение, личные достижения или характеристики, которые

отражают атрибут, который тест предназначен для измерения.

Оценка достоверности любого теста требует тщательного выбора подходящего критерия

, и разумные люди могут не согласиться с тем, какой критерий

является лучшим.То же самое и с тестом на интеллект.

Разумные люди могут не соглашаться относительно того, измеряет ли лучший критерий интеллект

в школьных оценках, рейтингах учителей или некоторых других показателях.

Если мы хотим проверить достоверность теста, мы должны выбрать один или несколько критериев

для атрибута, для проверки которого предназначен тест. После определения критериев

оценки людей по критериям

можно сравнить с их оценками на тесте, а степень соответствия

может быть проверена на предмет того, что она говорит нам о валидности

теста.

2. Надежность:

Хороший тест должен быть высоконадежным. Это означает, что тест должен дать

одинаковых результатов, даже если его проводят разные тестировщики, даются разные оценки

человек в разных формах теста и один и тот же человек

сдает этот тест два или более раз. Надежность

обычно проверяется путем сравнения различных наборов баллов.

На практике психологические тесты никогда не бывают абсолютно надежными.Одна из причин

заключается в том, что со временем у людей действительно происходят изменения; например, человек

, получивший низкий балл в своей группе на начальном тестировании, может развить новые навыки

, которые поднимут его на более высокую позицию в группе во время второго тестирования

.

Несмотря на такие реальные изменения, лучший тест интеллекта обычно дает

коэффициент корреляции надежности 90 или выше (где 1,00), означает

электронных уроков QMSS | Действительность и надежность

Для каждого интересующего аспекта и конкретного вопроса или набора вопросов существует огромное количество способов задать вопросы.Хотя руководящим принципом должны быть конкретные цели исследования, есть вопросы как к лучшему, так и к худшему для любой конкретной операции. Как оценить меры?

Двумя основными критериями оценки при любом измерении или наблюдении являются:

  1. Измеряем ли мы то, что намереваемся измерить.
  2. Указывает, дает ли один и тот же процесс измерения одинаковые результаты.

Эти два понятия — достоверность и надежность.

Надежность связана с вопросами стабильности и согласованности — дает ли один и тот же измерительный инструмент стабильные и последовательные результаты при повторении во времени. Подумайте о процессах измерения в другом контексте — в строительстве или деревообработке рулетка является очень надежным измерительным инструментом.

Допустим, у вас есть кусок дерева длиной 2 1/2 фута. Вы измеряете его один раз с помощью рулетки
— вы получаете размер в 2 1/2 фута. Измерьте его еще раз, и вы получите 2 1/2 фута.Измеряйте его несколько раз, и вы неизменно получаете результат в 2 1/2 фута. Рулетка дает надежные результаты.

Действительность — это степень, в которой мы измеряем то, что надеемся измерить (и то, что, по нашему мнению, мы измеряем). Продолжая пример измерения куска дерева, рулетка, созданная с точным шагом в дюймах, футах и ​​т. Д., Также должна дать достоверные результаты. Измерение этого куска дерева «хорошей» рулеткой должно дать правильное измерение длины дерева.

Чтобы применить эти концепции к социальным исследованиям, мы хотим использовать надежные и действенные инструменты измерения. Мы хотим, чтобы вопросы, которые давали последовательные ответы при многократном задании, — это надежность. Точно так же нам нужны вопросы, на которые респонденты дают точные ответы — это обоснованность.

Надежность

Надежность относится к состоянию, при котором процесс измерения дает согласованные оценки (при неизменном измеренном явлении) по сравнению с повторными измерениями.Возможно, самый простой способ оценить надежность — убедиться, что они соответствуют следующим трем критериям надежности. Меры с высокой надежностью должны демонстрировать все три.

Тестирование-повторное тестирование надежности

Когда исследователь применяет один и тот же инструмент измерения несколько раз — задает один и тот же вопрос, следует одним и тем же исследовательским процедурам и т. Д. — получает ли он / она последовательные результаты, предполагая, что не было изменений в том, что он / она измеряет? Это действительно самый простой метод оценки надежности — когда исследователь дважды задает одному и тому же человеку один и тот же вопрос («Как вас зовут?»), Получает ли он / она оба раза одни и те же результаты.Если да, то мера имеет надежность повторного тестирования. Измерение куска дерева, о котором говорилось ранее, имеет высокую надежность повторных испытаний.

Надежность между пунктами

Это измерение, которое применяется к случаям, когда несколько элементов используются для измерения одной концепции
. В таких случаях ответы на набор вопросов, предназначенных для измерения какого-то одного понятия (например, альтруизма), должны быть связаны друг с другом.

Надежность между наблюдателями

Надежность Interobserver касается степени, в которой разные интервьюеры или наблюдатели, использующие одну и ту же меру, получают одинаковые результаты.Если разные наблюдатели или интервьюеры используют один и тот же инструмент для оценки одного и того же, их оценки должны совпадать. Например, надежность наблюдателя при наблюдательной оценке взаимодействия родителей и детей часто оценивается путем показа двум наблюдателям видеозаписи, на которой родитель и ребенок играют. Этим наблюдателям предлагается использовать инструмент оценки для оценки взаимодействия между родителем и ребенком на ленте. Если инструмент имеет высокую надежность между наблюдателями, оценки двух наблюдателей должны совпадать.

Срок действия

Повторяю, валидность относится к степени, в которой мы измеряем то, что мы надеемся измерить (и то, что, по нашему мнению, мы измеряем). Как оценить достоверность набора измерений? Действительная мера должна удовлетворять четырем критериям.

Лицевая действительность

Этот критерий представляет собой оценку того, появляется ли мера, на первый взгляд, для измерения концепции, для измерения которой она предназначена. Это очень минимальная оценка — если мера не может удовлетворять этому критерию, то другие критерии не имеют значения.Мы можем думать о наблюдательных мерах поведения, которые были бы признаны достоверными. Например, нанесение удара другому человеку могло бы считаться показателем агрессии. Точно так же предложение помощи незнакомцу соответствовало бы критерию достоверности помощи. Однако расспросы людей об их любимом фильме для измерения расовых предрассудков не имеют большого значения.

Срок действия

Достоверность содержания касается степени, в которой мера адекватно представляет все аспекты концепции.Рассмотрите ряд вопросов, которые служат индикаторами депрессии (не хочется есть, потеряли интерес к вещам, которые обычно нравятся вам, и т. Д.). Если бы существовали другие виды обычного поведения, которые отмечают человека как депрессивного, которые не были включены в индекс, то индекс имел бы низкую достоверность содержания, поскольку он неадекватно отражал
всех аспекта концепции.

Срок действия по критерию

Критериальная валидность применяется к инструментам, которые не были разработаны для использования в качестве индикатора конкретной черты или поведения в настоящее время или в будущем.Например, думайте о тесте по вождению как о социальном измерении, имеющем довольно хорошую прогностическую ценность. Другими словами, успеваемость человека на экзамене по вождению хорошо коррелирует с его / ее способностями к вождению.

Срок действия конструкции

Но для многих вещей, которые мы хотим измерить, не обязательно имеется подходящий критерий. В этом случае обратитесь к построению валидности, которая касается степени, в которой мера связана с другими мерами, как это определено теорией или предыдущими исследованиями.Суммируется ли мера с другими переменными так, как мы ожидаем? Хороший пример этой формы валидности можно найти в ранних исследованиях самооценки — самоуважение относится к чувству собственного достоинства или самоуважения. Клинические наблюдения в психологии показали, что люди с низкой самооценкой часто страдают депрессией. Таким образом, чтобы установить конструктивную валидность измерения самооценки, исследователи показали, что у людей с более высокими показателями самооценки были более низкие показатели депрессии, в то время как у людей с низкой самооценкой были более высокие показатели депрессии.

Проверка достоверности и надежности в сравнении с

Итак, какова взаимосвязь между достоверностью и надежностью? Эти два понятия не обязательно идут рука об руку.



В лучшем случае у нас есть показатель, обладающий одновременно высокой достоверностью и высокой надежностью. Он дает стабильные результаты при повторном применении и точно отражает то, что мы надеемся представить.

Можно иметь показатель, который имеет высокую надежность, но низкую достоверность — показатель, который соответствует получению неверной информации или последовательному отсутствию оценки.* Также возможно иметь тот, который имеет низкую надежность и низкую валидность — несовместим и не соответствует цели.

Наконец, невозможно иметь меру с низкой надежностью и высокой достоверностью — вы не сможете действительно получить то, что хотите или что вас интересует, если ваша мера сильно колеблется.

Доказательства и процессуальные характеристики «надежных» предложений в социальных науках на JSTOR

Абстрактный

Как различия в исследовательских процедурах повлияли на надежность предложений, выдвинутых в американских журналах, посвященных социальным наукам? В этом исследовании представлены данные по ста двадцати независимо проверенным предложениям.Когда «более надежные» утверждения были идентифицированы путем их подтверждения в независимых тестах репликации, оказалось, что исходные формулировки этих утверждений в значительной степени связаны со следующими свидетельствами и характеристиками процедуры: (а) представлены данные, интерпретирующие все концепции в предложениях; (б) «большое» количество доказательств; (c) изначально абстрактная, «организованная» форма данных; (d) процедуры систематического отбора; (e) количественный анализ данных; и (f) явный критерий подтверждения.

Информация о журнале

Текущие выпуски теперь размещены на веб-сайте Chicago Journals. Прочтите последний выпуск. Основанный в 1895 году как первый в США научный журнал в этой области, American Journal of Социология (AJS) представляет собой новаторскую работу из всех областей социологии с упором на построение теории и инновационные методы. AJS стремится обращаться к широкому кругу читателей-социологов и открыт для вкладов представителей различных социальных наук — политологии, экономики, истории, антропологии и статистики в дополнение к социологии, — которые серьезно привлекают социологическую литературу к созданию новых способов понимания социальной сферы. .AJS предлагает обширный раздел рецензий на книги, который определяет наиболее выдающиеся работы как начинающих, так и устойчивых ученых в области социальных наук. Время от времени появляются заказные обзорные эссе, предлагающие читателям сравнительное углубленное изучение известных названий.

Информация об издателе

С момента своего основания в 1890 году в качестве одного из трех основных подразделений Чикагского университета, University of Chicago Press взяла на себя обязательство распространять стипендии высочайшего стандарта и публиковать серьезные работы, способствующие образованию и укреплению общественного понимания. , и обогатить культурную жизнь.Сегодня Отдел журналов издает более 70 журналов и сериалов в твердом переплете по широкому кругу академических дисциплин, включая социальные науки, гуманитарные науки, образование, биологические и медицинские науки, а также физические науки.

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *