Валидность в психологии: Валидность (психология) — это… Что такое Валидность (психология)?

Валидность (психология) — это… Что такое Валидность (психология)?

Вали́дность (англ. validity) — мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.

Как в экспериментальной психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.

Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).

Способы установления валидности теста

Существуют четыре основных способа установления валидности теста.

I. Оценка очевидной валидности.

Очевидная валидность – валидность, при которой оценивается общее соответствие теста его назначению.

II. Оценка содержательной валидности.

Содержательная валидность предполагает, что тест обнаруживает в себе полный набор заданий для измерения определенной черты.

III. Оценка конструктной валидности.

Этот способ проверки заключается в проведении продуманных экспериментов. Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи тестовых оценок с другими показателями. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями. Подход второй — «дивергентная валидизация» (англ.). Проверка валидности здесь заключается в том, что тест не должен измерять никакой черты, с которой он теоретически и не должен быть связан.

IV. Оценка прогностической валидности.

Прогностическая валидность заключается в том, что психологический тест часто используется для прогноза поведения. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что тест был валидным. Но для характеристики многих видов деятельности этого метода не достаточно.

Требования к идеальному тесту

  1. Минимальное количество заданий. Однако чем больше личностных факторов хочет измерить тестирующий, тем большее количество вопросов целесообразнее задать тестируемому.
  2. Тест должен соответствовать целевой группе, на которую он направлен. Верно то утверждение, что тест, направленный на одну группу, в результате тестирования которой были получены достоверные результаты, может быть невалидным в отношении другого целевого сегмента.
  3. Адаптация теста. Применяется в случае проведения теста в иноязычной стране.

Виды валидности

  • Внешняя валидность
  • Внутренняя валидность
  • Экологическая валидность
  • Дифференциальная валидность
  • Иллюзорная валидность
  • Инкрементная валидность
  • Консенсусная валидность
  • Критериальная валидность
  • Очевидная валидность
  • Валидность по возрастной дифференциации
  • Прогностическая валидность
  • Содержательная валидность
  • Текущая валидность
  • Эмпирическая валидность

См. также

Ссылки

Валидация в психологии — определение термина, уровни валидности

Валидация это способ принимать свои чувства или чувства окружающих. Валидация – не значит согласие или одобрение. Валидация – это признание и принятие мыслей, эмоций, чувств и поступков как понятных. Марша Лайнехан описывает 6 уровней валидации.

1 уровень: Быть в настоящем. Есть столько способов находиться «здесь и сейчас»: держать вашего близкого человека за руку, когда он проходит через болезненную медицинскую процедуру, слушать вашего ребенка со всем вашим вниманием и не отвлекаясь ни на что, когда он рассказывает он своем первом дне в школе, приехать домой к подруге в полночь, когда она плачет из-за того, что ее друг солгал о ней кому-то.

Быть в настоящем значит давать все свое внимание человеку, которого вы слушаете.

2 уровень: Стремиться точно понять и сформулировать происходящее. На этом уровне вы пробуете обобщенно назвать чувства, которые испытывает ваш собеседник или вы. Важно постараться избежать критикующих интонаций и показать, что ваша настоящая цель – правильно понять опыт другого человека. Иногда этот тип валидации помогает разобраться в своих мыслях и отделить эмоции от суждений. «По сути, я чувствую себя разозленным и мне больно» — пример валидации своих собственных чувств.  «Похоже, что ты разочарован в себе из-за того, что не перезвонил ему» — пример аккуратной рефлексии в ответ на чей-то рассказ.

3 уровень: Чтение мыслей! Это умение строить предположения о чувствах и мыслях других людей. У всех людей разный уровень способности различать свои чувства. Иногда не получается понять, что именно человек чувствует, потому что в детстве ему не разрешали испытывать те эмоции, которые у него возникали или же его воспитали с чувством страха перед своими эмоциями.

Люди могут скрывать свои чувства, потому что они запомнили, что окружающие негативно реагируют на такие проявления. Это подавление чувств может привести к тому, что даже сам человек не будет понимать, что именно он чувствует, что в свою очередь плохо влияет на способность управлять своими эмоциями.

Помните, что вы можете ошибочно распознать переживания своего собеседника, умение принимать поправки к вашим репликам – часть навыка валидации.

4 уровень: Понимание поведения человека в контексте его личной истории и физического состояния. Ваш опыт и биология вашего тела влияют на ваши эмоциональные реакции. Если ваш лучшая подруга была покусана собакой пару месяцев назад, она маловероятно получит удовольствие, играя с вашей немецкой овчаркой. Валидация на этом уровне будет звучать так: «Учитывая то, что случилось с тобой недавно, я полностью понимаю, что тебе не хочется находится рядом с моей собакой.»

Самовалидация – понимание ваших собственных реакций в контексте вашего прошлого опыта.

5 уровень: Признание эмоций нормальными в данной ситуации и слова о том, что такие чувства испытал бы и другой человек, попади он в такую ситуацию. «Конечно ты нервничаешь. Первое публичное выступление страшно для любого человека, это нормально.»

6 уровень: Полная искренность. На этом уровне вы проявляете понимание к собеседнику на очень глубоком уровне, например, если у вас был похожий опыт. Чувство общности переживаний приносит большое облегчение в сложных ситуациях. Нередко такой опыт возникает в результате встречи терапевтической группы (групповая терапия).

Переведено с английского, с сокращениями, специально для ЦИРПП, источник:

https://www.psychologytoday.com/blog/pieces-mind/201204/understanding-validation-way-communicate-acceptance

Валидность психологических тестов. Виды валидности.

К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.

Валидность – это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению. Достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют

подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»  Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы и показывает, в каком объеме, в какой мере знание чего-либо отражено в методике.  Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя.  
Внешняя валидность
означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами. В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?» Факторы ухудшающие внутреннюю валидность
: 1. История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным. 2.  Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д. 3. Тестирование: эффект первого тестирования влияет на баллы второго. 4.  Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.5.  Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.6.  Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.7.   Выбывание: дифференциальная потеря респондентов из сравниваемых групп.Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента.
 Факторы ухудшающие репрезентативную валидность
: 1. Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.2.  Эффект взаимодействия смещения выбора и экспериментальных переменных.3.  Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.4. Эффект многократной обработки, когда эффект предыдущих тестов не стирается. Валидность критерия состоит из двух частей:Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?».Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»

 Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство. 

Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна. Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

 Источники плохой валидности:1. Плохая надежность теста2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.2.2.Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.).3. Смещение:1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.1.2 Смещение по половому признаку также может быть возможным.1.3 Тестовое смещение:1.3.1  Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.1.3.2Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

Внимание!

Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Надежность и валидность тестов

Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.

Ученые, которые занимались проблемой надежности и валидности методик в психодиагностике: А. Анастази и др.

Далее рассмотрим понятие надежности и валидности методик, а также их сущность и процесс.

Надежность теста

Рассмотрим несколько видов надежности психодиагностических тестов.

  1. Надежность по внутренней согласованности. Измененная часть теста измеряет такую переменную, которую не измеряют неизмененные части теста.
  2. Ретестовая надежность. Повторное тестирование испытуемых с последующей корреляцией результатов начального и окончательного обследования.
  3. Надежность параллельны форм теста. Создание эквивалента опросника и его предъявлений тем же испытуемым для последующей корреляции результатов.
  4. Надежность частей теста можно определить, разделив опросник на части; затем провести корреляцию полученных результатов.

Рисунок 1. «Показатели надежности теста»

При выявлении надежности теста следует проводить методику через значительные временные интервалы. Также рекомендуется проводить тест на выборки не менее 200 испытуемых.

Валидность теста

Рассмотрим некоторые виды валидности тестов в психодиагностике.

  1. Очевидная валидность. Представления испытуемого о тесте.
  2. Конкурентная валидность. Корреляция с подобными тестами.
  3. Прогностическая валидность. Корреляция начальных и более поздних результатов теста.
  4. Инкрементная валидность.
  5. Дифференциальная валидность.
  6. Содержательная валидность. Отражение заданий тестов аспектов определенной изучаемой области.
  7. Эмпирическая валидность. Корреляция результатов данной методики с результатами подобных методик у одних и тех же испытуемых.
  8. Критериальная валидность. Связь полученных результатов и внешних критериев.
  9. Конструктная валидность.

Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.

При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.

В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно сырых показателей теста. Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.

Рисунок 2. «Структура валидности»

Валидность. Психология развития [Методы исследования]

Валидность

При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.

Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.

Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.

Вторая форма валидности — критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность — это главная форма валидности тестов, основная функция которых состоит

в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test — SAT) или письменных экзаменов для выпускников (Graduate Record Examinations — GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.

Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.

Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника — труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).

Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.

Для установления конструктной валидности, помимо экспериментальных тестов, имеют значение и корреляционные данные. Прогнозируемые корреляции бывают двух видов. Одни гипотезы касаются вопроса о том, какие параметры конструкта положительно коррелируют с некими другими параметрами.

Рис, 4.1. Пример матрицы «свойствах методы. Буквами обозначены свойства или конструкты, а числами — методы исследования

Разрабатывая, к примеру, тест тревожности, мы могли бы предположить, что самоотчеты о переживании чувства тревоги коррелируют с физиологическими изменениями, которые рассматриваются как индикаторы тревоги (например, повышение частоты сердечных сокращений). Наличие прогнозировавшейся корреляции между показателями, имеющими общую теоретическую основу, называется конвергентной валидностью. Другие гипотезы касаются вопроса о том, какие показатели не должны коррелировать друг с другом. Например, при валидизации теста тревожности необходимо доказать, что некоторые физиологические изменения не связаны с самоотчетами о переживании чувства тревоги, таким образом, исключая общее возбуждение как объяснение полученных результатов. Дифференциация показателей, имеющих разную теоретическую основу, называется дивергентной (или дискрими-нантной) валидностью.

Весьма оригинальное решение вопроса конструктной валидности предложили Кемпбелл и Фиске (Campbell & Fiske, 1959), разработавшие матрицу «свойства X методы» (СМ). Использование матрицы СМ подразумевает анализ корреляций между предполагаемыми свойствами или конструктами, каждый из которых измеряется при помощи разных методов. В примере, проиллюстрированном на рис. 4.1, исследуется три свойства, каждое из которых оценивается при помощи трех методов, результатом чего является 9 показателей (А1,А2 и т. д.), составляющих массив таблицы. Конвергентную валидность демонстрировали бы достаточно высокие коэффициенты корреляции между показателями каждого столбца, то есть показателями, которые, как предполагается, характеризуют один и тот же конструкт и отличаются только методами, посредством которых они были получены. Дивергентную валидность демонстрировали бы низкие коэффициенты корреляции между любыми показателями, не попадающими в один столбец. Особенно интересны в этом отношении корреляции между показателями каждой строки — то есть, показателями, полученными при использовании одного и того же метода оценки. Иногда положительные корреляции между результатами обусловлены только методическим сходством заданий, а не характером измеряемых параметров. К примеру, в ряде тестов требуется быстрая реакция в условиях ограничения времени; тогда, что бы ни измеряли тесты, испытуемые, чувствующие себя в такой обстановке более уверенно, справятся с заданиями лучше. О корреляциях, являющихся результатом частичного совпадения методов, говорят, что они отражают дисперсию общности методов. Матрица СМ позволяет определить вклад дисперсии общности методов во все полученные корреляционные связи.

Как следует из вышесказанного, конструктная, как и критериальная валидность в большинстве случаев оценивается через проверку ожидаемых корреляций между результатами измерений. Однако между этими двумя видами валидности имеются существенные различия. Критериальная валидность обычно оценивается по какому-то одному внешнему показателю, например школьной успеваемости, в отношении которого мы хотим сделать прогноз; конструктная же валидность оценивается по целой системе предполагаемых взаимосвязей. Цель определения критериальной валидности, как правило, — в прагматическом прогнозе; цель определения конструктной валидности — валидизация лежащей в основе теста теории. Поэтому то, что последняя из рассмотренных форм валидности носит то же название, что и одна из форм валидности эксперимента, о которой рассказывалось в главе 2, не случайно (хотя и может смутить читателя). В обоих случаях сутью вопроса является теоретическая обоснованность: в одном — в отношении измерения, в другом — в отношении исследования в целом.

Понятие «валидность тестов»

Краткая характеристика валидности тестов

Валидность результата теста является соответствием измеряемому признаку.

Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.

Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.

Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.

Характерные особенности эмпирической валидности

Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.

Определение прагматической валидизации

Считает, что валидность теста дает прогноз:

  • личностных свойств человека;
  • влияния на поведение индивида.

Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:

  • принципах квазиэксперимент;
  • выделение контрастных групп.

Нужна помощь преподавателя?

Опиши задание — и наши эксперты тебе помогут!

Описать задание Замечание 1

Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:

  • с низким уровнем успеваемости;
  • с высоким уровнем успеваемости.

Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.

Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.

Данный ход в вылидной прагматике определяют ретроспективным.

Понятие проспективной, конструктивной и истинной валидности теста

Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.

Замечание 2

Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.

Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.

Истинная валидность тестирования определяется формулой:

где ryy – соотношение с «истинным критерием», rхх – эмпирическое соотношение с критерием, αс – надежность критерия, найденная по формуле Кронбаха.

Автор: Анна Коврова

Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук

Что такое валидность исследования и зачем это нужно?

Содержание статьи

Валидность исследования – это соответствие экспериментальной базы, выбранной автором работы, общепринятым стандартам, позволяющим добиться безупречного результата в поиске решения поставленной проблемы. Соответствие результатов экспериментов поставленной цели исследования определяется степенью валидности.

Что характеризует валидность показателя в исследовании

При проведении исследований важно добиться результата, максимально соответствующего безупречному эксперименту. Если полученный итог практической работы вплотную приближен к соответствию с установленными научными стандартами, он имеет высокие показатели валидности.

Существует две категории валидности – это внутренняя и внешняя.

Внутренняя валидность является показателем, отражающим достоверность выводов, полученных после проведения ряда реальных экспериментальных исследований в сравнении с результатами «идеальных» экспериментов, применимых для той же научной отрасли. Является основным требованием, выдвигаемым к результатам экспериментов.

Внешняя валидность – это достоверность полученных результатов исследования по сравнению с итогами экспериментов, направленных на полное соответствие «безупречному» результату. Увеличить внешнюю валидность поможет введение дополнительных переменных с достижением экспериментального уровня, соответствующего реальному уровню аналогичных переменных в изучаемой научной отрасли.

Эксперимент, не обладающий характеристиками внешней валидности, является неверным, но в некоторых ситуациях может использоваться для проверки иных гипотез для научных отраслей, смежных с исследуемой областью знаний.

Угрозы для внутренней, внешней валидности

Основные факторы, влияющие на показатели внутренней валидности:

  • фоновые события, препятствующие проведению экспериментов;
  • естественные временные изменения, присущие объекту/предмету исследования;
  • неправильно подобранная методология исследования;
  • нестабильные результаты из-за высокого уровня погрешности выбранного инструментария;
  • взаимодействие нескольких факторов, непосредственно влияющих на внутреннюю валидность;
  • субъективные предубеждения экспериментатора (нежелание принимать во внимание детали, неправильный учет полученных результатов, неточность/невнимательность и т.д.).

Какие угрозы снижают уровень внешней валидности?

  1. Взаимодействие некачественного отбора материалов исследования и подбора методологической базы к ним.
  2. Реактивный эффект, как изменение восприимчивости предмета исследования после проведения предварительного тестирования.
  3. Взаимная интерференция, возникающая после одновременного воздействия несколькими методами исследования на один объект.

Валидность и надежность экспериментальных методов

Надежность экспериментальных методов, проведенных автором, подтверждает истинность полученных результатов. Валидность отображает степень соответствия итогов исследования к изучаемому явлению выбранной научной отрасли.

Любое валидное исследование по умолчанию является надежным, но надежное исследование не всегда является валидным.

Надежность, как устойчивая составляющая достоверного эксперимента

Надежность (воспроизводимость, устойчивость результатов эксперимента) – это возможность воспроизведения полученных результатов исследования в аналогичных реальных условиях при корреляции начальных/конечных измерений.

От чего зависит надежность проводимых экспериментов?

  1. Минимальная погрешность подобранного инструментария.
  2. Отсутствие неконтролируемой вариативности выбранной методологии исследования.
  3. Объективность исследователя.

Основная характеристика надежности – это получение одинаковых результатов при многократном проведении аналогичных экспериментов. Если все условия соблюдены правильно, методология исследования вызывает доверие.

Принципы взаимодействия валидности и надежности при выборе методов исследования

Принципы взаимодействия надежности с валидностью основываются на трех основных методах установки надежности выбранной методологической базы.

  1. Метод повторяющегося эксперимента. Суть метода – это неоднократное проведение тех же самых экспериментов одинаковыми приборами и сопоставление итоговых результатов исследования в отношении рассматриваемого объекта/явления/события.
  2. Метод альтернативной формы. Может выполняться в двух интерпретациях: один эксперимент применяется к нескольким группам объектов, комбинация экспериментов применяется к одному явлению.
  3. Метод подвыборки. Для проведения комплексного исследования, один или несколько объектов группируются в отдельные выборки с аналогичными свойствами, характеристиками.

Валидность в психологических исследованиях

Причинно-следственная связь, предшествующая эффекту от эксперимента по времени, позволяет объективно обобщить полученные выводы и принудить экспериментатора на дополнительную проработку методологической базы.

Если у экспериментатора нет альтернативных объяснений появления определенных результатов исследования, это свидетельствует о внутренней валидности проведенного эксперимента. В ряде случаев, это утверждение применимо к выявлению внешней или конструктивной валидности.

Статистическая связанность причинно-следственной связи с полученным эффектом от тестирования испытуемых, проявляющаяся при многократном повторе выбранной методологии исследования, говорит о корректности используемых методов и подтверждает наличие валидности статистического вывода.

Валидность в психологических исследованиях повышается тремя основными способами:

  • предварительное планирование методологической базы;
  • выбор схемы дальнейшей работы над отсортированными объектами по категориям;
  • проведение экспериментов над контрольной группой испытуемых.

типов действительности | Psych Yogi

Типы валидности




Есть много типов валидности, и знание этого чрезвычайно полезно для достижения наивысших возможных оценок на экзамене OCR A2 Psychology.

Срок действия

Во-первых, что такое срок действия?

Достоверность означает степень, в которой результаты или выводы исследования фактически измеряют то, что, по их утверждениям, измеряется.

Например: предположим, мы хотим измерить длину стола.Итак, достаем рулетку и затем приступаем к измерению высоты ножек стола.

Что не так?

Ну, мы не меряли длину стола. Вместо этого мы измерили высоту стола. Итак, наши измерения длины стола недействительны. Однако, если бы мы намеревались измерить высоту стола, наши измерения были бы действительными, потому что мы измерили высоту стола.

Внутренняя достоверность

Внутренняя достоверность — это мера измерения зависимой переменной экспериментатором.

Например: предположим, экспериментатор хочет измерить время реакции человека, и для этого он использует человека с секундомером.

Вы видите проблему с этим измерением?

Проблема в том, что человек с секундомером тоже должен среагировать. Таким образом, можно ожидать, что это измерение неверно.

Лучшим способом измерения этой зависимой переменной было бы использование видеокамеры. Таким образом, экспериментатору не нужно полагаться на время реакции другого человека для измерения зависимой переменной.Таким образом, делая его более актуальным.

Внешний срок действия

Внешний срок действия делится на два типа. Экологическая ценность и популяционная ценность.

Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены. Важно иметь высокий уровень внешней валидности, потому что это напрямую влияет на полезность результатов и выводов исследования.

Экологическая валидность

Экологическая валидность означает степень, в которой результаты и выводы могут быть обобщены в реальной жизни.

На экологическую значимость в основном влияет задача, которую должны выполнить участники. Многие говорят, что именно методология, например, лабораторных экспериментов, влияет на экологическую обоснованность, но это не обязательно так. Можно провести лабораторный эксперимент, который имеет высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.

Рассмотрим пример. Представьте, что вы экспериментатор и изучаете психологию покупательского взаимодействия с продавцом.

Вы решили использовать лабораторный эксперимент, потому что он дает вам лучший контроль над посторонними переменными.

Вы открыли фальшивый магазин, точно такой же, как и в реальной жизни. Затем вы просите участников пойти в магазин и купить предметы, которые они обычно покупают. Это, хотя и лабораторный эксперимент, имеет высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.

Популяционная валидность


Популяционная валидность означает степень, в которой выборка может быть обобщена на аналогичные и более широкие совокупности.

Этот тип достоверности важен, потому что без него исследования теряют свою полезность.

Рассмотрим пример.

Предположим, мы изучаем влияние прослушивания Моцарта на IQ (эффект Моцарта).

Итак, мы решили, что будем использовать выборку людей с высоким IQ, и используем случайную выборку. Эта выборка будет иметь высокую популяционную достоверность для людей с высоким IQ, но в основном потому, что мы использовали случайную выборку. Однако эта выборка будет иметь низкую популяционную достоверность для всех остальных, потому что выборка чрезвычайно ограничена.

Временная достоверность

Временная достоверность относится к степени, в которой результаты и выводы исследования достоверны, если мы рассматриваем различия и прогрессии, которые происходят со временем.

Исследования, которые действительны во времени, будут либо недавними исследованиями, либо исследованиями, которые рассматривают то, что не изменилось с момента завершения исследования, например, исследование представлений людей о росте, проведенное 50 лет назад, может иметь высокую временную достоверность, потому что общество не изменил своих взглядов на высоту.Однако исследование телевизионной рекламы в семидесятые и восьмидесятые годы может быть временно недействительным сегодня из-за большого количества доступных в настоящее время телевизионных каналов по сравнению с немногими каналами, которые были доступны тогда. (Взгляните на это исследование в качестве примера, который можно считать низким по временной достоверности: Cowpe 1989)

Face Validity

Face validity означает степень, в которой исследование выглядит как для измерения того, что, по его утверждению, измеряется.

Это тип действительности, на который вы должны ссылаться в наименьшей степени, потому что это не очень хорошая точка оценки, внутренняя валидность была бы лучшим типом валидности для использования.Фактическая валидность может быть вам полезна, потому что вы можете легко использовать ее в качестве точки оценки на экзамене по психологии OCR A2, если вы ничего не понимаете и не можете придумать другую точку оценки.

Исследование с высокой достоверностью может выглядеть так, как будто оно измеряет то, что исследователь намеревается измерить, но это не обязательно означает, что исследование — это , измеряющее то, на что он претендует.

Рассмотрим пример.

Предположим, мы пытаемся измерить влияние просмотра страшного фильма на уровень стресса участников.

Мы показываем участникам страшный фильм и измеряем у них уровень кортизола до и после.

Кортизол вырабатывается в ответ на стресс, означает, что на первый взгляд это исследование выглядит так, как будто оно измеряет влияние страшного фильма на уровень стресса участников. Поэтому он имеет высокую лицевую достоверность.

Однако мы не учитывали влияние того, что участники не ели во время просмотра фильма.

Мы понимаем, что отказ от еды снижает уровень глюкозы в крови наших участников, что также вызывает выработку кортизола.Это означает, что наше исследование, хотя имеет высокую внешнюю достоверность, имеет низкую внутреннюю достоверность.

Срок действия теста

Срок действия теста состоит из нескольких составных частей.

Достоверность теста означает степень, в которой результаты исследования или теста могут иметь значение.

Рассмотрим пример.

Предположим, мы измеряем интеллект людей. Мы могли бы использовать тест на IQ. Мы можем утверждать, что тест IQ имеет высокий уровень достоверности, потому что мы видим, что это хорошо зарекомендовавший себя тест.

Construct Validity

Construct validity относится к степени, в которой исследование или тест измеряет концепцию, на которую оно претендует.

Существует два типа конструктивной достоверности: конвергентная достоверность и дискриминирующая достоверность.

Рассмотрим пример.

Предположим, мы изучаем «Модель веры в здоровье» Беккера (1978).

Мы обнаруживаем, что есть несколько когнитивных эвристик, которые люди используют, когда они рассматривают возможность поведения, связанного со здоровьем.Все они присутствуют в модели веры в здоровье. Таким образом, мы можем утверждать, что наше исследование имеет высокую конструктивную достоверность.

Конвергентная валидность

Конвергентная валидность относится к степени, в которой тестируемые конструкции связаны друг с другом.

Дискриминационная валидность

Дискриминационная валидность относится к степени, в которой протестированные конструкции, которые не имеют отношения, действительно не имеют взаимосвязи друг с другом.

Валидность содержания

Валидность содержания хорошо следует из валидности конструкции, поскольку валидность содержания относится к степени, в которой исследование или тест сравнивает все элементы конструкции.

Например, предположим, что мы смотрим на влияние стресса на производительность труда.

Мы просим наших участников ответить на вопросы анкеты о том, насколько, по их мнению, на них влияет стресс на рабочем месте и насколько он влияет на их производительность.

Мы могли бы возразить, что это низкая валидность содержания, потому что фактически не проверялось влияние стресса на производительность труда.

Достоверность критерия

Достоверность критерия относится к степени достоверности результатов и выводов по сравнению с другими показателями.

Срок действия критерия делится на два типа достоверности: прогнозируемая достоверность и одновременная достоверность.

Прогнозная достоверность

Прогнозная достоверность означает степень, в которой результаты и выводы могут быть использованы для прогнозирования реальных приложений исследования.

Рассмотрим пример.

Предположим, мы изучаем влияние мысли, что за вами наблюдают, на поведение.

Наше исследование является копией нескольких или других исследований, которые были проведены ранее.

Даем участникам задачу выполнить. Во время выполнения задачи они столкнутся с несколькими признаками, указывающими на то, что они находятся под наблюдением, например, «за вами наблюдают операторы видеонаблюдения».

Это исследование может иметь прогностическую достоверность для аналогичных ситуаций.

Обычно достоверность прогнозов подтверждается повторением результатов с течением времени.

Параллельная валидность

Параллельная валидность означает степень, в которой результаты и выводы совпадают с другими исследованиями и доказательствами.

Рассмотрим пример.

Милгрэм (1963) изучал влияние подчинения властям. Результаты Милгрэма совпадают со многими повторениями исследования. Таким образом, исследование Милгрэма имело высокую параллельную силу.

Достоверность статистического заключения

Достоверность статистического вывода относится к степени, в которой мы можем получить статистически значимые результаты, то есть мы можем установить причину и следствие выше случайности.

Обычно в психологических исследованиях вероятность устанавливается равной 5% или> 0.05 шанс. Это означает, что если результаты выше 5%, мы примем нашу альтернативную гипотезу и отклоним нашу нулевую гипотезу. Это предполагает наличие причины и следствия между переменными. Если результаты ниже 5%, мы примем нашу нулевую гипотезу. Если результат ниже 5% вероятности, это означает, что мы не можем установить причинно-следственную связь, потому что результаты возникли случайно.

Действительность репрезентации

Действительность репрезентации, которая также известна как трансляционная валидность, относится к степени, в которой изучаемый конструкт или концепт может быть переведен в реальную жизнь.

Диагностическая валидность

Диагностическая валидность мало используется в спецификации психологии OCR A2. Чаще всего он используется в клинических условиях. Диагностическая достоверность относится к степени точности диагноза, поставленного в отношении состояния.

Инструментальная достоверность

Инструментальная достоверность — это степень, в которой инструменты, используемые для измерения зависимых переменных, являются правильными для этого измерения.

Например, возвращаясь к нашему исследованию таблицы ранее.Предположим, теперь мы правильно измеряем длину стола, но потом понимаем, что наша рулетка неточная. Таким образом, инструментальная достоверность нашего исследования была низкой.

Дополнительная литература

Десять лучших советов по психологии психо-йога для A * ученика

Резюме

Название статьи

Типы достоверности

Описание

Типы валидности чрезвычайно полезен для достижения наивысших возможных оценок в вашем OCR A2

Автор

Psych Yogi

Валидность в психологии: типы и определение — Видео и стенограмма урока

Действительность конструкции

Вероятно, вы уже знакомы с определением конструкции.Конструкция — это атрибут, навык или способность, основанные на установленных теориях и существующие в человеческом мозгу. Интеллект, тревога и депрессия — все это примеры конструктов. Достоверность конструкции — это степень, в которой тест измеряет конструкт, который он должен измерять. Другими словами, насколько хорошо BAI измеряет теоретическую концепцию тревоги? Для установления валидности конструкта необходимо изучить многочисленные исследования, в которых используется BAI. Есть два необходимых компонента валидности конструкции: конвергентная и дискриминантная валидность.

Предположим, что при чтении руководства вы обнаружили, что BAI сильно коррелирует с рейтинговой шкалой Гамильтона (HRS) и опросником состояния тревожности (STAI), которые представляют собой два ранее проверенных показателя тревожности. Это устанавливает конвергентной действительности . Конвергентная достоверность — это степень, в которой измерение согласуется с другими измерениями, оценивающими ту же конструкцию.

Вы также обнаружили, что BAI имеет низкую корреляцию с инвентаризацией депрессии Бека, которая предназначена для измерения депрессии.Это устанавливает дискриминантной действительности . Дискриминантная валидность — это степень, в которой измерение , а не коррелирует с другими измерениями, которые оценивают различных концепций , так что оно различает эти две конструкции.

Достоверность содержимого

В руководстве вы также читали, что элементы BAI были выбраны на основе их сходства с критериями тревожных расстройств, приведенными в Руководстве по диагностике и статистике психических расстройств . Кроме того, эти предметы охватывают весь спектр тревожных симптомов, включая симптомы панических и генерализованных тревожных расстройств. Это устанавливает достоверность содержания BAI. Измерение имеет достоверность содержимого , когда его элементы охватывают все аспекты измеряемой конструкции. Другими словами, достоверность контента позволяет нам узнать, адекватно ли элементы BAI охватывают все области, вызывающие беспокойство.

Связанная с критерием достоверность относится к степени, в которой измерение может точно предсказать конкретные переменные критерия.Параллельная валидность и прогностическая валидность — это два типа валидности, связанной с критериями. Одновременная достоверность включает измерения, которые выполняются в одно и то же время, в то время как прогнозная достоверность включает одно измерение, прогнозирующее будущую эффективность другого.

Предположим, вы обнаружили значительную корреляцию между оценками по BAI и оценками по HRS и STAI. Вы установили параллельную валидность, то есть степень, в которой оценки по измерению соответствуют другим измерениям, которые уже были признаны действительными.

Если баллы BAI значительно коррелируют с людьми, у которых в будущем будет диагностировано тревожное расстройство, BAI имеет прогностическую достоверность. Прогностическая достоверность — это степень, в которой баллы по оцениваемому измерению соответствуют другому критериальному измерению, которое проводится в будущем. В нашем примере диагноз тревожности (измерение критерия) ставится после введения BAI (оцениваемого теста).

Почему важна действительность?

Предположим, что вы узнали через несколько недель после того, как вводили BAI своему клиенту, что BAI не измерял тревожность, как предполагалось.Что это значит для вашего клиента? Это означает, что интерпретации результатов BAI, которые вы сделали, в зависимости от уровня тревожности вашего клиента, были недействительными. В результате любые выводы, сделанные вами на основе теста, будут неточными. Например, если вы диагностировали у своего клиента тревогу на основе результатов BAI, ваш диагноз был бы неправильным, поскольку тест не измерял тревожность.

Проведенные вами лечебные вмешательства, вероятно, будут неэффективными, поскольку ваш клиент на самом деле не испытывает беспокойства.Если вы решили помочь своему клиенту получить лекарства от тревожности, вы обнаружите, что они не помогают или не ухудшают состояние вашего клиента. Вы можете понять, почему в психологии важна обоснованность. Без достоверности результаты вашей оценки совершенно бесполезны, и ваши попытки помочь клиенту, используя информацию из оценки, могут в конечном итоге навредить вашему клиенту.

Итоги урока

Давайте рассмотрим. Действительность относится к степени, в которой тест измеряет то, что он должен измерять.Есть три типа действительности. Действительность конструкции , то есть степень, в которой тест измеряет конструкт, который он должен измерять. Двумя необходимыми компонентами валидности конструкции являются конвергентной и дискриминантной валидности . Достоверность содержимого относится к тому, представляют ли элементы измерения все аспекты измеряемой конструкции.

Связанная с критерием достоверность относится к степени, в которой измерение может точно предсказать конкретные переменные критерия. Параллельная достоверность и прогнозируемая достоверность — это два типа достоверности, связанной с критериями. Чтобы тест был валидным, он должен иметь валидность конструкции, валидность содержания и валидность, связанную с критериями. Итак, в следующий раз, когда кто-нибудь придет к вам в офис для оценки, не забудьте вытащить руководство по тестированию и поискать доказательства его валидности.

Результаты обучения

Посмотрев этот урок и расширив свои знания о валидности в психологии, вы впоследствии могли бы перейти к:

  • Описать валидность в отношении тестирования и психологии
  • Контрастная достоверность конструкции и достоверность содержания
  • Определите, к какому критерию валидности относится
  • Понимать важность действительности

Статистическая достоверность | Психология Вики

Оценка | Биопсихология | Сравнительный | Познавательная | Развивающий | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клиническая | Образовательная | Промышленное | Профессиональные товары | Мировая психология |

Статистика : Научный метод · Методы исследования · Экспериментальная дизайн · Курсы бакалавриата по статистике · Статистические тесты · Теория игры · Теория принятия решений


В психологии валидность имеет две различные области применения.Первый включает в себя валидность теста , концепция, которая эволюционировала вместе с областью психометрии: «Валидность означает степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, вытекающую из предлагаемого использования тестов» [1] . Второй включает исследований дизайна . Здесь термин относится к степени, в которой исследование поддерживает предполагаемый вывод, сделанный на основе результатов. В традиции Кэмпбелла это относится к степени поддержки вывода о том, что причинная переменная вызвала эффект.

В отличие от проверки валидности, оценка валидности дизайна исследования обычно не включает сбор данных или статистический анализ, а скорее оценку дизайна относительно желаемого заключения на основе преобладающих стандартов и теории дизайна исследования.

Срок действия теста []

Надежность и действительность []

Раннее определение валидности теста отождествляло ее со степенью корреляции между тестом и критерием.Под этим определением можно показать, что надежность теста и критерия устанавливает верхний предел возможной корреляции между ними (так называемый коэффициент достоверности). Интуитивно это отражает тот факт, что надежность предполагает отсутствие случайных ошибок, а случайные ошибки не коррелируют друг с другом. Таким образом, чем меньше случайная ошибка в переменных, тем выше возможная корреляция между ними. Согласно этим определениям, тест не может иметь высокую достоверность, если он также не обладает высокой надежностью.Однако концепция достоверности существенно расширилась за пределы этого раннего определения, и классическая взаимосвязь между надежностью и действительностью не обязательна для альтернативных концепций надежности и действительности. В рамках классической теории тестирования предсказательная или одновременная валидность (корреляция между предсказателем и предсказанным) не может превышать квадратный корень из корреляции между двумя версиями одного и того же показателя, то есть надежность ограничивает валидность.

Типы []

Валидность теста может быть оценена несколькими способами, и тщательная валидация теста обычно включает более одной линии свидетельств в поддержку валидности метода оценки (например,грамм. структурированное интервью, личностный опрос и т. д.). Текущие стандарты образовательного и психологического тестирования следуют за Сэмюэлем Мессиком в обсуждении различных типов свидетельств действительности для единого суждения о суммарной валидности. К ним относятся доказательства, связанные с построением, доказательствами, связанными с содержанием, и доказательствами, связанными с критериями, которые подразделяются на два подтипа (параллельные и прогнозирующие) в зависимости от времени сбора данных.

Конструктивная валидность свидетельство включает эмпирическую и теоретическую поддержку интерпретации конструкта.Такие доказательства включают статистический анализ внутренней структуры теста, включая взаимосвязь между ответами на различные вопросы теста. Они также включают отношения между тестом и показателями других конструкций. В настоящее время понимается, что валидность конструкта не отличается от поддержки основной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, предназначенные для выявления аспектов причинной роли конструкции, также способствуют построению доказательств валидности.

Достоверность содержимого свидетельство включает в себя степень, в которой содержимое теста соответствует домену содержимого, связанному с конструкцией. Например, тест на умение складывать двузначные числа должен охватывать весь диапазон комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Свидетельства, относящиеся к содержанию, обычно включают в себя экспертов в предметной области (SME), оценивающих элементы тестирования в соответствии со спецификациями тестирования.

Свидетельство достоверности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкции. Например, тесты по отбору сотрудников часто проверяются по показателям производительности труда. Меры риска рецидивизма среди осужденных за преступление могут быть проверены по сравнению с мерами рецидивизма. Если данные теста и данные критерия собираются одновременно, это называется свидетельством одновременной достоверности.Если сначала собираются тестовые данные, чтобы предсказать данные критериев, собранные в более поздний момент времени, то это называется доказательством достоверности прогноза.

Срок действия конструкции []

Валидность конструкции относится к совокупности свидетельств того, адекватно ли конкретная операционализация конструкции представляет то, что предполагается теоретическим расчетом измеряемой конструкции. (Продемонстрируйте, что элемент действителен, связав его с другим предположительно действительным элементом.)

Существует два подхода к построению достоверности, которые иногда называют «конвергентной достоверностью» и «дивергентной достоверностью» (или дискриминантной достоверностью).

Конвергентная действительность []

Конвергентная достоверность относится к степени, в которой мера коррелирует с другими мерами, с которыми, согласно теоретическим прогнозам, коррелируют.

Дискриминантная валидность []

Дискриминантная валидность описывает степень, в которой операционализация не коррелирует с другими операционализацией, с которыми она теоретически не должна коррелировать.

Срок действия []

Валидность контента — это нестатистический тип валидности, который включает «систематическое изучение контента теста, чтобы определить, охватывает ли он репрезентативную выборку исследуемой области поведения» (Анастаси и Урбина, 1997, стр. 114).

В тесте встроена достоверность содержимого путем тщательного выбора элементов для включения (Anastasi & Urbina, 1997). Пункты выбираются таким образом, чтобы они соответствовали спецификации теста, составленной путем тщательного изучения предметной области.Foxcraft et al. (2004, стр. 49) отмечают, что, используя группу экспертов для анализа спецификаций теста и выбора элементов, можно повысить достоверность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативный образец области поведения.

Срок действия представления []

Срок действия представления также известен как действительность перевода.

Срок действия []

Лицевая валидность — это оценка того, соответствует ли тест определенному критерию; это не гарантирует, что тест действительно измеряет явления в этой области.В самом деле, когда тест подвергается фальсификации (симуляции), низкая валидность может сделать тест более достоверным.

Действительность лица очень тесно связана с достоверностью содержимого. В то время как валидность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка дополнительных навыков хорошую меру для математических навыков? — Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметики математические навыки включают) лицевую валидность в зависимости от того, является ли тест хорошей мерой или нет.Это суждение выносится на основе теста, поэтому оно может быть оценено и любителем.

Срок действия []

Достоверность, связанная с критериями, отражает успешность мер, используемых для прогнозирования или оценки. Существует два типа валидности, связанной с критериями: одновременная и прогностическая валидность. Хороший пример валидности, связанной с критериями, — это валидация тестов отбора сотрудников; в этом случае оценки за тест или набор тестов коррелируют с оценками производительности сотрудников.

Одновременное действие []

Параллельная валидность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Возвращаясь к примеру выборочного теста, это будет означать, что тесты проводятся для текущих сотрудников, а затем коррелируются с их оценками в обзорах производительности.

Прогностическая достоверность []

Прогностическая достоверность относится к степени, в которой операционализация может прогнозировать (или коррелировать) с другими показателями той же конструкции, которые измеряются в какой-то момент в будущем.Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для кандидатов, все кандидаты принимаются на работу, их результаты проверяются позже, а затем их баллы по двум параметрам коррелируются.

Кэмпбелл и Стэнли (1963) определяют внутреннюю валидность как основные требования для интерпретации эксперимента. Имел ли эксперимент значение в данном случае? Внешняя валидность решает вопрос об обобщаемости — на кого мы можем обобщить результаты этого эксперимента?

Внутренняя действительность []

Внутренняя валидность — это индуктивная оценка степени, в которой выводы о причинах отношений могут быть верными с учетом используемых мер, условий исследования и всего плана исследования.Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую переменную изучается в строго контролируемых условиях, обычно допускают более высокую степень внутренней достоверности, чем, например, планы для одного случая.

Восемь посторонних переменных могут помешать внутренней валидности:

  1. История , конкретные события, происходящие между первым и вторым измерениями в дополнение к экспериментальным переменным
  2. Созревание , процессы внутри участников как функция течения времени (не относящиеся к конкретным событиям), e.g., становясь старше, голоднее, более уставшим и т. д.
  3. Тестирование , влияние прохождения теста на результаты второго тестирования.
  4. Приборы , изменения калибровки измерительного инструмента или изменения наблюдателей или счетчиков могут привести к изменениям в полученных измерениях.
  5. Статистическая регрессия , работающая, когда группы отбираются на основе их крайних значений.
  6. Выборка , систематические ошибки, возникающие в результате дифференциального отбора респондентов для групп сравнения.
  7. Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
  8. Взаимодействие отбор-созревание и т. Д., Например, в квазиэкспериментальных планах с несколькими группами

Преднамеренная достоверность []

В какой степени выбранные конструкции и меры адекватно оценивают то, что исследование было предназначено для изучения?

Внешнее действие []

Проблема внешней достоверности касается вопроса о том, в какой степени можно безопасно обобщить (внутренне достоверный) причинный вывод (а) от исследуемой выборки на определенную целевую совокупность и (б) на другие популяции (т.е. во времени и пространстве).

Четыре фактора, ставящие под угрозу внешнюю валидность или репрезентативность:

  1. Реактивный или интерактивный эффект тестирования , предварительный тест может увеличить баллы на посттесте
  2. Эффекты взаимодействия смещения выборки и экспериментальной переменной .
  3. Реактивные эффекты экспериментальных схем , которые не позволили бы сделать обобщения о влиянии экспериментальной переменной на людей, подвергшихся ее воздействию в неэкспериментальных условиях
  4. Вмешательство нескольких процедур , где невозможно стереть эффекты предыдущих обработок.
Экологичность []

Экологическая достоверность — это то, могут ли результаты быть применены к реальным жизненным ситуациям. Этот вопрос тесно связан с внешней достоверностью и охватывает вопрос, в какой степени ваши экспериментальные результаты отражают то, что вы можете наблюдать в реальном мире (экология = наука о взаимодействии между организмом и окружающей его средой).

Обычно в науке существуют две области исследований: пассивно-наблюдательные и активно-экспериментальные. Цель экспериментальных планов — проверить причинно-следственную связь, чтобы вы могли сделать вывод, что A вызывает B или B вызывает A.Но иногда этические и / или метологические ограничения мешают вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?). Тогда вы все равно можете проводить исследования, но это не причинно, а корреляционно, A происходит вместе с B. У обоих методов есть свои сильные и слабые стороны. Чтобы получить экспериментальный план, вы должны контролировать все мешающие переменные. Вот почему вы проводите свой эксперимент в лабораторных условиях. Обретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую значимость, потому что вы создаете искусственную лабораторную среду.

С другой стороны, с помощью наблюдательных исследований вы не можете контролировать мешающие переменные (низкая внутренняя достоверность), но вы можете проводить измерения в естественной (экологической) среде, то есть в месте, где происходит поведение.

См. Также []

Список литературы []

  1. ↑ Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты учебно-психологического тестирования .Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.

Внешние ссылки []

Экологическая достоверность | психология | Британника

Полная статья

Экологическая валидность , в психологии, мера того, как результативность теста предсказывает поведение в реальных условиях. Хотя дизайн тестов и результаты исследований, характеризующихся низкой экологической достоверностью, не могут быть обобщены на реальные жизненные ситуации, те, которые характеризуются высокой экологической достоверностью, могут быть обобщены.Однако полезность экологической обоснованности как концепции широко обсуждалась, при этом некоторые ставили под сомнение важность психологического реализма (то есть, насколько процессы, проявляющиеся в эксперименте, отражают процессы в повседневной жизни).

Размеры

Хотя универсально согласованного определения экологической значимости не существует, этот термин часто относится к взаимосвязи между явлениями в реальном мире и их проявлением в экспериментальных условиях. Более глубокое понимание концепции может быть достигнуто путем анализа трех ее измерений: тестовой среды, исследуемых стимулов и поведенческой реакции участников исследования.

Тестовая среда

При психологической оценке контролируемые тестовые среды предназначены для уменьшения отвлекающих факторов, путаницы и усталости, чтобы участники могли показать свои «лучшие результаты». Исторически сложилось так, что, например, чтобы избежать неправильной диагностики патологии головного мозга, важно было оценить наилучшие результаты работы клиента. Однако, поскольку затем нейропсихологов попросили предсказать поведение клиентов в реальных условиях, экологическая обоснованность традиционной лабораторной тестовой среды была поставлена ​​под сомнение.Контролируемая среда часто влияет на исследование, и результаты тестов, имеющие низкую экологическую значимость, могут быть получены из-за того, что участники осознают, что они принимают участие в эксперименте.

В отличие от лабораторных испытаний, в естественном мире обычно нет тихой, поддерживающей среды, где меньше отвлекающих факторов. Исследования, результаты которых демонстрируют высокую экологическую значимость, часто проводятся в более естественных условиях, то есть в средах с особенностями, более знакомыми участникам, или в условиях, которые скрывают часть или все представления участников о том, что эксперимент проводится.Многие вопросы о направлении к специалистам, задаваемые нейропсихологам, требуют разработки условий тестирования, которые более точно соответствуют важнейшим характеристикам реальных условий.

Получите подписку Britannica Premium и получите доступ к эксклюзивному контенту. Подпишитесь сейчас

Исследуемые раздражители

Оценка экологической достоверности требует сравнения стимулов, используемых во время тестирования, с теми, которые встречаются в повседневной жизни. Когнитивные исследования обычно используют абстрактные или произвольные стимулы, такие как использование парных цветов для установления правил стимул-реакция, которые очень мало похожи на элементы реального мира.Такие исследования часто дают результаты с низкой экологической достоверностью. С другой стороны, естественные стимулы (например, изображения и звуки) повышают экологическую значимость.

Поведенческая реакция

Еще одним важным аспектом экологической достоверности является гарантия того, что вызванные поведенческие реакции представляют чье-то естественное поведение и соответствующим образом связаны с измеряемым конструктом. Например, при оценке вождения на симуляторе исследование, в котором участник управлял рулевым колесом, имело бы большую экологическую ценность, чем исследование, в котором участник управлял автомобилем, перемещая курсор компьютера с помощью мыши.Чем больше ответ приближается к критерию, тем выше экологическая значимость.

Установление экологической значимости

Двумя основными методами установления экологической достоверности являются достоверность и правдоподобие. Правдоподобность — это степень, в которой результаты тестов коррелируют с показателями функционирования в реальном мире, а правдоподобие — это степень, в которой задачи, выполняемые во время тестирования, напоминают задачи, выполняемые в повседневной жизни. Оба подхода имеют свои ограничения.Одним из ограничений подхода к достоверности является то, что критерии результатов, выбранные для сравнения с традиционным нейропсихологическим тестом, могут неточно отражать повседневное функционирование клиента. Некоторые ограничения подхода правдоподобия включают стоимость создания новых тестов и нежелание клиницистов применять эти новые тесты на практике.

Ограничения

Экологическая значимость — спорная концепция в психологических исследованиях. Отсутствие согласия между исследователями относительно определения и значения концепции не позволило разработать стандартизированные меры, которые можно было бы применить ко всем исследованиям.Сравнение исследований экологической достоверности также является сложной задачей из-за большого разнообразия используемых нейропсихологических тестов и оцениваемых популяций.

Смешанные результаты в современной литературе по экологической валидности могут быть результатом использования несоответствующих критериев оценки результатов. Существуют некоторые разногласия относительно того, какие тесты надлежащим образом измеряют различные когнитивные конструкции, и результаты тестов, которые кажутся экологически достоверными для одного исследователя, могут показаться произвольными или экологически недействительными для другого.Следовательно, выбор переменных тестов, популяционные эффекты и недостаток стандартизированных критериев оценки результатов ограничивают исследования экологической валидности.

Тем не менее, дальнейшее стремление к экологической значимости считается целесообразным. Более направленные гипотезы, пытающиеся очертить взаимосвязь между конкретными когнитивными конструкциями и конкретными повседневными способностями, включающими эти конструкции, могут повысить экологическую значимость нейропсихологических тестов. Кроме того, разработка виртуальных сред может быть одним из решений, которое позволяет исследователю преодолеть разрыв между событиями, происходящими в исследовании, и событиями, происходящими в реальном мире, при сохранении контроля над экспериментом.В качестве альтернативы, некоторые исследователи также призвали к подходу, который подчеркивает экологическую ценность одних измерений за счет других, в зависимости от исследования.

Уильям Дрю Гувье Элис А. Баркер Манди Уилкс Муссо

Узнайте больше в этих связанных статьях Britannica:

Перейти к основному содержанию Поиск