Валидные методики психодиагностики. Валидность методики, виды валидности. Корреляционный анализ как один из приемов определения надежности и валидности. Опросники мотивации и их характеристика
Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.
Следует заметить, что вопрос о валидности до сих пор представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает».
Валидность по своей сути — это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется
Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией . Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это —прагматическая валидизация.
Обобщая, можно сказать следующее:
при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;
при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики.
Если опять обратиться к истории развития тестологии, то можно выделить такой период (20-30-е гг.), когда научное содержание тестов и их теоретический «багаж» интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.
Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что именно данный тест измеряет:
методика называлась валидной, так как то, что она измеряет, просто «очевидно»;
доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет «понять испытуемого»;
методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, «очень хорошая».
Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.
Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. Б. М. Теплов, анализируя тесты того периода, назвал их «слепыми пробами».
Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех уч
www.chalt-1school.ru
Что означает слово валидность. Что такое валидность методики? Что такое надежность
Обычно понятие валидность используется в направлении психологии – психодиагностике. Здесь используются тесты, методики, которые должны быть обоснованными, соответствующими, достойными того, чтобы ими пользоваться для выявления определенных качеств, характеристик и прочих данных. Однако существует множество видов валидности, которые указывают на то, что пригодность прослеживается во всех областях жизни.
Интернет-журнал сайт приводит такие элементарные примеры валидности:
- Платье должно быть пригодным для носки и объемов тела женщины.
- Человек должен обладать профессиональными навыками и знаниями, чтобы выполнять работу.
- Инструменты должны выполнять именно ту функцию, которая на них возлагается.
Валидность – это пригодность одного предмета или явления для достижения определенного результата, что помогает решить конкретную задачу. Если некий предмет или человек не выполняет своей функции, значит, он невалидный, то есть его нужно изменить или заменить. Такое нередко прослеживается в любовных отношениях людей, когда партнеры не подходят для построения тех отношений, которые нужны их вторым половинкам.
Что такое валидность?
Валидность – это свойство или качество, которое должно указывать на то, что используемая методика, тест, человек, предмет или явление достоверно или пригодно для рассмотрения конкретной характеристики. Другими словами, внешний предмет или человек должен быть ориентирован на то, ради чего его применяют. Он должен наилучшим образом позволять человеку достигать поставленной цели или решать задачу.
К примеру, в применении валидности к тестам, то они должны максимально раскрывать и рассматривать ту характеристику, которую специалисты хотят изучить. Естественно, что методика, тест и прочее подвергаются постоянному изменению с целью улучшения их валидности, особенно если в процессе их использования наблюдаются различные недочеты и отклонения.
Валидность определяется следующим образом:
- Сначала разрабатыв
erfa.ru
Валидность методов исследования — КиберПедия
Валидностьметода. Валидность метода исследования и диагностики (буквально означает «полноценный, пригодный, соответствующий») показывает, в какой мере измеряется то качество (свойство, характеристика), для оценки которого он предназначен. Валидность (адекватность) говорит о степени соответствия метода своему назначению. Чем ближе раскрывается в диагности-
ке тот признак, для обнаружения и измерения которого предназначен метод, тем выше его валидность.
Понятие валидности относится не только к методике, но и к критерию оценки ее качества, критерию валидности. Это основной признак, по которому можно практически судить о том, является ли данная методика валидной.
Такими критериями могут стать следующие:
— поведенческие показатели — реакции, действия и поступки испытуемого в различных жизненных ситуациях;
— достижения испытуемого в различных видах деятельности — учебной, трудовой, творческой и др.;
— самоорганизация, данные, свидетельствующие о выполнении различных контрольных проб и заданий;
— данные, получаемые при помощи других методик, валидность или связь которых с проверяемой методикой считается достоверно установленной.
Чем выше коэффициент корреляции методики с критерием, тем выше валидность. Развитие факторного анализа позволило создавать методики, валидные по отношению к идентифицируемому фактору. Только проверенные на валидность методики могут использоваться в диагностической деятельности и рекомендоваться в массовую образовательную практику.
Выделяют несколько видов валидности диагностических методик.
Теоретическая (концептуальная) валидность
Эмпирическая (прагматическая) валидность проверяется по соответствию диагностических показателей реальному жизненному поведению, наблюдаемым действиям и реакциям испытуемого. Если, например, с помощью некой методики мы оцениваем черты характера у данного испытуемого, то применяемая методика будет считаться практически или эмпирически валидной тогда, когда мы установим, что данный человек ведет себя в жизни именно так, как предсказывает методика, т.е. в соответствии с имеющейся у него чертой характера.
Внутренняя валидность означает соответствие содержащихся в методике заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом. Она считается внутренне невалидной
или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов, заданий или субтестов измеряют не то, что требуется от данной методики.
Внешняя валидностъ — это примерно то же самое, что и эмпирическая валидность, с той лишь разницей, что в данном случае речь идет о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.
Очевидная валидность описывает представление о методе, сложившееся у испытуемого, т. е. это валидность с точки зрения испытуемого. Методика должна восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с медицинским диагностическим инструментарием.
Конкурентная валидность оценивается по корреляции разработанной методики с другими, валидность которых относительно измеряемого параметра установлена. П.Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворенность работающей методикой для измерения некоторых переменных, а новые данные создаются для того, чтобы улучшить качество измерения.
Прогностическая валидность устанавливается с помощью корреляции между показателями методики и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Л.Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что методика измеряет именно то, для чего она была предназначена.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает ин-крементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что задания методики отражают все аспекты изучаемой области поведения. Содержательную валидность часто называют «логической валидностью» или «валидностью по определению». Она означает, что методика валидна по мнению специалистов. Обычно она определяется у тестов достижений. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна.
\ Конструктная валидностъ демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается методика. Конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше.
Из описания видов валидности следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность диагностической методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности предлагаемой методики.
Легко заметить прямую связь валидности с надежностью. Методика с низкой надежностью не может обладать высокой валид-ностью, поскольку неверен измерительный инструмент и нестабилен тот признак, который он измеряет. Такая методика при сопоставлении с внешним критерием может в одном случае показать высокие совпадения, а в другом — крайне низкие. Понятно, что при таких данных никаких выводов о соответствии методики своему назначению сделать невозможно.
Выведение коэффициента валидности — трудоемкая процедура, не обязательная в тех случаях, когда методика используется исследователем в ограниченных пределах и не предполагается ее применение в широком масштабе. К коэффициенту валидности предъявляют те же требования, что и к коэффициенту надежности: чем более методически совершенен критерий, тем выше должен быть и коэффициент валидности. Низкий коэффициент валидности чаще всего отмечается при акцентировании внимания на второстепенных аспектах.
Дополнительные требования к методам исследования.Точность методики отражает ее способность тонко реагировать на малейшие изменения оцениваемого свойства, происходящие в ходе эксперимента. Точность диагностической методики в определенном смысле можно сравнивать с точностью технических измерительных инструментов. Метр, например, разделенный только на сантиметры, будет грубее измерять длину, чем линейка, градуированная по миллиметрам. В свою очередь микрометр — прибор, позволяющий оценивать длины, отличающиеся друг от друга на 0,001 мм, будет намного более точным измерительным инструментом, чем школьная линейка.
Чем точнее диагностическая методика, тем совершеннее с ее помощью можно оценивать градации и выявлять оттенки измеряемого качества. Однако в практической диагностике далеко не всегда требуется очень высокая степень точности оценок. Ее необходимая практическая мера определяется задачей дифференциации, разделения испытуемых на группы. Если, например, всю выборку испытуемых нужно разделить всего лишь на две подгруппы, то и точность применяемой методики должна соответ-
ствовать именно этому делению, не больше. Если необходимо разделить испытуемых на пять подгрупп, то достаточно применить методику, имеющую измерительную шкалу из пяти пунктов (например: «да», «скорее да, чем нет», «ни да, ни нет», «скорее нет, чем да», «нет»).
Однозначность методики характеризуется тем, в какой степени получаемые с ее помощью данные отражают изменения именно и только того свойства, для оценивания которого данная методика применяется. Если наряду с этим свойством в получаемых показателях отражаются и другие, никак не связанные с данной методикой, выходящие за пределы ее валидности, то методика не соответствует критерию однозначности, хотя при этом может оставаться частично валидной.
Например, если экспериментатора интересуют оценки мотивов поведения человека и для того, чтобы их получить, он задает испытуемому прямые вопросы относительно мотивов его поведения, то ответы на эти вопросы вряд ли будут соответствовать критерию однозначности. В них почти наверняка отразятся и степень осознания испытуемым мотивов своего поведения, и его желание предстать в благоприятном свете в глазах экспериментатора, и оценки им возможных последствий диагностического эксперимента.
Репрезентативность означает, что свойства более широкого множества объектов представлены в свойствах подмножества. В диагностике говорят о «репрезентативности тестовых норм» или о «тематической репрезентативности» диагностических заданий по отношению к «области валидности» методики.
Репрезентативность тестовых норм — соответствие граничных точек на распределении тестовых баллов, полученных на выборке стандартизации, аналогичным граничным точкам, которые могли бы быть получены на популяции проведения — на множестве испытуемых, для которых предназначена методика. Обычно при получении кривой нормального распределения (см. разд. 9.2) делается вывод о том, что тестовые нормы обладают репрезентативностью. Однако нормальность не является необходимым условием репрезентативности. Репрезентативность тестовых норм может достигаться и в отсутствие нормального распределения.
Тематическая репрезентативность — мера представленности в наборе диагностических заданий той предметной области, на которую направлена методика, т. е. области поведения в случае тестирования психологических свойств или области знания в случае педагогической диагностики.
Диагностическая ценность методики определяется путем проведения предварительного опыта с так называемой нейтральной группой, результаты которого в дальнейшей диагностической работе не используются.
\ Например, в процессе обработки результата предварительной контрольной работы все полученные данные располагают в возрастающем порядке и определяют медиану, т.е. величину, находящуюся в середине ряда. Учащихся, получивших оценку ниже медианы, считают «слабыми»; вышемедианы — «сильными».
Кроме основных есть и ряд дополнительных требований, предъявляемых к выбору диагностических методик.
В о-п ервых, избираемая методика должна быть наиболее простой из всех возможных и наименее трудоемкой из тех, которые позволяют получить требуемый результат. В этой связи простая опросная методика может быть предпочтительнее сложного теста.
Во-вторых, избираемая методика должна быть нетрудоемкой, требовать минимума физических и психических усилий на проведение диагностики.
В-третьих, инструкция к методике должна быть простой, короткой и понятной не только для диагноста, но и для испытуемого, настраивать испытуемого на добросовестную доверительную работу, исключающую возникновение у него побочных мотивов, способных отрицательно повлиять на результаты, сделать их сомнительными. В ней, например, не должно быть слов, настраивающих испытуемого на определенные ответы или намекающих на ту или иную оценку этих ответов.
В-ч е т в е р т ы х, обстановка и другие условия проведения диагностики не должны содержать посторонних раздражителей, которые могут отвлечь внимание испытуемого, изменить его отношение к психодиагностике и превратить его (отношение) из нейтрального и объективного в пристрастное и субъективное. Не допускается, как правило, чтобы во время проведения диагностики присутствовал еще кто-либо, кроме диагноста и испытуемого, звучала музыка, слышались посторонние голоса и другие отвлекающие шумы.
Контрольные вопросы
1. Чем различаются критерии и показатели? Сколько принято выделять критериев и показателей?
2. Что называют операционализацией и верификацией?
3. Как определяется объективность исследовательского метода?
4. Что понимают под надежностью метода исследования? Какие существуют приемы оценки надежности метода?
5. Что называют валидностью и какими критериями она определяется?
6. Какие виды валидности выделяют в методологии психолого-педагогического исследования?
7. Какие существуют дополнительные требования к методам психолого-педагогических исследований и их выбору?
Практические задания
1. Проанализируйте по авторефератам диссертации обоснованность отбора и применения исследовательских методов.
2. Оцените по выделенным в данной главе критериям методы исследования, которые вы отобрали к своему исследованию.
Рекомендуемая литература
Бабанский Ю.К. Избранные педагогические труды. — М., 1989.
Валеев Г.Х. Методология и методы психолого-педагогических исследований. — Стерлитамак, 2002.
Максимов В. Г. Педагогическая диагностика в школе: учеб. пособие. — М., 2002.
Сластенин В. А., Каширин В. В. Психология и педагогика. — М., 2001.
Социальная психология: учеб. пособие / А.Н.Сухов, А.А.Бодалев, В.Н.Казанцев и др.; под ред. А.Н.Сухова, А.А.Деркача. — М., 2001.
^
ГЛАВА 9
ОБРАБОТКА И ИНТЕРПРЕТАЦИЯ НАУЧНЫХ
ДАННЫХ
Стреляй! Но знай, я это истолкую… Д.А.Леонтьев. Однопсишия
Результативность научного поиска определяется способностью исследователя не только собрать достоверные данные, но также систематизировать и классифицировать их, выявить закономерности и представить их научной общественности, а также для использования педагогами-практиками. Этим вопросам посвящена настоящая глава.
cyberpedia.su
Понятие валидности инструментов измерения. Методы валидизации исследования.
(Интернет) Мы не так уж часто имеем возможность непосредственно измерить понятия, используемые в социологических теориях. Такие понятия, как власть, демократия и представительство, не так просто представить количественно,как понятия типа длины и веса. Нам приходится пользоваться показателями, лишь косвенно соответствующими понятиям, которые они представляют. А в таком случае всегда существует опасность, что выбранные показатели будут неадекватно отражать понятия, которые мы хотим с их помощью измерять. Для обозначения степени соответствия измерений понятиям, которые эти измерения должны отражать, используется термин валидность. Интересоваться валидностью измерения – то же самое, что интересоваться, действительно ли с помощью данного измерения мы измеряем то, что предполагали измерять. Обеспечение валидности часто считается основной проблемой, связанной с измерением в социальных науках.
Чтобы быть валидным, измерение должно быть исчерпывающим и полным. Если, например, мы сравниваем качество коммунальных служб в разных городах, у нас может возникнуть искушение считать показателем качества системы образования количество преподавателей в школах. Это – неуместное измерение, поскольку количество работающих в системе школьного образования в значительной степени определяется количеством учащихся и размерами города и может иметь мало общего с качеством образования. Если за показатель качества системы образования принять отношение количества учащихся к количеству учителей, мы получим более уместное измерение, так что различия, вызванные размерами города, уменьшатся или вообще исчезнут. Тем не менее измерение все еще останется недостаточным. Образование – это не только преподаватели. Образование – это также школьные задания, фильмы, книги, учебные пособия и множество других факторов. Рассмотрение каждого из этих факторов в отрыве от остальных может создать неверное впечатление о качестве системы образования. Система школьного образования может иметь в высшей степени благоприятное соотношение учащихся и преподавателей, однако недостаточное количество средств обучения и учебных материалов. Было бы ошибкой утверждать, что эта система школьного образования не отличается от системы с таким же соотношением учащихся и преподавателей и прекрасными средствами обучения и учебными материалами. Если мы стремимся к валидности, мы должныпопытаться выбрать такие измерения, которые были бы и уместными и полными.
В этой ситуации возникает два вопроса: как осуществить исчерпывающие, полные и уместные измерения и как убедиться в том, что нам удалось это сделать.
Ответ на первый вопрос начинается с процесса операционализации. Мы можем определить валидность как степень, в которой различия оценок измерения отражают только различия в распределении значений переменной, которую мы собираемся измерять. Так как мы, вероятно, никогда не сможем достичь полной и всеобщей валидности, наша цель должна заключаться в выборе измерений, которые были бы минимально чувствительны к воздействию всех иных различий, кроме различий, обусловленных интересующей нас переменной. Для этого необходимо внимательно рассмотреть все процессы, связанные с нашими измерениями, для обнаружения возможных причин различий в оценках. На этом этапе мы должны быть особенно внимательны, чтобы застраховаться от влияния систематических ошибок.
Рассмотрим такой пример. Возможно, нам понадобится измерить, в какой степени граждане разных государств согласны с политикой своих правительств. Мы решаем использовать в качестве показателя согласия или несогласия ответы на ряд специально подготовленных вопросов. Мы считаем, что единственным источником различий в ответах на вопросы являются различия мнений. Однако минутное размышление наводит на мысль о другом возможном источнике вариаций. Если среди исследуемых нами государств есть государства с авторитарным правительством, прибегающим к услугам секретной полиции для подавления инакомыслия и рассматривающим любую критику своей политики как акт государственной измены, граждане этих государств, вполне возможно, побоятся высказывать в интервью несогласие со своим правительством. В этом случае оценки, полученные для нашего измерения, могут по крайней мере в той же степени определяться отношением правительства данного государства к несогласным, в какой – мнением интервьюируемых, Поскольку вероятность ошибки измерения такого рода очень высока, подготовленные вопросы оказываются неподходящей операционализацией.
Сходным образом в самом начале процесса исследования мы должны позаботиться о полноте. Если мы хотим измерить относительное влияние различных групп интересов в законодательном собрании штата, можно подумать об использовании в качестве показателя газетных сообщений о выступлениях этих групп перед законодательными комиссиями. Однако следует спросить себя, сводится ли политическое влияние к произнесению клятвенных заверений на публичных заседаниях. Эта деятельность законно считается частьюпроцесса влияния, однако существует так много других средств оказания влияния, что измерение, опирающееся исключительно на произнесение заверений как показатель влияния, оказывается неполным.
Таким образом, получение уместных и относительно полных операционализаций зависит как от хорошего знания объекта нашего исследования, так и от осуществления тщательного логического анализа альтернативных операционализаций. Однако проверить валидность наших измерений для определения того, хороши ли они, можно лишь послетого, как собраны данные. Процесс оценки валидностиизмеренийназываетсявалидизацией.
Имеется четыре основных подхода к валидизации. Первый часто называется прагматической валидизацией, поскольку валидность измерения оценивается на основе данных о том, насколько хорошо оно позволяет предсказывать поступки и события. Например,мы разрабатываем измерение для определения пригодности кандидатов на общественную должность, с точки зрения избирателей. Некоторый показатель валидности этого измерения можно получить, применив его ко всем кандидатам в сенат США в данном избирательном году и предсказав их шансы быть выбранными на основе сравнительных оценок по шкале привлекательности для избирателей. Чем более успешно мы предскажем результаты выборов для всех кандидатов, тем сильнее наша уверенность в валидности измерения, в том, что оно точно отражает понятие, которое мы имеем в виду. Принято говорить, что измерения, позволяющие предсказатьбудущие события, обладают прогностической валидностью.
Прагматическая валидизация требует наличия у переменных некоторого альтернативного показателя,который, по нашему убеждению, является их валидным отражением. Мы проверяем наши измерения по этому альтернативному показателю, как могли бы проверять точность сообщения о возрасте по свидетельству о рождении. К сожалению, для понятий, используемых в социологических исследованиях, редко встречаются явно валидные альтернативные показатели. В итоге нам обычно приходится рассчитывать на валидизацию второго типа – конструктнуювалидизацию.
Конструктнуювалидизацию осуществляют, выводя валидность измерения из данных о степени соответствия реальных соотношений между оценками по различным измерениям ожиданий, следующих из теории, предписывающей нам использовать данный показатель. При этом рассуждение ведется по двум направлениям.
Прежде всего, мы должны сказать себе: “Если понятие Х положительно связано с понятием Y и отрицательно – с понятием Z (как и предсказывает наша теория), верно будет также и то, что оценки понятия Х в валидном измерении будут положительно связаны с оценками понятия Y в валидном измерении и отрицательно – с оценками понятия Z в валидном измерении”. Мы не можем валидизировать измерение, сравнивая оценки в этом измерении с оценками той же переменной в другом измерении, которое, как мы знаем, является валидным (как в случае свидетельства о рождении). Однако мы можем судить о его валидности по тому, в какой степени использование данного измерения в качестве показателя переменной создает те же типы отношений между данной переменной и другими переменными, которые мы ожидаем в соответствии с нашей теорией.
В качестве примера возьмем изучение международных сообществ. Мы могли бы построить измерение надежности такого союза на основе контент-анализа газетных публикаций соответствующих стран. Является ли валидным показателем надежности сообщества двух стран то. что газеты данного государства пишут о другом государстве? Мы могли бы ответить на этот вопрос, рассуждая следующим образом: “В соответствии с нашей теорией, чем надежнее сообщество государств, тем чаще они будут одинаково голосовать в ООН и тем меньше ограничений на взаимную торговлю они будут накладывать. Поэтому оценкинадежности сообщества в валидном измерении будут положительно связаны с оценками в измерениях одинакового голосования в ООН и отрицательно связаны с оценками в измерениях количества торговых ограничений. Затем мы переходим к анализу данных, необходимому для установления того, подтверждается ли это ожидание нашими наблюдениями. Если соотношения окажутся такими, как ожидалось, наша уверенность в валидности измерения надежности сообщества будет выше. Если соотношения будут иными, чем мы ожидали, мы зададимся вопросом, надежным ли измерением для этого понятия мы располагаем”.
То, что мы только что описали, часто называют внешней валидизацией. При этом осуществляется сравнение оценок в измерении, подвергающемся валидизации, с оценками в измерениях для других переменных. Разумеется, для использования этого метода валидизации нам придется включить в наше исследование измерения других переменных. Это означает, что нем следует обдумывать способы валидизации наших измерений уже на ранних этапах процесса исследования. Безусловно, к тому моменту, когда мы будем готовы разрабатывать план исследования, мы должны знать, как будет проверяться валидность наших измерений, для того чтобы наверняка собрать всю необходимую информацию.
Попытки внешней валидизации дадут убедительные доказательства валидности нашего измерения для одной переменной лишь в том случае, если мы будем убеждены в валидности измерений, используемых для остальных переменных. Так, в последнем примере мы не смогли бы сделать никаких выводов относительно валидности измерения надежности сообщества на основе соотношений оценок в данном измерении и оценок двух других переменных, если бы мы не считали показатели одинакового голосования и торговых ограничений валидными. Поскольку часто бывает трудно обнаружить безусловно валидные показатели для переменных, с которыми должна быть связана ключевая переменная, процедуры внешней валидизации следует применять с осторожностью. Все это очень напоминает процедуру проверки гипотезы. Никакой отдельно взятый результат не гарантирует валидности (или невалидности) измерения. Скорее, по мере накопления случаев успешной валидизации наша уверенностьв валидности измерения возрастает. По этой причине для использования во внешней валидизации разумно искать как можно больше предсказанных теорией отношений. Чем больше имеется в нашем распоряжении разных способов проверки валидности, тем надежнее наш результат.
Та же самая логика рассуждений применима ко второму типу конструктнойвалидизации – внутренней, или конвергентной, валидизции. Этот тип валидизации включает разработку нескольких измерений для одной и той же переменной и сравнение между собой этих разных измерений. Мысчитаем, что, если каждый из показателей дает для рассматриваемого понятия валидное измерение, оценки, получаемые конкретными объектами в этих измерениях, должны быть тесно связаны. Если и А, и В, и С являются валидными измерениями для Х, то оценки любого конкретного объекта в измерениях А, В и С должны быть очень близки.
Предположим, например, что мы хотим получить показатель для качества уличного освещения в окрестностях жилья в рамках изучения работы коммунальных служб. Мы могли бы использовать в качестве такого показателя оценку достаточности уличного освещения, по мнению жителей (выявляется с помощью выборочных интервью). Мы можем выборочно опросить живущих по соседству людей, насколько хорошо, по их мнению, освещена улица около их дома, и взять среднюю оценку за меру качества уличного освещения. Чтобы осуществить внутреннюю валидизацию, мы можем измерить качество уличного освещения также: 1) использовав световой счетчик для получения физической меры яркости и распределения освещения; 2) получив оценки освещенности, сделанные специально обученными наблюдателями; 3) попросив жителей сравнить освещение на улицах с освещением на фотографиях, изображающих улицы, освещенные в разной степени, и усреднив их оценки для получения значения освещенности окрестностей их домов. Таким образом, мы получаем четыре измерения переменной. Если каждое из них является валидным, все они должны быть тесно связаны. Можно проверить это с помощью соответствующих статистических расчетов. Если мы обнаружим, что оценки измерения, в основе которого лежат ответы на вопросы интервью, слабо связаны с оценками остальных трех измерений и что при этом оценки этих трех измерений тесносвязаны друг с другом, у нас будет основание подозревать, что первое измерение невалидно.
Это очень похоже на взвешивание одного и того же предмета на трех разных весах. Если каждые весы показывают точный вес и у нас нет оснований считать, что в ходе эксперимента вес объекта изменился, мы вправе ожидать, что все эти весы покажут один и тот же вес. Если еще одни весы показывают вес, отличный от данного, можно подозревать, что они не отрегулированы.
Пользуясь внутренней валидизацией, необходимо соблюдать те же предосторожности, которые требуются при внешней валидизации. Мы не всегда можем быть уверены, что наши альтернативные измерения ключевого понятия валидны, и поэтому мы должны с осторожностью делать вывод о валидности или невалидности измерения на основании любой проверки валидизации. Наша уверенность в результатах внутренней валидизации может существенно возрасти, если мы последуем простому правилу: альтернативные измерения понятия должны основываться на возможно большем числе различных операционализаций.
В примере с уличным освещением измерения имеют в качестве источника четыре разных типа операционализаций: словесные оценки жителей, физические измерения, оценки наблюдателей и отбор фотографий, произведенный жителями. Каждый из них представляет особый способ операционализации. Чем больше разных способов мы можем использовать и чем более они взаимонезависимы, тем больше мы можем доверять нашей валидизации. Почему? Логика рассуждения здесь такова. Основной источник невалидности – это систематические и случайные ошибки измерения. Разные измерения подвержены ошибкам разных типов. Чем больше показателей для некоторой переменной у нас имеется и чем сильнее они отличаются друг от друга, тем менее вероятно, что во всех показателях проявится одна и та же ошибка измерения. А если это так, то у нас будет больше возможностей обнаружить ошибку измерения как источник различий в оценках в любом измерении и получить точное измерение для переменной в том случае, если мы будем использоватьмножественные показатели.
Например, факторы, способные сделать непригодным физическое измерение качества уличного освещения (такие, как неисправный световой счетчик), по-видимому, совершенно не связаны ни с какими факторами, которые могли бы внести систематические ошибки в измерение, основанное на оценках жителей (такими, как характерная для людей тенденция считать, основываясь на чувстве местного патриотизма, что их коммунальные службы не хуже, чем в других местах). Если мы используем только один способ измерения, любой источник ошибок измерения может сказаться на оценках в каждом измерении, постоянно предоставляя нам негодный показатель и не давая возможности осуществлять значимые сравнения между измерениями. Если, например, мы опираемся только на физическое измерение освещенности, но снимаем показания несколькими разными способами (на тротуаре, на краю тротуара и на мостовой), любой дефект измерительного инструмента (в данном случае светового счетчика) будет оказывать влияние на все измерения и ни одно нельзя будет использовать для проверки другого.
При таком подходе множественные показатели для переменных имеют очень большое значение. Наличие множественных измерений не только дает нам возможность проверить валидность наших показателей, но также в первую очередьувеличивает наши шансы получить валидное измерение переменных. Множественные измерения могут на самом деле повысить валидность измерения, позволяя скомбинировать результаты нескольких разных процедур для получения сложной оценки, которая скорее будет являться правильным отражением действительного значения переменной, чем каждое из измерений, взятое в отдельности. Такая сложная оценка с большей вероятностью будет представлять собой валидное измерение, так как не исключено, что при объединении результатов нескольких процедур измерения ошибки, приводящие к невалидности каждого измерения, нейтрализуются.
Здесь действует практически тот же принцип, что и при взвешивании предмета на многих разных весах. Поскольку весы несовершенны, каждый прибор может показать несколько иное значение веса – чуть тяжелее или чуть легче. Однако если предмет взвешивается на нескольких весах, в соответствии с законами теории вероятности достаточно высока вероятность того, что эти небольшие ошибки нейтрализуют друг друга, давая среднийвес, который является правильным. Сходным образом, если мы операционализируем понятия несколькими разными способами, так что ошибка измерения, связанная с каждой операционализацией, не зависит от ошибок, сопровождающих все остальные операционализации, мы получаем хорошие шансы обеспечить точное измерение понятия, комбинируя разные оценки. (В разделах гл.8, посвященных шкалированию и индексированию, будут описаны некоторые возможные методы комбинирования оценок для получения составного измерения.)
Третий способ валидизации называется дискриминантной валидизацией. Задавая вопрос, обладает ли измерение дискриминантной валидностью, мы интересуемся главным образом тем, возможно ли, используя данное измерение в качестве показателя некоторого понятия, отличить это понятие от других. Например, если бы мы захотели измерять понятие доверия к политическим деятелям с помощью ряда вопросов обследования, а в нашей анкете есть ряд вопросов, предназначенных для измерения понятия доверия к людям (вообще), то, сравнивая оценки двух измерений, мы можем спросить себя, не отражает ли первый набор вопросов всего лишь иной способ измерения доверия к людям. Если оценки очень близки, мы скажем, что измерение политического доверия не обладает дискриминантной валидностью, поскольку не позволяет отличить понятие “доверие к политическим деятелям” от понятия “доверие к людям”.
Наконец, последний способ валидизации опирается на понятие очевидной валидности. Некоторые измерения основаны на столь прямом наблюдении за исследуемым поведением, что задавать вопрос об их валидности представляется неразумным: такое измерение кажется валидным “по внешнему виду”. Предположим, например, что мы хотим измерить степень соблюдения государственного закона, требующего наличия на входной двери каждой фирмы патента на соответствующую деятельность. По-видимому, обучив наблюдателей просто отмечать наличие или отсутствие таких патентов, мы получим явно валидное измерение выполнения закона. И хотя мы всегда должны спрашивать себя, являются ли выбранные нами измерения валидными по внешнему виду, как правило, мы совершали бы ошибку, если бы гарантировали точность результатов исследования, опираясь на одну лишь очевидную валидность. Мы должны попытаться удостоверить валидность наших измерений с помощью стандартных процедур типа тех, что описывались выше.
25. Понятие надежности инструмента измерения в политическом анализе. Методы обеспечения надежности исследования
(Интернет)
Характеристика основных уровней измерения (номинальный, порядковый, интервальный).
Измерение — эмпирическая процедура, формализующая между объектами через определённый признак или свойства; процедура построения количественных критериев отличия данного объекта от ряда других объектов того же класса.
Наиболее распространенным типом измерения являются номинальные измерения (шкала измерений) — группировка объектов в ряд непересекающихся классов.
Номинальное измерение– это простое наименование объектов в соответствии с заранее заданной схемой классификации. Национальность обычно “измеряется” на номинальном уровне посредством классификации людей на англичан, швейцарцев, бразильцев и т. п. Это “измерение” не сообщает, насколько характеристика “национальность” свойственна разным людям, и не позволяет упорядочивать их. Использование номинального измерения всего лишь дает возможность объединить объекты в классы, обозначенные так, как это принято в классификационной схеме.
Порядковое измерение предоставляет больше информации, так как дает возможность не только категоризовать, но и упорядочивать, или ранжировать, явления. Порядковое измерение позволяет присваивать каждому объекту число, которое обозначает не только то, что данный объект отличен от одних объектов и сходен с другими с точки зрения измеряемой переменной, это число указывает также, как именно данный объект связан с другими в терминах количества того конкретного свойства, которым он характеризуется.
Интервальное измерение предоставляет еще больше информации. Мы можем не только классифицировать и упорядочивать объекты, после того как они измерены на интервальном уровне, но и сказать, насколько большим или меньшим количеством измеряемого свойства по сравнению с другими объектами они характеризуются. Порядковое измерение не основано ни на какой стандартной для данной переменной единице и не позволяет установить, насколько далеко в терминах этой переменной отстоят друг от друга разные объекты. Оно лишь позволяет говорить, что у одних объектов данная переменная имеет большее или меньшее значение, чем у других. Интервальное измерение основано на представлении о существовании некоторой стандартной единицы измеряемого свойства.
Валидность (обоснованность) – степень соответствия меры (показателя) тому понятию, которое она (он) призвана отражать.
Если при неоднократном применении некоторого измерения один и тот же объект не получает одного и того же значения, это измерение является ненадежным показателем соответствующего понятия.
Если измерение ненадежно, оно не может быть валидным, поскольку некоторые различия в оценках, приписанных объектам, обусловлены ошибками измерения, а не истинными различиями между объектами.
В социальных науках имеется три типа методов установления надежности измерений. Первый – это метод неоднократного тестирования. В этом случае одно и то же измерение снова и снова применяется в отношении одного и того же набора объектов. Если объекты всякий раз получают одну и ту же оценку, измерение считается надежным
Второй — метод альтернативной формы. В соответствии с этим методом в один и тот же момент разные формы измерения применяются к одной и той же группе объектов либо одно и то же измерение применяется к разным группам объектов. В этом случае тест-эффект невозможен, поскольку ни один объект не измеряется более одного раза, а так как измерения не отделены друг от друга никакими временными интервалами, на результатах измерений не могут сказаться реальные изменения исследуемых переменных.
Третий способ тестирования надежности измерения известен под названием метода подвыборки. Этот метод заключается в том, что, сформировав выборку из объектов, мы делим ее на несколько подвыборок таким образом, чтобы все они были похожи друг на друга. Затем мы применяем одно и то же измерение ко всем подвыборкам и используем сходство или различие результатов для подвыборок как показатель надежности измерения. Так как ни один объект не измеряется дважды, мы можем не считать тест-эффект угрожающим точности нашего теста на надежность; а поскольку измерения осуществляются одновременно, реальные изменения переменной не могут иметь значения для данного метода, как это происходит в случае метода неоднократного тестирования.
26. Опрос как метод сбора данных в политологическом исследовании: понятие, функции и виды опросов
(Интренет) Опрос — это систематический или разовый метод сбора первичной информации, при котором осуществляется устное или письменное обращение к опрашиваемым лицам, посредством личных контактов или с использованием средств связи, с вопросами, содержание которых образует проблему исследования.
Опрос — самый распространенный метод сбора первичной информации. С его помощью получают почти 90% всех социологических данных. Опрос предполагает обращение к непосредственному участнику и нацелен на те стороны процесса, которые мало поддаются или не поддаются вообще прямому наблюдению. Вот почему опрос незаменим, когда речь идет об исследовании тех содержательных характеристик общественных, групповых и межличностных отношений, которые скрыты от внешнего глаза и дают о себе знать лишь в определенных условиях и ситуациях.
Технология опроса заключается в сборе первичной информации путем прямого задавания людям вопросов относительно уровня их знаний, отношений к продукту или предоставляемой услуге. Как правило, проведение опроса состоит из нескольких этапов: 1) разработка, проверка и тиражирование анкеты; 2) формирование выборки; 3) инструктаж интервьюеров; 4) проведение опроса и контроль качества данных; 5) обработка и анализ полученной информации; 6) составление итогового отчета.
Опросы могут различаться по следующим признакам: 1) по способу контакта с респондентом: очные (личный контакт) и заочные — прессовые, телефонные, почтовые (в том числе, по электронной почте), Internet-опросы; 2) по типу респондентов: опрос физических лиц, опрос юридических лиц, опрос экспертов; 3) по месту проведения: дома, в офисе, в местах оказания услуг; 4) по типу выборки: опрос репрезентативной либо целевой выборки; 5) по источнику (носителю) первичной информации: массовые, специализированные; 6) по частоте опроса: точечные, повторные; 7) по степени охвата: сплошные (например, референдум), выборочные, общенациональные, региональные, локальные и др.; 8) по форме опроса: анкетирование (письменный), интервьюирование (устный).
(Ахременко)ВИДЫ опроса
1)По характеру взаимодействия исследователя и респондента выделяют интервью и анкетирование. Интервью предполагает прямой контакт между задающим вопросы (в этом случае он будет называться интервьюером) и респондентом. Анкетирование предполагает коммуникацию между исследователем и респондентом при помощи материального посредника —анкеты, представляющей собой структурированный по определеннойсхеме перечень вопросов, зафиксированный на бумажном или электронном носителе.
Говоря о достоинствах и недостатках анкетирования и интервью в сравнительном ключе, следует отметить следующее. Анкетирование позволяет охватить большее число респондентов, чем интервью, за один период времени. Например, чтобы проинтервьюировать членов студенческой группы из 20 студентов, одному интервьюеру потребуется около 5 часов при условии, что каждое интервью длится 15 минут. В этой же ситуации процесс анкетирования займет всего 15 минут, если раздать анкеты всем студентам одновременно. Анкеты, представляющие собой единообразные, четко структурированные перечни вопросов, легче поддаются технической обработке. Интервью, особенно построенное по свободной схеме (когда интервьюер руководствуется лишь общим списком тем), требует достаточно трудоемкой и длительной по времени расшифровки ответов.
В то же время интервью — более гибкий исследовательский инструмент, предполагающий возможность уточнять те или иные аспекты в ответах респондента, глубже рассматривать отдельные темы. Личный контакт между интервьюером и респондентом увеличивает «включенность» последнего в процесс опроса, повышает уровень его ответственности при формулировке ответов. Впрочем, личный контакт может иметь и негативные последствия, например когда интервьюер вызывает личную антипатию у респондента.
Существует своего рода «гибрид» анкетирования и интервью, когда личный контакт между респондентом и интервьюером есть, но их беседа проходит по очень жестко заданной схеме. Формулировки и порядок следования вопросов не подлежат изменению; функции интервьюера ограничиваются фиксацией ответов респондента в соответствии с заранее разработанной и единообразной для всех интервьюеров процедурой. Бланк интервью содержит коды ответов для облегчения последующей обработки. Вопросы, содержащие развернутые перечни вариантов ответа, выносятся на специальные карточки, которые интервьюер предъявляет для заполнения респонденту. Такой вид опроса называется стандартизованным интервью в противовес свободному интервью. В последнем случае интервьюер ограничен лишь тематическим планом беседы и набором наиболее важных вопросов, вместе получивших название «гайд» (от англ. guide — проводник), т.е. сценарий интервью.
2) Одной из разновидностей опроса являются мониторинговые (трендовые) опросы — серии опросов, проводящихся с определенной периодичностью. Трендовые опросы нацелены на фиксацию изменений во мнении респондентов по отношению к одной и той же политической проблеме или политическому актору. Наиболее распространенный трендовый опрос — ежемесячное измерение рейтинга поддержки ведущих политиков на протяжении года, оставшегося до президентских выборов. Основной вопрос, повторяющийся в каждом ежемесячном опросе — «За кого вы бы проголосовали, если бы выборы президента состоялись в следующее воскресенье?» — как правило, будет иметь полузакрытую форму.
Специфической разновидностью трендового опроса являются панельные опросы. Основное отличие панельных опросов от обычных трендовых состоит в том, что панельные исследования проводятся по одной и той же выборочной совокупности. Речь идет не только о сохранении единых принципов отбора, что актуально для всех мониторинговых опросов; в панельном исследовании опрашиваются одни и те же люди. Несмотря на ряд технических сложностей, связанных с проведением панельных опросов, они обладают одним уникальным достоинством, а именно способностью зафиксировать не только тенденцию в изменении мнений, но и причины и мотивы этого изменения.
В отечественной политической науке (в отличие от западной) панельные исследования пока что распространены довольно слабо, хотя это один из основных рабочих инструментов, к примеру, российских специалистов по маркетингу. Вероятно, и в политических исследованиях панельные опросы займут в ближайшем будущем достойное место.
3) Несколько видов опроса выделяется по техническому способу связимежду исследователем и респондентом. Так, достаточно широкое распространение получили телефонные опросы, в частности, в силу их меньшей стоимости по сравнению с очным интервью. В то же время проведение телефонных опросов связано с рядом ограничений, особенно в России. Во-первых, в нашей стране уровень телефонизации очень сильно колеблется по отдельным территориям. Достаточно высок он Москве и Санкт-Петербурге, ряде крупных городов. На остальной же территории, особенно в сельской местности, наличие телефона в семье может отражать ее более высокий социальный статус или уровень благосостояния. В этом случае проведение телефонного опроса приведет к существенному смещению выборки, так как доля статусных и обеспеченных граждан в ней будет выше по сравнению с генеральной совокупностью. Во-вторых, использование телефонной связи рекомендуется при проведении экспресс-опросов, когда перечень задаваемых вопросов незначителен.
С некоторой натяжкой к видам опроса можно отнести разнообразные голосования на интернет-сайтах. Ограничения их репрезентативности очень велики и связаны с низкой распространенностью Интернета в России, возрастной и профессиональной спецификой его аудитории в целом и аудитории отдельных сайтов в частности. Слабой репрезентативностью обладают также опросы, проводящиеся во время телевизионных передач (когда зрителям предлагается определить свое отношение к проблеме, позвонив по одному из указанных номеров).
Несмотря на значительную распространенность телевидения, каждая телепрограмма имеет собственную специфическую аудиторию. Кроме того, от респондента в данном случае требуется сделать некое усилие — набрать номер телефона. Соответственно, выборка будет смещена в сторону повышенной представленности социально активных граждан.
4) Опросы бывают индивидуальными и групповыми. В последнем случае опрос представляет собой беседу нескольких респондентов, протекающую в русле заданной темы и направляемой ведущим, который называется обычно модератором или медиатором. Наиболее распространенный вид группового опроса — фокус-группа; в силу широкой распространенности фокус-групп в политических исследованиях методика их проведения будет рассмотрена отдельно.
Групповые опросы нельзя путать с массовыми опросами. Массовый опрос — это совокупность большого числа индивидуальных опросов. Предметом исследований, реализуемых с помощью массового опроса, является мнение большой социальной группы или совокупности социальных групп по той или иной политической проблеме. Объектом таких исследований может быть, например, молодежь крупных городов, лица с доходом ниже прожиточного минимума, население региона или страны в целом. Массовые опросы всегда проводятся выборочным методом, причем объем выборки, как правило, составляет от одной до полутора тысяч респондентов. Репрезентативность такой выборочной совокупности (а в массовых опросах ошибка выборки обычно не превышает 2,5%) обеспечивается сочетанием квотного принципа и многоступенчатого районированного отбора.
Высокая репрезентативность массовых опросов позволяет количественно оценивать характеристики общественного мнения, причем на интервальном уровне измерения. По результатам массового опроса мы можем не только сказать, что, к примеру, отношение взрослого населения России к реформе системы образованияявляется «скорее позитивным» или «скорее негативным»; мы можем с высокой точностью (до значения ошибки выборки) оценить, насколько доля «однозначно позитивно» воспринимающих реформу больше или меньше доли оценивающих ее «однозначно негативно», каков процент не имеющих определенного мнения по данному вопросу и т.д. В приведенном выше примере трендового опроса общественного мнения, фиксирующего колебания рейтинга кандидата в президенты, мы также оперируем интервальными данными.
5) Отдельную разновидность опроса составляют экспертные опросы. Экспертом является человек, владеющий информацией по интересующей исследователя проблеме. Основная специфика данного вида исследований состоит в том, что при их проведении нас интересует не столько субъективное мнение респондента как представителя некоторой широкой социальной группы, сколько объективная его оценка тех или иных процессов и явлений. Информация, полученная от носителя экспертного знания, является не только
cyberpedia.su
21. Определения валидности. Важнейшие составляющие валидности. Психодиагностика
21. Определения валидности. Важнейшие составляющие валидности
Валидность (англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
В психодиагностике валидность – обязательная и наиболее важная часть сведений о методике, включающая данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и т. д.), связь изучаемой области поведения или особенности личности с определенными психологическими конструктами.
Важнейшая составляющая валидности – определение области изучаемых свойств – имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных.
В большей степени достоверность данных теста определяется набором измеряемых свойств. Различные категории этих сведений и способы их получения образуют типы валидности .
Диагностическая (конкурентная) валидность отражает способность теста дифференцировать испытуемых по изучаемому признаку. Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют прогностическую валидность методики.
Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. валидности критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей.
Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным.
Валидность содержательная (внутренняя, логическая) – комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям.
Наряду с перечисленными основными типами валид-ности (содержательной, критериальной и конструктной) на практике выделяют факторную, перекрестную (конвергентную) и дискриминантную валидности.
Поделитесь на страничкеСледующая глава >
psy.wikireading.ru
26. Критериальная валидность. Психодиагностика
26. Критериальная валидность
Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия валидиза-ции выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, выраженность определенного свойства личности. Критериальная валидность может быть определена на основании сопоставления результатов теста с экспертными оценками хорошо знающих обследуемого лиц, с результатами наблюдения за проявлением этой особенности в его поведении, с объективными сведениями о круге общения.
Критериальная валидность включает как комплекс связей с текущим состоянием изучаемого явления, так и вероятность, обоснованность прогноза о его состоянии в будущем. Здесь в рамках критериальной валидности различаются текущая (диагностическая, конкурентная) и прогностическая валидности. В случае характеристики текущей критериальной валидности изучение корреляции результатов теста с независимыми критериями проводится параллельно с измерением. Показатели текущей критериальной валидности указывают на степень репрезентации характеристик изучаемого психического явления в результате теста.
Предсказательная критериальная валидность может отражать как соответствие прогноза, сделанного на основании данного теста, реальному состоянию измеряемого качества спустя некоторое время, так и временной интервал, в котором результат теста является валидным.
Валидизация по какому-либо критерию эффективно осуществляется методом контрастных групп. При этом, как правило, используют сложный критерий, в котором отражено комплексное влияние различных факторов. Например, при характеристике критериальной валидности теста интеллекта показатели умственно отсталых детей могут быть сопоставлены с показателями нормальных школьников того же возраста. Множество факторов, обусловивших помещение ребенка в специальное учреждение для детей с глубокой умственной отсталостью, составят критерий валидизации. Аналогично критериальной валид-ности личностного опросника, предназначенного для выявления «уровня невротизации», определяется критерий валидизации на основе сравнения его результатов у пациентов, страдающих неврозами, и практически здоровых людей. Такой критерий в силу его обобщенности, интегративности приближает критериальную ва-лидность к области конструктной валидности.
Поделитесь на страничкеСледующая глава >
psy.wikireading.ru
Понятие валидности методики. Типы валидности. — Студопедия.Нет
«Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»
А.Анастази
Валидность — комплексная характеристика, включающая, с одной стороны, сведения о пригодности методики для измерения того, для чего она создана, а с другой стороны, информацию о том, какова ее действенность, эффективность, практическая полезность.
Тест называется валидным, если он измеряет то, для измерения чего предназначен.
Основные виды валидности:
Валидность очевидная — описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то ме- ре трепет медицинским диагностическим инструментарием.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена.
Валидность по содержанию — степень соответствия содержания заданий диагностической методики измеряемой области психических свойств. Определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения.
Валидность конструктная — показывает, ансколько результаты теста могут рассматриваться в качестве меры некоего теоретического конструкта или свойства. Демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест.
Валидность по одновременности — установление соответствия результатов диагностической методики независимому внешнему критерию, отражающему состояние диагностируемой особенности в момент проведения исследования.
Валидность конвергентная — установление степени связи диагностической методики с родственными методиками.
Валидность дивергентная/дискриминативная — выявление отсутствия связи диагностической методики с методиками, имеющими другое теоретическое основание.
Валидность прогностическая (предсказывающая) — важнейший вид валидности диагностической методики, который подтверждает ее пригодность для выдвижения прогноза. Прогностическая валидность доказывается в ходе особого эксперимента: тестирование психического свойства предшествует будущему критериальному поведению (событию), на прогноз которого и должен быть направлен тест. Устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время.
Валидность текущая — характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике.
Валидность ретроспективная — установление соответствия результатов диагностической методики независимому внешнему критерию, отражающему события или состояние качества в прошлом.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи.
Выбор процедуры валидизации зависит от последующего назначения результатов теста
Репрезентативность тестовых норм. Достоверность.
Репрезентативность (франц. rеpresentatif — показательный) свойство выборочной совокупности представлять характеристики генеральной совокупности. Р. означает, что с некоторой наперед заданной или определенной статистически погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению.
Для обеспечения Р. выборки данных необходимо учесть ряд обязательных для любого исследования условий. Среди них важнейшими являются следующие: а) каждая единица генеральной совокупности должна иметь равную вероятность попадания в выборку; б) выборка переменных производится независимо от изучаемого признака; в) отбор производится из однородных совокупностей; г) число единиц в выборке должно быть достаточно большим; д) выборка и генеральная совокупность должны быть по возможности статистически однородны ( (выб) – (ген) 0), показатели вариации при увеличении числа наблюдений сближаются между собой:
Статистическое определение Р. в практической психодиагностике необходимо для установления Р. норм психометрического теста, а также обоснованности выборок, на которых проводится стандартизация методик. В широком понимании Р. связана с комплексом характеристик валидности методики.
Достоверность различия (сходства) — аналитико-статистическая процедура установления уровня значимости различий или сходств между выборками по изучаемым показателям (переменным).
Анализ Д. р. имеет практическое значение при оценке статистической значимости разности выборочных средних величин в сопоставляемых распределениях. Этот случай весьма распространен в эмпирических исследованиях. Предположим, перед психодиагностическим исследованием стоит задача проверки валидности текущей (диагностической) разрабатываемого теста методом контрастных групп. Если проверяемая методика является, к примеру, тестом общих способностей, валидизация может базироваться, в частности, на оценке степени устойчивости различий в тестовых оценках у детей со слабой и хорошей школьной успеваемостью. После проведения тестирования той и другой группы необходимо получить подтверждение истинности (а не случайности, напр, за счет ошибки измерений) выявленных различий в средних оценках по тесту в сравниваемых выборках.
При проверке нулевой гипотезы о случайности (неслучайности) сходства (различия), в сущности, используется оценка вероятности совместного перекрытия (или не перекрытия) доверительных интервалов, в которые с определенной, наперед заданной вероятностью могут попадать переменные в сопоставляемых выборках.
При оценке статистической значимости разности выборочных средних арифметических двух распределений первичных величин применяется t-критерий Стьюдента.
Достоверность
Если открытие можно повторить, то оно считается достоверным. Помимо этого общего соображения. термин используется более конкретным образом в психологических исследованиях и при оиенке результатов:
• Чтобы экспериментальное открытие считалось достоверным, необходимо доказать, что оно с успехом воспроизводится при тех же условиях (ретикация).
• Для достоверности психометртеского теста он должен обладать виутреиией и внешней валидностью. Ответы на вопросы в анкете или личностном опроснике можно проверить на наличие противоречий (внутренняя валидность). Кроме того, ответы можно проверять в течение определенного времени, устанавливая степень стабильности результатов (внешняя валидность).
studopedia.net