Выборка нерепрезентативная: 2. Виды выборок / КонсультантПлюс

Репрезентативность выборочных данных | Loginom

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.

Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.

Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.

Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель будут невозможно.

Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.

Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.

Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.

Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.

Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.

Обеспечение репрезентативности

В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).

Выделяют качественную (структурную) и количественную репрезентативность.

Рисунок 1. Количественная и качественная репрезентативность

Качественная репрезентативность

Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.

Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.

Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.

Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.

Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.

Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.

Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.

Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.

Количественная репрезентативность

Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью.{2}\cdot 0,25\cdot 0,75}\approx 188 клиентов.

Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).

В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.

Методы оценки репрезентативности

Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.

Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.

Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.

Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.

Статистические методы

Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.

Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.

В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.

Для сравнения двух выборок используются два вида критериев: непараметрические и параметрические. Первые не используют в расчётах значений параметров статистических распределений, а оперируют частотами и рангами. К числу наиболее популярных непараметрических критериев можно отнести критерий Уилкоксона и U-критерий Манна-Уитни. Второй рекомендуется использовать, если число наблюдений превышает 30. К числу популярных параметрических критериев относится t-критерий Стьюдента, критерий однородности Смирнова, Q-критерий Розенбаума и др.

Нестатистические методы

Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.

Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.

Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.

Обычно нестатистические меры репрезентативности используют расстояния между векторами наблюдений в пространстве признаков. Рассмотрим, например, такой показатель как индекс ближайшего соседа (Nearest Neighbours Index — NNI).{n}D_{i}

где D_i — расстояние от i-го объекта до остальных объектов выборки, n — число объектов выборки.

Затем вычислим величину:

\overline{D}_{total}=\sqrt{\frac{D_{_{total}}}{N}}

где D_{_{total}} — общее расстояние по всей совокупности, N — число наблюдений совокупности.

Тогда индекс ближайшего соседа будет:

NNI=\frac{\overline{D}_{sample}}{\overline{D}_{total}}

Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.

Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.

В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.

Ремонт выборки

Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».

Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.

  1. Контроль выборки — процедура сравнения генеральной совокупности и выборки, выявление степени их расхождения, обнаружение причин отклонений и разработка возможных способов их устранения.
  2. Ремонт выборки — процесс устранения расхождения генеральной совокупности и выборки.

Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.

Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.

Ремонт выборки, обычно, включает следующие задачи:

  1. Коррекция выборки. Заключается в замене ранее выбранных объектов совокупности. Коррекция может потребоваться, например, если в выборке произошло искажение распределения объектов относительно исходной совокупности, например, получился избыток пенсионеров, мужчин, женщин или людей с определённым уровнем образования. Замена может быть произвольной (например, следующий клиент по списку) или эквивалентной (подыскивается клиент с теми же параметрами — пенсионера меняем на пенсионера и т.д.).
  2. Расширение основы выборки. Позволяет включить в выборку большее разнообразие наблюдений. Основа выборки — это подмножество элементов генеральной совокупности, из которого будет формироваться выборка. Использование основы выборки позволяет сделать отбор более целевым, исключив обработку данных, не относящихся к задаче анализа, лучше сфокусироваться на целевой группе. В анализе клиентской базы основой выборки могут быть только мужчины, только женщины, люди в возрасте от 30 до 60 и т.д. Если выборка получилась недостаточно репрезентативной, то решить проблему можно расширяя границы основы выборки. Например, если изначально основой выборки являлась только люди пенсионного возраста, то при необходимости она может быть расширена и на людей предпенсионного возраста.
  3. Взвешивание. При взвешивании объектам выборки могут присваиваться весовые коэффициенты, которые могут учитываться в алгоритме анализа. Например, повышенные весовые коэффициенты могут присваиваться клиентам, которые наиболее активно пользовались услугами компании (купили товаров и услуг на сумму выше некоторого порога). Логично предположить, что мнение таких клиентов будет более значимым.

Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.

 

Другие материалы по теме:

Обработка пропусков в данных

Loginom Data Quality. Очистка клиентских данных. Деморолик

Пример 5.3. Пример нерепрезентативной выборки — Студопедия

Пример 5.2

Пример 5.1

Репрезентативная выборка

Выборка должна отражать целевой рынок, т. е. представлять его характеристики или быть репрезентативной.

Репрезентативная выборка — выборка, представляющая основные характеристики генеральной совокупности.

Если в городе проживает 100000 человек, 60% из которых мужчины и 40% — женщины, то выборка 1000 человек, из которых 10 мужчин и 990 женщин, не будет репрезентативной. Построенный на ее основе опрос общественного мнения будет содержать смещение оценок и приведет к фальсификации результатов. Репрезентативная выборка — это 600 мужчин и 400 женщин, т.е. такое процентное соотношение, которое отражает основную характеристику генеральной совокупности — процентное соотношение мужчин и женщин в городе.

Если размер генеральной совокупности превышает 100000 объектов, то, как правило, по количеству репрезентативная выборка составляет 1000 и более объектов. Если размер генеральной совокупности менее 100000 объектов, то выборка при устремлении количества объектов к единице должна стремиться к 100% генеральной совокупности.

Если мы рассматриваем потребителей мороженого в мегаполисе, то репрезентативная выборка будет составлять 1000 человек и более. Если мы рассматриваем поставщиков, которых всего 15, то репрезентативная выборка будет составлять 15 поставщиков.

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 г. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонным книгам всей страны, и людям из регистрационных списков автомобилей. В 25% вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом: 57% отдавали предпочтение кандидату-республиканцу Альфу Лэндону, 40% выбрали действующего в то время президента-демократа Франклина Рузвельта.

На действительных же выборах, как известно, победил Рузвельт, набрав более 60% голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали еще больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов).

Пример 5.2


Пример 5.1

Репрезентативная выборка

Выборка должна отражать целевой рынок, т. е. представлять его характеристики или быть репрезентативной.

Репрезентативная выборка — выборка, представляющая основные характеристики генеральной совокупности.

Если в городе проживает 100000 человек, 60% из которых мужчины и 40% — женщины, то выборка 1000 человек, из которых 10 мужчин и 990 женщин, не будет репрезентативной. Построенный на ее основе опрос общественного мнения будет содержать смещение оценок и приведет к фальсификации результатов. Репрезентативная выборка — это 600 мужчин и 400 женщин, т.е. такое процентное соотношение, которое отражает основную характеристику генеральной совокупности — процентное соотношение мужчин и женщин в городе.

Если размер генеральной совокупности превышает 100000 объектов, то, как правило, по количеству репрезентативная выборка составляет 1000 и более объектов. Если размер генеральной совокупности менее 100000 объектов, то выборка при устремлении количества объектов к единице должна стремиться к 100% генеральной совокупности.

Если мы рассматриваем потребителей мороженого в мегаполисе, то репрезентативная выборка будет составлять 1000 человек и более. Если мы рассматриваем поставщиков, которых всего 15, то репрезентативная выборка будет составлять 15 поставщиков.

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 г. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонным книгам всей страны, и людям из регистрационных списков автомобилей. В 25% вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом: 57% отдавали предпочтение кандидату-республиканцу Альфу Лэндону, 40% выбрали действующего в то время президента-демократа Франклина Рузвельта.


На действительных же выборах, как известно, победил Рузвельт, набрав более 60% голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали еще больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов).

Репрезентативность выборки и ее ошибка — КиберПедия

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны, это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

Также репрезентативность информации определяют, как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойств общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных. Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность.

Репрезентативность результатов в зависимости от способа различают как вероятностные и невероятностные.

Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностные выборки также могут подразделяться на несколько видов:

Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.

Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.

Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета. репрезентативность информации Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой. Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок: Систематические. Случайные. Преднамеренные. Непреднамеренные. Стандартные. Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

Репрезентативность данных

Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций.

Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки.

Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Расчет ошибок

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

-Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.

-Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой -системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.

-Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.

-Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.

 

 

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны, это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

Также репрезентативность информации определяют, как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойств общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных. Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность.

Репрезентативность результатов в зависимости от способа различают как вероятностные и невероятностные.

Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностные выборки также могут подразделяться на несколько видов:

Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.

Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.

Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета. репрезентативность информации Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой. Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок: Систематические. Случайные. Преднамеренные. Непреднамеренные. Стандартные. Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

Репрезентативность данных

Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций.

Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки.

Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Расчет ошибок

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

-Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.

-Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой -системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.

-Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.

-Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.

 

 

Детерминированный метод выборки

Нерепрезентативная выборка. Нерепрезентативная выборка означает, что исследователь не ставит перед собой цель сделать так, чтобы все существенные характеристики генеральной совокупности были представлены в выборке в той же пропорции, что и в самой изучаемой совокупности. Исследователи стремятся создать выборку из удобных, доступных для отбора элементов. Непосредственный отбор элементов осуществляется, как правило, интервьюером. Примеры: опросы студентов, покупателей магазина без предварительной классификации респондентов.

Выборка экономна. Элементы выборки доступны, готовы сотрудничать и их характеристики легко измерить. Ограничения: большой риск возникновения различных ошибок выборки. Полученные выводы некорректно распространять на всю генеральную совокупность. Их можно применять в поисковых исследованиях, но не рекомендуется использовать в описательных и причинно-следственных исследованиях.

Поверхностная выборка –это разновидность нерепрезентативной выборки, элементы отбираются на основе суждений (знаний) исследователя. Исследователь считает, что эти элементы представляют генеральную совокупность или подходят по другим соображениям. Пример: пробные рынки для оценки потенциала нового товара.

Поверхностная выборка недорога, удобна и быстра. Но не позволяет обобщать результаты, т.к. генеральная совокупность точно не определена. Поверхностная выборка субъективна, ее эффективность полностью зависит от компетентности исследователя. Она полезна, когда заказчик не требует выводов по всей генеральной совокупности. Часто используется в маркетинговых исследованиях торговых организаций.

Квотная выборка. Ее можно рассматривать как двухэтапную ограниченную поверхностную выборку. На первом этапе создаются квоты (контрольные группы) из элементов генеральной совокупности. На втором этапе выбор элементов основан на удобстве отбора или мнении исследователя.

Для создания квот исследователь фиксирует контрольные характеристики, относящиеся к предмету исследования, и определяет их распределение в изучаемой совокупности. Квоты должны обеспечить соответствие структуры выборки структуре генеральной совокупности (табл. 3.2). После чего выбор элементов основан на удобстве отбора или мнении исследователя. Единственное требование – соответствие отобранных элементов контрольным характеристикам.

 

Пример квотной выборки Т а б л и ц а 3.2

Контрольные характеристики Структура генеральной совокупности (процентное соотношение) Структура выборки
Процентное соотношение Количество
Пол: мужчины
женщины
Всего
Возраст: до 30
30-50
выше 50
Всего

 

Даже если структура квотной выборки соответствует структуре генеральной совокупности, нет гарантии, что эта выборка репрезентативна. Если характеристика, непосредственно связанная с проблемой исследования, не учтена при определении выборки, то квотная выборка нерепрезентативна.

Квотная выборка позволяет получить представительную выборку при сравнительно низком уровне затрат. Преимущества – низкая стоимость и удобство отбора элементов для каждой квоты. При определенных условиях применение выборки по квотам дает результаты, близкие к результатам обычной вероятностной выборки.

«Снежного ком».Случайным образом подбирают начальную группу респондентов. После проведения опроса этих респондентов просят помочь найти других (следующих) респондентов, входящих в генеральную совокупность, и так далее. Получается детерминированная выборка, поскольку характеристики последующих респондентов больше похожи на характеристики назвавших их респондентов, чем при случайном отборе опрашиваемых. Основное преимущество этой выборки – существенно повышает вероятность обнаружения исследуемой характеристики в генеральной совокупности. Такая выборка имеет относительно небольшую дисперсию и невысокий уровень затрат.

 


Узнать еще:

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году[1]. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

  • 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону

  • 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп[2]:

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.

  • Исследование с использованием только одной группы — экспериментальной.

  • Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

    Типы выборки

    Выборки делятся на два типа:[3].

    Вероятностные выборки

    1. Простая вероятностная выборка:

    • Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

    Процедура построения простой случайной выборки включает в себя следующие шаги:

    1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

    2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

    3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

    4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

    • Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

    1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

    2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

    3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

    4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

    • Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

    1. Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.

    2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.

    3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.

    4. «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки — с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

  • Какую выборку можно считать репрезентативной. Репрезентативная выборка

    Выборка— это множество данных, взятых с помощью определённых процедур из генеральной совокупности для исследовательского анализа. Репрезентативность — это свойство воспроизведения представления о целом по его части. По иному, это возможность распространения представления о части на целое, которое эту часть включает в себя.

    Репрезентативность выборки — это показатель, заключающийся в том, что выборка должна полно и достоверно отображать признаки той совокупности, частью которой она является. Её также можно определять как свойство выборки наиболее полно представлять характеристики генеральной совокупности, существенные с точки зрения цели исследования.

    Допустим, что генеральная совокупность — все ученики школы (900 человек из 30 классов, по 30 человек в каждом классе). Объект исследования — отношение школьников к курению. Выборочная совокупность, состоящая из 90 учащихся только намного хуже представит всю совокупность, чем выборка из тех же 90 учеников, куда вошли бы из каждого класса по 3 ученика. Главная причина — неравное распределение по возрастам. Таким образом, в первом случае репрезентативность выборки будет низкой. Во втором случае — высокой.

    В социологии говорят, что существует репрезентативность выборки и её нерепрезентативность.

    В качестве примера нерепрезентативной выборки можно привести классический случай, произошедший в 1936 году в США во время президентских выборов.

    Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту — демократу Франклину Рузвельту.

    В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.

    Существуют различные виды выборки: простая случайная, серийная, типическая, механическая и комбинированная.

    Простая случайная выборка состоит в отборе из всей совокупности изучаемых единиц наугад без какой-либо системы.

    Механическую выборку применяют тогда, когда в генеральной совокупности есть упорядоченность, например, имеется некая последовательность единиц работников, избирательные списки, номера телефонов респондентов, номера квартир и домов и другое).

    Типический отбор используется тогда, когда всю совокупность можно разделить на группы по типам. При работе с населением такими могут быть, например, образовательные, возрастные, социальные группы, при исследовании предприятий — отрасль или отдельная организация и др.

    Серийный отбор удобен тогда, когда единицы объединены в небольшие серии или группы. Такой серией могут быть партии готовой продукции, школьные классы, и другие группы.

    Комбинированная выборка предполагает использование всех предыдущих видов выборки в той или иной комбинации.

    Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

    Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

    Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

    Что такое репрезентативная выборка?

    Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

    Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

    Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

    Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

    Доверительная вероятность и доверительная погрешность

    Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

    Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

    После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

    Репрезентативная выборка

    Репрезентативная выборка

    Репрезентативная выборка — выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность.

    По-английски: Representative sample

    См. также: Выборочные совокупности

    Финансовый словарь Финам .


    Смотреть что такое «Репрезентативная выборка» в других словарях:

      Репрезентативная выборка — Группа участников, бюлее или менее точно представляющая состав изучаемой популяцши. Выборка может отражать распределение по возрастным и пошовым признакам, а также любые другие характеристики, влияюпцие на результат эксперимента с точки зрения… …

      репрезентативная выборка — — [Англо русский глоссарий основных терминов по вакцинологии и иммунизации. Всемирная организация здравоохранения, 2009 г.] Тематики вакцинология, иммунизация EN representative sampling … Справочник технического переводчика

      РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА — (representative sample) выборка, которая является (или считается) истинным отражением родительской популяции, то есть имеет тот же профиль признаков, например, возрастную структуру, классовую структуру, уровень образования. Репрезентативная… … Большой толковый социологический словарь

      РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА — См. выборка, репрезентативная … Толковый словарь по психологии

      РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА — такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности … Энциклопедический словарь по психологии и педагогике

      Репрезентативная выборка — это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной… … Социологический словарь Socium

      Репрезентативная выборка — (representative sample). Выборка, точно отражающая состояние и свойства всей популяции … Психология развития. Словарь по книге

      выборка представительная — (выборка репрезентативная) выборка, произведенная по правилам, то есть так, что она отражает специфику совокупности генеральной и по составу, и по индивидуальным характеристикам включаемых субъектов. Словарь практического психолога. М.: АСТ,… … Большая психологическая энциклопедия

      Англ. sampling, representative; нем. Stichprobe, reprasentative. Выборка, имеющая, по сути дела, такое же распределение относительных характеристик, как и генеральная совокупность. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

      Representative sample Выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов

    Есть два основных типа выборок: репрезентативные и нерепрезентативные. Что это означает и почему важно их различать?

    Репрезентативной выборочной совокупности (от англ, represent — представлять) такова, что дает нам возможность распространить как качественные, так и количественные результаты ее исследования на определенную большую совокупность. В контексте опросов общественного мнения репрезентативная выборка — это та, что дает нам возможность расширить количественные результаты интервью не только на участников исследования, но и на многих других людей.

    Например, на основе опроса мы узнали, что мнение X имеют 18% респондентов, которые попали в нашей выборки, репрезентативной для взрослого населения Украины. Итак, можем сказать, что примерно 18% взрослого населения Украины имеет мнению X. Если бы выборка была нерепрезентативной, то мы могли бы разве что предположить: «меньшинство взрослого населения Украины имеет мнение X», «менее трети имеет мнение X «,» менее четверти имеет мнение X «. Но эти предположения смогли бы проверить только благодаря репрезентативном опросу. Итак, в контексте исследования взглядов людей нерепрезентативная выборка — это и выборка, количественные результаты исследования которой НЕ можно распространять на других людей, кроме тех, которые приняли участие в исследовании. Или более общее: нерепрезентативная выборочная совокупность — это та, что не дает возможности распространить количественные результаты ее исследования на определенную большую совокупность.

    Представим, что теплого летнего дня мы выходим на улицу и опрашиваем 10 прохожих у нашего дома или офиса, нравится ли им такая погода, как сейчас. Пусть 7 скажут, что нравится; 1 колебаться с ответом, 2 укажут, что не любят такую погоду и чувствуют себя комфортнее при более низкой температуре. На основе этого опроса мы НЕ сможем утверждать, что 70% людей нравится такая погода, как сейчас. И даже НЕ сможем быть уверенными, что большинству людей нравится такая погода, как сейчас. Мы можем выразить предположение, что большинству она нравится, но не можем знать наверняка. Это была нерепрезентативная выборка.

    Одно из ошибочных представлений о выборки: любая большая выборка является репрезентативной; чем больше опросим, тем она более репрезентативна. Это не так. Если мы продолжим наше уличный опрос о погоде, пока не опросим 100 или даже 1000 человек, все равно не сможем ничего с уверенностью сказать о тех, кого не спросили. Почему так? Разве 100, а тем более 1000 человек недостаточно, чтобы сделать определенные выводы о предпочтениях других?

    Дело в том, что для обеспечения репрезентативности важно не только количество респондентов, но и то, как и»х было отобрано. В приведенном выше примере мы не продумывали, кого, где и как отбираем, а просто начали общаться с прохожими. Оглянемся вокруг. Возможно, мы находимся вблизи университета в учебный день? Тогда среди прохожих в основном молодые люди, которые в целом легче переносят высокую температуру, чем старшие, и поэтому процент довольных погодой может оказаться искусственно завышенным. Или, возможно, мы попали туда, где среди прохожих больше пожилых людей, которым, вероятно, трудно переносить духоту жарких летних дней? Тогда процент довольных погодой может оказаться заниженным по сравнению со всеми жителями населенного пункта.

    Фактически мы начнем не с одного, а с трех вопросов: что такое выборка? когда она является репрезентативной? что она собой представляет?

    Совокупность – это любая группа людей, организаций, интересующих нас событий, относительно которых мы хотим сделать выводы, а случай, или объект, – любой элемент такой совокупности 1 .Выборка – любая подгруппа совокупности случаев (объектов), выделенная для анализа. Если мы захотим изучить деятельность законодателей штата по принятию решений, мы могли бы исследовать такую деятельность в законодательных органах штатов Виргиния, Северная Каролина и Южная Каролина, а не во всех пятидесяти штатах и, исходя из этого, распространить полученные данные на генеральную совокупность, из которой были выбраны эти три штата. Если мы хотим исследовать систему предпочтений избирателей Пенсильвании, мы могли бы сделать это, опросив 50 рабочих компании “Ю. С. Стил” в Питсбурге, и распространить результаты опроса на всех избирателей штата. Аналогично, если мы хотим измерить умственные способности студентов колледжей, мы могли быпротестировать всех игроков защиты, зарегистрированных в штате Огайо в данном футбольном сезоне, и затем распространить полученные результаты на генеральную совокупность, частью которой они являются. В каждом примере мы действуем следующим образом: устанавливаем подгруппу внутри генеральной совокупности, довольно подробно изучаем эту подгруппу, или выборку, и распространяем наши результаты на всю совокупность. Это и есть основные этапы формирования выборки.

    Однако представляется совершенно очевидным, что каждая из этих выборок имеет существенный недостаток. К примеру, хотя законодательные органы Виргинии, Северной Каролины и Южной Каролины и являются частью совокупности законодательных органов штатов, они в силу исторических, географических и политических причин, скорее всего, будут действовать очень схожим образом и совсем иначе, чем законодательные органы таких отличающихся от них штатов, как Нью-Йорк, Небраска и Аляска. Хотя пятьдесят рабочих-сталелитейщиков в Питсбурге действительно могут быть избирателями штата Пенсильвания, они в силу социально-экономического статуса, образования и жизненного опыта, вполне возможно, будут иметь взгляды, отличные от взглядов многих других людей, точно так же являющихся избирателями. И точно так же, хотя футболисты штата Огайо и являются студентами колледжей, они в силу самых разных причин вполне могут отличаться от других студентов. Иными словами, хотя каждая из этих подгрупп действительно является выборкой, члены каждой из них систематически отличаются от большинства остальных членов совокупности, из которой они выбраны. В качестве отдельной группы ни одна из них не является типичной с точки зрения распределения признаков мнений, мотивов поведения и характеристик в генеральной совокупности, с которой она ассоциируется. Соответственно, политологи сказали бы, что ни одна из этих выборок не является репрезентативной.

    Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Таким образом, если 50% всех законодательных органов штатов собираются лишь раз в два года, приблизительно половина состава репрезентативной выборки законодательных органов штатов должна быть такого типа. Если 30% избирателей Пенсильвании принадлежат к “синим воротничкам”, около 30% репрезентативной выборки для этих избирателей (а не 100%, как в приведенном выше примере) должны быть из числа “синих воротничков”. И если 2% всех студентов колледжей являются спортсменами, приблизительно та же самая часть репрезентативной выборки студентов колледжей должна приходиться на спортсменов. Инымисловами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно без всяких опасений считать применимыми к исходной совокупности. Это распространение результатов и есть то, что мы называем генерализуемостью.

    Возможно, пояснить это поможет графическая иллюстрация. Предположим, мы хотим изучать модели членства в политических группах среди взрослого населения США. На рис.5.1 изображено три круга, разделенных на шесть равных секторов. Рис.5.1а представляет всю рассматриваемую совокупность. Члены совокупности расклассифицированы в соответствии с политическими группами (такими, как партии и группы интересов), к которым они относятся. В этом примере каждый взрослый принадлежит по меньшей мере к одной и не более чем к шести политическим группам; и эти шесть уровней членства в одинаковой степени распространены в совокупности (отсюда равные сектора). Предположим, мы хотим исследовать мотивы вступления людей в группу, выбор группы и модели участия, однако из-за ограниченности ресурсов мы в состоянии обследовать только одного из каждых шести членов совокупности. Кого же отобрать для анализа?

    Рис. 5.1. Формирование выборки из генеральной совокупности

    Одну из возможных выборок заданного объема иллюстрирует заштрихованная область на рис.5.1б, однако она явно не отражает структуру совокупности. Если бы мы делали обобщения на основе этой выборки, мы пришли бы к выводу: (1) что все взрослые американцы принадлежат к пяти политическим группам и (2) что все групповое поведение американцев совпадает с поведением тех, кто принадлежит именно к пяти группам. Однако мы знаем, что первый вывод не верен, и это может зародить в нас сомнение относительно валидности второго. Таким образом, выборка, изображенная на рис.5.1б, нерепрезентативна, поскольку она не отражает распределение данного свойства совокупности (часто называемогопараметром ) в соответствии с его реальным распространением. Про такую выборку говорят, что она смещена в направлении к членам пяти групп или смещена в направлении от всех остальных моделей членства в группах. Опираясь на такую смещенную выборку, мы обычно приходим к ошибочным выводам относительно генеральной совокупности.

    Ярче всего это может быть продемонстрировано на примере катастрофы, постигшей в 30-е годы журнал “Литэрари дайджест”, который организовал опрос общественного мнения относительно результатов выборов. “Литэрари дайджест” представлял собой периодическое издание, в котором перепечатывались редакционные статьи из газет и другие материалы, отражавшие общественноемнение; этот журнал был очень популярен в начале века. Начиная с 1920 г. журнал проводил широкомасштабный общенациональный опрос, в ходе которого более чем миллиону человек по почте рассылались избирательные бюллетени с просьбой отметить, чья кандидатура на предстоящих президентских выборах для них предпочтительнее. В течение ряда лет результаты опроса, проводившиеся журналом, оказывались настолько точными, что опрос, проведенный в сентябре, казалось, делал ноябрьские выборы малосущественными. Да и как притакой большой выборке могла произойти ошибка? Однако в 1936 г. именно это и случилось: с большим перевесом голосов (60:40) победа была предсказана кандидату от республиканской партии Альфу Ландону. На выборах Ландон проиграл инвалиду – Франклину Д. Рузвельту – практически с тем же результатом, с которым должен был победить. Доверие к “Литэрари дайджест” было столь сильно подорвано, что вскоре после этого журнал перестал выходить. Что же произошло? Все очень просто: в голосовании, проведенном “Дайджест”, использовалась смещенная выборка. Почтовые открытки рассылались людям, чьи имена были извлечены из двух источников: телефонных справочников и списков регистрации автомобилей. И хотя прежде этот метод отбора не слишком отличался от других методов, совсем по-другому обстояло дело теперь, во время Великой депрессии 1936 г., когда менее состоятельные избиратели, наиболее вероятная опора Рузвельта, не могли позволить себе иметь телефон, не говоря уж об автомобиле. Таким образом, фактически выборка, использовавшаяся в опросе, организованном “Дайджест”, была смещена в сторону тех, кто, скорее всего, должен был выступать за республиканцев, и при этом еще удивительно, что у Рузвельта был такой хороший результат.

    Как же решить эту проблему? Возвращаясь к нашему примеру, сравним выборку на рис.5.1б с выборкой на рис.5.1в. В последнем случае для анализа также отобрана шестая часть совокупности, однако каждый из основных типов совокупности представлен в выборке в той пропорции, в которой он представлен во всей совокупности. Такая выборка демонстрирует, что один из каждых шести взрослых американцев принадлежит к одной политической группе, один из шести – к двум и т.д. Такая выборка позволит также выявить другие различия между ее членами, которые могли бы соотноситься с участием в разном числе групп. Таким образом, выборка, представленная на рис.5.1в, является репрезентативной выборкой для рассматриваемой совокупности.

    Конечно, данный пример является упрощенным по крайней мере с двух чрезвычайно важных точек зрения. Во-первых, большинство совокупностей, интересующих политологов, более разнообразно, чем та, что приведена в примере. Люди, документы, правительства, организации, решения и т.п. отличаются друг от друга не по одному, а по гораздо большему числу признаков. Таким образом, репрезентативная выборка должна быть такой, чтобы каждая из основных, отличная от других область была представлена пропорционально ее доле в совокупности. Во-вторых, ситуация, когда реальное распределение переменных, или признаков, которые мы хотим измерить, заранее неизвестно, встречается гораздо чаще, чем противоположная, – возможно, оно не измерялось в предшествующей переписи населения. Таким образом, репрезентативная выборка должна быть построена так, чтобы она могла точно отражать существующее распределение даже тогда, когда мы не в состоянии прямо оценить ее валидность. Процедура формирования выборки должна иметь внутреннюю логику, способную убедить нас, что, будь мы в состоянии сравнить выборку с переписью, она действительно оказалась бы репрезентативной.

    Чтобы обеспечить возможность точного отражения сложной организации данной совокупности и определенную степень уверенности в том, что предлагаемые процедуры способны сделать это, исследователи обращаются к методам статистики. При этом они действуют по двум направлениям. Во-первых, используя определенные правила (внутреннюю логику), исследователи решают вопрос о том, какие именно конкретные объектыим изучать, что именно включать в конкретную выборку. Во-вторых, используя совсем другие правила, они решают, сколько объектов выбрать. Мы не будем подробно изучать эти многочисленные правила, рассмотрим лишь их роль в политологическом исследовании. Начнем рассмотрение со стратегий выбора объектов, образующих репрезентативную выборку.

    Детерминированный метод выборки

    Нерепрезентативная выборка. Нерепрезентативная выборка означает, что исследователь не ставит перед собой цель сделать так, чтобы все существенные характеристики генеральной совокупности были представлены в выборке в той же пропорции, что и в самой изучаемой совокупности. Исследователи стремятся создать выборку из удобных, доступных для отбора элементов. Непосредственный отбор элементов осуществляется, как правило, интервьюером. Примеры: опросы студентов, покупателей магазина без предварительной классификации респондентов.

    Выборка экономна. Элементы выборки доступны, готовы сотрудничать и их характеристики легко измерить. Ограничения: большой риск возникновения различных ошибок выборки. Полученные выводы некорректно распространять на всю генеральную совокупность. Их можно применять в поисковых исследованиях, но не рекомендуется использовать в описательных и причинно-следственных исследованиях.

    Поверхностная выборка –это разновидность нерепрезентативной выборки, элементы отбираются на основе суждений (знаний) исследователя. Исследователь считает, что эти элементы представляют генеральную совокупность или подходят по другим соображениям. Пример: пробные рынки для оценки потенциала нового товара.

    Поверхностная выборка недорога, удобна и быстра. Но не позволяет обобщать результаты, т.к. генеральная совокупность точно не определена. Поверхностная выборка субъективна, ее эффективность полностью зависит от компетентности исследователя. Она полезна, когда заказчик не требует выводов по всей генеральной совокупности. Часто используется в маркетинговых исследованиях торговых организаций.

    Квотная выборка. Ее можно рассматривать как двухэтапную ограниченную поверхностную выборку. На первом этапе создаются квоты (контрольные группы) из элементов генеральной совокупности. На втором этапе выбор элементов основан на удобстве отбора или мнении исследователя.

    Для создания квот исследователь фиксирует контрольные характеристики, относящиеся к предмету исследования, и определяет их распределение в изучаемой совокупности. Квоты должны обеспечить соответствие структуры выборки структуре генеральной совокупности (табл. 3.2). После чего выбор элементов основан на удобстве отбора или мнении исследователя. Единственное требование – соответствие отобранных элементов контрольным характеристикам.

     

    Пример квотной выборки               Т а б л и ц а 3.2

    Контрольные          характеристики

    Структура генеральной совокупности

    (процентное

    соотношение)

    Структура выборки

    Процентное соотношение Количество
    Пол: мужчины 48 48 480
       женщины 52 52 520
    Всего 100 100 1000
    Возраст: до 30 30 30 300
             30-50 40 40 400
             выше 50 30 30 300
    Всего 100 100 1000

     

    Даже если структура квотной выборки соответствует структуре генеральной совокупности, нет гарантии, что эта выборка репрезентативна. Если характеристика, непосредственно связанная с проблемой исследования, не учтена при определении выборки, то квотная выборка нерепрезентативна.

    Квотная выборка позволяет получить представительную выборку при сравнительно низком уровне затрат. Преимущества – низкая стоимость и удобство отбора элементов для каждой квоты. При определенных условиях применение выборки по квотам дает результаты, близкие к результатам обычной вероятностной выборки.

    «Снежного ком».Случайным образом подбирают начальную группу респондентов. После проведения опроса этих респондентов просят помочь найти других (следующих) респондентов, входящих в генеральную совокупность, и так далее. Получается детерминированная выборка, поскольку характеристики последующих респондентов больше похожи на характеристики назвавших их респондентов, чем при случайном отборе опрашиваемых. Основное преимущество этой выборки – существенно повышает вероятность обнаружения исследуемой характеристики в генеральной совокупности. Такая выборка имеет относительно небольшую дисперсию и невысокий уровень затрат.

     

    Вероятностный метод выборки

    Вероятностные методы выборки различаются степенью эффективности. Эффективность выборки отражает компромисс между затратами и точностью выборки. Точность выборки – это степень неопределенности, связанная с измеряемой характеристикой. Чем больше точность, тем выше стоимость. Исследователь должен разработать эффективную выборку при заданном бюджете.

    Простая случайная выборка. Каждый элемент совокупности имеет известную и равную вероятность отбора. Каждая возможная выборка данного объема имеет известную и равную вероятность того, что она станет выборочной совокупностью. Это означает, что каждый элемент отбирается независимо от другого. Выборка формируется произвольным отбором элемента из основы выборки.

    Сначала формируем основу выборочного наблюдения, в которой каждому элементу присваивается уникальный идентификационный номер. Затем генерируются случайные числа, чтобы определить номера элементов, которые будут включены в выборку. Эти случайные числа могут генерироваться компьютерной программой или выбираться из таблицы случайных чисел.

    У этого метода четыре ограничения: сложно сформировать основу выборки; выборка может оказаться очень большой или охватывать большую территорию, что значительно увеличивает время и стоимость сбора данных; результаты отбора часто имеют низкую точность и большую стандартную ошибку; может сформироваться нерепрезентативная выборка, особенно при небольшом объеме выборки. Поэтому более популярен метод систематической выборки.

    Систематическая выборка . При проведении систематической выборки сначала задают произвольную исходную (отправную) точку, а затем из основы выборочного наблюдения последовательно выбирают каждый i-тый элемент. Интервал отбора I определяется как отношение объема совокупности N к объему выборки n , с округлением результата до ближайшего целого числа.

    Например, если генеральная совокупность состоит из 100 тыс. элементов, а желательный объем выборки равен 1 тыс. респондентов. Тогда интервал отбора (шаг выборки) равен 100. Выбираем случайное число между 1 и 100, например, 23. Тогда выборка состоит из элементов 23, 123, 223, 323 и т.д. Здесь также каждый элемент генеральной совокупности имеет известную и равную вероятность выбора.

    Систематическая случайная выборка отличается от простой случайной тем, что только допустимые выборки объема n имеют известную и равную вероятность выбора. Остальные выборки объема n имеют нулевую вероятность выбора.

    При систематической выборке исследователь предполагает, что элементы совокупности расположены в определенном порядке. Если фирмы отрасли расположены в списке в порядке увеличения их размера, то систематическая выборка увеличивает репрезентативность отбора, а простая случайная выборка в этом случае может быть нерепрезентативной. Если расположение элементов носит циклический характер, то систематическая выборка уменьшает репрезентативность отбора.

    Систематическая выборка дешевле и проще, чем простая случайная, поскольку случайный отбор осуществляется только один раз. Некоторые списки содержат миллионы элементов, и использование систематического отбора значительно экономит время, снижает затраты. Еще одно важное преимущество: систематический отбор можно применять, даже не зная структуры основы выборочного наблюдения.

    Стратифицированная выборка. Стратифицированная, или расслоенная, выборка – это двухэтапный метод вероятностной выборки, когда генеральная совокупность сначала делится на подгруппы или слои (страты), затем из каждого слоя случайным образом выбираются элементы. Случайный отбор элементов отличает стратифицированную выборку от квотной.

    Переменные, используемые для деления генеральной совокупности на слои, называются стратификационными переменными. Слои должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился только к одному слою и ни один элемент не был упущен. Для стратификации часто используются демографические характеристики, разновидность покупателя, величина фирмы или отрасль промышленности.

    Главная задача стратифицированной выборки – увеличить точность без увеличения затрат. Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям – наоборот, как можно более разнородными. Опыт показывает, что использовать следует не больше шести слоев.

    При пропорциональном стратификационном отборе объем выборки, получаемый из каждого слоя, пропорционален доле этого слоя в генеральной совокупности. Логика проста: слои большего размера больше влияют на формирование выборки, из этих слоев надо отбирать больше элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя, т.е. непропорциональная выборка.

    Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, когда исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, доходы среди семей распределены неравномерно, и если применить простую случайную выборку, то семьи с высоким доходом (их мало) могут быть неадекватно представлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей, поэтому данный метод весьма популярен.

    Кластерная выборка. Сначала генеральная совокупность делится на взаимоисключающие и взаимодополняющие подгруппы, или кластеры. Затем с помощью вероятностного метода выборки (например, простая случайная) формируется случайная выборка кластеров. В выборку включаются либо все элементы кластера (одноступенчатая кластерная выборка), либо проводится их отбор вероятностным методом в каждом кластере (двухступенчатая кластерная выборка). Если кластерная выборка состоит из более чем двух этапов, она называется многоступенчатой.

    Основное различие между кластерной и стратифицированной выборками состоит в том, что в кластерной используются только отобранные группы (кластеры), а в стратифицированной все подгруппы (слои) используются для дальнейшего отбора.

    Цели данных методов различны. Цель кластерной выборки – увеличить эффективность выборки, уменьшив затраты на ее проведение. Цель стратифицированной выборки – увеличить точность. Критерии формирования кластеров прямо противоположны критериям формирования слоев. Элементы кластера должны быть максимально разнородны, а сами кластеры как можно более однородными. В идеале каждый кластер должен представлять уменьшенную модель генеральной совокупности.

    Распространенная форма кластерной выборки – территориальная,в которой кластеры состоят из географических территорий (округов, жилых районов, кварталов). Если с помощью простой случайной выборки выбираются только некоторые кварталы, а затем все живущие там семьи – это одноступенчатая выборка. Если с помощью простого случайного отборы выбираются и кварталы, и семьи – это двухступенчатая выборка. Этот метод подходит в том случае, если кластеры равны по объему, т.е. каждый кластер содержит примерно равное количество единиц. Если кластеры различны, то простая двухступенчатая кластерная выборка может привести к ошибочным результатам. Иногда можно объединить кластеры, чтобы сравнять их по объему. Если объединить кластеры невозможно, следует воспользоваться пропорциональной вероятностной выборкой.

    При вероятностной выборке пропорциональной объему кластеры отбираются с вероятностью пропорциональной их объему. Объем кластера определяется количеством входящих в него единиц. На первом этапе большие по объему кластеры имеют большую вероятность включения в выборку. На втором – вероятность отбора единицы из выбранного кластера обратно пропорциональна его объему. В результате вероятность включения в выборку будет равной для всех единиц.

    Кластерная выборка обладает двумя преимуществами – выполнимостью (кластеры доступны всегда, а элементы – нет, их список трудно составить) и низкой себестоимостью.

     

    Определения и условные обозначения

    Дадим определения основным статистическим понятиям, играющим главную роль в определении объема выборки.

    Параметр – это описание определенной характеристики изучаемой совокупности. Параметр указывает на истинное значение, которое было бы получено, если бы проводилась перепись, а не выборка. Статистика – описание характеристик выборки. Статистика выборки используется для оценки параметров генеральной совокупности. Степень точности – это максимально допустимое различие между статистикой выборки и параметром генеральной совокупности. Доверительный интервал – это диапазон, в который попадает истинное значение параметра совокупности при данном уровне достоверности. Уровень достоверности – это вероятность того, что параметр совокупности попадет в доверительный интервал. В табл. 3.3 приводятся условные обозначения переменных, которые использованы дальше.

     

    Таблица 3.3

    Условные обозначения для переменных генеральной совокупности

    и выборки

    Переменная Совокупность Выборка
    Среднее μ Хср
    Доля Π р
    Дисперсия σ2 s2
    Среднеквадратичное (стандартное) отклонение σ s
    Объем N n
    Стандартная ошибка среднего σср Sср
    Стандартная ошибка доли σр Sр
    Нормированная величина (z) (X – μ) / σ (XXср) / S
    Коэффициент вариации (С) σ / μ S / Хср

     

    При определении объема выборки надо принимать во внимание следующие качественные факторы: важность принимаемого решения, характер исследования, количество переменных, характер анализа, объемы выборки, которые использовались в подобных исследованиях, коэффициент охвата, коэффициент завершенности, а также ограниченность ресурсов.

    Статистически определенный объем выборки – это чистый или конечный объем выборки, т.е. элементы выборки, остающиеся после исключения потенциальных респондентов, которые не отвечают заданным критериям или не закончили интервью. В зависимости от коэффициента охвата и завершенности может потребоваться намного больший объем исходной выборки. В коммерческих маркетинговых исследованиях недостатки времени, денег и хороших специалистов могут иметь решающее значение при определении объема выборки.

     

    Определение репрезентативного образца

    Что такое репрезентативная проба?

    Репрезентативная выборка — это подмножество населения, стремящееся точно отразить характеристики большей группы. Например, класс из 30 учеников, в котором 15 мальчиков и 15 девочек, может создать репрезентативную выборку, в которую могут входить шесть учеников: три мальчика и три девочки. Выборки полезны в статистическом анализе, когда размеры популяции велики, потому что они содержат меньшие, управляемые версии большей группы.

    Ключевые выводы

    • Репрезентативная выборка — это один из методов, который можно использовать для получения информации и наблюдений о целевой группе населения.
    • Репрезентативная выборка — это небольшая подгруппа, которая стремится пропорционально отразить определенные характеристики, представленные в качестве примера в целевой совокупности.
    • Репрезентативные образцы часто дают наилучшие результаты, но они могут быть наиболее сложными для получения.

    Понимание репрезентативного образца

    Выборка используется в методологиях статистического анализа для получения информации и наблюдений о группе населения.Статистики могут использовать различные методы выборки для построения выборок, которые стремятся достичь целей своих исследований. Репрезентативные выборки являются одним из видов метода выборки. Этот метод использует стратифицированную случайную выборку, чтобы помочь идентифицировать ее компоненты. Другие методы могут включать случайную выборку и систематическую выборку.

    Репрезентативная выборка направлена ​​на то, чтобы выбрать компоненты, которые соответствуют ключевым характеристикам всей обследуемой совокупности.

    Статистики могут выбирать репрезентативные характеристики, которые, по их мнению, лучше всего соответствуют целям их исследования.Как правило, характеристики репрезентативной выборки сосредоточены на демографических категориях. Некоторые примеры ключевых характеристик могут включать пол, возраст, уровень образования, социально-экономическое положение и семейное положение. Как правило, чем больше исследуемая совокупность, тем больше характеристик может возникнуть для рассмотрения.

    Типы методов отбора проб

    Выбор метода выборки может зависеть от множества факторов. Репрезентативные выборки обычно являются идеальным выбором для анализа выборки, поскольку ожидается, что они дадут информацию и наблюдения, которые тесно связаны со всей группой населения.

    Когда выборка не является репрезентативной, ее можно назвать случайной выборкой. Хотя случайная выборка является упрощенным подходом к выборке, она сопряжена с более высоким риском ошибки выборки, которая потенциально может привести к неправильным результатам или стратегиям, которые могут быть дорогостоящими. Случайная выборка может выбирать компоненты полностью случайным образом, например, случайным образом выбирая имена из списка. Снова используя пример класса, случайная выборка может включать шесть учеников мужского пола.

    Систематическая выборка — это еще один тип метода выборки, целью которого является систематизация ее компонентов.Этот тип выборки может включать выбор каждого пятого человека из списка населения для сбора выборки. Хотя этот метод использует систематический подход, он все же может привести к случайной выборке.

    Стратифицированная случайная выборка

    Стратифицированная случайная выборка может быть важной частью процесса создания репрезентативной выборки. Стратифицированная случайная выборка исследует характеристики группы населения и разбивает население на так называемые страты.Разделение населения по слоям помогает аналитику легко выбрать подходящее количество людей из каждого слоя на основе пропорций населения. Хотя этот метод требует больше времени и часто более дорогостоящий, поскольку требует больше предварительной информации, получаемая информация обычно имеет более высокое качество.

    Особые соображения

    Обычно ожидается, что репрезентативная выборка даст наилучший набор результатов. Репрезентативные выборки известны тем, что собирают результаты, идеи и наблюдения, на которые можно с уверенностью полагаться как на представление большей изучаемой совокупности.Таким образом, репрезентативная выборка обычно является лучшим методом для маркетинговых или психологических исследований.

    Хотя репрезентативные выборки часто являются предпочтительным методом выборки, они все же имеют некоторые барьеры. Зачастую сбор данных, необходимых для построения репрезентативной выборки, нецелесообразен с точки зрения времени, бюджета и усилий. Используя стратифицированную случайную выборку, исследователи должны определить характеристики, разделить население на страты и пропорционально отобрать людей для репрезентативной выборки.

    В целом, чем больше целевая группа населения, тем сложнее может быть репрезентативная выборка. Этот метод может быть особенно сложным для очень большого населения, такого как целая страна или раса. При работе с большим населением также может быть сложно привлечь желаемых членов для участия. Например, люди, которые слишком заняты, чтобы участвовать, будут недостаточно представлены в репрезентативной выборке. Понимание плюсов и минусов как репрезентативной, так и случайной выборки может помочь исследователям выбрать наилучший подход для своего конкретного исследования.

    Репрезентативная выборка

    и случайная выборка: в чем разница?

    Репрезентативная выборка и случайная выборка: обзор

    При проведении статистического анализа экономисты и исследователи стремятся свести систематическую ошибку выборки практически к незначительному уровню. Опасность систематической ошибки выборки заключается в том, что она может привести к смещенной выборке совокупности (или нечеловеческим факторам), в которой все люди или экземпляры не были выбраны с одинаковой вероятностью.

    Ключевые выводы

    • При проведении статистического анализа экономисты и исследователи стремятся свести систематическую ошибку выборки к почти незначительному уровню.
    • Опасность систематической ошибки выборки заключается в том, что она может привести к смещенной выборке совокупности (или нечеловеческим факторам), в которой все люди или экземпляры не были выбраны с одинаковой вероятностью.
    • Если систематическая ошибка выборки не учитывается, результаты исследования или анализа могут быть ошибочно атрибуированы.
    • Репрезентативная выборка и случайная выборка — это два метода, которые помогают гарантировать отсутствие предвзятости в данных.
    • Репрезентативная выборка представляет собой группу или совокупность, выбранную из большей статистической совокупности в соответствии с заданными характеристиками.
    • Случайная выборка — это группа или совокупность, выбранная случайным образом из большей совокупности.

    Чтобы уменьшить вероятность необъективных выборок, статистики и экономисты обычно стараются гарантировать соблюдение трех основных критериев при каждом анализе выборки или исследовании. Таким образом, статистики и экономисты могут делать более уверенные выводы об общей совокупности на основе полученных результатов.

    • Такие образцы должны быть репрезентативными для выбранной изучаемой совокупности.
    • Они должны быть выбраны случайным образом, а это означает, что каждый член большей популяции имеет равные шансы быть выбранным.
    • Они должны быть достаточно большими, чтобы не искажать результаты. Оптимальный размер группы выборки зависит от точной степени уверенности, необходимой для того, чтобы сделать вывод.

    Репрезентативная выборка и случайная выборка — это два метода, которые помогают гарантировать отсутствие предвзятости в данных. Эти методы выборки не являются взаимоисключающими. Фактически, они часто используются в тандеме, чтобы уменьшить степень ошибки выборки в исследовании.В сочетании эти два метода позволяют с большей уверенностью делать статистические выводы из выборки в отношении большей группы.

    Репрезентативный образец

    Репрезентативная выборка — это группа или набор, выбранный из большей статистической совокупности или группы факторов или случаев, которые адекватно воспроизводят большую группу в соответствии с любой изучаемой характеристикой или качеством.

    Репрезентативная выборка соответствует ключевым переменным и характеристикам исследуемого общества в целом.Некоторые примеры включают пол, возраст, уровень образования, социально-экономический статус (СЭС) или семейное положение. Больший размер выборки снижает вероятность ошибок выборки и повышает вероятность того, что выборка точно отражает целевую совокупность.

    Случайная выборка

    Случайная выборка — это группа или набор, выбранный из большей совокупности — или группы факторов экземпляров — случайным образом, что позволяет каждому члену большей группы иметь равные шансы быть выбранным.Случайная выборка предназначена для беспристрастного представления большей совокупности. Это считается справедливым способом отбора выборки из большей совокупности (поскольку каждый член совокупности имеет равные шансы быть отобранным).

    Особые соображения

    Для экономистов и статистиков, собирающих выборки, крайне важно, чтобы они минимизировали предвзятость. Если систематическая ошибка выборки не учитывается, результаты исследования или анализа могут быть ошибочно атрибуированы.Репрезентативная выборка является одним из ключевых методов достижения этого, поскольку такие выборки максимально точно воспроизводят элементы большей изучаемой совокупности.

    Однако одного этого недостаточно, чтобы сделать систематическую ошибку выборки незначительной. Сочетание метода случайной выборки с методом репрезентативной выборки еще больше снижает погрешность, поскольку ни один конкретный член репрезентативной совокупности не имеет больше шансов попасть в выборку, чем любой другой.

    Один из наиболее эффективных из этих методов известен как стратификация.При стратификации большая часть населения разбивается на подгруппы — или страты — достаточно однородного характера. Затем из каждой страты выбирается равное количество членов группы.

    Другой распространенный метод получения случайной или репрезентативной выборки называется систематической выборкой. С помощью этого метода для начала участники или элементы исследования выбираются из случайной отправной точки. Затем отбор продолжается через фиксированные периодические интервалы.

    Что такое репрезентативная проба?

    Дома Блог Что такое репрезентативная выборка?

    Если вы проводите исследование определенной группы населения, вам нужно убедиться, что ваша выборка этой группы населения является репрезентативной.Если ваша выборка репрезентативна для вашей популяции, вы сможете с уверенностью обобщить результаты своего исследования на эту популяцию. Но что именно это означает?

    Во-первых, давайте рассмотрим разницу между вашей генеральной совокупностью и вашей выборкой, так как многие учащиеся часто путают эти термины. Ваша выборка — это группа лиц, которые участвуют в вашем исследовании. Это люди, которые предоставляют данные для вашего исследования. Ваша популяция — это более широкая группа людей, на которую вы пытаетесь обобщить свои результаты.Так, например, если вы хотите определить взаимосвязь между благодарностью и удовлетворенностью работой у биологов-акул, ваша выборка может состоять из 30-40 отдельных биологов-акул. Ваша популяция может состоять из «биологов-акул в Соединенных Штатах» или, если область вашего исследования была более узкой, «биологов-акул во Флориде».

    Узнайте, как мы помогаем редактировать главы вашей диссертации

    Согласование теоретической основы, сбор статей, обобщение пробелов, формулирование четкой методологии и плана данных, а также описание теоретических и практических последствий вашего исследования являются частью наших комплексных услуг по редактированию диссертации.

    • Своевременно привнести опыт редактирования диссертации в главы 1-5.
    • Отслеживайте все изменения, а затем работайте с вами над научными работами.
    • Постоянная поддержка для рассмотрения отзывов комитетов, сокращение количества исправлений.

    Репрезентативная выборка — это та, которая точно представляет, отражает или «похожа» на вашу популяцию. Репрезентативная выборка должна быть непредвзятым отражением того, на что похоже население. Есть много способов оценить репрезентативность — пол, возраст, социально-экономический статус, профессия, образование, хроническое заболевание, даже личность или наличие домашнего животного.Все зависит от того, насколько подробно вы хотите получить информацию, от масштаба вашего исследования и от того, какая информация о вашем населении доступна.

    Таким образом, если большинство акул-биологов в популяции — женщины, а в вашей выборке все мужчины, у вас нет хороших доводов в пользу репрезентативности, потому что ваша выборка не обладает теми же характеристиками, что и большая популяция. В этом случае вы не можете обобщить результаты своего исследования на популяцию (т. е. сделать более широкое заявление об биологах-акулах на основе ваших результатов), потому что ваша выборка имеет доказательства серьезных отличий от вашей популяции.

    Отсутствие репрезентативности часто связано с ошибками или предвзятостью выборки. Примером ошибки выборки может быть проведение опроса о том, сколько людей едят молочные продукты, путем набора участников из вашего местного популярного веганского кафе. Другим примером может быть изучение привычек студентов колледжей к употреблению алкоголя, но только выборка из членов братств. В этих примерах легко увидеть, как характеристики образцов могут потенциально повлиять на результаты.

    Итак, как избежать ошибки выборки и выбрать репрезентативную выборку? Во-первых, тщательно продумайте структуру выборки (ваших возможных участников) и процедуры набора.Избегайте вербовки только членов определенного подмножества вашего населения, таких как члены братства или веганские завсегдатаи кафе в приведенных выше примерах. Далее, хороший способ уменьшить систематическую ошибку при выборке — это случайная выборка из вашей основы выборки. Благодаря этому вы сведете к минимуму любые возможные предубеждения при отборе, например, предвзятость добровольцев. Вы также можете реализовать протокол стратификации, такой как пропорциональная стратифицированная выборка. Допустим, вы проводите исследование и выясняете, что ваша популяция биологов-акул на 80% состоит из женщин.Затем вы можете убедиться, что 80% вашей выборки состоит из женщин, например, путем выборки по квоте. Еще одним фактором, который следует учитывать, является размер вашей выборки; более крупные выборки будут более репрезентативными (при условии, что вы проводите случайную выборку).

    Наконец, имейте в виду, что маловероятно, что каждая выборка будет идеально похожа на интересующую совокупность. Всегда будет небольшая ошибка выборки, связанная с любым исследованием, если только вы не отбираете каждого отдельного члена вашей популяции.

    Репрезентативная выборка: определение, важность и способы получения репрезентативной выборки с примерами

    Что такое репрезентативная выборка?

    Определение репрезентативной выборки: Репрезентативная выборка определяется как небольшое количество или подмножество чего-то большего. Он представляет те же свойства и пропорции, что и большая популяция.

    Например, рассмотрим бренд, который собирается запустить новый продукт в одном из городов США.Будет практически невозможно отправить опрос, чтобы собрать информацию о возможностях продукта от каждого человека в городе. Поэтому исследователи собирают небольшую выборку людей, которые будут представлять население города, и для них можно провести опрос, чтобы управлять их отзывами о продукте. Эта выборка называется репрезентативной выборкой.

    Выберите респондентов

    Репрезентативной пробой могут быть люди или даже химические вещества в научных исследованиях, которые можно протестировать в лаборатории для анализа результата какой-либо конкретной химической реакции.Однако в этом блоге мы сосредоточимся на людях и поймем важность репрезентативной выборки населения в исследованиях рынка и других полезных аспектах.

    Почему в исследованиях необходимо использовать репрезентативную выборку?

    Репрезентативная выборка позволяет исследователям абстрагировать собранную информацию от большей совокупности. Большинство исследований рынка и психологических исследований не подходят с точки зрения времени, денег и ресурсов для сбора данных обо всех.Практически невозможно собрать данные от каждого человека, особенно для большого населения, такого как целая страна.

    Хорошая новость: «Вам не нужно этого делать!». Здесь важнее получить хорошую репрезентативную выборку, чтобы подавляющее большинство вашего времени и энергии ушло на получение ответов от небольшой группы людей, которые будут представлять большую часть населения.

    Снова и снова в научных исследованиях привлекалась небольшая группа людей для проведения исследований, сбора данных и анализа результатов.Давайте поймем важность репрезентативной выборки для серьезных исследований.

    Важность репрезентативной выборки для практических исследований
    • Репрезентативная выборка поможет вам провести успешное исследование рынка. Можете ли вы представить, что вам нужно взять интервью у всех людей в стране или даже в городе? Это прозвучит как самый непрактичный план, слишком сложный и займет много времени.
    • Репрезентативная выборка — это небольшое количество людей, которые максимально точно отражают более обширную группу.Затем мы можем применить, например, онлайн-опрос к выборке населения, чтобы выяснить, является ли оно наиболее репрезентативным для нашего целевого населения.
    • У нас не будет лучших результатов, если, например, мы отправим опрос без учета репрезентативности, и мы не знаем, кто на него отвечает и отражают ли результаты мнение нашей целевой аудитории.
    • Действительно, если у нас не будет репрезентативности, у нас будут данные, которые нам вообще не послужат. Мы должны гарантировать, что образец обладает характеристиками, важными для нас для исследования.
    • Примите во внимание, что у нас всегда будет систематическая ошибка в выборке, потому что всегда будут люди, которые не ответят на опрос по разным причинам или ответят не полностью. В этом случае мы не можем полностью получить нужные нам данные. Теперь, что касается размера выборки, чем больше размер выборки, тем больше вероятность того, что она будет точно представлять более широкую совокупность.
    • Большая репрезентативная выборка дает нам большую уверенность в том, что включенные люди являются теми, кто нам нужен, и мы также уменьшаем любую возможную предвзятость.Поэтому, если мы хотим избежать неточностей в наших опросах, мы должны иметь репрезентативные и сбалансированные выборки.

    Как собрать репрезентативную выборку

    Исследователи используют два метода для построения репрезентативных выборок – вероятностную выборку и невероятностную выборку

    1. Вероятностная выборка: Вероятностная выборка — это метод, при котором исследователь выбирает выборку из большей совокупности, используя метод, основанный на теории вероятностей.Чтобы участник считался вероятностной выборкой, он должен быть выбран методом случайного отбора.

    Если мы будем использовать вероятностную выборку для получения репрезентативной выборки, то лучшим выбором будет простая случайная выборка. Выборка производится случайным образом, что гарантирует, что каждый член генеральной совокупности будет иметь одинаковую вероятность отбора и включения в выборочную группу.

    2. Невероятностная выборка: Невероятностная выборка — это метод выборки, при котором исследователь отбирает выборки на основе субъективного суждения исследователя, а не случайного выбора.При невероятностной выборке не у всех членов совокупности есть шанс принять участие в исследовании, в отличие от вероятностной выборки, когда у каждого члена совокупности есть известная вероятность быть отобранным.

    Знание демографических характеристик выбранной выборки, несомненно, поможет ограничить профиль желаемой выборки и определить интересующие нас переменные, такие как пол, возраст, место жительства и т. д. Зная эти критерии, до получения информации, мы можем иметь контроль для создания репрезентативной выборки, которая является эффективной.Мы должны избегать выборки, которая не отражает целевую совокупность. Идея состоит в том, чтобы иметь максимально точные данные для успеха нашего проекта.

    Избегайте ошибок выборки для лучшего представления

    Если выборка не является репрезентативной, у нас будет ошибка выборки, известная как предел погрешности. Если мы хотим получить репрезентативную выборку из 100 сотрудников, мы должны выбрать одинаковое количество мужчин и женщин. Например, если у нас есть образец, склонный к определенному жанру, то у нас будет ошибка в образце.

    Размер выборки важен, но он не гарантирует, что он точно представляет нужную нам совокупность. Репрезентативность больше, чем размер, связана с основой выборки, то есть со списком, из которого отбираются люди, например, часть обследования. Поэтому мы должны позаботиться о том, чтобы люди из нашей целевой аудитории попали в этот список, чтобы сказать, что это репрезентативная выборка.

    Пример репрезентативного образца

    В качестве общенациональной репрезентативной выборки определяется группа граждан, представляющих всю страну.Исследователи используют его для отражения и проецирования национальной действительности. Это могут быть предпочтения любого рода, поведения или социально-демографические профили.

    В лучшем случае репрезентативная выборка будет выглядеть как вся популяция, независимо от ее внешнего вида. Количество мужчин по сравнению с женщинами должно соответствовать национальным пропорциям, процентное соотношение в каждой возрастной группе или в каждом регионе будет точно соответствовать численности населения и т. д. В недемографических показателях (таких как владение продуктом или психографическая сегментация) выборка должна соответствовать Население.

    Выберите респондентов

    Возьмем пример возраста: если исследователь установит квоты от 16 до 34, от 35 до 54 или более 55 лет, выборка будет представлена ​​в этих пропорциях. Но если он анализирует возрастные диапазоны от 16 до 20, от 21 до 30, от 31 до 40 и т. д., нет гарантии, что выборка останется правильной.

    Степень, в которой возможен контроль квот в выборке, зависит от размера выборки и справочных данных, доступных в обследовании.Шесть возрастных периодов, два рода и 15 регионов образуют сетку из 180 ячеек. Если размер выборки составляет всего 100, невозможно заполнить все ячейки. Даже при большем размере выборки для раздела может потребоваться только половина человека, и поэтому в нем не будет данных.

    Взвешивание можно использовать, чтобы сделать выборку более репрезентативной. В качестве альтернативы чередующимся ячейкам ячейки квот могут быть структурированы независимо. Недостатком здесь является то, что в выборке могут быть значительные «пробелы».Если, например, вся молодежь — мужчины, будет невозможно использовать взвешивание для исправления пробелов.

    Почему большая выборка не гарантирует репрезентативность выборки

    Резюме: Размер выборки не является гарантией ее способности точно представлять целевую совокупность. Большие нерепрезентативные выборки могут работать так же плохо, как и маленькие нерепрезентативные выборки.

    4 минуты на чтение. Автор Микаэла Мора, 14 августа 2019 г.,

    Позвольте мне сказать, что большая выборка не гарантирует репрезентативность выборки.

    Меня часто спрашивают: «Какой размер выборки мне нужен, чтобы получить репрезентативную выборку?» Проблема в том, что этот вопрос сформулирован неправильно.

    Размер выборки и репрезентативность — это два взаимосвязанных, но разных вопроса. Сам размер выборки не является гарантией ее способности точно представлять целевую совокупность . Большие нерепрезентативные выборки могут работать так же плохо, как и маленькие нерепрезентативные выборки.

    Способность выборки обследования представлять совокупность зависит от основы выборки; это список, из которого выбирается образец.

    Когда мы исключаем некоторые группы из выборки, мы сталкиваемся с смещением отбора , которое не позволяет нам утверждать, что выборка репрезентативна для целевой совокупности.

    Смещение выбора выборки

    Смещение выбора может происходить по-разному:

    Простенький образец

    Сюда входят респонденты, которых легче выбрать или которые с наибольшей вероятностью ответят. Эта выборка не будет репрезентативной для лиц, которых труднее выбрать. Образцы из онлайн-панелей — хороший пример удобных образцов.

    В эти панели входят лица, выразившие заинтересованность в участии в опросах, за исключением лиц, которые могут входить в целевую группу, но недоступны для интервью через панель. Стоимость часто является основной причиной использования удобного образца.

    Нижнее покрытие

     Это происходит, когда мы не можем включить всю целевую совокупность в основу выборки. Многие онлайн-панели усердно работают над тем, чтобы избежать систематической ошибки недостаточного охвата, но факт остается фактом: некоторые демографические группы недостаточно представлены.

    Например, трудно проводить онлайн-исследования, нацеленные на все латиноамериканское население США, без использования гибридного подхода к сбору данных, который позволяет нам охватить некультурных латиноамериканцев.Эта группа обычно недостаточно представлена ​​в большинстве онлайн-панелей.

    Мы также наблюдаем систематическую ошибку охвата в телефонных опросах, в которых используются рамки выборки по спискам телефонов, исключающие домохозяйства, не имеющие доступа к стационарным телефонам. По мере того, как все больше домохозяйств заменяют свои стационарные телефоны мобильными, получение репрезентативных выборок определенных демографических групп вскоре будет затруднено без включения списков мобильных телефонов в основу выборки.

    Отсутствие ответа

     Смещение выборки также имеет место, когда нам не удается получить ответы от всех респондентов в выбранной выборке.Нереспонденты, как правило, отличаются от респондентов, поэтому их отсутствие в окончательной выборке затрудняет обобщение результатов на всю целевую совокупность. Вот почему план обследования гораздо важнее абсолютного размера выборки для получения репрезентативной выборки целевого населения.

    Образец судебного решения

    Это выборка, которую мы отбираем на основе «репрезентативных» критериев, основанных на предварительном знании темы или целевой группы. Примером может служить исследование, целью которого является выборка подростков и попытка перехватить их на перекрестке возле средней школы.

    Неправильная спецификация целевой совокупности

     Это происходит, когда мы намеренно или ненамеренно используем критерии отбора, которые не учитывают важные подгруппы населения.

    Низкое качество сбора данных

     Это может привести к систематической ошибке при отборе, если контроль качества недостаточен, чтобы гарантировать, что мы опрашиваем выбранных членов выборки. Примером этого является разрешение на участие в опросе любому доступному члену домохозяйства вместо предполагаемого члена на основании определенных критериев отбора.

    Рекомендации для репрезентативной пробы

    Итак, когда дело доходит до получения репрезентативной выборки, источник выборки важнее, чем размер выборки . Если вам нужна репрезентативная выборка определенной совокупности, вам необходимо убедиться, что:

    • Источник выборки включает всю целевую совокупность
    • Выбранный метод сбора данных (онлайн, по телефону, в бумажном виде, лично) может охватить лиц с характеристиками, типичными для интересующей нас популяции
    •  Критерии отбора действительно отражают целевую группу
    •  Вы можете свести к минимуму уклонение от ответа с помощью хорошего дизайна опроса, стимулов и соответствующего метода связи
    • Существует контроль качества в процессе сбора данных, чтобы гарантировать, что вы достигаете определенных членов выборки

    Для получения справки по расчету размера выборки используйте наши калькуляторы размера выборки и предела погрешности .

    (Предыдущая версия этой статьи была первоначально опубликована 13 мая 2010 г. Последнее обновление и исправление статьи состоялось 14 августа 2019 г. )

    Подпишитесь на нашу рассылку, чтобы получать уведомления о будущих статьях

    Комментарий: Репрезентативность обычно не требуется, и ее часто следует избегать | Международный журнал эпидемиологии

    Мы согласны с Ротманом и его коллегами в том, что научный вывод в эпидемиологии не требует репрезентативности общей популяции или целевой популяции, чтобы быть достоверным.Это важное сообщение, и мы приветствуем документ Ротмана и его коллег, в котором четко выражена эта позиция. 1

    С другой стороны, возможно, Ротман и его коллеги заходят слишком далеко, утверждая, что репрезентативности следует избегать в принципе, и мы считаем, что в некоторых ситуациях репрезентативность является наиболее разумным подходом. Например, исследователи редко изучают только одну возрастную группу, а затем пытаются экстраполировать свои результаты на другие возрастные группы, если имеется достаточное количество и финансирование, чтобы также отобрать адекватные числа из этих других возрастных групп.

    По нашему опыту, есть три обычные причины для преднамеренного выбора нерепрезентативности в дизайне исследования («преднамеренная» нерепрезентативность): (i) практические причины, т.е. может быть наиболее практичным ограничить исследование теми, у кого есть телефон; (ii) чтобы свести к минимуму предвзятость, т.е. путем ограничения исследования определенной подгруппой населения (как в исследовании британских врачей 2 ), чтобы была меньшая вероятность различий в образе жизни между подвергшимися и не подвергшимися воздействию в этой группе; и (iii) чтобы сосредоточиться на одной или нескольких подгруппах населения, например.грамм. если мы хотим сравнить оценки последствий воздействия в различных этнических группах. 3 Во-первых, репрезентативность не требуется и обычно не улучшает осуществимость исследования; в последних двух ситуациях его следует избегать.

    Кроме того, нерепрезентативность также может быть «непреднамеренной», т.е. в лонгитюдных исследованиях из-за низкой исходной частоты ответов или набора добровольцев, а не формальной выборки определенной популяции.Такой непреднамеренный отбор может иметь место как в исследованиях со случайными выборками населения, так и в исследованиях с нерепрезентативными выборками. В этой статье мы сосредоточимся в основном на вопросах, связанных с преднамеренной нерепрезентативностью, но также рассмотрим вопросы непреднамеренной нерепрезентативности. В этой последней ситуации потенциал смещения может быть больше. В частности, существует возможность большой систематической ошибки, если интересующий результат или его ранние признаки влияют на вероятность выбора исходного уровня.Мы, однако, утверждаем, что при условии, что результат не влияет на выбор, ситуации преднамеренной и непреднамеренной нерепрезентативности в целом схожи с точки зрения достоверности. Кроме того, исходный самоотбор, вероятно, создаст группу более мотивированных лиц в лонгитюдных исследованиях, что может привести к лучшему ответу на последующее наблюдение и, таким образом, к уменьшению систематической ошибки отбора. Таким образом, возможность систематической ошибки из-за недостаточной репрезентативности необходимо уравновешивать с вероятностью систематической ошибки из-за плохой реакции на последующее наблюдение в более репрезентативной выборке.Например, большинство исследователей, если бы у них был выбор, предпочли бы провести исследование на 50% населения, а затем добиться хороших показателей последующего наблюдения, а не начать с репрезентативной выборки, а затем достичь только 50% последующего наблюдения.

    Следует также отметить, что в некоторых случаях цель эпидемиологического исследования носит преимущественно описательный характер, т.е. для оценки распространенности такого состояния, как астма, среди населения в целом, 4 , и в этих исследованиях репрезентативность необходима для получения достоверных оценок.Кроме того, такие исследования часто не являются полностью описательными. Например, прогностические исследования зависят от популяции и времени, но идентификация причины прогрессирования заболевания может добавить информацию к пониманию биологического явления.

    Мы сосредоточимся на «аналитических» исследованиях, целью которых является оценка конкретной связи между воздействием и заболеванием, при этом должным образом контролируя смешение и избегая других систематических ошибок. В этой ситуации мы согласны с тем, что репрезентативность не является целью как таковой, а скорее должна быть обоснована в контексте конкретного исследования.Например, в клиническом испытании, где мы хотим понять эффективность лечения болезни, случайная выборка явно не нужна и во многих отношениях может быть неуместной. Обычно мы ограничиваем первоначальные исследования пациентами с высоким риском или пациентами, которые, как ожидается, будут иметь высокую приверженность назначенному лечению и последующему наблюдению.

    Мы несколько раз участвовали в дискуссиях о репрезентативности с 2005 года, когда мы запустили интернет-когорту новорожденных в Италии (NINFEA cohort, www.progettoninfea.it), 5 , а затем аналогичное исследование в Новой Зеландии (когорта ELFS, www.elfs.org.nz). Интернет-набор имеет преимущества с точки зрения осуществимости, затрат и возможностей охвата традиционно недостаточно изученных групп населения. Однако этот подход часто подвергается критике из-за связанной с ним недостаточной репрезентативности населения в целом. При наборе через Интернет отбираются участники, которые имеют доступ к Интернету, узнают о существовании исследования и добровольно участвуют в нем.Таким образом, он основан на ограниченной исходной популяции, а изучаемая популяция представляет собой самостоятельно отобранную выборку исходной популяции (т. е. нерепрезентативность является как преднамеренной, так и непреднамеренной).

    В этом комментарии мы описываем эту критику и утверждаем, вслед за Ротманом и его коллегами, что ограничение исследования подгруппой населения в целом не препятствует научным выводам, а часто может их улучшить. Мы фокусируемся на когортных исследованиях младенцев, но те же аргументы в отношении преднамеренной нерепрезентативности могут применяться к соответствующим исследованиям случай-контроль и перекрестным исследованиям, основанным на тех же ограниченных популяциях.Мы сосредоточимся на двух основных аргументах, которые мы получили против использования нерепрезентативных популяций в когортах новорожденных в Интернете: (i) отсутствие гетерогенности; и (ii) возможность предвзятости. Мы также рассматриваем третью потенциальную критику, касающуюся отбора и опосредующей переменной.

    Критика 1: Нерепрезентативные когорты неоднородны

    Одним из основных критических замечаний по поводу использования нерепрезентативных образцов является связанное с этим отсутствие гетерогенности в отношении воздействия, модификаторов потенциального эффекта или того и другого.Хотя это правда, что ограничение может уменьшить диапазон уровней воздействия и величину контрастов, мы утверждаем, что использование нерепрезентативных выборок часто может повысить эффективность исследования для оценки основных эффектов и модификации эффектов. Например, для изучения редкого воздействия мы либо собираем очень большую когорту, либо проводим «умный отбор» ее членов. Например, в онлайн-исследовании возрастных когорт, участники которого характеризуются высоким социально-экономическим статусом, женщины, впервые забеременевшие после 40 лет, преобладают.Когда интерес представляет высокий материнский возраст, когорта рождений в Интернете становится более эффективной, чем когорта рождений, репрезентативная для населения в целом. Точно так же использование нерепрезентативных образцов может улучшить нашу способность оценивать гетерогенность в отношении модификаторов потенциального эффекта, например. путем обеспечения достаточного количества в каждой из этнических групп, которые следует учитывать, если мы подозреваем или заинтересованы в потенциальной модификации по этническому признаку.

    Эти аргументы относятся к вопросам эффективности исследования, но отсутствие разнородности среди участников исследования может быть преимуществом в отношении контроля смешения.В идеале лучшим исследованием с точки зрения научной обоснованности был бы план, предполагающий большую неоднородность воздействия и полную однородность всех других характеристик (при условии, что мы не хотим исследовать модификацию эффекта и/или влияние различных контекстов популяции).

    Конечно, следует признать, что отсутствие разнородности не всегда является преимуществом, особенно при наличии важного эффекта модификации. Может случиться так, что воздействие оказывает сильное воздействие на одну подгруппу населения и более слабое или несуществующее воздействие на другую.Если исследование основано на последней подгруппе, то эффекты воздействия не будут выявлены. Однако, опять же, для изучения такой модификации эффекта обычно требуются нерепрезентативные выборки, т.е. путем изучения равного количества людей в каждом возрасте, поле или этнической группе.

    Если мы явно не заинтересованы или не имеем априорных причин для исследования неоднородности, обобщаемость является вопросом научного вывода, а не репрезентативности. Есть много ситуаций, в которых такая обобщаемость относительно проста.Курение вызывает рак легких в каждой популяции, в которой оно изучалось, и не было никаких предубеждений и значительных практических преимуществ в ограничении одного из ключевых ранних исследований британскими врачами. 6 Точно так же курение предположительно вызывает рак легких у тех, у кого есть телефон или у него нет, у тех, кто зарегистрировался для голосования, и у тех, кто не зарегистрировался, а также у тех, кто пользуется и не пользуется Интернетом. За редкими исключениями, такие ограничения могут значительно повысить практичность исследования и, следовательно, частоту ответов и мощность, и практически не влияют на достоверность или обобщаемость.

    Критическое замечание 2: если представляющее интерес воздействие связано с вероятностью отбора, взаимосвязь между воздействием и исходом, оцененная в нерепрезентативной когорте, может быть необъективной

    Вторым важным недостатком использования нерепрезентативных выборок является возможность внесения систематической ошибки при отборе. При проведении когортного исследования в выбранной популяции вполне вероятно наличие факторов, связанных с отбором, а также определяющих интересующее заболевание.Например, в когортном исследовании, ограниченном британскими врачами, семейная история ранней смертности от сердечно-сосудистых заболеваний может повлиять как на вероятность сердечно-сосудистых заболеваний в течение жизни, так и на решение стать врачом. Как и в случае с другими факторами риска, подверженность интересам также может быть связана с вероятностью отбора: например, социально-экономический статус может повлиять как на привычку курить, так и на оценки в средней школе (и, следовательно, на вероятность поступления в медицинский институт).Если и воздействие, и другой фактор риска интересующего заболевания связаны с вероятностью отбора, базовое ограничение может внести погрешность в связь между воздействием и исходом. Это тип смещения коллайдера, который широко обсуждался в эпидемиологической литературе, в том числе нами в контексте когорт в Интернете. 7 , , 8 К счастью, величина систематической ошибки, которая, как ожидается, будет вызвана этим явлением, невелика, если только все ассоциации, участвующие в создании систематической ошибки, не будут очень сильными.Предполагая, что все связанные с этим относительные риски равны 2,0, погрешность в логарифмическом масштабе будет равна 0,02 [т.е. относительный риск (RR) для ассоциации воздействие-результат 1,02, когда истинный RR равен 1,00]; то есть, если предположить, что все RR равны 4,0, смещение будет равно 0,15 (т. е. RR равно 1,16, когда истинное RR равно 1,00). 7

    Однако представляющее интерес воздействие почти всегда связано с некоторыми факторами риска заболевания в общей популяции, независимо от того, изучаем ли мы ограниченную подгруппу.Действительно, каждая генеральная совокупность в данный момент времени будет иметь свой специфический смешанный паттерн. Нет оснований предполагать, что смешанные закономерности, скажем, для связи курения с сердечно-сосудистыми заболеваниями в Лондоне, Великобритания, в 2012 г. такие же, как и в Турине, Италия, в 2012 г.: мы могли бы, например, ожидать, что в В Лондоне курение ассоциируется с употреблением пива, а в Турине — с употреблением красного вина. Характер смешения в выбранной когорте может отличаться от такового для соответствующей генеральной совокупности, но мы не можем предсказать, будет ли количество смешения больше, аналогично или меньше.Суть в том, что каждая популяция, включая выбранную изучаемую популяцию, имеет свою собственную смешанную модель. Достоверный научный вывод достигается, если вмешивающиеся факторы контролируются, и нет оснований полагать, что контроль вмешивающихся факторов может быть легче достигнут в популяционной когорте, чем в ограниченной когорте. Действительно, мы можем намеренно ограничить когорту, чтобы уменьшить искажение. Например, если мы не можем точно измерить объем потребления алкоголя среди населения в целом, и мы знаем, что алкоголь является важным искажающим фактором интересующей ассоциации, мы можем ограничить исследование непьющими и эпизодически пьющими.

    В недавней статье мы сравнили, для отдельных воздействий и представляющих интерес исходов, характер смешения в интернет-когорте NINFEA с характером для соответствующей общей популяции, показав, что общее смешение не было больше, но качественно отличалось , от присутствующих в общей популяции. 8

    Как упоминалось выше, не исключено придумать ситуации, в которых может возникнуть систематическая ошибка отбора из-за ограничения (т.е. нерепрезентативности), например, когда экспозиция и неизмеренный фактор риска заболевания в целом независимы. населения, но оба связаны с вероятностью отбора.Наш аргумент состоит не в том, что такая систематическая ошибка невозможна, а скорее в том, что ограниченные исследования часто менее подвержены влиянию смешения. Кроме того, любая небольшая вероятность систематической ошибки из-за использования нерепрезентативных выборок должна быть сбалансирована с вероятностью систематической ошибки, если попытки использовать случайные репрезентативные выборки приводят к низкой частоте ответов при последующем наблюдении и/или большей вероятности информационной систематической ошибки. Исследование британских врачей снова является подходящим примером, в котором нерепрезентативная выборка, вероятно, способствовала лучшему последующему наблюдению и большей достоверности собранной информации о курении.Настаивать на проведении исследования в случайной общей выборке населения было бы мало или совсем не было бы пользы, но имело бы значительные недостатки с точки зрения логистики и достоверности исследования.

    Критическое замечание 3: если промежуточная переменная в причинно-следственной связи от воздействия к исходу связана с отбором, взаимосвязь между воздействием и исходом, оцененная в нерепрезентативной когорте, может быть необъективной

    Таким образом, мы утверждаем, что основные причины возражения против использования нерепрезентативных выборок — отсутствие неоднородности и возможность внесения систематической ошибки отбора и/или смешения — редко бывают обоснованными и, как правило, перевешиваются преимуществами этого подхода, хотя конечно, этот вывод в значительной степени зависит от гипотезы и исследования.В оставшейся части статьи мы рассмотрим менее обсуждаемый вопрос, а именно ситуацию, в которой промежуточная переменная (медиатор, то есть переменная, находящаяся на пути от воздействия к результату) связана с вероятностью выбора.

    В большинстве случаев выбор исходного уровня в когортных исследованиях происходит до того, как проявляется промежуточная переменная. Например, в исследовании британских врачей можно предположить, что члены когорты стали врачами до появления явных медиаторов воздействия воздействия (курения) на интересующие исходы.Аналогичным образом, в когорте рожденных через Интернет доступ к Интернету, вероятно, возникает до беременности и, таким образом, до того, как могут проявиться большинство возможных промежуточных переменных. В рамках этой структуры, если есть переменная, влияющая как на промежуточную переменную, так и на вероятность отбора, использование нерепрезентативной выборки может изменить смешивающую модель воздействия-посредника. Эта ситуация проиллюстрирована на рисунке 1 с помощью ориентированных ациклических графов. На рис. 1а показана нерепрезентативная когорта, в которой отбор вводит смешанные факторы воздействия и посредника, которых не было в общей популяции; На рис. 1b показан случай репрезентативной когорты, в которой уже имеется смешение воздействия-медиатора; на рисунке 1c нерепрезентативное когортное исследование проводится в той же популяции, что и на рисунке 1b; на рисунке 1d вмешивающийся фактор воздействия-посредника также влияет на вероятность выбора.Примером сценариев, изображенных на рис. 1b и d, может быть влияние ИМТ до беременности (E) на преждевременные роды (O), в которых гестационная гипертензия является возможным медиатором (M). Социально-экономический класс (C) будет фактором, влияющим на воздействие, если предположить, что он влияет как на ИМТ до беременности, так и на гестационную гипертензию, но, в упрощенном сценарии, в противном случае он не является определяющим фактором преждевременных родов. В исследовании, ограниченном пользователями Интернета, социально-экономический статус также повлияет на выбор (S) (как на рис. 1d), и, таким образом, ограничение, вероятно, уменьшит смешение посредника воздействия из-за социально-экономического статуса.

    Рисунок 1

    Эффект отбора в когортном исследовании, в котором медиатор (М) воздействия воздействия (Е) на результат (D) проявляется после отбора. На панели (а) показана нерепрезентативная когорта, в которой на посредника (М) и отбор (S) влияет общая причина (R), а воздействие (Е) также связано с отбором. Панель (b) иллюстрирует репрезентативную когорту, в которой воздействие (E)-медиатор (M) смешано с (C).На панели (c) показано, где сосуществуют сценарии, описанные в пунктах a) и b). На панели (d) показан эффект отбора, аналогичный панели (b), но вмешивающийся фактор (C) также влияет на выбор (S)

    Рисунок 1

    Эффект отбора в когортном исследовании, в котором медиатор (M) эффекта воздействия (E) на результат (D) становится очевидным после того, как произошел отбор. На панели (а) показана нерепрезентативная когорта, в которой на посредника (М) и отбор (S) влияет общая причина (R), а воздействие (Е) также связано с отбором.Панель (b) иллюстрирует репрезентативную когорту, в которой воздействие (E)-медиатор (M) смешано с (C). На панели (c) показано, где сосуществуют сценарии, описанные в пунктах a) и b). На панели (d) показан эффект отбора, аналогичный панели (b), но вмешивающийся фактор (C) также влияет на выбор (S)

    Таким образом, некоторые из сценариев, описанных на рисунке 1, увеличивают общее влияние посредника воздействия, в то время как другие уменьшить его. Мы считаем, что нет никаких оснований ожидать, что нерепрезентативные когорты, как правило, будут иметь большее вмешивающееся воздействие посредника воздействия, чем репрезентативные когорты, хотя мы всегда можем спланировать выборку, чтобы уменьшить смешивание посредника воздействия.Мы должны признать, что искажающий фактор ассоциации воздействие-медиатор часто рассматривается как искажающий фактор связи воздействие-результат, особенно когда количественная оценка роли посредника не находится в центре внимания исследования. В этом контексте сценарии, описанные на рисунке 1, становятся очень похожими на сценарии, описанные в предыдущем разделе (Критика 2).

    Возможно, выбор базовой линии происходит после того, как проявляется промежуточная переменная. Обычно это может происходить как в репрезентативных, так и в нерепрезентативных когортах, когда имеет место непреднамеренная нерепрезентативность.В исследовании, включающем вербовку через Интернет, тот факт, что участники являются добровольцами, которым необходимо сначала узнать о существовании исследования, может усугубить эту потенциальную проблему. Если промежуточная переменная оказывает прямое влияние на выбор, может возникнуть ряд различных сценариев. Самый простой сценарий описан на рис. 2, в котором есть только прямое влияние посредника на выбор. В соответствии с причинно-следственной связью, описанной на этом рисунке (в которой нет других факторов, влияющих на выбор), влияние воздействия на интересующий результат будет ослаблено.Однако следует учитывать, что, как правило, решение об участии в исследовании зависит от большого количества факторов, а процесс отбора плохо предсказывается одной промежуточной переменной. Таким образом, ситуация, описанная на рис. 2, должна в большинстве случаев привносить пренебрежимо малую или умеренную погрешность в оценку взаимосвязи воздействия и результата. Пример влияния ИМТ матери до беременности на преждевременные роды, при которых гестационная гипертензия является промежуточным фактором, может также использоваться для иллюстрации ситуации, в которой на отбор напрямую влияет промежуточная переменная.В частности, решение беременных об участии в исследовании могло зависеть от наличия у них гестационной гипертензии.

    Рисунок 2

    На выбор участников когорты (S) влияет посредник (M) связи между воздействием (E) и исходом (D)

    Рисунок 2

    На выбор участников когорты (S) влияет посредник (M) связи воздействия (E)-результата (D)

    Отношения между промежуточными переменными и отбором могут стать гораздо более сложными, чем описано выше 9 : например, на отбор могут влиять как промежуточная переменная, так и реакцией участника на промежуточный фактор.Например, в гипотетическом исследовании влияния ИМТ матери до беременности на риск преждевременных родов, где гестационная гипертензия выступает медиатором, мы должны были бы учитывать, что женщины обычно находятся под наблюдением в течение оставшейся части беременности и могут быть назначены лекарства от артериального давления. На участие в когорте может повлиять как гестационная гипертензия, так и последующие действия, например. те, кто принимает лекарства, более или менее склонны добровольно участвовать в исследовании.

    Взаимодействие между промежуточными переменными и отбором, а также естественное течение болезни должны быть полностью исследованы в будущей работе. Однако следует подчеркнуть, что в отношении отбора вопрос может быть решен за счет учета временных связей между изучаемыми переменными и, таким образом, включения участников до того, как проявится промежуточная переменная или ее ранние признаки. Например, в когортном исследовании, включающем регистрацию в первом триместре беременности, на отбор не могут напрямую влиять промежуточные переменные, действующие позже во время беременности или при рождении.

    Выводы

    В заключение мы согласны с Ротманом и его коллегами в том, что научный вывод не требует репрезентативности и часто прямо требует, чтобы образцы исследования не были репрезентативными. В целом, репрезентативность может быть вредной или полезной в зависимости от вопроса исследования и контекста. Нет причин принимать репрезентативность как таковую, поскольку часто ограничения могут повысить практичность исследования и/или достоверность научных выводов.Мы признаем, что необходима дальнейшая работа, чтобы полностью понять некоторые конкретные ситуации, в частности, когда промежуточная переменная напрямую влияет на выбор исходного уровня. Однако, оставляя в стороне этот конкретный вопрос, мы считаем несостоятельным мнение о том, что исследования, основанные на репрезентативных выборках, явно лучше исследований, основанных на ограниченных выборках. Скорее, хотя, пожалуй, слишком сильно утверждать, что репрезентативности всегда следует избегать, обычно в ней нет необходимости, и часто ее следует избегать.

    Конфликт интересов: Не объявлено.

    Каталожные номера

    1,  ,  .

    Почему следует избегать репрезентативности

    Int J Epidemiol

    2013

    , vol.

    42

     (стр. 

    1012

    14

    )2,  .

    Смертность врачей в связи с их курением: предварительный отчет

    ,

    Br Med J

    ,

    1954

    , vol.

    1

     (стр. 

    1451

    55

    )3,  ,  , и др.

    Многоэтническая когорта на Гавайях и в Лос-Анджелесе: базовые характеристики

    151

     (стр. 

    346

    57

    )4,  ,  , и др.

    Международное исследование астмы и аллергии у детей (ISAAC): обоснование и методы

    ,

    Eur Respir J

    ,

    1995

    , vol.

    8

     (стр. 

    483

    91

    )5,  ,  ,  ,  ,  .

    Возможность набора когорты новорожденных через Интернет: опыт когорты NINFEA

    22

     (стр. 

    831

    37

    )6,  .

    Смертность в связи с курением: десятилетние наблюдения британских врачей

    ,

    Br Med J

    ,

    1964

    , vol.

    1

     (стр. 

    1399

    410

    )7,  ,  , и др.

    Выбор выборки и достоверность оценок взаимосвязи между воздействием и заболеванием в когортных исследованиях

    65

     (стр. 

    407

    11

    )8,  ,  , и др.

    Систематическая ошибка отбора и закономерности смешения в когортных исследованиях: случай онлайновой когорты новорожденных NINFEA

    ,

    J Epidemiol Community Health

    ,

    2012

    , vol.

    66

     (стр. 

    976

    81

    )9,  ,  ,  ,  .

    «На пути к более четкому определению смешения», пересмотренный с направленными ациклическими графами

    176

     (стр. 

    506

    11

    )

    Опубликовано Oxford University Press от имени Международной эпидемиологической ассоциации © The Author 2013; все права защищены.

    Репрезентативная выборка: простое определение, примеры

    Определения статистики >


    Что такое репрезентативная выборка?

    Соответствует ли ваша выборка генеральной совокупности?

    Репрезентативная выборка — это когда ваша выборка соответствует некоторой характеристике вашей совокупности, обычно характеристике, на которую вы нацелены в своем исследовании. Например, если вы проводите опрос о том, как женщины работают исследователями данных по сравнению с мужчинами, вы хотели бы, чтобы ваша выборка отражала процент женщин в рабочей силе, занимающейся наукой о данных.

    Нерепрезентативные образцы

    Цель выборки — получить статистику, которая расскажет вам что-то о населении. Статистика является 90 140 репрезентативной 90 141, если она представляет атрибуты известного параметра генеральной совокупности. Когда статистика не представляет параметр совокупности, называется нерепрезентативной . Тип систематической ошибки, возникающей в статистике при наличии нерепрезентативной выборки, называется систематической ошибкой отбора .

    Представитель не означает репликацию

    Даже если выборка помечена как «репрезентативная», это не означает, что включены все аспектов совокупности. Например, при квотной выборке вы поддерживаете правильные пропорции присутствующих в генеральной совокупности. Например, если ваше первоначальное население состоит из 45% женщин и 55% мужчин, ваша выборка квот должна отражать эти проценты. Однако ваша выборка ничего не говорит вам о возрастном распределении, распределении доходов или других показателях; это просто представитель пропорций женщины и мужчины.

    Получение репрезентативных образцов

    Обычно случайный отбор дает репрезентативную выборку; вы можете делать обобщения и прогнозы относительно генеральной совокупности, если используете метод вероятностной выборки.

    В целом, вы должны стремиться избегать предвзятости в своем опросе, испытании или эксперименте. Хотя случайный выбор из совокупности для получения репрезентативной выборки может показаться простой задачей, на самом деле эта практика полна подводных камней. Например, результаты вашего исследования могут быть искажены из-за факторов, которые вы не учли, таких как знание того, какие пациенты получают какое лечение в клинических испытаниях, или плохие методы сбора данных.Как исследователь, вы можете делегировать ответственность за части вашего исследования другим людям или даже внешним источникам; вы должны убедиться, что все участники следуют вашей тщательно спланированной процедуре до буквы.

    Один из способов избежать нерепрезентативных выборок — убедиться, что вы не исключили определенных членов совокупности, например меньшинства или людей, работающих на двух работах. Если невозможно получить репрезентативную выборку (возможно, из-за наличия участников), вам следует настроить свои результаты, чтобы отразить население.Один из способов сделать это — использовать весовые коэффициенты, которые используются для сопоставления выборок с генеральной совокупностью. Например, предположим, что в вашей выборке 95% мужчин и 5% женщин. Отраслевые данные говорят вам, что процент женщин может достигать 25%. Чтобы убедиться, что у вас репрезентативная выборка, вы можете добавить немного больше «веса» к данным о женщинах.

    С другой стороны, некоторые методы отбора проб разработаны таким образом, что они не могут привести к получению репрезентативных проб.

    Добавить комментарий

    Ваш адрес email не будет опубликован.