Ложная корреляция: Ложная корреляция — это… Что такое Ложная корреляция?

Ложная корреляция — это… Что такое Ложная корреляция?

Ложная корреляция
– фальшивая, хотя и очевидная, связь между двумя (или несколькими) переменными, вызванная какой-то другой переменной.

Словарь-справочник по социальной работе. — СПб.: Питер. М. А. Гулина. 2008.

  • Личность
  • Ложное сознание

Смотреть что такое «Ложная корреляция» в других словарях:

  • Ложная корреляция — [spurio­us correlation] см. Корреляционный анализ …   Экономико-математический словарь

  • ложная корреляция — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN spurious correlation …   Справочник технического переводчика

  • Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… …   Энциклопедия инвестора

  • Коэффициент корреляции — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • Корреляционный анализ — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • Корреляционное исследование — Корреляция статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к… …   Википедия

  • Регрессионный анализ — Регрессионный (линейный) анализ  статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые… …   Википедия

  • Летающий Макаронный Монстр — Эту страницу предлагается переименовать в Пастафарианство. Пояснение причин и обсуждение  на странице Википедия:К переименованию/23 июня 2012. Возможно, её текущее название не соответствует нормам современного русского языка и/или… …   Википедия

  • АНАЛИЗ КОРРЕЛЯЦИОННЫЙ — группа методов, предназначенных для исследования корреляции между переменными . Корреляционная связь не предполагает причинной зависимости между переменными, но А.К. может использоваться для анализа тесноты и направления связи и в причинных… …   Социология: Энциклопедия

  • Л — Лаг [lag, time lag], временной Л., запаздывание Лагранжа метод  [Lagrangian method] Лагранжиан (функция Лагранжа) [Lagrangian] Ласпейреса …   Экономико-математический словарь

Ложная корреляция | Блог одного учёного

Так, в случае утверждения, что среди всех умерших, большинство употребляли помидоры и огурцы в свежем виде, произошло простое временное наложение двух плоскостей – «все умершие» и «потребляющие в свежем виде помидоры и огурцы». Первая плоскость как бы вобрала в себя вторую плоскость, если посмотреть на них так сказать «сверху». Но стоит изменить угол наклона «визуального» восприятия и сразу же становится ясно, что это две независимые плоскости. Жалко только, что нельзя продемонстрировать математически, поэтому приходится прибегать к образному представлению.

Определение корреляции как ложной или как истинной можно наверно только при одном условии, когда имеющая связь установлена в более общем для них контексте, истинность и ложность которого однозначно определена. Для этого очень эффективен метод факторного анализа и его вариации, при котором устанавливается корреляционная зависимость между рядом однопорядковых показателей. Если один из них или несколько показали слабую корреляцию, то имеется большое основание утверждать, что возможна причинно-следственная зависимость остальных и тем более основных признаков.

Так слово «служащий», имеет ряд синонимов, например, клерк, конторщик, работник, сотрудник, чиновник и пр. которые достаточно полно описывают данное смысловое поле. Так же как и имеются синонимы слова «защитник», (адвокат, апологет, борец, заступник, оборонитель, покровитель, страж и др.), которые так же хорошо описывают данное смысловое поле. Таким образом мы установили два смысловые поля с четко обозначенными показателями.

Если между явлениями «чиновник» и «защитник» не обнаружилось тесной корреляционной связи, то можно ее проверить на серии других корреляционных связей между их синонимами, которые могут подтвердить или не подтвердить исходный вывод. Правда, жизненный опыт подсказывает, как не крути и какой сложный статистический аппарата не применяй, связи здесь не найдешь никакой, поскольку ее в природе чиновничества не существует и не может существовать по определению. Так же как в смысловом поле «защитник» отсутствуют какие-либо элементы смыслового поля «чиновник».

В статистике используется еще один, очень хороший метод, это сжатие информации, что позволяет провести более четкое определение тренда или направления развития события, интересующего исследователя. При большой разбросанности признаков и их слабом проявлении, такой способ весьма впечатлителен. Хорош он даже при небольшой наполняемости признака. Обозначается данный метод словом коэффициент.

Коэффициентов в статистике описано довольно много, которые, чаще всего, характеризуют типовые тренды. Подстановка того или иного типового коэффициента (формулы расчета), позволяет быстро получить интересующий результат – есть ли тренд или нет, имеется ли тенденция или нет и в какую сторону он развивается и пр. Более того позволяет относительно просто автоматизировать процесс вычисления коэффициента и соответственно тренда. Система автопилот в самолете тому образец.

Так, если признаков смыслового поля «офицер» и смыслового поля «защитник Родины» мало, наполнение соответствующими понятиями (словами и словообразованиями), явно не достаточно для простого корреляционного ряда, тогда прибегают к сжатию информации. Выявляют серию специальных показателей, например, синонимов и устанавливая, например, их весовой коэффициент, например, по шкале значимости, можно довольно надежно утверждать, что связь между ними имеется и возможно очень хорошая.

Но применять его надо очень осторожно, ибо требует довольно четкой идентификации интересующих исследователя признаков. В противном случае есть опасность попадания в поле статистического анализа иных по содержанию признаков. При малой наполняемости это может быть роковым — получить неверный тренд. Но и при большой наполняемости частотного проявления признаков неприятностей не избежать: может возникнуть смещение признаков в смежном широком смысловом поле.

Другая реально существующая неприятность – определение содержания степени сжатия информации. Ее можно так сжать, что никого тренда не получишь, поскольку природа явления при этом может сильно измениться. Или же растянуть до неузнаваемости, когда статистическое поле будет, как говориться, «рваться», появятся «провалы», «выбросы» и пр., что может весьма сильно затруднит анализ.

Что бы избежать подобного варианта, необходимо сразу же условиться о степени сжатия, исходя из природы явления и решаемой задачи. Правда сделать это чаще всего оказывается возможным или в типовой ситуации, когда смысловое поле известно или же в результате многократных опытов и проигрывании на каких-либо моделях или уже проверка на практике. Приговор последней обжалованию уже не подлежит, и если что-то сделано не правильно, то исправить уже ничего нельзя и все придется начинать с начала.

Наглядно этот процесс можно представить таким образом: если в неком визуальном статистическом поле, частотные точки признака сгруппировались в одном месте, в одном отсеке «шкафа», при допустимой статической погрешности, приведшей к небольшому разбросу, то тренд налицо и его можно спокойно описывать каким-либо приемлемым для данного случае коэффициентом. Если частотные точки группируются в разных позициях статистического поля, то, или же тренда нет, или же частотный анализ проведен не корректно. В статистике все это хорошо описано и показано.

Текст такое же статистическое поле как и любое другое. Если корреляционная зависимость слабая, то имеет смысл ввести дополнительные показатели, что бы усилить возможную зависимость и тем самым определить тренд. Так, зависимость между частотным проявлениям признака-слова «офицер» и частотным проявлениям признака-слова «защитник Родины» может быть по разным причинам слабая, но введя другие показатели данного смыслового поля, можно с большей или меньшей уверенностью или обоснованностью утверждать, что в тексте данная связь присутствует или ее нет.

В данном разделе, мы показали только самые общие моменты статистического анализа. Это особая область исследования, тем более, что практика статистического анализа текста, как особая область статистического анализа, точнее статистического анализа особого рода реальности, может подсказать и особые статистические приемы анализа, как это бывает с иными областями объективной реальности, куда добралась статистика. Но об этом в следующей главе.

Рубрики: Книги | Дата публикации: 26.07.2010

Нужна курсовая или дипломная?

Корреляция ложная — Справочник химика 21

    Из коэффициента корреляции можно сделать вывод о том, существует ли линейная зависимость между двумя величинами. При этом представляется возможным проверить и критически оценить такие зависимости между достаточно далекими друг от друга величинами. Однако два различных множества данных с одинаковыми коэффициентами корреляции могут подчиняться совершенно разным зависимостям (рис. 9.2). Поэтому из коэффициента корреляции совсем не следует вывод о виде такой зависимости. Расчет коэффициента корреляции без предварительного критического изучения числового материала легко может привести к качественно неверным результатам. Какая-либо недостоверная зависимость [г = О, 30 пары значений, выпадающей из общего ряда, в значимую зависимость [г = О, 64 > г(Р = 0,99 / = 14) = 0,61, см. рис. 9.3,а]. Жесткая корреляция в области линейных зависимостей [г = 0,82 > г(Р — 0,99, / — II) = 0,68, рис. 9.3,6] оборачивается для всей области измерения всего лишь случайной зависимостью [г = 0,19 нелинейной зависимости между X и у (несмотря на незначительный разброс измеренных значений). Корреляция может быть ложной, если измеренные значения двух параллельно протекающих совершенно независимых друг от друга временных рядов пересекутся из-за незначительного смещения. Чтобы избежать таких ошибочных интерпретаций, рекомендуется нанести на график имеющиеся пары значений (х,,у,) прежде, чем вычислять коэффициенты корреляции. 
[c.163]

    Вычислением корреляции можно также отыскать и оценить связи между весьма отдаленными величинами. Однако при этом существует опасность, что устанавливают корреляции, смысл которых весьма спорен. Проверка корреляции надежна только на таком материале, который по происхождению можно считать однородным. Отсутствие единообразия (нанример, два различно работающих аналитика) может замаскировать корреляцию или привести к ложной корреляции. Проверка корреляции на временных рядах из-за временной изменчивости одной из величин может при известных обстоятельствах 
[c.212]

    Таким образом, был сделан вывод, что индексы, содержащиеся в каждом из этих двух классов, выражают, по существу, одну и ту же информацию о структуре. Предполагается, что высокая степень корреляции, существующая по определению между индексами данного класса, является отражением их структурной однородности. Относительно небольшие различия между индексами одного и того же класса обусловлены главным образом масштабными множителями. Это ясно видно в случае центрических индексов Балабана. Как отмечалось выше, эти три индекса масштабировались при построении исследования показали, что их коэффициенты корреляции равны 0,99. Однако нельзя не упомянуть, что в некоторых случаях из-за явного структурного сходства химических молекул в пределах данного ряда соединений могут быть получены на основании уравнения (24) ложные корреляции индексов [44]. 

[c.195]

    В разд 8 2 мы обсудим вопрос об оценивании взаимной корреляционной функции Мы покажем, что если не применять к обоим рядам фильтрации, переводящей их в белый щум, то при оценивании могут возникать ложные завышенные значения взаимной корреляции В разд 8 3 вводится третье обобщение — взаимный спектр стационарного двумерного процесса Взаимный спектр содержит два различных вида информации, характеризующей зависимость между двумя процессами Информация первого типа содержится в спектре когерентности, являющемся эффективной мерой корреляции двух процессов на каждой из частот Информация второго типа дается фазовым спектром, характеризующим разность фаз двух процессов на каждой из частот В разд 8 4 оба эти типа информации иллюстрируются на простых примерах 

[c.77]


    Кинетика излучательной рекомбинации атомов галогенов -.ложнее, чем кинетика послесвечения N2. Отчасти это является следствием значительного заселения двух и более возбужденных состояний молекул галогенов [40, 101, 104]. Например, низко расположенное состояние молекулы Вгг, энергия уровней которого занимает промежуточное положение по отношению к состояниям, указанным в случаях (Г) и (3 ), расщепляется на ряд подсостояний 0+ы, О , 1м, 2и, имеющих почти одинаковую энергию. В принципе некоторые из этих состояний в соответствии с правилом корреляции могут заселяться в процессе рекомбинации атомов. Однако известны только состояние коррелирующее с Вг(2Рз/,) + Вг( Р1/2), и состояние П1 , коррелирующее с Вг( Р%) +Вг(2Рз/ . 
[c.330]

    Расчет коэффициентов корреляции, особенности их использования и интерпретации не представляют особых трудностей. Однако и здесь недоучет специфики материала, подлежащего обработке, может привести к получению ложных результатов. Так, например, в практике геологических исследований (в геохимии нефтей, газов, при изучении распределения размеров зерен по фрак-диям) широко используются показатели, в сумме составляющие некоторую постоянную величину (при выражении в процентах эта сумма равна 100). Эти значения используются в дальнейшем для установления различного рода зависимостей и связей. При этом, как правило, не учитывается то обстоятельство, что при подобном выражении геологической информации получается искусственно созданная замкнутая система. В такой же системе могут возникать ложные зависимости, сильно искажающие действительно существующие связи. Во избежание этого рекомендуется использовать приемы, осуществляющие переход к незамкнутым системам. Так, в случае исследования газовой фазы рассеянного ОВ незамкнутая система получается при выражении содержания отдельных компонентов в миллилитрах на 1 кг породы, в случае изучения гранулометрии — при выражении содержания фракций в количестве зерен, приходящихся на каждую из фракций, и т. д. 

[c.377]

    Такое положение может возникать реально, когда нащи экспериментальные данные ограничиваются таким набором заместителей, для которых имеет место указанного типа ложная зависимость между постоянными заместителей разного типа. В таком случае существование линейной корреляции с постоянными заместителей одного типа не может служить доказательством зависимости скорости или равновесия реакции именно от соответствующего структурного фактора. Подобная ситуация может иногда возникать в случае набора заместителей, почему-либо особо удобного для изучения. В связи с этим можно сослаться на следующий конкретный пример. 

[c.250]

    Электроотрицательные заместители этой корреляцией, именовать которую ложной даже как-то неловко, не охватываются. [c.251]

    Ниже, в свете теории Маркуса обсуждаются соответствующие экспериментальные наблюдения. Тем не менее следует отметить, что теория в ее настоящем виде предназначена для объяснения механизмов с внешнесферным переносом электрона и не может применяться для рассмотрения систем с неизвестными механизмами во избежание ложных корреляций. Для определения того, протекает ли реакция по внешне- или внутрисферному механизму, следует применять дополнительные критерии, подобно недавно предложенному новому использованию [16] понятия объема активации. [c.274]

    Столбцы в матрице факторов часто имеют значительную взаимную корреляцию. Это приводит к ошибочной оценке значимости эффектов по -критерию и, следовательно, к учету ложные эффектов (в действительности не влияющих на объект исследования) и потере факторов, существенно влияющих на процесс. [c.108]

    Любое из упомянутых выше смещений может порождать ложную антиципацию, если корреляция по возрасту начала заболевания между родителями и детьми слабая. [c.172]

    Немаловажный вклад в разрешение проблемы магниторецепции и ориентации внесло выявление связи между выбросами китообразных на сушу и передвижениями их в открытом океане, с одной стороны, и геомагнитными минимумами-с другой. Полученные данные позволяют предположить использование пелагическими китообразными для навигации магнитных ориентиров. Остается, однако, неизвестным, могут ли так же воспринимать магнитное поле и прибрежные виды китообразных вероятно, эти животные больше полагаются на другие сенсорные системы, такие как эхолокация и зрение, более эффективные для обнаружения мелей у побережья. Несмотря на обнадеживающие выводы, подобные результаты корреляционного анализа следует интерпретировать с большой осторожностью. Необходимо досконально исследовать альтернативные возможности объяснения приведенных выше явлений, такие как использование китообразными для навигации топографических особенностей и метеорологических условий. Не исключено также, что на передвижение китообразных влияют маршруты миграций рыб, использующих магнитные ориентиры. Существование корреляции между Л/ -индексом и миграциями китов-пока предварительный результат, и его необходимо подтвердить. Для этого надо провести аналогичный анализ и показать отсутствие корреляции между миграционным поведением и какими-либо другими факторами среды, как это было сделано при анализе выбросов. Следует также отметить, что на скорости миграций могут сказываться различия китообразных по возрасту и полу, а это в свою очередь могло бы вести к ложной корреляции с уровнем магнитного поля. В дальнейших исследованиях было бы полезно воспользоваться банком данных независимо от китобойного промысла. Кроме того, при анализе следует пользоваться более подробными измерениями магнитного поля, т. е. ежедневными, а не недельными или месячными. [c.282]


    Непрямые измерения жизнеспособности клеток основаны на оценке их метаболической активности. Наиболее часто используемым параметром является утилизация глюкозы, а в качестве других параметров жизнеспособности могут быть также использованы поглощение кислорода, образование молочной и пировиноградной кислот, а кроме того, экспрессия ферментов. При логарифмическом росте клеток наблюдается очень тесная корреляция между утилизацией питательных веществ и числом клеток. Однако на других фазах роста культуры высокая скорость обмена, связанная не с ростом клеток, а с их жизнедеятельностью, может привести к получению ложных результатов. Результаты проведенных измерений можно выражать в форме выхода биомассы (Y) или в форме отношения удельной утилизации к скорости дыхания (Q)  [c.58]

    Следует иметь в виду, что эти методы являются нелинейными и ведут к возникновению корреляций между сигналом и шумом. Они не годятся для восстановления сильно зашумленных слабых сигналов, однако их полезно применять для подавления ложных шумовых выбросов, которые можно ошибочно принять за сигналы. На рис. 6.6.5 показан пример симметризации 2М NOE- пeктpa. [c.412]

    Так как нри Г=0 ориентация моментов частиц произвольна, а спонтанный момент в каждой частице сохраняется, т. е. ферромагнетизм как феномен еще не исчез, и так как ву зависит от концентрации и условий эксперимента, то эта точка является условной, и ее можно назвать внешней точкой Кюри, имея в виду, что при этой температуре исчезает корреляция между локально упорядоченными областями, т. е. рвутся связи между частицами. Согласно Семенченко [26], переход такого рода следует назвать ложным фазовым переходом II рода, поскольку выше Т=д , коллектив частиц как конденсированная система однонаправленных моментов существовать не может. Как легко убедиться, [c.228]

    Чтобы совместные оценки эффектов были смещаны случайным образом, необходимо при построении матрицы планирования использовать какой-нибудь случайный механизм. Чаще всего факторы в методе случайного баланса варьируют на двух уровнях. Для построения матрицы планирования предлагается 1) чистый случайный баланс, при котором выбор плана для каждого столбца не зависит от выбора для других столбцов 2) случайное смешивание систематических дробных реплик факторного эксперимента. Чистый случайный баланс менее эффективен,. его используют, если ближайшая степень двойки существенно увеличивает число опытов. Прежде чем использовать полученную таким образам матрицу планирования, необходимо убедиться в ее пригодности. Матрицу нельзя использовать, если в ней имеются полностью закоррелиро-ванные столбцы. Чем больше корреляция между столбцами, тем больше опасность выделения так называемых ложных эффектов. За меру оптимальности матриц планирования принимают следующие показатели 1) число ортогональных столбцов 2) минимум значения модуля коэффициента корреляции для всех возможных взаимодействий (линейных —парных, парных — парных) 3) условие 2л ,=0 для всех факторов. [c.236]

    В случае мультипликативного шума, т. е. при g(x)=7 Ф onst, когда влияние случайной силы зависит от состояния процесса, корреляция между, процессом Xt и случайной силой Wt, заложенная в интеграле Стратоновича, приводит к систематическому вкладу в эволюцию случайного процесса Xt. Этот вклад порождает индуцированный шумом перенос o g g/2. Выписанный член известен под названием ложного переноса, так как он не входит в феноменологическое уравнение. Однако [c.138]

    Казалось бы, что в поставленной задаче можно средствами корреляционного анализа установить по крайней мере факт корреляционной связи. Но достоверное отличие от нуля коэффициента корреляции еще не гарантирует наличия истинной взаимосвязи переменных, так как это может быть ложная корреляция, связь сопутствия или координационный эффект. Для снятия такой неопределенности необходимо привлечение некоторых дополнительных данных. [c.48]

    В сдучае реакшш дипропилмагния с пинаколином набор растворителей несколько шире (данные из работ ,13,24 в табл.2), однако значительная часть из используемых постоянных растворителей закоррелимваны между собою. По этой же причине приведенная в работе корреляция по уравнению (2) может быть ложной (коэффициент корреляции для парл Ед — УЕд г = 0,98 ). [c.89]

    Хотя коэффициенты корреляции достаточно велики в обоих случаях,огромные различия в величинах дают ос-коьание полагать,что зашсимость 2 является «ложной» вычисляемая из нее величина константы скорости обмена бензола г 1 Кц=9,7 при имеет неправдоподобно боль- [c.619]

    Из обсуждавшихся в разд. 5.2.1.3 данных, полученных на мышах, можно было бы сделать вывод, что облучение женщин низкими дозами радиации задолго до оплодотворения не должно вызывать повышения частоты нерасхождений в ооцитах. Кроме того, можно предположить, что женщины, нуждающиеся в рентгеновском обследовании, отличаются от прочих женщин по состоянию здоровья, что и влияет на риск нерасхождения. Следовательно, весьма вероятно, что в данном случае мы имеем дело с ложной корреляцией. Недавно были представлены доказательства того, что облучение человеческих лимфоцитов in vitro малыми дозами может увеличивать частоту нерасхождений в соматических клетках [1664]. [c.248]

    Последствия измененных условий. — Употребление и ноупотребленио в сочетание с естестпенныги отбором органы летания и зрения. — Акклиматизация. — Коррелятивная вариация.1 — Компенсация и экономия роста. — Ложные корреляции. — Многократно повторяющиеся, рудиментарные и низкооргаиизованные органы изменчивы. — Части, необыкновенно развитые, очень изменчивы. Видовые при.знаки более изменчивы, чем родовые вторичные половые признаки изменчивы. — Виды одного рода варьируют аналогично. — Реверсии к давно утраченным признакам. — Краткий сб.зор. [c.118]

    Под этим выражением я разумею, что вся организация во время роста ж развития внутренне связана, и когда с.лабые вариации встречаются в какой-нибудь одной части и кумулируются путем естественного отбора, другие части оказываются модифицированными. Это крайне важный вопрос, еще неясно понимаемый, и, без сомнения, целые категории совершенно различных фактов могут быть здесь легко смешаны. Мы прежде всего убедимся, что простая наследственность нередко производит ложное впечатление корреляции. Одним из наиболее очевидных случаев является тот факт, что вариации в строении, возникающие у молоди или личинок, естественно, склонны повлиять на строение взрослого животного. Различные гомологичные части тела, которые в раннем эмбриональном периоде идентичны по строению и по необходимости подвергаются одинаковым условиям, по-видимому, особенно склонны изменяться одинаковым образом это наблюдается в правой и левой сторонах тела, изменяющихся совершенно одинаково, в передних и задних ногах и даже конечностях и челюстях, изменяющихся совместно, так как нижняя челюсть, но мнению некоторых анатомов, гомологична конечностям. Эти тенденции, без сомнения, могут быть вполне или отчасти превзойдены действием естественного отбора так, например, известен случай целой семьи оленей с рогами на одной только стороне ж еслж бы эта особенность могла принести какую-нибудь пользу, опа, вероятно, могла бы постоянно сохраняться отбором. [c.126]

    Наконец, следует, вероятно, еще раз подчеркнуть опасность, связанную с проведением апостериорного анализа. Когда статистическая методика и проверяемые ею гипотезы выбираются задним числом, это приводит к значительному риску. Бэкер тяготеет к такой практике. В частности, эта его тенденция проявляется хотя бы в том, как охотно он цитирует работу Сриваставы и Саксены (Srivastava, Saxena, 1980), в которой сообщается о трех корреляциях, сделанных задним числом. Для больщинства читателей должно быть очевидно, что если мы принимаем как статистический критерий Р = 0,05, то примерно в одной из каждых двадцати проб эта корреляция имеет спорный характер. Таким образом, если мы начнем сопоставлять, скажем, три разных магнитных параметра с двадцатью видами болезни или дорожных происшествий, то получим три ложные корреляции. Сходным образом, если мы проверяем вариабельность одних и тех же данных разными статистическими приемами, условия для таких ложных корреляций будут еще лучще. Действительно, [c.423]


ложная корреляция — английский перевод

Ложная тревога. Ложная тревога.

False alarm. it is a false alarm.

Корреляция

Correlation

Это ложная скромность, ложная смиренность.

His is a false humility. It’s a false modesty.

Ложная!

Misinformation!

Значимая корреляция.

UN ECE Workshop Report, Kuoipo, p. 249 255.

Значимая корреляция.

Landwirtschaftliche Forschung. Sonderheft 39, 108 129.

b) Корреляция

(b) Correlation

3. КОРРЕЛЯЦИЯ

3. CORRELATION

Негативная корреляция

negative correlation

cущественная корреляция

significant correlation

Ложная тревога?

A malfunction?

Ложная реальность

Counterfeit Reality

Ложная тревога.

Cold LZ.

Ложная сентиментальность.

That’s false sentimentality.

Ложная тревога.

It was just a false alarm.

Ложная тревога.

Hmm. False alarm.

Ложная тревога.

All clear.

Ложная тревога.

I was wrong.

Спасибо, ложная.

Thanks, Downy.

Ложная тревога.

False alarm. No.

Ложная тревога.

False alarm, people.

Ложная тревога.

False alarm.

Ложная тревога!

It’s a false alarm.

Ложная тревога.

Wouldn’t you know false alarm.

Ложная скромность!

Cut the false modesty!

Ложная тревага!

False alarm!

Ложная тревога.

False alert.

Ложная тревога.

That’s a false alarm.

Ложная тревога!

A false alarm!

Ложная тревога.

Looks like a false alarm.

Ложная тревога.

False alert. She’s out.

Ложная скромность.

False humilitycheck.

Ложная тревога.

False alarm.

Ложная тревога.

False Alarm.

Ложная тревога.

False alarm.

Ложная тревога.

Nothing.

Ложная тревога!

What are you doing?

Ложная тревога.

Victory to the Tough Brets!

Ложная тревога.

false alarm.

Ложная тревога.

False alarm

Ложная тревога.

Negative contact.

Ложная скромность?

False modesty?

Ложная тревога?

Was it a false alarm?

Ложная надежда.

False hope.

Ложная тревога!

False alarm, ladies!

О Достоверности Определения Причинно-Следственной Связи Методами Статистической Обработки ( Дискуссионная Заметка)

Статьи [7] и [8] далеко не единичны в своём неучёте скрытых факторов, потенциально

влияющих на ложную корреляцию, таких статей очень много. Например, в исследовании [9]

был сделан вывод, что прививки от гриппа значительно влияют на снижение вероятности

заболеть ковидом. При этом такой существенный (можно даже сказать — очевидный) фактор,

как «дисциплинированность человека» (который может одновременно влиять и на решение

человека носить маску и соблюдать социальную дистанцию, и на решение сделать прививку

от гриппа), не учитывался. А раз так, то вполне может быть, что достаточно сильная

корреляция между прививкой от гриппа и вероятностью заражения ковидом фактически

является ложной корреляцией, обусловленной влиянием фактора «дисциплинированность

человека».

Представляется, что и для [7], и для [8], и для [9], исходя из интуиции и здравого смысла

невозможно установить, являются ли факторы «темперамент» и «дисциплинированность»

причиной ложной корреляции или нет. Эти факторы приведены нами как весьма

правдоподобные потенциальные причины ложной корреляции, которые необходимо

проанализировать. Вполне возможно, что специалисты укажут и другие заслуживающие

внимания факторы, и тогда их тоже необходимо учесть при анализе возможной ложной

корреляции. Несомненно, прямой учёт такого рода факторов при сборе статистики может

быть достаточно сложным, но их анализ (хотя бы косвенный – например, путём частичного

сбора статистики на ограниченной выборке, социологических опросов и т.д.) должен быть

произведён. Его отсутствие, на наш взгляд, ставит под сомнение корректность и

достоверность результатов исследований, приведённых в [7 — 9].

Конечно, невозможно учесть и проанализировать (хотя бы косвенно) влияние всех

возможных скрытых факторов, которые могут отвечать за ложную корреляцию. В принципе

всегда может существовать некий абсолютно неизвестный фактор, являющийся причиной

ложной корреляции (например, некая неопознанная к настоящему моменту мутация гена

или неоткрытое альфа-бета-гамма-сигма излучение Сатурна -:), но по крайней мере для

известных факторов, которые могут искажать результаты исследования, такой анализ

должен быть произведён.

Важное Замечание. Следует подчеркнуть, что мы никоим образом не подвергаем сомнению

как достоверность статистической информации, используемой в [7 — 9], так и корректность

её обработки. Разработанные модели могут обладать великолепной точностью,

предсказанные на их основе результаты для конкретных пациентов могут почти всегда

совпадать с реальными и т.д., но…при всём при том выводы о влиянии того или иного

фактора не являются достоверными именно вследствие возможной ложной корреляции по

неучтённым при сборе статистики существенным факторам.

Разумеется, иногда неучтённые при сборе статистики факторы не являются настолько

очевидными, как «темперамент» и «дисциплина». Например, в статье [10] исследуется

влияние радиопропаганды на геноцид народа Тутси в Руанде в конце 20-го века. На уровне

качественного анализа такое влияние представляется очевидным, в статье приводится много

достоверных фактов, обосновывающих это влияние. Но автор хочет подтвердить его и на

основе обработки статистической информации. Проблема в том, что, как справедливо

отмечается в статье «Для того, чтобы идентифицировать радио как фактор оказывающий

влияние на уровень насилия, нужно показать, что покрытие территории радиосигналом не

коррелирует с другими факторами, влияющими на уровень насилия». И далее: «Проблема

состоит в том, что радиотрансмиттеры могли быть размещены в регионах, где вероятность

насилия выше, по причинам, не связанным с радиопередачей как таковой». Автор статьи

вводит допущение, что cам по себе (т.е. без учёта влияния на качество приёма радио) рельеф

местности НЕ влияет на степень насилия (т.е. не может быть причиной ложной корреляции),

и получает подтверждение того, что как раз пропаганда по радио ДА, сильно влияет: в

местах со слабым приёмом радио погромщиков было меньше. Детально и скрупулёзно

анализируется и учитывается при обработке статистики множество факторов, проверяется

вторичное влияние типа «насилие в одной деревне провоцирует насилие в соседней» и т.д.

Но … само допущение, что география (т.е. место, где ловится или не ловится радио), никак

не влияет на количество убитых тутси, не полностью обоснованно. Волею случая вполне

Частная корреляция

15.3. Частная корреляция

Если исследовать достаточно большую совокупность мужчин и сопоставить размер их обуви с уровнем образованности, то между этими двумя переменными можно заметить хоть и небольшую, но в то же время значимую корреляцию. Это корреляция может послужить примером так называемой ложной корреляции. Здесь статистически значимый коэффициент корреляции является не проявлением некоторой причинной связи между двумя рассматриваемыми переменными, а в большей степени обусловлен некоторой третьей переменной.

В рассматриваемом примере такой переменной является рост. С одной стороны существует некоторая незначительная корреляция между ростом и уровнем образованности, а с другой — вполне объяснимая и логичная связь между ростом и размером обуви. Вместе эти две корреляции приводят к упоминавшейся ложной корреляции. Для исключения одной такой искажающей переменной необходим расчёт так называемой частной корреляции.

Если присвоить коррелирующим переменным индексы 1 и 2, а искажающей переменной — индекс 3, и попарно рассчитать корреляционный коэффициент (Пирсона) r12,r13, и r23, то для частных корреляционных коэффициентов получим:

Достаточно давно в социологических исследованиях, проводимых в Германии, выяснялось отношение населения к приезжим рабочим-иностранцам. Для этого было сформулировано несколько отдельных вопросов. Ответы на вопросы суммировались. Сумма могла принимать значения от 0 до 30, причём большее значение соответствует более негативному отношению к приезжим рабочим.

Среди многочисленных дополнительных переменных учитывались: возраст опрашиваемых и частота посещения церкви. Последней характеристике были присвоены значения от 1 (никогда) до 6 (по меньшей мере, 2 раза в неделю). Небольшая выборка из оригинальных данных опроса (35 респондентов с этими тремя переменными) наводится в файле kirche.sav.

Если подсчитать корреляции между этими тремя переменными (alter, kirche, gast), то при выборе коэффициентов Пирсона для анализа взаимосвязи, получатся следующие результаты (закроем глаза на то, что одна из переменных, а именно частота посещения церкви, имеет порядковую шкалу):

Correlations (Корреляции)

ALTER (Возраст) GAST (Приезжий) KIRCHE (Церковь)
Alter (Возраст) Pearson Correlation (Корреляция по Пирсону)
Sig. (2-tailed) (Значимость (2-сторонняя))
N
1,000
.
35
,468**
,005
35
,779**
,000
35
Gast (Приезжий) Pearson Correlation (Корреляция по Пирсону)
Sig. (2-tailed) (Значимость (2-сторонняя))
N
,468**
,005
35
1,000
.
35
,432**
,010
35
Kirche (Церковь) Pearson Correlation (Корреляция по Пирсону)
Sig. (2-tailed) (Значимость (2-сторонняя))
N
,779**
,000
35
,432**
,010
35
1,000
.
35

** Correlation is significant at the .01 level (2-tailed). Корреляция является закономерной на уровне 0,01 (2-стороння).

Принимая во внимание полярность, полученные результаты можно трактовать, к примеру, таким образом, что частые посещения церкви коррелируют с отрицательным отношением к приезжим рабочим (r = 0,432). Прежде, чем поставить в упрёк церкви враждебность по отношению к иностранцам, нужно учесть влияние возраста. Он также коррелирует с враждебным отношением к иностранным рабочим (r = 0,468) и сильно коррелирует с частотой посещения церкви (r = 0.779). Таким образом, возникает подозрение, что возраст является искажающим признаком, виновным в ложной корреляции между частотой посещения церкви и отрицательным отношением к иностранным рабочим. Докажем это путём расчёта частных корреляционных коэффициентов.

  • Откройте файл kirche.sav.

  • Выберите в меню Analyse… (Анализ) / Correlate… (Корреляция) / Partial… (Частная). Откроется диалоговое окно Partial Correlations (Частные корреляции).

  • Рис. 15.3: Диалоговое окно Partial Correlations (Частичные корреляции)

  • Перенесите переменные gast и kirche в поле признаков (Variables:), а переменную alter в поле контрольных переменных (Controlling for:) и оставьте предварительную установку для двухстороннего теста значимости.

При помощи щелчка на кнопке Options… (Опции) наряду с традиционной обработкой пропущенных значений, Вы можете организовать расчёт среднего значения, стандартного отклонения и вывод «корреляций нулевого порядка» (то есть простых корреляционных коэффициентов).

В случае одной искажающей переменной, как в приведенном примере, возможен расчёт частной корреляции первого порядка, при наличии нескольких искажающих переменных, SPSS выдаёт корреляции высших порядков.

Correlations

Control Variables (Контрольная переменная) Kirche (Церковь) Gast (Приезжий)
Alter (Возраст) Kirche (Церковь) Correlation (Корреляция)
Significance (2-tailed) (Значимость (2-сторонняя))
N
1,000
.
0
,121
,494
32
Gast (Приезжий) Correlation (Корреляция)
Significance (2-tailed) (Значимость (2-сторонняя))
N
,121
,494
32
1,000
.
0

Результаты включают: частный корреляционный коэффициент, число степеней свободы (число наблюдений — 3) и уровень значимости. Исходя из полученных результатов, можно сделать вывод, что при исключении искажающей переменной alter больше не наблюдается существенной корреляции между частотой посещения церкви и отрицательным отношением к иностранным рабочим.


9 проблем машинного обучения | Блог Касперского

Искусственный интеллект врывается в нашу жизнь. В будущем, наверное, все будет классно, но пока возникают кое-какие вопросы, и все чаще эти вопросы затрагивают аспекты морали и этики. Какие сюрпризы преподносит нам машинное обучение уже сейчас? Можно ли обмануть машинное обучение, а если да, то насколько это сложно? И не закончится ли все это Скайнетом и восстанием машин? Давайте разберемся.

Разновидности искусственного интеллекта: Сильный и Слабый ИИ

Для начала стоит определиться с понятиями. Есть две разные вещи: Сильный и Слабый ИИ. Сильный ИИ (true, general, настоящий) — это гипотетическая машина, способная мыслить и осознавать себя, решать не только узкоспециализированные задачи, но еще и учиться чему-то новому.

Слабый ИИ (narrow, поверхностный) — это уже существующие программы для решения вполне определенных задач: распознавания изображений, управления автомобилем, игры в Го и так далее. Чтобы не путаться и никого не вводить в заблуждение, Слабый ИИ обычно называют «машинным обучением» (machine learning).

Про Сильный ИИ еще неизвестно, будет ли он вообще изобретен. Судя по результатам опроса экспертов, ждать еще лет 45. Правда, прогнозы на десятки лет вперед — дело неблагодарное. Это по сути означает «когда-нибудь». Например, рентабельную энергию термоядерного синтеза тоже прогнозируют через 40 лет — и точно такой же прогноз давали и 50 лет назад, когда ее только начали изучать.

Машинное обучение: что может пойти не так?

Если Сильного ИИ ждать еще непонятно сколько, то Слабый ИИ уже с нами и вовсю работает во многих областях народного хозяйства.

И таких областей с каждым годом становится все больше и больше. Машинное обучение позволяет решать практические задачи без явного программирования, а путем обучения по прецедентам. Подробнее вы можете почитать в статье «Простыми словами: как работает машинное обучение«.

Поскольку мы учим машину решать конкретную задачу, то полученная математическая модель — так называется «обученный» алгоритм — не может внезапно захотеть поработить (или спасти) человечество. Так что со Слабым ИИ никакие Скайнеты, по идее, нам не грозят: алгоритм будет прилежно делать то, о чем его попросили, а ничего другого он все равно не умеет. Но все-таки кое-что может пойти не так.

1. Плохие намерения

Начать с того, что сама решаемая задача может быть недостаточно этичной. Например, если мы при помощи машинного обучения учим армию дронов убивать людей, результаты могут быть несколько неожиданными.

Как раз недавно по этому поводу разгорелся небольшой скандал. Компания Google разрабатывает программное обеспечение, используемое для пилотного военного проекта Project Maven по управлению дронами. Предположительно, в будущем это может привести к созданию полностью автономного оружия.

Так вот, минимум 12 сотрудников Google уволились в знак протеста, еще 4000 подписали петицию с просьбой отказаться от контракта с военными. Более 1000 видных ученых в области ИИ, этики и информационных технологий написали открытое письмо с просьбой к Google прекратить работы над проектом и поддержать международный договор по запрету автономного оружия.

2. Предвзятость разработчиков алгоритма

Даже если авторы алгоритма машинного обучения не хотят приносить вред, чаще всего они все-таки хотят извлечь выгоду. Иными словами, далеко не все алгоритмы работают на благо общества, очень многие работают на благо своих создателей. Это часто можно наблюдать в области медицины — важнее не вылечить, а порекомендовать лечение подороже.

На самом деле иногда и само общество не заинтересовано в том, чтобы полученный алгоритм был образцом морали. Например, есть компромисс между скоростью движения транспорта и смертностью на дорогах. Можно запрограммировать беспилотные автомобили так, чтобы они ездили со скоростью не более 20 км/ч. Это позволило бы практически гарантированно свести количество смертей к нулю, но жить в больших городах стало бы затруднительно.

3. Параметры системы могут не включать этику

По умолчанию компьютеры не имеют никакого представления о том, что такое этика. Представьте, что мы просим алгоритм сверстать бюджет страны с целью «максимизировать ВВП / производительность труда / продолжительность жизни» и забыли заложить в модель этические ограничения. Алгоритм может прийти к выводу, что выделять деньги на детские дома / хосписы / защиту окружающей среды совершенно незачем, ведь это не увеличит ВВП — по крайней мере, прямо.

И хорошо, если алгоритму поручили только составление бюджета. Потому что при более широкой постановке задачи может выйти, что самый выгодный способ повысить среднюю производительность труда — это избавиться от всего неработоспособного населения.

Выходит, что этические вопросы должны быть среди целей системы изначально.

4. Этику сложно описать формально

С этикой одна проблема — ее сложно формализовать. Во-первых, этика довольно быстро меняется со временем. Например, по таким вопросам, как права ЛГБТ и межрасовые / межкастовые браки, мнение может существенно измениться за десятилетия.

Во-вторых, этика отнюдь не универсальна: она отличается даже в разных группах населения одной страны, не говоря уже о разных странах. Например, в Китае контроль за перемещением граждан при помощи камер наружного наблюдения и распознавания лиц считается нормой. В других странах отношение к этому вопросу может быть иным и зависеть от обстановки.

Также этика может зависеть от политического климата. Например, борьба с терроризмом заметно изменила во многих странах представление о том, что этично, а что не очень — и произошло это невероятно быстро.

5. Машинное обучение влияет на людей

Представьте систему на базе машинного обучения, которая советует вам, какой фильм посмотреть. На основе ваших оценок другим фильмам и путем сопоставления ваших вкусов со вкусами других пользователей система может довольно надежно порекомендовать фильм, который вам очень понравится.

Но при этом система будет со временем менять ваши вкусы и делать их более узкими. Без системы вы бы время от времени смотрели и плохие фильмы, и фильмы непривычных жанров. А так, что ни фильм — то в точку. В итоге вы перестаете быть «экспертами по фильмам», а становитесь только потребителем того, что дают.

Интересно еще и то, что мы даже не замечаем, как алгоритмы нами манипулируют. Пример с фильмами не очень страшный, но попробуйте подставить в него слова «новости» и «пропаганда»…

6. Ложные корреляции

Ложная корреляция — это когда не зависящие друг от друга вещи ведут себя очень похоже, из-за чего может возникнуть впечатление, что они как-то связаны. Например, потребление маргарина в США явно зависит от количества разводов в штате Мэн, не может же статистика ошибаться, правда?

Конечно, живые люди на основе своего богатого жизненного опыта подозревают, что маргарин и разводы вряд ли связаны напрямую. А вот математической модели об этом знать неоткуда, она просто заучивает и обобщает данные.

Известный пример: программа, которая расставляла больных в очередь по срочности оказания помощи, пришла к выводу, что астматикам с пневмонией помощь нужна меньше, чем людям с пневмонией без астмы. Программа посмотрела на статистику и пришла к выводу, что астматики не умирают, поэтому приоритет им незачем. А на самом деле такие больные не умирали потому, что тут же получали лучшую помощь в медицинских учреждениях в связи с очень большим риском.

7. Петли обратной связи

Хуже ложных корреляций только петли обратной связи. Это когда решения алгоритма влияют на реальность, что, в свою очередь, еще больше убеждает алгоритм в его точке зрения.

Например, программа предупреждения преступности в Калифорнии предлагала отправлять больше полицейских в черные кварталы, основываясь на уровне преступности — количестве зафиксированных преступлений. А чем больше полицейских машин в квартале, тем чаще жители сообщают о преступлениях (просто есть кому сообщить), чаще сами полицейские замечают правонарушения, больше составляется протоколов и отчетов, — в итоге формально уровень преступности возрастает. Значит, надо отправить еще больше полицейских, и далее по нарастающей.

8. «Грязные» и «отравленные» исходные данные

Результат обучения алгоритма сильно зависит от исходных данных, на основе которых ведется обучение. Данные могут оказаться плохими, искаженными — это может происходить как случайно, так и по злому умыслу (в последнем случае это обычно называют «отравлением»).

Вот пример неумышленных проблем с исходными данными: если в качестве обучающей выборки для алгоритма по найму сотрудников использовать данные, полученные из компании с расистскими практиками набора персонала, то алгоритм тоже будет с расистским уклоном.

В Microsoft однажды учили чат-бота общаться в Twitter’е, для чего предоставили возможность побеседовать с ним всем желающим. Лавочку пришлось прикрыть менее чем через сутки, потому что набежали добрые интернет-пользователи и быстро обучили бота материться и цитировать «Майн Кампф».

«Tay» went from «humans are super cool» to full nazi in <24 hrs and I’m not at all concerned about the future of AI pic.twitter.com/xuGi1u9S1A

— gerry (@geraldmellor) March 24, 2016

Пример умышленного отравления машинного обучения: в лаборатории по анализу компьютерных вирусов математическая модель ежедневно обрабатывает в среднем около миллиона файлов, как чистых, так и вредоносных. Ландшафт угроз постоянно меняется, поэтому изменения в модели в виде обновлений антивирусных баз доставляются в антивирусные продукты на стороне пользователей.

Злоумышленник может постоянно генерировать вредоносные файлы, очень похожие на какой-то чистый, и отправлять их в лабораторию. Граница между чистыми и вредоносными файлами будет постепенно стираться, модель будет «деградировать». И в итоге модель может признать оригинальный чистый файл зловредом — получится ложное срабатывание.

Поэтому в «Лаборатории Касперского» многоуровневый подход к защите: мы не полагаемся только на машинное обучение, живые люди — антивирусные эксперты — обязательно присматривают за тем, что делает машина.

9. Взлом машинного обучения

Отравление — это воздействие на процесс обучения. Но обмануть можно и уже готовую, исправно работающую математическую модель, если знать, как она устроена. Например, группе исследователей удалось научиться обманывать алгоритм распознавания лиц с помощью специальных очков, вносящих минимальные изменения в картинку и тем самым кардинально меняющих результат.

Надев специально раскрашенные очки, исследователи смогли обманывать алгоритм распознавания лиц и выдавать себя за других людей

Даже там, где, казалось бы, нет ничего сложного, машину легко обмануть неведомым для непосвященного способом.

Первые три знака распознаются как «Ограничение скорости 45», а последний — как знак «STOP»

Причем для того, чтобы математическая модель машинного обучения признала капитуляцию, необязательно вносить существенные изменения — достаточно минимальных, невидимых человеку правок.

Если к панде слева добавить минимальный специальный шум, то получим гиббона с потрясающей уверенностью

Пока человек умнее большинства алгоритмов, он может обманывать их. Представьте себе, что в недалеком будущем машинное обучение будет анализировать рентгеновские снимки чемоданов в аэропорту и искать оружие. Умный террорист сможет положить рядом с пистолетом фигуру особенной формы и тем самым «нейтрализовать» пистолет.

Кто виноват и что делать

В 2016 году Рабочая группа по технологиям больших данных при администрации Обамы выпустила отчет, предупреждающий о том, что в алгоритмы, принимающие автоматизированные решения на программном уровне, может быть заложена дискриминация. Также в отчете содержался призыв создавать алгоритмы, следующие принципу равных возможностей.

Но сказать-то легко, а что же делать? С этим не все так просто.

Во-первых, математические модели машинного обучения тяжело тестировать и подправлять. Если обычные программы мы читаем по шагам и научились их тестировать, то в случае машинного обучения все зависит от размера контрольной выборки, и она не может быть бесконечной.

К примеру, приложение Google Photo распознавало и помечало людей с черным цветом кожи как горилл. И как быть? За три года Google не смогли придумать ничего лучше, чем запретить помечать вообще любые объекты на фотографиях как гориллу, шимпанзе и обезьяну, чтобы не допускать повторения ошибки.

Во-вторых, нам сложно понять и объяснить решения машинного обучения. Например, нейронная сеть как-то расставила внутри себя весовые коэффициенты, чтобы получались правильные ответы. А почему они получаются именно такими и что сделать, чтобы ответ поменялся?

Исследование 2015 года показало, что женщины гораздо реже, чем мужчины, видят рекламу высокооплачиваемых должностей, которую показывает Google AdSense. Сервис доставки в тот же день от Amazon зачастую недоступен в черных кварталах. В обоих случаях представители компаний затруднились объяснить такие решения алгоритмов.

Винить вроде бы некого, остается принимать законы и постулировать «этические законы робототехники». В Германии как раз недавно, в мае 2018 года, сделали первый шаг в этом направлении и выпустили свод этических правил для беспилотных автомобилей. Среди прочего, в нем есть такие пункты:

  • Безопасность людей — наивысший приоритет по сравнению с уроном животным или собственности.
  • В случае неизбежной аварии не должно быть никакой дискриминации, ни по каким факторам недопустимо различать людей.

Но что особенно важно в нашем контексте:

  • Автоматические системы вождения становятся этическим императивом, если системы вызывают меньше аварий, чем водители-люди.

Очевидно, что мы будем все больше и больше полагаться на машинное обучение — просто потому, что оно в целом будет справляться со многими задачами лучше людей. Поэтому важно помнить о недостатках и возможных проблемах, стараться все предусмотреть на этапе разработки систем — и не забывать присматривать за результатом работы алгоритмов на случай, если что-то все же пойдет не так.

Любопытные или ложные корреляции в рамках инвентаризации лесов в национальном масштабе?

Любопытные или ложные корреляции в национальной инвентаризации лесов? | Поиск по дереву Перейти к основному содержанию

.gov означает, что это официально.
Веб-сайты федерального правительства часто заканчиваются на .gov или .mil. Прежде чем делиться конфиденциальной информацией, убедитесь, что вы находитесь на сайте федерального правительства.

Сайт защищен.
https:// гарантирует, что вы подключаетесь к официальному веб-сайту и что любая предоставленная вами информация шифруется и передается безопасно.

Тип публикации:

Доклад (приглашенный, предложенный, основной доклад)

Первичная(ые) станция(и):

Южная исследовательская станция

Источник:

В: Маквильямс, Уилл; Реш, Фрэнсис А.ред. 2012 г. Мониторинг через границы: Совместное совещание симпозиума по инвентаризации и анализу лесов (FIA) 2010 г. и южных метрологов. э-ген. Тех. Респ. SRS-157. Эшвилл, Северная Каролина: Лесная служба Министерства сельского хозяйства США, Южная исследовательская станция. 39-43.

Описание

От лесников все чаще требуется оценивать тенденции не только в традиционных характеристиках леса (например,g., объемы запасов древостоя), но и по набору индикаторов состояния леса и переменных участка/климата. Учитывая незначительную взаимосвязь между корреляцией и причинно-следственной связью в чрезвычайно больших наборах данных, цель этого исследования состояла в том, чтобы использовать общенациональную ежегодную инвентаризацию лесов для определения уровней корреляции между широким набором полей базы данных, чтобы помочь лесникам отделить корреляцию от причинно-следственной связи в комплексных лесных ресурсах. оценки. Изучив более 15 000 отдельных корреляций, мы обнаружили, что подавляющее большинство (> 85 процентов) коэффициентов корреляции были ниже 0.1. Переменные участка (например, высота над уровнем моря) имели самые высокие средние корреляции, в то время как переменные деревьев (например, живая надземная биомасса) имели самые низкие средние корреляции со всеми другими переменными. Почти все высокие корреляции (> 0,6) были между переменными, в значительной степени автокоррелированными (например, код класса сайта и индекс сайта). Учитывая, что большинство корреляций в крупномасштабном наборе данных инвентаризации лесов очень низкие, а остальные являются бессмысленными или автокоррелированными, обнаружение пары переменных с высокой корреляцией без очевидной автокорреляции заслуживает дальнейшего изучения.

Цитата

Вудалл, Кристофер В.; Вестфолл, Джеймс А. 2012. Любопытные или ложные корреляции в рамках инвентаризации лесов в национальном масштабе? В: Маквильямс, Уилл; Реш, Фрэнсис А. ред. 2012 г. Мониторинг через границы: Совместное совещание симпозиума по инвентаризации и анализу лесов (FIA) 2010 г. и южных метрологов. э-ген. Тех. Респ. SRS-157. Эшвилл, Северная Каролина: Лесная служба Министерства сельского хозяйства США, Южная исследовательская станция.39-43.

Примечания к публикации

  • Мы рекомендуем вам также распечатать эту страницу и прикрепить ее к распечатке статьи, чтобы сохранить полную информацию о цитировании.
  • Эта статья была написана и подготовлена ​​служащими правительства США в официальное время и поэтому находится в открытом доступе.

https://www.fs.usda.gov/treesearch/pubs/40970

Корреляция и причинно-следственная связь: ложные корреляции Тайлера Вигена

  • 00:00

    [ИГРАЕТ МУЗЫКА][Корреляция и причинно-следственная связь: ложные корреляции Тайлера Вигена]

  • 9 00 м Тайлер Виген. [Тайлер Виген, независимый разработчик] Я учусь на третьем курсе юридического факультета Гарвардской школы права и написал книгу под названием «Ложные корреляции», в которой исследую связи между переменными, которые кажутся статистически связанными, но на самом деле это не так. связанный.Корреляция — это когда две вещи изменяются вместе. Итак, когда одна вещь растет, другая растет, и одна падает, другая падает.

  • 00:41

    Есть много действительно очевидных примеров корреляции, а есть и не столь очевидные. Итак, один действительно очевидный пример корреляции — это средняя скорость автомобилей на определенном участке дороги и ограничение скорости. на этом конкретном участке дороги. Совершенно очевидно, потому что автомобили склонны замедляться — предел скорости ниже.Автомобили, как правило, ускоряются, когда ограничение скорости выше. Это не всегда соблюдается.

  • 01:02

    Это не идеальная корреляция, но есть очень сильная корреляция. Другим примером корреляции может быть что-то вроде количества занятий в определенный день и загруженности столовой в школе. действительно хороший пример случаев, когда это не так. Итак, например, на следующей неделе у нас будут выпускные экзамены в кампусе. Занятий не будет, но я могу гарантировать, что столовая по-прежнему

  • 01: 23

    будет очень занят.Причинность — это когда одна переменная действительно вызывает появление другой. Так, например, если у нас есть автомобили на участке дороги, скорость которых соотносится с ограничениями скорости, указанными на знаках, причинный механизм, причинно-следственная связь в этой ситуации, — это водители.

  • 01:46

  • 01:46

  • 01:46

    голодный.Если мы ошибочно примем корреляцию за причинно-следственную связь, может случиться много неприятностей. К счастью, в академическом мире это нечасто случается в опубликованных статьях, потому что они проходят рецензирование. Однако в деловом мире бывает много ситуаций. где он может появиться, и мы можем его не увидеть. До того, как я поступил в юридический институт, я работал внутренним следователем в розничном агентстве по номеру

  • 02:07

    . и отсутствие денег в этих реестрах.Так что, если есть пропавшие деньги, часто они будут в этих регистрах, что, кажется, может указывать на то, что они крадут эти деньги. Теперь проблема заключалась в том, что использовались те регистры

  • . 02:27

    для обмена наличными менеджерами. Так получилось, что они используют те же регистры, что и эти конкретные кассиры, и поэтому с самого начала, по таблицам и по корреляционному анализу, казалось, что они воруют деньги. правда в том, что были только менеджеры, которые использовали его для чего-то совершенно другого.Между ними не было причинно-следственной связи. Поэтому очень важно помнить об этих различиях

  • 02:48

    , когда вы занимаетесь такой аналитикой. нашей академической жизни, тем больше мы будем сталкиваться с этими проблемами, где могут быть корреляции, указывающие на что-то страшное, или что-то интересное, или что-то, что мы хотим изучить, но нам нужно быть осторожными, чтобы найти причинный механизм. Началась ложная корреляция. в качестве веб-сайта, а теперь книга

  • 03:09

    , которую я собрал из двух переменных на каждой странице и в каждом наборе, которые связаны.Они коррелированы, но не связаны. Так что мы должны называть их ложными отношениями. Статистически они идут вместе. другое. И поэтому нам кажется, что эти две вещи коррелируют и связаны, тогда как на самом деле мы должны знать, что это не так. , когда я посмотрел на эту диаграмму количества убийств в этом штате Нью-Йорк и на эту гору.Это мультяшная гора, так что они явно сделали эту гору специально для этого графика. Но я сказал себе, когда увидел ее: «Эй, держу пари, что есть много других вещей, которые коррелируют друг с другом без особой причины».

  • 03:51

    И держу пари, что если я просмотрю достаточно данных, я смогу их найти. набор из 1000 других переменных, что-то, что коррелирует с ним.И это не очень сложно сделать, особенно в эпоху больших данных и большого объема компьютерной обработки. Так что я начал этим заниматься и, конечно же, нашел массу интересных связей в данных.

  • 04:12

    Ложные корреляции стали веб-сайтом, потому что я начал просто просматривать его и находить кучу разных переменных, и я хотел куда-нибудь поместить их и поделиться ими с друзьями. И именно поэтому он размещен под моим именем, а не под ложными корреляциями. ком.Но он существует в виде веб-сайта, и его было весело собирать, и он начал распространяться в Интернете, что было действительно забавно видеть. И я получил много отзывов, и я получил много профессоров, которые связались со мной и нашли способы

  • 04:33

    сделать предоставленную информацию лучше, потому что я не был специалистом по статистике, когда я это делал. Я был студентом юридического факультета, и это был очень интересный процесс. Я многое узнал о мире статистики Я познакомился со многими действительно интересными людьми, а потом написал книгу.В Интернете доступно множество наборов данных, и если вы напишете робота, который будет просто ходить и сканировать наборы данных, вы, вероятно, получите слишком много данных.

  • 04:56

    Вы хотите пойти туда и найти что-то, если вы пытаетесь, как и я, создать интересный набор данных, вы хотите пойти туда вручную и собрать все, что вы можете найти. самые простые способы выхода, если вы хотите использовать фирменные названия корпораций, вещи, которые вы можете найти во многих 10K годовых отчетах для корпораций и найти такие вещи, как их прибыль, их доход и увидеть различные типы вещей

  • 05 :17

    , которые вам действительно были бы интересны.Например, у Pandora были чистые убытки для всей компании в течение пары лет. Так что интересно отслеживать это во времени и сопоставлять с другими вещами. Это может быть забавно. Еще одно хорошее место для поиска подобных данных — перепись населения США. До 2011 года они публиковали статистические сводки, содержащие всевозможные различные федеральные данные. Они больше не публикуют такие сводки,

  • 05:37

    , но у них все еще есть много действительно интересных данных. CDC также является действительно хорошим источником данных.Они ведут очень, очень подробный набор статистических данных. Это немного более болезненно, но очень подробно и охватывает много времени. Так что процесс создания ложной корреляции для меня такой же процесс, как выемка данных. идея заключается в том, что сначала вы берете переменную, с которой хотите

  • 05:58

    коррелировать, поэтому выбираете одну вещь, а затем берете эту вещь и сравниваете ее с 1000 других переменных. И в этом случае вы можете просто использовать функции, где вы сопоставляете ее. Пока у вас есть компьютер, который может сделать это за вас, вы сопоставляете ее с каждой, а затем просто выбираете самые высокие оценки корреляции.Итак, мы просто берем коэффициент корреляции между этими двумя переменными тысячу раз, а затем ищем коэффициент с самым высоким рейтингом.

  • 06:18

    Теперь, если вы возьмете самый высокий рейтинг, это неинтересно, перейдите к следующему. Если вы хотите найти его в реальном мире, вы должны искать что-то, с чем вы можете объяснить причинно-следственный механизм Когда ученый, профессор или большинство людей, с которыми мне приходилось работать, составляли корреляционную диаграмму, они, вероятно, делали что-то вроде диаграммы рассеивания, а затем искали все точки, чтобы совпасть.И это лучший способ взглянуть на корреляцию,

  • 06:39

    , но это не обязательно более простой способ. И в моем случае я пытаюсь что-то посмотреть. Я уже пытаюсь создать ложную диаграмму. .Поэтому я намеренно попытаюсь солгать со своей диаграммой. В моем случае я ищу что-то смешное и интересное. Итак, я соединил две переменные. И затем мы поместим их на диаграмму. .И здесь это становится действительно интересным с точки зрения зрителя и пользователя.Итак, здесь я собираюсь пройти через процесс создания, может быть, одной диаграммы или одного набора ложных корреляций. Итак, это на моем веб-сайте, если вы собирались выбрать переменную, которая будет коррелировать в первую очередь. с кофе, который потреблял средний американец, коррелируя с американцами, убитыми из-за неправильного использования ручного инструмента без двигателя.

  • 07:22

    Итак, это количество кофе, которое среднестатистический американец выпивает в чашках, по данным Бюро переписи населения США. Похоже, что оно увеличилось с примерно 425 чашек кофе до примерно 375.Итак, средний американец выпивает одну чашку кофе в день. И американцы, которые погибают из-за неправильного использования механического ручного инструмента, что, я думаю, происходит из-за того, что люди неправильно используют молотки и отвертки.

  • 07:43

    Это не очень много. То есть примерно от трех до семи. Это не очень большой диапазон. Каждый год кто-то умирает, используя, может быть, ножовку, отвертку или молоток. это первая диаграмма, почему оси далеко. Итак, это идет от 0 до 16.

  • 08:03

    Здесь мы идем от 350 до 450.Для этого нет никакой причины, и вы можете видеть, что эти линии совпадают с тем, что мы видим, и мы знаем, что существует корреляция. Таким образом, между ними существует статистическая связь, и они выглядят для нас сверхкоррелированными. , вы переходите через экран. Но давайте теперь посмотрим, если мы перейдем к

  • 08:24

    и изменим, как они настроены, и подтянем версию, где оси равны нулю. Итак, теперь мы видим то же самое, но мы видим, что причина их такой сильной корреляции заключается в том, что обе они в основном являются прямыми линиями.Итак, здесь мы просто видим, что количество чашек кофе, выпитых американцами, почти не изменилось за этот 10-летний период, а количество 90 006 90 038 90 037 08:46 90 002 человек ежегодно погибает от механических ручных инструментов, в значительной степени тоже остается прежним. Оно почти всегда близко к нулю. Но если мы вернемся назад, мы сможем увидеть разницу между этими двумя графиками. из них я действительно злоупотребляю своей осью Y, я использую эту диаграмму, чтобы лгать, чтобы показать вам что-то, что выглядит драматически связанным, когда на самом деле это просто выглядит так.Очень простой способ лгать с помощью графиков. Это то, чего вы действительно не должны делать, если пытаетесь кому-то что-то показать. Много раз это используется, если вы пытаетесь кого-то в чем-то убедить. в новостной статье, но это то, что вы должны называть, когда видите, а не использовать сами. затем увеличьте

  • 09:28

    до разумного числа с обеих сторон.Но если вы пытаетесь солгать с диаграммой, вы пытаетесь сделать что-то ложное, вы можете настроить эти оси Y и действительно сблизить вещи. Кто утонул, упав в бассейн, коррелирует с количеством фильмов, в которых Николас Кейдж появлялся каждый год. Поиск, и вот моя новая претензия на славу, это то, что Николас Кейдж и смерть в бассейне — это я.Поэтому, если вы хотите сгенерировать свои собственные наборы данных или получить некоторую корреляционную статистику, один из способов — найти набор, который придумал кто-то другой. Это простой способ получить некоторые данные.

  • 10:09

    Но иногда самые интересные наборы данных поступают от людей, которые генерируют свои собственные данные, например, проводя опросы. И опросы могут быть отличным способом очень быстро найти целую кучу данных. инструмент для проведения опросов, такой как Mechanical Turk, с помощью которого вы можете опросить своих друзей и собрать группу людей для участия в вашем опросе.И некоторые действительно важные вещи, о которых следует помнить, например, вы хотите иметь числовые значения, которые вы можете присвоить своим вопросам опроса. будет основываться на наборе оценок. Так что, если вы можете получить числовое представление того, как работают оценки — здесь они не любят присваивать оценки по какой-то причине — если вы можете найти способ присваивать оценки оценкам, тогда вы сможете намного лучше соотнести его с результатами трудоустройства.

  • 10:50

    Таким образом, то же самое применимо и в других местах. Если вы пытаетесь сопоставить вещи или найти связи между вещами, вы пытаетесь регрессировать переменные относительно друг друга, если вы можете найти способ преобразовать их в числа и создать опрос. вопросы, которые дают вам числовые данные и количественные данные, вам будет намного легче найти реальные корреляции. Так что одна из моих любимых диаграмм также корреляция между потреблением маргарина на душу населения

  • 11:11

    и уровнем разводов в Мэн, который, нет особых причин, по которому следует связывать, но это забавная связь.Например, я не могу поверить, что мы все еще женаты. Я получаю много вопросов или идей для корреляций. по годовым данным примерно с 1990 по 2010 год.

  • 11:32

    И если вы просмотрите все графики, которые я опубликовал, вы обнаружите довольно сильную связь там, где большинство графиков попадают в этот временной диапазон. причина в том, что я всегда могу найти данные за этот 20-летний период и попытаться найти то, что они будут коррелировать друг с другом.Я знаю, что если я найду новый фрагмент данных, он будет коррелировать с чем-то в моем наборе данных. Это очень узкий диапазон для поиска, но когда ваши данные углубляются, вам нужна общая переменная.

  • 11:54

    Итак, для меня это годы, и это в этой системе координат. Что-то, что происходит каждый год в течение этого времени. Так что борьба, которая часто происходит, например, если вы пытаетесь сделать результаты выборов .Это происходит каждые четыре года на президентских выборах, происходит каждые два года на других гонках.И поэтому это можно сопоставить, вы можете сопоставить эти вещи во времени, но это очень трудно сделать, скажем,

  • 12:15

    за 10-летний период. Вы смотрите на 20-летний период. интересно, когда вы начинаете выделять его и переходить к 40-летнему промежутку времени или к чему-то гораздо большему, потому что есть много вещей, которые меняются в стране или в мире за это время. самые большие переменные, на которые вы смотрите, например, потребление молока на душу населения.

  • 12:35

    Это то, что очень сильно изменится за столетний период, так что вы больше не сможете увидеть такие корреляции. Поэтому многие люди думают, что ложные корреляции забавны, особенно данные Одним из забавных моментов, которые я получаю, является то, что когда я хожу на различные конференции по анализу данных, я обычно там самый молодой парень, и все видели мою работу и думают, что это очень весело, и это здорово.

  • 12:55

    Мне это очень нравится, и я встречаю много классных людей.Одна из самых захватывающих вещей для меня — увидеть, как множество разных людей используют данные для действительно интересных вещей. Так, например, я побывал на одной конференции. различных веб-сайтов и множества различных компаний, которые используют много данных. И их цель всегда состоит в том, чтобы предоставить информацию,

  • 13:16

    , что является очень опасной областью для корреляции и причинно-следственной путаницы, потому что вы можете подумать что весь ваш бизнес ведется из определенной части страны, например, потому, что там живет больше людей.Это очень распространенная тема среди владельцев веб-сайтов. И мне также удалось познакомиться с некоторыми действительно крутыми людьми из других областей. Так, например, я был на конференции в прошлом году, где встретил одного из людей, которые проводят перепись населения США

  • . 13:38

    Бюро проводит статистический анализ, который разговаривал с кем-то из Управления национальной статистики Великобритании. И что действительно интересно, так это то, что когда мы пытаемся подсчитать людей, просто во время переписи происходит много политических баталий.Что, по-вашему, было бы очень простой ситуацией. Вы просто пытаетесь подсчитать количество людей, которые живут в определенном округе, округе, округе,

  • 13:58

    где угодно. Проблема в том, что их много. из— неясно, какой метод вы должны использовать для подсчета людей. Потому что, если вы отправляете, например, письмо, в котором говорится, сколько людей живет в вашем доме? Большинство людей действительно не отвечает на это. количество раз, когда вы ответили на что-то подобное, перепись, как это.Вы бы не подумали, что это реально, или вам просто было бы все равно, чтобы сообщить Бюро переписи населения

  • 14:19

    , что вы там живете. имеет значение, потому что получить точный подсчет людей, живущих в том или ином городе, непросто. Поэтому есть гораздо лучшие методы, которые можно было бы использовать прямо сейчас, например, для оценки количества людей, проживающих в одном городском квартале. Но из-за политики, которая

  • 14:41

    связаны с перераспределением избирательных округов и мошенничеством, а также с поиском

  • 14:41

    способов получить голоса для различных политических партий, на перепись населения США оказывается сильное давление, чтобы она не делала этого и просто брала, например, количество людей, которые расписался в бланке, что они там живут.Таким образом, существует много противоречий между тем, как они делают это в Великобритании, и тем, как они делают это в США, и тем, как мы могли бы лучше подсчитывать людей, что кажется очень простой вещью, но есть много простых способов для этого. что

  • 15:02

    также является ложной проблемой. не бойтесь их. Нетрудно открыть данные Stata и немного узнать о том, как регрессировать переменные или как соотносить вещи друг с другом.В будущем я хотел бы работать над разными проектами

  • 15:23

    по одному. Так что прямо сейчас я работаю, например, над тем, как бы мы могли управлять страной? страна?Как мы можем думать о перераспределении избирательных округов через пять лет и говорить, как это должно выглядеть?Как это может выглядеть?Как мы должны смотреть на то, как мы делим население, чтобы избирать людей?Таковы мои цели.[ИГРАЕТ МУЗЫКА]

  • Самый быстрый словарь в мире | Словарь.com

  • ложная корреляция корреляция между двумя переменными (например, между количеством электродвигателей в доме и оценками в школе), которая не является результатом какой-либо прямой связи между ними (покупка электродвигателей не повысит оценки), а является результатом их отношение к другим переменным

  • частичная корреляция корреляция между двумя переменными, когда влияние одной или нескольких связанных переменных исключено

  • бисериальная корреляция коэффициент корреляции, в котором одна переменная является многозначной, а другая дихотомической

  • половинная корреляция коэффициент корреляции, рассчитанный между результатами двух половин теста; принято как показатель надежности теста

  • положительная корреляция Корреляция, при которой большие значения одной переменной связаны с большими значениями другой, а малые — с малыми; коэффициент корреляции находится в диапазоне от 0 до +1

  • личные отношения отношения между лицами

  • прямая корреляция Корреляция, при которой большие значения одной переменной связаны с большими значениями другой, а малые — с малыми; коэффициент корреляции находится в диапазоне от 0 до +1

  • Надпись Надпись над чем-либо другим

  • тетрахорическая корреляция коэффициент корреляции, рассчитанный для двух нормально распределенных переменных, которые обе выражены как дихотомия

  • размышление, непрерывное созерцание предмета глубокой природы

  • корреляция взаимная связь между двумя или более вещами

  • косая корреляция любая корреляция, при которой скорость изменения переменных непостоянна

  • корреляция первого порядка частичная корреляция, при которой устраняются эффекты только одной переменной (сохраняются постоянными)

  • пространственное отношение пространственное свойство места, где или каким образом что-либо расположено

  • ранговая корреляция наиболее часто используемый метод вычисления коэффициента корреляции между рангами оценок по двум переменным

  • деловые отношения отношения между различными коммерческими предприятиями

  • косвенная корреляция корреляция, при которой большие значения одной переменной связаны с малыми значениями другой; коэффициент корреляции находится в диапазоне от 0 до -1

  • еловая белка с севера США и Канады

  • перколяция Медленное прохождение жидкости через фильтрующую среду

  • зеркальное отношение отношение противоположности между кристаллами или молекулами, которые являются отражением друг друга

  • Корреляции подлинные и ложные в Пирсоне и Юле

    Реферат

    Карл Пирсон и Г.Удни Юле разработал основные интерпретации корреляции, используемые статистиками в прошлом столетии или около того. Они также рассмотрели ряд ситуаций, в которых корреляционный вывод был неудовлетворительным. В этой статье рассматривается развитие их идей как о подлинных, так и о ложных корреляциях, и делаются некоторые ссылки на соответствующие современные работы.

    Информация

    Опубликовано: ноябрь 1995 г.

    Впервые доступно в Project Euclid: 19 апреля 2007 г.

    Цифровой идентификатор объекта: 10.1214/сс/1177009870

    Ключевые слова: причинность , Корреляция , Пирсон , Парадокс Симпсона , ложная корреляция , ложная регрессия , ученик , метод корреляции переменной разности , Йоль

    Права: Copyright © 1995 Институт математической статистики.

    Не утопайте в ложных корреляциях — Methodspace

    Хотя путаница корреляции с причинно-следственной связью может быть одной из старейших — если не , то старейших — логических ошибок в мире, это не снижает вероятность того, что человечество будет смешивать эти две .И, как поясняет Тайлер Виген в следующем видео, «есть много плохих вещей, которые могут случиться, если мы примем корреляцию за причинно-следственную связь». Видео . Это обширная коллекция, содержащая почти 500 наименований и более 125 часов видео. Виген, студент Гарвардской школы права, написал книгу о столкновении корреляции и причинно-следственной связи под названием « Ложные корреляции ». В нем, как он объясняет здесь, он исследует «связи между переменными, которые выглядят так, как будто они связаны статистически, но на самом деле они не связаны.Например, тот поразительный факт, что число случаев утопления в результате падения в бассейн увеличивается и уменьшается вместе с количеством фильмов, в которых Николас Кейдж появляется в год. Это корреляция. Причинность, тем временем, заключается в том, что одна переменная вызывает появление другой — возможно, люди бросаются в бассейн после просмотра ужасного ремейка Кейджа «Плетеный человек » . «К счастью, — говорит Виген, — в академическом мире это не так. часто случаются в опубликованных работах, потому что они проходят рецензирование». И все же по мере того, как ученые, занимающиеся социальными и поведенческими проблемами, получают больше данных и начинают их тщательно анализировать, обязательно будет происходить больше «ложных корреляций».В видео, первом из трех сегментов видео SAGE Research Methods, он дает советы о том, как преднамеренно создавать свои собственные подозрительные корреляции, чтобы помочь исследователям узнать, как , а не делать это непреднамеренно. также включите стенограмму с возможностью поиска, по которой можно щелкнуть в этом месте видео, поэтому, когда Виген упоминает диаграмму, вы можете перейти прямо к ней в видео, щелкнув текст.

    Добавить комментарий

    Ваш адрес email не будет опубликован.