Категоричность: запрещенное оружие общения — Психологос
Категоричность — твердая интонация, стиль Силовика и позиция, утверждающая невозможность другого мнения по данному вопросу.
«Что тут еще обсуждать, и так все ясно!» «Этого не может быть, потому что не может быть никогда!» «Ты не прав, а почему, не твое дело!»
Как правило, категоричности стоит избегать. Бытовая категоричность — это абсолютная уверенность в собственной правоте, проявляющаяся в жёстком стиле, категоричных интонациях и неуважительной манере общения. Чаще всего это людей — отталкивает.Чего за категоричностью скрывается больше: ограниченности? бескультурья? неуверенность в себе? Люди с достаточным умом и культурой знают, что сегодня (сейчас) кажется очевидным, неоспоримым (и соответственно по поводу чего тянет высказываться жестко-хлестко-темпераментно), через какое-то время (когда минуту, когда час, когда несколько лет) становится уже не очень очевидным, а то и очевидным с точностью до наоборот… И, вспоминая свою горячность и категоричность, воспитанным людям становится когда смешно, когда грустно, когда стыдно…
Конечно, категоричность уместной бывает. Категоричное признание своей неправоты, когда вы действительно не правы, часто снижает критический накал в вашу сторону, а категоричность в утверждении правоты и других достоинств вашего собеседника человека радует, является синтоном.
«Ты самый умный, и не спорь!» — обычно не оспаривается.
Интересно, что лидеры используют категоричные высказывания для поднятия и укрепления своего лидерского статуса. Послушайте, как хлестко и категорично говорит В. Жириновский.
Почему ему можно, более того, почему для большого числа такое его поведение привлекательно? Если смелый человек (а лидер ведет себя как смелый человек!) начинает говорить как власть имеющий, высказываться категорично, менее уверенные в себе люди боятся выступить против и категоричный тон собеседника проглатывают. А как это объяснить себе, что ты допускаешь рядом с собой такой стиль общения? Чтобы не называть себя трусами, люди более склонны того смелого наделить особыми качествами (компетентностью, жизненным опытом, лидерской харизмой), позволяющими ему высказываться так. Вот лидер и выигрывает. Если коротко, то высказываться категорично — всегда серьезный риск, но если «прокатит» — вы выигрываете. По крайней мере ситуативно.
Если говорить шире, то категоричность может быть уместна там, где старший и более опытный воспитывает того, кто в этом нуждается. Там, где другому нужно установить ограничение, в речь включают категоричность. Если же перед вами не малый ребенок и воспитательные меры излишни — излишня и категоричность.
В отношениях между равными категоричность является конфликтогеном, как знак неуважения или превосходства. Важно даже не то, правы вы оказались или нет в конкретном вопросе. Важно, что собеседник при этом чувствует неуважение к своему мнению, и это восстанавливает его против вас. Избегайте категоричности, особенно возражая. Да, вам может казаться нечто совершенно ясным, но едва ли ваша жесткость будет для собеседника убедительнее аргументов.
В отношениях между близкими людьми люди часто прощают категоричность, чтобы не напрягать отношения. С одной стороны, такая спокойная терпимость к категоричности — показатель душевного здоровья и жизненной мудрости: кажется глупым реагировать на все мелочи, где человек проявляет свою невоспитанность. Жизнь к воспитанию друг друга — не сводится. С другой стороны, если категоричности попустительствовать, с годами она только укрепляется и из мелочи начинает превращаться в неприятность.
Чаще склонны к категоричности люди, привыкшие начинать cвoи реплики со слова «Нет!». Однако такие «Нетки» не обязательно связаны именно с категоричностью, это может быть обычное неумение следить за чистотой своей речи. Чем выше культура у человека, тем чаще он избегает категоричности, однако даже люди с высокой культурой не всегда замечают свою тонкую, во многом скрытую категоричность.
Действительно, обороты «Всем ясно, что..», «Безусловно…», «Конечно же…», «Без сомнения…», «Двух мнений быть не может…», «Это совсем не так!» — очевидная категоричность. Аналогично, если в ответ на слова партнера звучит: «Это бессмысленно!», «Ну, что Вы!», «Чего?!», «Не может этого быть!», «Ерунда все это!», «Глупости» или «Чушь какая!» — это категоричность уже грубая. А как отнестись к тому, что в общении близких людей один просто в разговоре бросил реплику «Дело не в этом» («Я не согласна») и все, далее закрытое лицо и молчание? Это тоже категоричность, и любящие (хотя бы искренне уважающие) друг друга люди стараются таких вещей не допускать.
Действительно, а поговорить? А спросить его мнение? А обсудить вместе? Читайте об этом статью «А ты что думаешь? — поддержка диалога и прививка от категоричности».
Вам иногда (наверное) кажется, что любое ваше высказывание уже есть само по себе предложение другому собеседнику его обсудить, но это не совсем так. Если у вас лицо вдруг закрытое, глаза на партнера не смотрят и явного вопроса к нему нет, то ваш партнер не чувствует ни интереса к вашему мнению, ни вашего интереса к мнению его. Контакт (взаимодействие) между вами может быть прерван.Поэтому лучше приучить себя к другому стилю, а именно — когда вы что-то общее обсуждаете, высказывайте свою позицию неторопливо и мягче, как одну из возможных. С лицом задумчивым, в котором партнер сможет заметить еще размышление, а не уже «все понятно». И второе: высказавшись, чаще спрашивайте партнера, что он думает, насколько он с вами согласен или нет. Не очевидно, что вы после этого с партнером согласитесь, но определенно, что ваш партнер будет чувствовать: его мнение для вас важно.
Уверенность и категоричность, также как категоричность и определенность высказывания — все это разные вещи. «Глупости!» — сказано категорично, но звучать может и не уверенно. «Чушь какая-то!» — высказывание категоричное, но мало определенное. Здесь «чушь» — и то какая-то, при этом все утверждение чушь либо только его часть, тем более почему автор высказывания в этом так уверен — здесь это не сказано.
Говорить уверенно — как правило, хорошо. Высказываться категорично — как правило, лишнее. Категоричность — плохая привычка. Наверное, стоит с этим поработать и приучить себя к некатегоричному стилю общения.
Кстати, если вы попросите кого-то из близких людей, чтобы они последили за вашей категоричностью, то с высокой вероятностью вы не только почистите общение свое, но и заинтересуете этой темой того самого близкого человека. Собственно, иногда это может быть и главной целью вашего к нему обращения…
Категоричность… это хорошо или плохо. | Мудрость наших дней
За последние несколько лет, я часто слышу фразу обращённую ко мне: «Вы/ты слишком категоричен«. Что же это означает? И что означает эта фраза?
Категоричность — способность человеческого мозга мыслить категориями (изначальная позиция), например:
Исходные данные — Мальчишка 12 лет украл хлеб.
Первое что приходит на ум «обычного» человека, то, что он вор. То есть, моментальное суждение — вор.
Категоричный человек остановится на этом и этот ответ его устраивает, так как он точный и ясный, без размытых понятий. Вор значит вор, а с ворами закон гласит поступить так-то и так-то (наказать или предпринять какие-то меры).
Далее, якобы не категоричный человек начнёт выяснять обстоятельства воровства: может он голодал несколько дней и не смог найти способа, кроме воровства? Так как, просить милостыню или попрошайничать — одно из самых недостойных занятий и даже будучи двенадцатилетним пацаном, чувство гордости и справедливости очень сильно внутри, и отсюда паренёк решается «одолжить» у магазина (ведь у него всё равно много) и сохранить гордость (не надо выпрашивать). Отсюда не категоричный человек решит, что он поступил правильно с точки зрения ребёнка. И возможно предпримет решение отпустить мальчугана.
Что же всё таки произошло?
Поступил парень правильно или нет? Хорошо или плохо? Хорошо, что прокормил себя таким способом, плохо — что украл?
Любой здравомыслящий человек не сможет принять решение мгновенно, придётся хоть немного, но поразмышлять и понять, что делать с таким воришкой. И в этом моменте становится ясно, что категоричность — это независимая черта от здравомыслия. Т.е. человек может быть здравомыслящим и категоричным (и это неплохо, пример — Королёв и первый полёт в космос), а может быть категоричным и закоренелым — и вот это уже плохо, и примеров тут приводить не надо. В основном это пожилые люди привыкшие к своему укладу жизни. И мы их не осуждаем! Так как благодаря их сознанию и навыкам, они всё же сумели дожить до старости (большинство людей лишены этой части жизни, и не знают и никогда не узнают что такое старость). А так же, категоричными в тот или иной момент жизни могут быть все люди всех возрастов, начиная с формирования своего «Я».
Поэтому разумный ответ это быть здравомыслящим, уметь рассуждать, и при этом желательно конечно иметь базовые фундаментальные понятия о таких вещах как достоинство, предательство и другие.
А как поступить с пацаном? Если вы сможете ответить однозначно, ответьте, а я вас выслушаю.
Окружающие говорят, что я категоричен. Я начинаю воспринимать это как комплимент, так как моя категоричность как фильтр, начинает отсеивать «ненужных» людей, хоть и остаётся меньше друзей, знакомств и т.д., но зато они намного более качественнее и полезнее.
Так что не бойтесь быть категоричными, так как рано или поздно, у каждого будет формироваться определённое мнение по поводу того или иного поступка, и с возрастом это мнение будет находить всё больше подтверждений. А люди, у которых нет строгих категорий, зачастую бывают слишком инфантильны и размыты (слабовольны), у них нет чёткого формирования мысли, понятий и с ними любое общение со временем становится тяжёлой ношей.
Приведу пример — мама. Она не категорична, но у неё есть множество её пониманий, так сказать. Например, несколько лет назад она была ярой путинисткой, а сегодня уже не считает Путина белым и пушистым, и даже (иногда) позволяет себе осудить тот или иной его поступок/решение и т.д. Завтра может она снова его полюбит и т.д. по кругу.
Т.е. нет чётких суждений — нет чёткого мнения.
А я так не могу, и не знаю почему. Я не могу подстраивать своё мнение под удобный момент, я знаю, если человек совершил дурной поступок, значит совершит еще (как с предателями, их никто не любит, потому что предал один раз — предашь и второй). И постепенно отстраняюсь от таких людей (не знаю что с этим делать, так как все разговоры со временем лишаются смысла, а бессмысленные разговоры только раздражают).
Думаю что анализ, мышление и категоричность не так уж и плохи, если они работают как фильтр и отсеивают качество от количества! Но самое главное, что категоричность не позволяет быть лицемером или быть сторонником двойных стандартов (мне можно, а тебе нельзя). Категоричность — это и тебе и мне нельзя. Или и тебе и мне можно. Но никак не по-другому, ибо это уже двуличность или по другому приспособленчество. (Приспособленец тоже интересное понятие, как правило такие люди не могут быть категоричными, но это другой разговор).
Так что, мой ответ да, категоричность, это лучше, чем если её нет. Это определённость, а без определённости невозможно сдвинуть гору, полететь в космос или выйграть войну с фашистами.
По поводу пацана, меры:
1) Отпустить — вырастет безнаказанным. Если он украл без необходимости, просто шатался, бездельничал, но при этом знал, что любимая бабушка всегда его накормит. А если у него родители алкоголики и он действительно не знал, чем питаться, тогда отпустить кажется решением тоже плохим! Ведь он так же продолжит этот образ жизни.
2) Наказать — вырастет с обидой и чувством несправедливости (например, если он голодал несколько дней из-за родителей алкоголиков), так как его наказали (например отправили в колонию для несовершеннолетних) не справедливо и в жизни он не видел примеров добропорядочности. Да и в колонии или тюрьме чему он научится?
3) Отправить на совхоз, косить сено всё лето, доить коров и т.д. Т.е. воспитательное наказание за проступок, и в то же время обучение труду. Мы как судьи, как бы даём возможность ребёнку встать на правильный путь. На мой взгляд это будет лучшим решением, т.е. наказание через труд.
Даже из таких поспешных суждений абсолютно ясно, что отпустить или строго наказать мальчишку, будут неверными решениями.
Крымские татары и сенатор прокомментировали отказ Турции признать Крым
https://ria.ru/20200704/1573898297.html
Крымские татары и сенатор прокомментировали отказ Турции признать Крым
Крымские татары и сенатор прокомментировали отказ Турции признать Крым — РИА Новости, 05.07.2020
Крымские татары и сенатор прокомментировали отказ Турции признать Крым
Российские политики и эксперты отреагировали на обещание главы МИД Турции Мевлюта Чавушоглу никогда не признавать воссоединение с Крымом. РИА Новости, 05.07.2020
2020-07-04T19:52
2020-07-04T19:52
2020-07-05T00:10
политика
в мире
украина
оон
республика крым
турция
сергей цеков
заур смирнов
/html/head/meta[@name=’og:title’]/@content
/html/head/meta[@name=’og:description’]/@content
https://cdn24.img.ria.ru/images/151909/01/1519090143_0:160:3076:1890_1920x0_80_0_0_0dae0330454e7433bd689ac5b5c456fa.jpg
МОСКВА, 4 июл — РИА Новости. Российские политики и эксперты отреагировали на обещание главы МИД Турции Мевлюта Чавушоглу никогда не признавать воссоединение с Крымом.Накануне Чавушоглу на совместной пресс-конференции с министром иностранных дел Украины Дмитрием Кулебой заявил, что Анкара поддерживает территориальную целостность страны, не признавала и не признает «незаконную аннексию Крыма».Член комитета Совета Федерации по международным делам Сергей Цеков заявил РИА Новости, что полуостров не нуждается в признании своего российского статуса со стороны третьих стран. По его словам, самое главное для региона то, что он стал неотъемлемой частью России. «Для Крыма самое главное признание — это признание и поддержка России», — добавил Цеков. Сенатор уверен, что мировое сообщество рано или поздно будет вынуждено признать Крым российским, так как это свершившийся исторический факт, с которым нужно считаться.Глава региональной национально-культурной автономии крымских татар Эйваз Умеров заявил, что Чавушоглу «чересчур переигрывает» в своих заявлениях. Он напомнил, что главу МИД в Турции назначает президент, и отметил, что «ничто не вечно под луной».»И если позиция нынешней власти более категорична, то мы, крымчане, не торопясь подождем правительство, способное более адекватно оценивать международную обстановку. Нам торопиться некуда, мы дома, и надолго», — заявил Умеров РИА Новости.По его словам, отказ признавать российский статус полуострова может нанести урон экономике Турции.Крымский эксперт по межнациональным отношениям Заур Смирнов, в свою очередь, подчеркнул, что в Турции есть две точки зрения по поводу полуострова: официальная, предполагающая непризнание его российским, и общественная — прямо противоположная. Смирнов отметил, что турецкие власти не впервые делают категоричные заявления о непризнании Крыма частью России, при этом другие политики и общественные деятели высказываются иначе.По его словам, Украина без Крыма не интересна крымско-татарской диаспоре Турции. Смирнов подчеркнул, что в Турции относятся к крымским татарам как к братскому народу и признание полуострова российским стало бы главным подтверждением этого отношения.
https://ria.ru/20200626/1573491578.html
https://ria.ru/20200226/1565222344.html
https://ria.ru/20200626/1573530777.html
украина
республика крым
турция
россия
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
2020
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
Новости
ru-RU
https://ria.ru/docs/about/copyright.html
https://xn--c1acbl2abdlkab1og.xn--p1ai/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
https://cdn23.img.ria.ru/images/151909/01/1519090143_225:0:2956:2048_1920x0_80_0_0_961d3f09ef51da2f0cc79307f15270c8.jpgРИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
политика, в мире, украина, оон, республика крым, турция, сергей цеков, заур смирнов, эйваз умеров, россия
МОСКВА, 4 июл — РИА Новости. Российские политики и эксперты отреагировали на обещание главы МИД Турции Мевлюта Чавушоглу никогда не признавать воссоединение с Крымом.Накануне Чавушоглу на совместной пресс-конференции с министром иностранных дел Украины Дмитрием Кулебой заявил, что Анкара поддерживает территориальную целостность страны, не признавала и не признает «незаконную аннексию Крыма».
Член комитета Совета Федерации по международным делам Сергей Цеков заявил РИА Новости, что полуостров не нуждается в признании своего российского статуса со стороны третьих стран.«Нас не удивляет это заявление министра иностранных дел Турции», — сказал парламентарий.
По его словам, самое главное для региона то, что он стал неотъемлемой частью России.
«Для Крыма самое главное признание — это признание и поддержка России», — добавил Цеков.
Сенатор уверен, что мировое сообщество рано или поздно будет вынуждено признать Крым российским, так как это свершившийся исторический факт, с которым нужно считаться.
26 июня 2020, 01:16
Порошенко заявил о шансе Украины «вернуть» КрымГлава региональной национально-культурной автономии крымских татар Эйваз Умеров заявил, что Чавушоглу «чересчур переигрывает» в своих заявлениях. Он напомнил, что главу МИД в Турции назначает президент, и отметил, что «ничто не вечно под луной».«И если позиция нынешней власти более категорична, то мы, крымчане, не торопясь подождем правительство, способное более адекватно оценивать международную обстановку. Нам торопиться некуда, мы дома, и надолго», — заявил Умеров РИА Новости.
По его словам, отказ признавать российский статус полуострова может нанести урон экономике Турции.«Я думаю, турецкие политики помнят, насколько глубоко они зависимы от российского турпотока, российского рынка сельскохозяйственной и энергетической продукции», — подчеркнул собеседник агентства.
26 февраля 2020, 13:23
Зеленский признал, что Киев не сможет вернуть Крым в ближайшее времяКрымский эксперт по межнациональным отношениям Заур Смирнов, в свою очередь, подчеркнул, что в Турции есть две точки зрения по поводу полуострова: официальная, предполагающая непризнание его российским, и общественная — прямо противоположная.Смирнов отметил, что турецкие власти не впервые делают категоричные заявления о непризнании Крыма частью России, при этом другие политики и общественные деятели высказываются иначе.
«Турция находится между необходимостью быть солидарной с Западом и США в крымском вопросе и собственными интересами в Крыму через свою многочисленную диаспору крымских татар», — считает эксперт.
По его словам, Украина без Крыма не интересна крымско-татарской диаспоре Турции.Смирнов подчеркнул, что в Турции относятся к крымским татарам как к братскому народу и признание полуострова российским стало бы главным подтверждением этого отношения.
26 июня 2020, 17:53
Зеленский заявил, что Киев «вернет» Крым и людейв Сети появился странный ролик с извлечением рептилии изо рта пациентки
В Дагестане категоричны – это не их больница. Может и змея не настоящая? Но зачем это представление?
Уставшая женщина уснула под деревом и не заметила змею, которая подкралась слишком близко. Так начинается история, якобы из Дагестана, которую сегодня пересказывают на все лады. Случай действительно нетривиальный, ведь – как уверяется – рептилия не просто укусила жительницу республики, а забралась в нее через рот.
Случай мог бы показаться откровенным фейком, но новость сопровождает соответствующее видео. Из комментариев становится понятно, что снимали его уже в одной из местных больниц. На кадрах, очевидно, сама пострадавшая, несколько медиков. И, собственно, операция, которую они провели.
В общем – выглядит хоть и шокирующе, но на первый взгляд вполне достоверно. Тем более, что указывается даже конкретный населенный пункт, где всё случилось. Вот только при попытке выяснить детали, например, как себя чувствует пациентка сейчас – обнаружились некоторые несостыковки.
Общий наркоз. Доктор ловко орудует эндоскопом. На видео – явно финал операции. Через несколько минут изо рта пациента извлекают нечто.
В Дагестанском селе Леваши, где якобы и произошел этот случай, ничего о нем не слышали. Зато медикам местной ЦРБ пришлось весь день давать интервью. Утверждают – они такую операцию не проводили.
«Нет, это случай не в нашей больнице произошел, это 100 процентов. И помещение не наше, и сотрудница, которая на видео, она не наша сотрудница», – заверил Магомедгаджи Исагаджиев, заместитель главного врача по лечебной работе Левашитской ЦРБ.
В Дагестане змей больше, чем где-либо еще в нашей стране – 20 видов. И встретить их действительно можно часто. Уж, полоз или даже гадюка – в поисках местечка потеплее могут заползти в дом или палатку, но в рот человеку не заглядывают.
«То, что я увидел, ну, скорее всего, похоже на то, что к змее это не имеет никакого отношения. Теоретически такая ситуация возможна, но фактически представить, чтобы даже спящий человек не отреагировал, что змея не просто в рот заползает, а в пищевод и так далее», – сомневается Владимир Черлин, эксперт-герпетолог, серпентолог.
Качество видео действительно не дает понять, что именно выудили медики из организма. Но не только герпетологи – специалисты по змеям, врачи тоже уверены – незаметно для себя проглотить предмет длиною в метр невозможно.
«Так вот представьте, спит эта дама, с открытым ртом и ей заползает змея, ну и что будет? Точно, должен быть рвотный рефлекс, поэтому вряд ли она бы не проснулась, как минимум», – уверен Александр Талалаев, патологоанатом.
А вот намеренно – чего только не глотают. Чаще всего, конечно, на стол хирургов попадают дети, которые пробуют предметы на зуб. Однако и взрослые – не исключение. По глупости или на спор – итог один. Врачи извлекли столовое серебро, стеклянные бутылки, гвозди, пружины от матраса, ножницы и даже гранаты.
И все же, Министерство здравоохранения Дагестана тоже решило проверить информацию. Обзвонили все районные больницы. Живых змей из желудков пациенток не извлекали нигде.
«История о женщине, которая якобы уснула под деревом, и ей в рот заползла змея, не нашла подтверждения, в медицинские организации региона пациентка с такой проблемой не обращалась», – сообщила Залина Муртазалиева, пресс-секретарь Министерства здравоохранения Дагестана.
Что само по себе – хорошая новость. Ведь в результате этого «происшествия» ни одна жительница села Леваши и змея не пострадали.
«Медуза» попала в «Сеть»: журналистское расследование вызвало шквал комментариев
Автор фото, Alexander Shcherbak/TASS
Подпись к фото,Одиночный пикет в поддержку фигурантов дела «Сети»у здания ФСБ на Лубянке
Публикация издания «Медуза» о возможной связи некоторых фигурантов дела «Сети» с убийством и наркоторговлей вызвала огромный резонанс в соцсетях и поставила вопрос не только о содержании самой статьи, но и том, как должны вести себя в таких ситуациях журналисты.
10 февраля в Пензе семеро обвиняемых в организации террористического сообщества или участии в нем получили сроки от шести до 18 лет лишения свободы. После этого с открытыми письмами в защиту фигурантов дела «Сети» (организация запрещена в России) выступили ученые, врачи, художники и представители других профессиональных сообществ. В Москве и Петербурге прошли пикеты, в которых приняли участие сотни человек. Они требовали отмены приговора и расследования сообщений о пытках, с помощью которых могли быть выбиты показания во время следствия.
Вечером 21 февраля издание «Медуза» опубликовало расследование Максима Солопова и Кристины Сафоновой «Пошли четверо в лес, а вышли только двое», в котором выдвигается версия о том, что некоторые фигуранты пензенского дела «Сети» могут быть причастны к убийству и торговле наркотиками. Источник информации издание описало так: к «Медузе» пришли активисты левого движения, которые провели собственное расследование дела.
Публикация вызвала бурю комментариев в соцсетях, а обсуждение явно вышло за рамки внутрицеховой журналистской дискуссии. Русская служба Би-би-си, оставляя за скобками суть подозрений (о них можно прочитать в «Медузе»), собрала разные точки зрения (цитаты по «Фейсбуку»).
Сырое расследование?
«Медуза» назвала свое расследование одним из самых трудных в истории редакции. «Мы отдаем себе отчет, что это тяжелый удар для всех, кто поддерживает фигурантов дела, — говорится в обращении к читателям. — Многие факты у нас по-прежнему с трудом укладываются в голове, но и скрывать такую важную информацию мы как журналисты не имеем права».
Критиков «Медузы» это не удовлетворило. «Коллеги, вы на самом деле полагаете, что опубликованный вчера текст можно назвать журналистским расследованием? Вы это всерьез?» — написала замдиректора Ельцин-центра Людмила Телень, в 1990-е работавшая в «Московских новостях».
«Как минимум можно было соблюсти простое правило: дать слово обвиняемым. В двойном убийстве обвиняемым», — упрекает авторов руководитель политической редакции «Открытых медиа» Максим Гликин. На отсутствие комментариев адвокатов обратили внимание и другие пользователи соцсетей.
Журналист и правозащитник Зоя Светова еще в пятницу назвала материал «Медузы» «беспомощным». «Объяснить сие можно лишь спешкой, — написала она. — Непонятно, зачем публиковать материал, если в послесловии вы указываете, что вскоре опубликуете тщательно проверенную версию». «Это журналистский позор. Это демонстрация того, что нельзя делать расследовательской журналистике», — еще жестче высказался публицист Кирилл Рогов.
На руку власти?
«О печальном. Претензии к качеству текста «Медузы» волнуют примерно 5000 человек в «Фейсбуке», — пишет медиаконсультант Илья Клишин.При этом, по его словам, «широкие народные массы (условная коллегия присяжных)» сделали вывод о виновности фигурантов дела «Сети» в убийстве, а «то что не все, это уже никто не вникает». «А значит, нет дыма без огня; а значит, не так уж не права была ФСБ; а значит, зря мы стали писать письма и ходить в пикеты; а значит, когда будет новое дело Голунова-Устинова-«Сети»-«Нового величия», может и не так уж будут не правы силовики; значит, надо сидеть дома и не рыпаться», — описывает ожидаемую реакцию на текст Медузы Клишин.
«Для ширнармасс [широких народных масс] дело «Сети» и было тем, что вы описываете в пункте один, — возразила ему из Парижа журналист и писатель Наталия Геворкян. — Для тех, кто вступился, ничего после статьи в «Медузе» не меняется. Против пыток — да, следствие проведено из рук вон [плохо] — да, подставные свидетели — да, приговор надо отменять — да».
«Писать тексты, которые могут помочь силовикам оправдать свои действия — западло (извините, другого слова подобрать не могу)», — написал российский политик Илья Пономарев, объявленный в розыск и в прошлом году получивший гражданство Украины.
Телевизионный обозреватель Арина Бородина обратила внимание, как публикацию подхватил канала «Россия 24». «Медузу» называли «Медузой», а не просто неким интернет-СМИ», — пересказала она сюжет. Она добавляет, что участников «Сети» назвали убийцами и террористами. «Потом подробности, как убивали… Прямо цитаты из текста «Медузы» выводили на экран и окрашивали маркером, в деталях. Чтобы нагляднее», — добавляет Бородина.
За «Медузу» заступилась живущая в Англии журналистка Маша Слоним. «Удивлена, с какой легкостью коллеги обвиняют «Медузу» в публикации слива, в продажности, в предательстве. Я удивлена, как бывше-нормальные люди (мое оценочное определение) поддаются конспирологическим теориям и уверенно делятся собственными версиями причин, по которым «Медуза» могла пойти на это», — написала она.
«Я не верю в то, что «Медуза» сознательно, по чьему-то заказу напечатала угодную властям информацию, — продолжила Слоним. — Да, с публикацией, вероятно, надо было подождать и доработать текст и расследование. Но это профессиональная ошибка, а не умышленное сотрудничество с властью из каких-либо корыстных соображений. Может, подождем завершения расследования?»
Можно ли так поступать?
За несколько постов до этого Слоним была более категорична: «Этот текст далек от расследования, это набор непроверенных и неподтвержденных сообщений, солидное издание просто не имело права публиковать его в таком виде».
Активист Сергей Давидис тоже считает, что хотя СМИ и «обязаны сообщать обществу неприятную информацию», однако «конкретно эту статью» выпускать было нельзя. «Такие вещи можно и нужно публиковать только после тщательного расследования, когда разумных сомнений в достоверности написанного нет», — написал он.
Журналист и писатель Николай Кононов вопросы к «Медузе» изложил в форме диалога с самим собой.
— Стоит ли накидывать дополнительные обвинения тем, кого и так посадили на 10+ лет?
— Дело журналиста — добыть общественно важную информацию и проверить ее. Что бы ни было установлено в ходе проверки, это следует публиковать, потому что горькая правда ценнее и полезнее любой постправды.
— Стоит ли вообще играть на стороне тех, кто сшил белыми нитками это позорное дело?
— Если журналист будет сомневаться, какой из сил на руку его статья, он предпочтет вообще никогда ничего не публиковать. И мы никогда ничего не узнаем.
— Ок, а возможно ли сделать полноценное расследование о двойном убийстве пятилетней давности за пять дней?
— Зачем тогда публиковать неполноценное расследование, особенно если его ключевой эпизод требует отдельных раскопок (в чем признается сама редакция)?
— Обычно такое происходит, когда очень нужен трафик, чтобы привлечь зрителей посмотреть какую-нибудь рекламную кампанию у себя на сайте. Или когда известно, что конкурирующее медиа готовит статью на ту же тему, и надо их опередить, чтобы улучшить репутацию независимых расследователей. Здесь явно второй мотив.
Журналист «Новой газеты» и муниципальный депутат Илья Азар напомнил, что «Медуза» — независимое СМИ, которому нужно зарабатывать деньги. «Чтобы их заработать, ему нужен рост аудитории, чтобы аудитория росла, ему нужны резонансные тексты, чтобы тексты были резонансными, они должны выходить раньше, чем у других», — написал он.
«Поэтому и выпустили быстро-быстро текст, с которым можно было бы еще недельку-другую поработать», — считает Азар. «Беспокойство о политических заключенных и многочисленности пикетов (как и о благополучии чиновников или результате единороссов на выборах) в эту схему не входит. Ничего личного, и не только «Медузы» это касается, это так в целом работает», — добавил он, подчеркнув, что не оправдывает «Медузу».
Уехавший в Берлин один из создателей газеты «Ведомости» Леонид Бершидский саркастически заметил, что давно научился, читая на русском, подавлять вопрос: «А что, так можно было?» «Но вот одну вещь выяснять было совсем уж необходимо — и необходимо до сих пор. Уголовное дело об убийстве еще открыто? Кто его ведет? Какие в нем показания и улики? А байкам леваков о леваках верить совершенно невозможно, и весь этот трэш и угар нормальный редактор просто повырезал бы; уж не знаю, что бы тогда осталось».
«Поражает дружное осуждение журналистов, которые обнародовали эту историю. А то, что пропажа двух человек столько времени не расследуется не возмущает? — написала занимавшаяся темой преступности журналист Елизавета Маетная. — Что в сухом остатке? Гигантские сроки им дали ни за что, террористической группы не было, показания даны под пытками, при этом по какой-то причине не проверяют их на возможную причастность к гибели двух человек и не ищут других подозреваемых».
Активист антифашистского движения Алексей Гаскаров поддержал одного из авторов расследований Максима Солопова. Вместе с ним он был арестован в 2010 году по «химкинскому делу».
«У меня нет оснований не доверять тому, что там написано, — написал Гаскаров. — Многие сейчас наезжают на Макса Солопова, но мне как раз кажется наоборот хорошо, что именно он как левый и антифашист об этом написал. Очень важно на практике сейчас следовать принципам, по которым мы хотим жить. Не писать о фактах, потому что это неудобно, потому что это навредит тем, кто не причастен, потому что люди будут чувствовать себя обманутыми и т.п. Но так же себя ведет власть, которую мы критикуем. Очень важно быть другими».
«Новые факты никак не отменяют ценность кампании [в поддержку осужденных по делу «Сети»]. Люди, которые ей занимались, не могли знать всех обстоятельств. Очевидно, что предъявленные обвинения в терроризме, и пытки, и факты, которые есть в деле, говорили о том, что дело сфабриковано», — считает Гаскаров.
Фигурант «болотного дела» Алексей Полихович написал, что у него есть несколько вопросов к «Медузе» — например, как можно было не указать в тексте на личный конфликт между человеком, который стал источником информации (он пишет, что знает его), и Дмитрием Пчелинцевым, получившим по делу «Сети» 18 лет колонии.
«Почему я, зная, что есть такая история с мертвым человеком и пропавшим человеком, не написал об этом? Простого ответа тут нет», — признал Полихович. «При всем сказанном я не считаю расследование «Медузы» заказухой ФСБ», — подчеркнул он.
«В газете «Ведомости» была стена, на которой висели всякие выдающиеся корпоративные высказывания. Одно из них было [бывшего главного редактора] Татьяны Лысовой (передаю смысл): если вам кажется, что какая-то публикация к вам несправедлива, не надо сразу кричать, что это заказ — лучше сперва рассмотреть вариант, что это просто глупость (=ошибка), — написал бывший заместитель главного редактора «Ведомостей» Максим Солюс.
«Статья про «Сеть» плохая, но то количество обвинений, которое вылилось на «Медузу», поражает. Никто никого не уважает, это очень плохо», — резюмировал он. А телеведущий Павел Лобков саркастически сравнил осуждение «Медузы» с постановлением ЦК ВКП (б) о журналах «Звезда» и «Ленинград».
Сам Максим Солопов в интервью радио «Эхо Москвы» сказал, что авторы расследования старались тщательно проверять информацию, поступившую к ним.
«Последним пунктом этой верификации стало то, что мы нашли человека, который был причастен к этому преступлению, — сказал он. — Когда нам человек сам признался в этом преступлении, мы, наверное, не могли дальше просто скрывать эту информацию, наличие ее у нас. Вот и все».
Лесневские сдали кнопку Президент и гендиректор телевизионного холдинга REN TV уходят в отставку: Интернет и СМИ: Lenta.ru
Президент телевизионного холдинга REN TV Ирена Лесневская покидает свой пост. Вместе с ней уходит ее сын Дмитрий, занимавший должность гендиректора. Отставка добровольная, и ее уже одобрило собрание акционеров холдинга. С 15 октября обязанности Лесневских будут выполнять другие люди.
Журналистский коллектив REN ТV узнал о кадровых перестановках на собрании в среду, 5 октября. Лесневская также объявила о том, что забирает с собой бренд. «REN ТV больше нет», — поспешил резюмировать «Московский комсомолец». Однако позднее, давая интервью «Газете», мать-основательница канала была менее категорична: «Это будет видно, исходя из дальнейшего развития ситуации».
Вместе с Лесневскими REN TV покидают еще несколько человек. Это не журналисты, а топ-менеджеры. По словам Лесневской, управленцы уходят, чтобы у новых руководителей была возможность «привести своих людей». До середины октября команда Лесневской переедет в новое здание, где займется исключительно производством кино и сериалов. Кстати сказать, название канала пришлось бы здесь весьма кстати. Ранее под маркой «REN-фильм» были выпущены «Возвращение» Звягинцева, «Next», «КГБ в смокинге» и еще много других успешных проектов.
Сообщение об уходе Лесневских с REN TV совпало с другой новостью. Как сообщило агентство AK&M, RTL Group, «Северсталь-групп» и «Сургутнефтегаз», получив все необходимые согласования на корпоративном и государственном уровнях, закрыли сделку по покупке ООО «Медиа-Холдинг REN TV». Таким образом, были документально закреплены договоренности, достигнутые между компаниями этим летом. Напомним, что 1 июля «Северсталь-групп» объявила о покупке у РАО «ЕЭС» 70 процентов долей телеканала за 100 миллионов долларов. В этот же день стало известно, что RTL Group выкупает у Лесневских 30 процентов акций телеканала. По экспертным оценкам, сумма сделки составила 60-80 миллионов долларов. В конце лета «Северсталь-групп» продала 35 процентов акций ОАО «Сургутнефтегаз».
«Мы рады тому, что закрыли сделку, и теперь продолжим сотрудничество с нашими партнерами для дальнейшего развития REN TV», — сказал глава RTL Group Герхард Цайлер. Гендиректор «Сургутнефтегаза» Владимир Богданов отметил, что «приобретение 35 процентов в REN TV — наш первый шаг в сторону диверсификации бизнес-модели». «Мы верим, что REN TV покажет быстрый рост, и рады тому, что инвестируем вместе с RTL Group», — добавил он.
Телевизионный канал REN TV один из крупнейших частных федеральных каналов в России. Начал вещание 1 января 1997 года. Сейчас сеть REN TV объединяет 406 независимых вещательных компании в России и в странах СНГ. Потенциальная аудитория канала 113,5 миллиона зрителей. Сигнал принимается в 181 городе.
Продав в июле свой пакет акций, Лесневские договорились с новыми акционерами, что останутся на канале наемными менеджерами до ноября. Позднее стало известно, что они не прочь поработать в REN TV и более продолжительный срок, однако только в том случае, если среди акционеров компании не будет «Сургутнефтегаза». После того как власть одобрила сделку между «Северсталью» и «Сургутнефтегазом», основательнице телеканала не оставалось ничего, как заявить об уходе.
Впрочем, не исключено, что Лесневские досрочно ушли с канала и по другой причине. Как стало известно «Независимой газете» из осведомленного источника, оба мажоритарных акционера — «Северсталь-групп» и «Сургутнефтегаз» — предложили Лесневским в качестве отступных по 9 процентов акций канала. «Судя по тому, что Лесневская уходит, она приняла это предложение», — говорит источник.
Как бы то ни было, уход президента холдинга не стал неожиданностью для новых владельцев. Замена Лесневской готовилась с начала сентября, когда на REN TV с «НТВ-Плюс» перешел Александр Орджоникидзе. Именно он, согласно решению акционеров холдинга, займет пост генерального директора ООО «Медиа-холдинг РЕН ТВ» и ЗАО «Телекомпания РЕН ТВ».
Пока акционеры потирают руки в предвкушении быстрых прибылей, на самом телеканале готовятся к самому худшему. «Она (Лесневская) была гарантом свободы слова на REN ТV. Пока же у нас есть лишь обещание новых владельцев, что менять информационную политику они не будут», — говорит в интервью «МК» Марианна Максимовская, ведущая аналитической программы «Неделя». Еще более категорична ведущая информационной программы REN TV «24» Ольга Романова: «Есть ощущение развала и краха», «есть желание бросить все и уйти». Романову останавливает лишь призрачная надежда на то, что «в дверях» может повстречаться «очень милый и порядочный человек».
Едва ли надежды ведущей оправдает Александр Орджоникидзе, считающийся креатурой компании «Сургутнефтегаз», которую, в свою очередь, обвиняют в том, что она купила телеканал по указке из Кремля. Что до нового руководителя телеканала, которым стал представитель RTL Group Ральф Зибеналер, то он для российского рынка «темная лошадка», и пока при упоминании его имени никаких эмоций не возникает вовсе.
Последние перестановки в руководстве REN TV свидетельствуют о том, что у старых и новых акционеров оказались разные взгляды на развитие телеканала. Оно и не мудрено. Как заявил в интервью интернет-газете «Дни.ру» бывший глава НТВ, ТВ-6 и ТВС Евгений Киселев, российских покупателей контрольного пакета акций Ren TV назначил Кремль. До последнего времени REN TV оставался последним независимым телеканалом с федеральным охватом, на котором выходили новости. Теперь этой проблемы больше нет.
Не следует уповать и на то, что нынешнюю концепцию канала станет защищать RTL. Группа — признанный лидер в области развлекательного вещания, но не новостей. В отличие, скажем, от News Corporation Руперта Мэрдока, в которую входит немало новостных телеканалов, в том числе американская Fox News и британская Sky News. Кстати, представители медиа-империи Мэрдока также проявили интерес к покупке акций REN TV, однако RTL Group выступила категорически против участия News Corporation.
Понятно, что изменения на телеканале станут заметны не сразу. Это экономически нецелесообразно и может вызвать негативную реакцию у рекламодателей. Однако в том, что они будут и будут не в лучшую сторону, сомневаться практически не приходится.
В сильные морозы могут сократить рабочее время :: Общество :: РБК
С понижением температуры воздуха руководителям российских компаний нужно думать не только о работе, но и о здоровье своих сотрудников. Неблагоприятные условия труда, к которым некоторые боссы не успели подготовиться, могут стать причиной официального укорочения рабочего времени, передает телеканал «Вести».
С понижением температуры воздуха руководителям российских компаний нужно думать не только о работе, но и о здоровье своих сотрудников. Неблагоприятные условия труда, к которым некоторые боссы не успели подготовиться, могут стать причиной официального укорочения рабочего времени, передает телеканал «Вести».
По прогнозам синоптиков, большие холода в столице сохранятся до конца недели, а значения ночных температур будут колебаться около 30 градусов ниже нуля. В конце недели погода улучшится до -8… -10 градусов, что тоже нельзя назвать значительным потеплением. Задуматься о последствиях морозов придется в первую очередь работодателям: несоответствие температуры воздуха, установленной СанПиНами в 1996 году, может сказаться на производительности труда.
По словам специалиста Роспотребнадзора Натальи Прониной, для офисных работников, ведущих сидячий образ жизни, температура около их компьютеров должна быть не меньше 19 градусов. «В холодное время года от 19 до 24 градусов по Цельсию — это оптимально для комфорта, однако существуют допустимые величины показателей микроклимата на этих же рабочих местах — температура будет колебаться от 18 до 22 градусов» — поясняет Н.Пронина.
По трудовому законодательству, работодатель обязан предоставить работнику приемлемые условия труда и обеспечить его всем необходимым. Холодный офис — это прямое нарушение трудовых норм, однако нормы санитарные менее категоричны. «Это носит именно рекомендательный характер, поэтому, если нельзя обеспечить допустимые условия, тогда рекомендуется сокращать время пребывания в этих помещениях. Ограничение должно наступать где-то с 15 градусов. То есть если температура не превышает 15 градусов, то рекомендуется сократить рабочее время до 6 часов», — пояснила Н.Пронина.
Каждый дополнительный градус в минус сокращает рабочий день на час, и если температура в офисе упадет ниже 13 градусов, то можно смело оставаться дома. Если условия труда неприемлемы, нужно, во-первых, произвести замеры с помощью одного или нескольких (если помещение большое) градусников и сослуживцев в качестве свидетелей. Делать это нужно три раза в день: утром, в обед и вечером. В нескольких местах помещения нужно фиксировать показатели термометров и записывать их в табличку, рассказывает специалист-эколог компании «Экология жизненного пространства» Юлия Бондарева. «Рекомендуется измерять температуру и влажность непосредственно на рабочем месте, причем в помещениях, где люди преимущественно сидят, она должна измеряться на высоте 10 сантиметров пола и на уровне сидящего человека — где-то 1 метр 20-30 сантиметров», — рассказывает Ю.Бондарева.
Категориальные и количественные данные | Понятия в статистике
Различать количественные и категориальные переменные в контексте.
Результаты обучения
- Различать количественные и категориальные переменные в контексте.
Данные состоят из лиц и переменных , которые дают нам информацию об этих лицах. Индивид может быть предметом или человеком. Переменная — это атрибут, например измерение или метка.
Пример
Медицинская карта
Этот набор данных взят из медицинского исследования. В этом исследовании исследователи хотели определить переменные, связанные с низкой массой тела при рождении.
Возраст на момент доставки | Вес до беременности (фунтов) | Курильщик | Визиты к врачу в 1 триместре | Гонка | Вес при рождении (граммы) | |
---|---|---|---|---|---|---|
Пациент 1 | 29 | 140 | Есть | 2 | Кавказский | 2977 |
Пациент 2 | 32 | 132 | Нет | 4 | Кавказский | 3080 |
Пациент 3 | 36 | 175 | Нет | 0 | Афроамериканец | 3600 |
* | * | * | * | * | * | * |
* | * | * | * | * | * | * |
Пациент 189 | 30 | 95 | Есть | 2 | Азиатский | 3147 |
В этом примере индивидуумами являются пациенты (матери).В этом наборе данных шесть переменных:
- Возраст матери на момент родов (лет)
- Вес матери до беременности (фунты)
- Курила ли мать во время беременности (да, нет)
- Количество посещений врача в первом триместре беременности
- Раса матери (европеоидная, афроамериканская, азиатская и т. Д.)
- Вес ребенка при рождении (в граммах)
Есть два типа переменных: количественные и категориальные.
- Категориальные переменные принимают значения категорий или меток и помещают человека в одну из нескольких групп.Каждое наблюдение может быть отнесено только к одной категории, и эти категории являются взаимоисключающими. В нашем примере с медицинскими записями курение является категориальной переменной с двумя группами, поскольку каждый участник может быть отнесен только к категории некурящих или курильщиков. Пол и раса — две другие категориальные переменные в нашем примере с медицинскими записями.
- Количественные переменные принимают числовые значения и представляют собой своего рода измерение. В нашем медицинском примере возраст является примером количественной переменной, поскольку он может принимать несколько числовых значений.Также имеет смысл подумать об этом в числовой форме; то есть человеку может быть 18 или 80 лет. Вес и рост также являются примерами количественных переменных.
Попробуйте
Мы взяли случайную выборку из переписи населения США 2000 года. Вот часть набора данных.
Попробуйте
Consumer Reports проанализировал набор данных из 77 хлопьев для завтрака. Вот часть набора данных.
(Примечание: Consumer Reports — это некоммерческая организация, которая оценивает продукты, чтобы помочь потребителям принимать обоснованные решения.)
В чем разница между категориальными, порядковыми и интервальными переменными?
Говоря о переменных, иногда можно услышать, что переменные описываются как категориальные. (а иногда номинал), или порядковый, или интервальный. Ниже мы определим эти термины и объясните, почему они важны.
Категориальный или номинальный
Категориальная переменная (иногда называемая номинальной переменной) — это переменная, имеющая два или больше категорий, но нет внутреннего упорядочивания по категориям.Например, двоичная переменная (например, вопрос «да / нет») — это категориальная переменная, имеющая две категории (да или нет), и нет внутренняя упорядоченность по категориям. Цвет волос также является категориальной переменной. имея несколько категорий (блондинка, коричневый, брюнетка, рыжий и т. д.), и опять же, нет согласованный способ упорядочить их от высшего к низшему. Чисто номинальная переменная тот, который просто позволяет вам назначать категории, но вы не можете четко упорядочить категории. Если переменная имеет четкий порядок, тогда эта переменная будет порядковая переменная, как описано ниже.
Порядковый номер
Порядковая переменная аналогична категориальной переменной. Разница между во-вторых, существует четкое упорядочение категорий. Например, предположим, что вы имеют переменный экономический статус с тремя категориями (низкий, средний и высокий). В Помимо возможности классифицировать людей по этим трем категориям, вы можете заказать категории как низкие, средние и высокие. Теперь рассмотрим такую переменную, как образовательный опыт. (с такими ценностями, как выпускник начальной школы, выпускник средней школы, некоторый колледж и выпускник колледжа).Их также можно заказать как начальную школу, среднюю школу, какой-либо колледж, и выпускник колледжа. Несмотря на то, что мы можем упорядочить их от наименьшего к высшему, интервалы между значениями могут быть разными на разных уровнях переменных. Скажем, мы присваиваем баллы 1, 2, 3 и 4 этим четырем уровням образовательного опыта, и мы сравните разницу в образовании между первой и второй категориями с разницей в образовательный опыт между второй и третьей категориями, или разница между категории три и четыре.Разница между первой и второй категориями (элементарная и средняя школа), вероятно, намного больше, чем разница между второй и третьей категориями (средняя школа и какой-то колледж). В этом примере мы можем упорядочить людей на уровне образовательный опыт, но разница между категориями непоследовательна (потому что интервал между первой и второй категориями больше, чем между второй и второй категориями. три). Если бы эти категории были расположены на одинаковом расстоянии, то переменная была бы интервальная переменная.
Интервал
Интервальная переменная аналогична порядковой переменной, за исключением того, что интервалы между значениями числовой переменной равные промежутки. Например, предположим у вас есть переменная, такая как годовой доход, который измеряется в долларах, а у нас есть три люди, которые зарабатывают 10000, 15000 и 20000 долларов. Второй человек зарабатывает на 5000 долларов больше, чем от первого лица и на 5000 долларов меньше, чем от третьего лица, и размер этих интервалов та же. Если бы были два других человека, которые зарабатывали 90 000 долларов и 95 000 долларов, размер этого интервала между этими двумя людьми также одинаков (\ $ 5,000).
Почему имеет значение, является ли переменная
категориальной , порядковой или числовой?Статистические вычисления и анализы предполагают, что переменные имеют определенные уровни измерения. Например, не имеет смысла вычислять средний размер волос. цвет. Среднее значение номинальной переменной не имеет особого смысла, потому что там нет внутреннего упорядочивания уровней категорий. Более того, если вы попытались вычислить средний образовательный опыт, как определено в порядковом разделе выше, вы также получил бы бессмысленный результат.Потому что расстояние между четырьмя уровнями образовательного опыта очень неравномерно, значение этого среднего было бы очень под вопросом. Короче говоря, среднее значение требует, чтобы переменная была числовой. Иногда у вас есть переменные, которые находятся «посередине» между порядковыми и числовыми значениями, например Например, пятибалльная шкала Лайкерта со значениями «полностью согласен», «Согласен», «нейтрален», «не согласен» и «полностью» не согласен ». Если мы не можем быть уверены, что интервалы между каждым из этих пяти значения совпадают, то мы не сможем сказать, что это интервальная переменная, но мы бы сказали, что это порядковая переменная.Однако, чтобы иметь возможность использовать статистики, предполагающей, что переменная является числовой, мы будем предполагать, что интервалы на равном расстоянии.
Имеет ли значение, нормально ли распределена моя зависимая переменная?
Когда вы выполняете t-тест или ANOVA, предполагается, что распределение средние выборки распространяются нормально. Один из способов гарантировать это — распределение отдельных наблюдений по выборке должно быть нормальным. Тем не мение, даже если распределение отдельных наблюдений не является нормальным, распределение Средние выборки будут нормально распределены, если размер вашей выборки составляет около 30 или больше.Это связано с «центральной предельной теоремой», которая показывает, что даже когда популяция распределена ненормально, распределение «выборки» означает »будет нормально распределяться, когда размер выборки составляет 30 или более, например см. демонстрацию центральной предельной теоремы.
Если вы выполняете регрессионный анализ, то предполагается, что ваши остатки нормально распределяется. Один из способов повысить вероятность нормальных остатков — это иметь зависимую переменную с нормальным распределением и предикторы, которые все нормально распределенный; однако это не обязательно, чтобы ваши остатки были в обычном состоянии. распределены.Для получения дополнительной информации вы можете просмотреть следующие ресурсы:
15 основных отличий и сходств
Типы данных — важный аспект статистического анализа, который необходимо понимать, чтобы правильно применять статистические методы к вашим данным. Есть 2 основных типа данных, а именно; категориальные данные и числовые данные.
Как человеку, который работает с категориальными и числовыми данными, важно правильно понимать разницу и сходство между двумя типами данных.Это позволит вам правильно собирать, использовать и анализировать их.
Невозможно переоценить важность понимания различных типов данных в статистике. Поэтому в этой статье мы будем изучать два основных типа данных, включая их сходства и различия.
Что такое категориальные данные?
Категориальные данные — это тип данных, которые могут храниться в группах или категориях с помощью имен или меток. Эта группировка обычно выполняется в соответствии с характеристиками данных и сходством этих характеристик с помощью метода, известного как сопоставление.
Также известный как качественные данные, каждый элемент категориального набора данных может быть помещен только в одну категорию в соответствии с его качествами, где каждая из категорий является взаимоисключающей. Например, пол — это категориальные данные, потому что его можно разделить на мужской и женский в соответствии с некоторыми уникальными качествами, которыми обладает каждый пол.
Существует 2 основных типа категориальных данных, а именно; номинальные данные и порядковые данные.
Это тип данных категориальных данных, которым присваиваются имена или метки.Иногда его называют данными о наименовании, он имеет характеристики, аналогичные характеристикам существительного.
E. g. Имя человека, пол, выпускники школ и т. Д.
Этот тип категориальных данных включает элементы, которые ранжированы, упорядочены или имеют прикрепленную шкалу оценок. Можно посчитать и заказать, номинальные данные, но не измерить.
Например, предположим, что группу клиентов попросили попробовать разновидности нового меню ресторана по шкале оценок от 1 до 5, причем каждый уровень шкалы оценок представляет сильную неприязнь, антипатию, нейтральный характер, нравится, сильно нравится.В этом случае оценка 5 означает большее удовольствие, чем оценка 4, что делает такие данные порядковыми.
Что такое числовые данные?
Числовые данные — это тип данных, который выражается в терминах чисел, а не в виде описаний на естественном языке. Подобно своему названию, числовое, его можно собрать только в числовой форме. Этот тип числовых данных, также известный как количественные данные, может использоваться в качестве формы измерения, например роста, веса, IQ человека и т. Д.
Его также можно использовать для выполнения арифметических операций, таких как сложение, вычитание, умножение и т. Д. и деление.
Есть 2 типа числовых данных, а именно; дискретные данные и непрерывные данные.
Дискретные данные — это тип числовых данных со счетными элементами. Т.е. у них есть взаимно однозначное отображение с натуральными числами. Дискретные данные могут быть либо счетно конечными, либо счетно бесконечными. Некоторые общие примеры дискретных данных: возраст, количество студентов в классе, количество кандидатов на выборах и т. д.
Счетно конечные данные могут быть подсчитаны от начала до конца, в то время как счетно бесконечные данные не могут быть полностью подсчитаны, потому что они стремятся к бесконечности.
Например, мешки с рисом в магазине исчисляемо конечны, в то время как зерна риса в мешке исчисляемо бесконечны.
Непрерывный — это числовой тип данных с бесчисленными элементами. Они представлены в виде набора интервалов на числовой прямой. Подобно дискретным данным, непрерывные данные также могут быть конечными или бесконечными.
Неисчислимый конечный набор данных имеет конец, в то время как неисчислимый бесконечный набор данных стремится к бесконечности.
Непрерывные данные можно дополнительно разделить на данные интервалов и данные отношения.Некоторые примеры непрерывных данных: учащийся CGPA, рост и т. д.
15 Ключевые различия между категориальными и числовыми данными
Определения
Категориальные данные — это тип данных, который используется для группировки информации со схожими характеристиками, в то время как числовые данные являются типом данных, которые выражают информацию в виде чисел. Он объединяет числовые значения для отображения релевантной информации, в то время как категориальные данные используют описательный подход для выражения информации.
Мы видим, что два определения, приведенные выше, различны.Следовательно, категориальные данные и числовые данные не означают одно и то же.
Другие названия
Категориальные данные также называются качественными данными, а числовые данные также называются количественными данными. Это связано с тем, что категориальные данные используются для уточнения информации перед ее классификацией в соответствии с их сходством.
Числовые данные используются для выражения количественных значений, а также могут выполнять арифметические операции, которые являются количественной характеристикой.
Как числовые, так и категориальные данные имеют другие названия, отражающие их значение. Но имена, однако, отличаются друг от друга.
Примеры
Примеры категориальных данных включают персональные биоданные — полное имя, пол, номер телефона и т. Д. Примеры числовых данных включают калькулятор CGPA, интервальную распродажу и т. Д.
Примеры ниже являются примерами как категориальных данных и числовые данные соответственно.
- Какой у тебя цвет волос?
- Блондин
- Брюнет
- Коричневый
- Черный
- Красный
- Калькулятор CGPA, который просит студентов ввести свои оценки по каждому курсу и количество единиц для вывода их CGPA.
Например, 1. Вышеуказанные категориальные данные, которые должны быть собраны, являются номинальными и собираются с помощью открытого вопроса. Пример 2. — числовой тип данных.
Предлагаемый контент здесь (см., Как создать калькулятор CGPA с помощью Formplus.)
Типы
Категориальные данные делятся на два типа, а именно; номинальные и порядковые данные, а числовые данные подразделяются на дискретные и непрерывные данные. Непрерывные данные теперь делятся на данные интервалов и данные отношения.
Хотя они оба относятся к 2 типам, эти типы данных не похожи.
Характеристики данных
Характеристики категориальных данных включают; отсутствие стандартизированной шкалы порядка, описания на естественном языке, принимает числовые значения с качественными свойствами и визуализируется с помощью гистограммы и круговой диаграммы.
Числовые данные, с другой стороны, имеют стандартизированную шкалу порядка, числовое описание, принимают числовые значения с числовыми свойствами и визуализируются с помощью гистограмм, круговых диаграмм, точечных диаграмм и т. Д.
Дизайн, ориентированный на пользователя
Метод сбора числовых данных больше ориентирован на пользователя, чем на категориальные данные. Большинство респондентов не хотят тратить много времени на заполнение форм или опросов, поэтому анкеты, используемые для сбора числовых данных, имеют более низкий процент отказа по сравнению с категориальными данными.
Это связано с тем, что категориальные данные в основном собираются с помощью открытых вопросов.
Методы сбора данных
Категориальные данные могут быть собраны различными методами, которые могут отличаться от категориальных типов данных.Например, номинальные данные в основном собираются с использованием открытых вопросов, тогда как порядковые данные в основном собираются с помощью вопросов с несколькими вариантами ответов.
Числовые данные, с другой стороны, в основном собираются с помощью вопросов с несколькими вариантами ответов. Мы наблюдаем, что в большинстве случаев они собираются с использованием открытых вопросов, когда возникает необходимость в расчетах.
Инструменты сбора данных
Сборщики данных и исследователи собирают числовые данные с помощью анкет, опросов, интервью, фокус-групп и наблюдений.Категориальные данные собираются с помощью анкет, опросов и интервью.
Сбор данных обычно прост с категориальными данными и, следовательно, не требует технических инструментов, таких как числовые данные. Например, для расчета IQ участника могут потребоваться числовые данные о баллах участника в различных разделах теста IQ.
При сборе с использованием онлайн-форм это может потребовать некоторых технических дополнений к форме, в отличие от категориальных данных, которые просты.
Анализ и интерпретация
Существует 2 метода выполнения численного анализа данных, а именно; описательная и логическая статистика. Некоторые примеры этих 2 методов включают: меры центральной тенденции, анализ дерна, анализ текста, совместный анализ, анализ тенденций и т. д.
Есть также 2 метода анализа категориальных данных, а именно; медиана и мода. В некоторых случаях мы видим, что порядковые данные анализируются с использованием одномерной статистики, двумерной статистики, регрессионного анализа и т. Д.который используется как альтернатива вычислению среднего и стандартного отклонения.
Использует
Числовые данные в основном используются для задач вычислений в статистике из-за их способности выполнять арифметические операции. Например, при разработке калькулятора CGPA может потребоваться включить команды, которые позволяют выполнять сложение, вычитание, деление и умножение.
Категориальные данные, с другой стороны, в основном используются для проведения исследований, требующих использования личной информации, мнения респондента и т. Д.Он обычно используется в бизнес-исследованиях.
Advantage
Числовые данные совместимы с большинством методов статистического анализа и поэтому наиболее часто используются исследователями. С другой стороны, категориальные данные не поддерживают большинство методов статистического анализа.
Существуют альтернативы некоторым методам статистического анализа, не поддерживаемым категориальными данными. Однако они не могут дать такие же точные результаты, как оригинал.
Недостаток
Численный анализ данных в основном выполняется в стандартизированной или контролируемой среде, что может помешать надлежащему расследованию. Это связано с тем, что естественные факторы, которые могут повлиять на результаты, были исключены, что привело к тому, что результаты не были полностью точными.
Сбор числовых данных также строго основан на точке зрения исследователя, что ограничивает влияние респондента на результат. Это не относится к категориальным данным.
Номинальные данные отражают человеческие эмоции в определенной степени с помощью открытых вопросов. Однако неудача в том, что исследователю иногда приходится иметь дело с нерелевантными данными.
Совместимость
Числовые данные совместимы с большинством статистических методов анализа данных, но категориальные данные несовместимы с большинством этих методов. Таким образом, затрудняется какое-то исследование при работе с категориальными данными.
Еще одна причина, по которой большинство исследователей предпочитают использовать категориальные данные.
Визуализация
Категориальные данные можно визуализировать с помощью только гистограммы и круговой диаграммы. Гистограмма используется при измерении частоты (или режима), в то время как круговая диаграмма используется при работе с процентами. С другой стороны, числовые данные d можно не только визуализировать с помощью гистограмм и круговых диаграмм, но также можно визуализировать с помощью точечных диаграмм.
Структура
Категориальные данные можно рассматривать как неструктурированные или частично структурированные.Он слабо отформатирован с очень небольшой структурой или вообще без нее, и поэтому не может быть собран и проанализирован с использованием обычных методов.
Несмотря на то, что существуют некоторые методы структурирования категориальных данных, по-прежнему довольно сложно понять их смысл. Этот метод связан с индексацией, которую используют такие поисковые системы, как Google, Bing и Yahoo.
Числовые данные, с другой стороны, считаются структурированными данными. Он отформатирован таким образом, что его можно быстро организовать и найти в реляционных базах данных.Например. числа и значения, найденные в электронных таблицах.
Сходства между категориальными и числовыми данными
Хотя доказано, что они более склонны к категориальным данным, порядковые данные можно классифицировать как категориальные, так и числовые данные. В некоторых текстах порядковые данные определяются как пересечение между числовыми данными и категориальными данными и поэтому классифицируются как оба.
Числовые и категориальные данные не могут быть использованы для исследований и статистического анализа.Однако их можно использовать с помощью разных подходов, но они дадут одинаковый результат.
Исследователи иногда исследуют как категориальные, так и числовые данные, исследуя различные пути к решению. Например, организация может решить изучить, какой тип метода сбора данных поможет снизить процент отказов, изучив 2 метода.
Следовательно, организация может задать эти 2 вопроса, чтобы исследовать процент ответов.
Вопрос 1:
Что вы думаете о нашем продукте? ____
Вопрос 2
Оцените наш продукт по шкале от 1 до 5.
Как числовые, так и категориальные данные могут принимать числовые значения. Категориальные данные могут принимать такие значения, как идентификационный номер, почтовый индекс, номер телефона и т. Д. Единственное отличие состоит в том, что арифметические операции не могут выполняться со значениями, принимаемыми категориальными данными.
Как числовые, так и категориальные данные могут быть собраны с помощью опросов, анкет и интервью.
Какой инструмент для сбора числовых и категориальных данных лучше всего?
Недостаточно понимать разницу между числовыми и категориальными данными, чтобы использовать их для выполнения лучшего статистического анализа.Вам также необходимо использовать Formplus, лучший инструмент для сбора числовых и категориальных данных, чтобы получить лучшие результаты.
Formplus содержит более 30 полей формы, которые позволяют вам задавать различные типы вопросов вашим респондентам. У вас также есть доступ к функции аналитики форм, которая показывает процент отказа от формы, количество людей, просмотревших вашу форму, и устройства, с которых они их просматривали.
Таким образом, вы можете отслеживать, откуда поступают ваши данные, и задавать более точные вопросы, чтобы получить более высокий процент ответов.Неважно, собираются ли данные для деловых или исследовательских целей, Formplus поможет вам собрать более точные данные.
Зачем использовать Formplus для сбора числовых и категориальных данных?
Работайте с реальными данными и аналитикой, которые помогут вам снизить процент отказов от формы. С Formplus вы можете анализировать данные респондентов, учиться на их поведении и улучшать коэффициент конверсии вашей формы.
Функция аналитики форм не оставляет места для угадываний.То есть вы работаете строго с реальными данными — знаете, сколько людей заполнили вашу форму, откуда они и какие устройства используют.
Уменьшите количество отказов от использования форм с помощью визуально привлекательных форм. Самое приятное то, что вам не нужно знать, как писать коды или быть графическим дизайнером, чтобы создавать красивые формы с Formplus.
Существует также пул настраиваемых шаблонов форм на ваш выбор. Вы можете легко редактировать эти шаблоны по своему усмотрению.
Респонденты в удаленных местах или местах без надежного подключения к Интернету могут заполнять формы в автономном режиме.Данные будут автоматически синхронизированы после подключения к Интернету.
Вы также можете использовать разговорные SMS для заполнения форм, вообще без доступа к Интернету. Это также помогает снизить процент отказов и увеличить охват аудитории, поскольку позволяет людям без доступа в Интернет.
Храните свои онлайн-формы, данные и все файлы в неограниченном облачном хранилище, предоставляемом Formplus. Таким образом, ваши данные не только хранятся в безопасности, но и вы можете легко получить к ним доступ из любого места и с любого устройства.
Если вы не хотите использовать хранилище Formplus, вы также можете выбрать другое облачное хранилище. Formplus в настоящее время поддерживает интеграции с Google Диском, Microsoft OneDrive и Dropbox.
Разрешить респондентам сохранять частично заполненные формы и продолжить работу позже с помощью функции «Сохранить и возобновить» из Formplus. Респонденты могут сохранить форму и отправить ссылку на свой адрес электронной почты и продолжить с того места, где они остановились позже.
Это отличный способ избежать отказа от формы или ввода неверных данных, когда у респондентов нет немедленного ответа на вопросы.
Заключение
Статистический анализ может выполняться с использованием категориальных или численных методов, в зависимости от вида проводимого исследования. Исследователь может выбрать подход к проблеме, собирая числовые данные, а другой — путем сбора категориальных данных, или даже и то, и другое в некоторых случаях.
На этапе сбора данных исследователь может собирать как числовые, так и категориальные данные, исследуя различные точки зрения.Однако необходимо понимать различия между этими двумя типами данных, чтобы правильно использовать их в исследованиях.
Это еще одна причина, по которой важно понимать различные типы данных.
Очистка категориальных данных: промежуточное руководство с Pandas
Ограничения членства
Есть 3 способа решения проблем с категориальными данными:
- удаление
- переназначение категорий
- вывод категорий
Во-первых, мы сосредоточимся на изоляции несогласованных наблюдений и бросая их.Я создал поддельные данные, чтобы проиллюстрировать, как это делается в коде:
Вы можете увидеть короткий сценарий, который я написал для генерации этого набора данных из репозитория GitHub, которым я поделился в начале статьи. справочная информация о ваших данных. Например, предположим, что вы хотите проверить несоответствия в столбце blood_type
в приведенном выше фрейме данных. Вы заранее узнаете, что тип крови
может иметь только следующие категории: [A +, A-, B +, B-, O +, O-, AB +, AB-] .Итак, вы должны убедиться, что столбец в источнике данных включает только эти значения.
В нашем случае имеется 10 тыс. Строк, и визуальный поиск несоответствий невозможен, что также характерно для многих других реальных данных. Вот как можно реализовать лучшее решение таких проблем:
Во-первых, вы должны создать новый фрейм данных, который содержит все возможные значения для категориального столбца:
СОВЕТ ПРОФЕССИОНАЛА: Рекомендуется использовать создавать такие фреймы данных, которые содержат сопоставления категорий для каждого категориального столбца в основных данных.
Поскольку теперь у нас есть правильные категории в отдельном фрейме данных, мы можем использовать операцию базового набора, которая дает нам разницу уникальных значений в двух столбцах:
Чтобы получить разницу между двумя наборами, мы используем .difference
функция. Он в основном возвращает все значения из левого набора, которые не находятся в правом наборе. Вот очень простой пример:
Внимательные читатели могли заметить, что внутри набора функции
я также позвонил .unique ()
на blood_type
. Из того, что я прочитал из одного потока StackOverflow, кажется, что время, необходимое для получения уникальных значений, будет намного меньше, если вы будете использовать как set
, так и unique
для больших наборов данных.
Теперь мы отфильтруем наши основные данные для групп крови «C +» и «D-»:
Использование isin
на blood_type
вернет логический ряд, который мы можем использовать для индексации фрейма данных:
Итак, 90 человек с неправильной группой крови. Поскольку мы не знаем, как произошли эти ошибки (это сделал я), мы должны их отбросить. Это можно сделать двумя способами:
Поскольку наша колонка теперь чистая, можно безопасно установить ее как категориальную переменную:
Обязательно посмотрите первую часть этой серии. Там я рассмотрел основные и общие проблемы с данными. Вы также ознакомитесь с некоторыми функциями, которые я буду здесь использовать.
Порядковые и горячие коды для категориальных данных
Последнее обновление 17 августа 2020 г.
В моделях машинного обучениявсе входные и выходные переменные должны быть числовыми.
Это означает, что если ваши данные содержат категориальные данные, вы должны закодировать их в числа, прежде чем вы сможете соответствовать и оценивать модель.
Двумя наиболее популярными методами являются порядковое кодирование и горячее кодирование .
В этом руководстве вы узнаете, как использовать схемы кодирования для категориальных данных машинного обучения.
После прохождения этого руководства вы будете знать:
- Кодирование — это обязательный этап предварительной обработки при работе с категориальными данными для алгоритмов машинного обучения.
- Как использовать порядковое кодирование для категориальных переменных, имеющих естественный порядок ранжирования.
- Как использовать быстрое кодирование для категориальных переменных, которые не имеют естественного порядка ранжирования.
Начните свой проект с моей новой книги «Подготовка данных для машинного обучения», включающей пошаговых руководств и файлов исходного кода Python для всех примеров.
Приступим.
Порядковые и горячие преобразования кодирования для машинного обучения
Фото Фелипе Валдуга, некоторые права защищены.
Обзор учебного пособия
Это руководство разделено на шесть частей; их:
- Номинальные и порядковые переменные
- Кодирование категориальных данных
- Порядковое кодирование
- Горячее кодирование
- Кодирование фиктивной переменной
- Набор данных о раке молочной железы
- Преобразование порядкового энкодера
- Преобразование OneHotEncoder
- Общие вопросы
Номинальные и порядковые переменные
Числовые данные, как следует из названия, включают в себя функции, которые состоят только из чисел, например целые числа или значения с плавающей запятой.
Категориальные данные — это переменные, которые содержат значения меток, а не числовые значения.
Количество возможных значений часто ограничивается фиксированным набором.
Категориальные переменные часто называют номинальными.
Некоторые примеры включают:
- Переменная « pet » со значениями: « dog » и « cat ».
- Переменная « цвет » со значениями: « красный », « зеленый » и « синий ».
- Переменная « место » со значениями: « первый », « второй » и « третий ».
Каждое значение представляет отдельную категорию.
Некоторые категории могут иметь естественные отношения друг к другу, например, естественный порядок.
Переменная « место » выше имеет естественный порядок значений. Этот тип категориальной переменной называется порядковой переменной, потому что значения могут быть упорядочены или ранжированы.
Числовая переменная может быть преобразована в порядковую переменную, разделив диапазон числовой переменной на интервалы и присвоив значения каждому интервалу. Например, числовая переменная от 1 до 10 может быть разделена на порядковую переменную с 5 метками с порядковыми отношениями: 1-2, 3-4, 5-6, 7-8, 9-10. Это называется дискретизацией.
- Номинальная переменная ( Категориальная ). Переменная состоит из конечного набора дискретных значений без взаимосвязи между значениями.
- Порядковая переменная . Переменная состоит из конечного набора дискретных значений с ранжированным порядком между значениями.
Некоторые алгоритмы могут работать напрямую с категориальными данными.
Например, дерево решений можно узнать непосредственно из категориальных данных без необходимости преобразования данных (это зависит от конкретной реализации).
Многие алгоритмы машинного обучения не могут напрямую работать с данными этикеток. Они требуют, чтобы все входные и выходные переменные были числовыми.
В целом, это скорее ограничение эффективной реализации алгоритмов машинного обучения, чем жесткие ограничения самих алгоритмов.
Некоторые реализации алгоритмов машинного обучения требуют, чтобы все данные были числовыми. Например, у scikit-learn есть это требование.
Это означает, что категориальные данные должны быть преобразованы в числовую форму. Если категориальная переменная является выходной переменной, вы также можете преобразовать прогнозы модели обратно в категориальную форму, чтобы представить их или использовать в каком-либо приложении.
Хотите начать подготовку данных?
Пройдите мой бесплатный 7-дневный ускоренный курс электронной почты (с образцом кода).
Нажмите, чтобы зарегистрироваться, а также получите бесплатную электронную версию курса в формате PDF.
Загрузите БЕСПЛАТНЫЙ мини-курс
Кодирование категориальных данных
Существует три распространенных подхода к преобразованию порядковых и категориальных переменных в числовые значения. Их:
- Порядковое кодирование
- Горячее кодирование
- Кодирование фиктивной переменной
Давайте рассмотрим каждый по очереди.
Порядковое кодирование
В порядковой кодировке каждому уникальному значению категории присваивается целочисленное значение.
Например, « красный » — 1, « зеленый » — 2, а « синий » — 3.
Это называется порядковым кодированием или целочисленным кодированием и легко обратимо. Часто используются целочисленные значения, начинающиеся с нуля.
Для некоторых переменных может быть достаточно порядкового номера. Целочисленные значения имеют естественную упорядоченную взаимосвязь друг с другом, и алгоритмы машинного обучения могут понять и использовать эту взаимосвязь.
Это естественная кодировка для порядковых переменных. Для категориальных переменных он устанавливает порядковые отношения, которые не могут существовать. Это может вызвать проблемы, и вместо этого может использоваться одноразовое кодирование.
Это преобразование порядкового кодирования доступно в библиотеке машинного обучения Python scikit-learn через класс OrdinalEncoder.
По умолчанию он присваивает меткам целые числа в том порядке, который наблюдается в данных. Если требуется конкретный порядок, его можно указать с помощью аргумента « категорий, » в виде списка с порядком ранжирования всех ожидаемых меток.
Мы можем продемонстрировать использование этого класса, преобразовав категории цветов «красный», «зеленый» и «синий» в целые числа. Сначала сортируются категории, затем применяются числа. Для строк это означает, что метки отсортированы по алфавиту и что синий = 0, зеленый = 1 и красный = 2.
Полный пример приведен ниже.
# пример порядковой кодировки из numpy import asarray из sklearn.preprocessing import OrdinalEncoder # определить данные data = asarray ([[‘красный’], [‘зеленый’], [‘синий’]]) печать (данные) # определить порядковую кодировку Encoder = OrdinalEncoder () # преобразовать данные результат = кодировщик.fit_transform (данные) print (результат)
# пример порядкового номера из numpy import asarray из sklearn.preprocessing import OrdinalEncoder # define data data = asarray ([[‘красный’], [‘зеленый’], [‘синий’ ]]) print (данные) # определить порядковое кодирование encoder = OrdinalEncoder () # преобразовать данные result = encoder.fit_transform (data) print (result) |
При выполнении примера сначала отображаются 3 строки данных метки, а затем порядковая кодировка.
Мы видим, что номера присвоены ярлыкам, как мы и ожидали.
[[‘красный’] [‘зеленый’] [‘синий’]] [[2.] [1.] [0.]]
[[«красный»] [«зеленый»] [«синий»]] [[2.] [1.] [0.]] |
Этот класс OrdinalEncoder предназначен для входных переменных, которые организованы в строки и столбцы, например.грамм. матрица.
Если категориальная целевая переменная должна быть закодирована для задачи моделирования с прогнозированием классификации, то можно использовать класс LabelEncoder. Он делает то же самое, что и OrdinalEncoder, хотя ожидает одномерного ввода для единственной целевой переменной.
Горячее кодирование
Для категориальных переменных, в которых не существует порядковых отношений, целочисленного кодирования может быть недостаточно, в лучшем случае, или, в худшем случае, ввести в заблуждение модель.
Принудительное установление порядковых отношений с помощью порядкового кодирования и разрешение модели предполагать естественный порядок между категориями может привести к плохой производительности или неожиданным результатам (предсказания на полпути между категориями).
В этом случае к порядковому представлению может быть применено горячее кодирование. Здесь удаляется целочисленная переменная и добавляется одна новая двоичная переменная для каждого уникального целочисленного значения в переменной.
Каждый бит представляет возможную категорию. Если переменная не может принадлежать сразу нескольким категориям, тогда только один бит в группе может быть включен. Это называется горячим кодированием…
— стр.78, Разработка функций для машинного обучения, 2018 г.
В примере переменной « цвет » есть три категории, и, следовательно, необходимы три двоичные переменные. Значение «1» помещается в двоичную переменную для цвета и значения «0» для других цветов.
Это быстрое преобразование кодирования доступно в библиотеке машинного обучения Python scikit-learn через класс OneHotEncoder.
Мы можем продемонстрировать использование OneHotEncoder в цветовых категориях. Сначала категории сортируются, в данном случае в алфавитном порядке, потому что они являются строками, затем для каждой категории по очереди создаются двоичные переменные.Это означает, что синий цвет будет представлен как [1, 0, 0] с «1» для первой двоичной переменной, затем зеленый и, наконец, красный.
Полный пример приведен ниже.
# пример горячей кодировки из numpy import asarray из sklearn.preprocessing import OneHotEncoder # определить данные data = asarray ([[‘красный’], [‘зеленый’], [‘синий’]]) печать (данные) # определяем одну горячую кодировку encoder = OneHotEncoder (sparse = False) # преобразовать данные onehot = кодировщик.fit_transform (данные) печать (onehot)
# пример одного горячего кодирования из numpy import asarray из sklearn.preprocessing import OneHotEncoder # define data data = asarray ([[‘красный’], [‘зеленый’], [‘синий ‘]]) print (data) # определить одно горячее кодирование encoder = OneHotEncoder (sparse = False) # преобразовать данные onehot = encoder.fit_transform (данные) печать (onehot) |
При выполнении примера сначала перечисляются три строки данных метки, затем одна горячая кодировка, соответствующая нашему ожиданию трех двоичных переменных в порядке «синий», «зеленый» и «красный».
[[‘красный’] [‘зеленый’] [‘синий’]] [[0. 0. 1.] [0. 1. 0.] [1. 0. 0.]]
[[«красный»] [«зеленый»] [«синий»]] [[0.0. 1.] [0. 1. 0.] [1. 0. 0.]] |
Если вы знаете все метки, которые следует ожидать в данных, их можно указать с помощью аргумента « категорий » в виде списка.
Кодировщик соответствует набору обучающих данных, который, вероятно, содержит хотя бы один пример всех ожидаемых меток для каждой категориальной переменной, если вы не укажете список меток. Если новые данные содержат категории, отсутствующие в наборе обучающих данных, для аргумента « handle_unknown » можно задать значение « игнорировать », чтобы не вызывать ошибку, что приведет к нулевому значению для каждой метки.
Кодирование фиктивной переменной
При однократном кодировании создается по одной двоичной переменной для каждой категории.
Проблема в том, что это представление включает избыточность. Например, если мы знаем, что [1, 0, 0] представляет « синий », а [0, 1, 0] представляет « зеленый », нам не нужна другая двоичная переменная для представления « красный », вместо этого мы могли бы использовать 0 значений для « синий » и « зеленый », например [0, 0].
Это называется кодировкой фиктивной переменной и всегда представляет категории C с двоичными переменными C-1.
Когда существует C возможных значений предиктора и используются только фиктивные переменные C — 1, может быть вычислена обратная матрица, и метод контраста называется параметризацией полного ранга
— стр. 95, Разработка и выбор функций, 2019.
В дополнение к несколько меньшей избыточности для некоторых моделей требуется представление фиктивной переменной.
Например, в случае модели линейной регрессии (и других моделей регрессии, которые имеют член смещения), одно горячее кодирование приведет к тому, что матрица входных данных станет сингулярной, что означает, что она не может быть инвертирована, а коэффициенты линейной регрессии не могут вычисляться с использованием линейной алгебры.Для этих типов моделей необходимо использовать кодировку фиктивной переменной.
Если модель включает точку пересечения и содержит фиктивные переменные […], то столбцы […] будут суммироваться (по строкам) с точкой пересечения, и эта линейная комбинация предотвратит вычисление обратной матрицы (поскольку она является сингулярной). ).
— стр. 95, Разработка и выбор функций, 2019.
На практике мы редко сталкиваемся с этой проблемой при оценке алгоритмов машинного обучения, если, конечно, мы не используем линейную регрессию.
… бывают случаи, когда полезен полный набор фиктивных переменных. Например, расщепления в древовидной модели более интерпретируемы, когда фиктивные переменные кодируют всю информацию для этого предиктора. Мы рекомендуем использовать полный набор фиктивных переменных при работе с древовидными моделями.
— стр. 56, Прикладное прогнозное моделирование, 2013 г.
Мы можем использовать класс OneHotEncoder для реализации фиктивного кодирования, а также однократного горячего кодирования.
Аргумент « drop » может быть установлен, чтобы указать, какая категория будет той, которой присвоены все нулевые значения, называемая « baseline ». Мы можем установить это значение « первый », чтобы использовалась первая категория. Когда метки отсортированы в алфавитном порядке, первая «синяя» метка будет первой и станет базовой.
Всегда будет на одну фиктивную переменную меньше, чем количество уровней. Уровень без фиктивной переменной […] известен как базовый уровень.
— стр. 86, Введение в статистическое обучение с приложениями на R, 2014 г.
Мы можем продемонстрировать это с помощью наших цветовых категорий. Полный пример приведен ниже.
# пример кодировки фиктивной переменной из numpy import asarray из sklearn.preprocessing import OneHotEncoder # определить данные data = asarray ([[‘красный’], [‘зеленый’], [‘синий’]]) печать (данные) # определяем одну горячую кодировку encoder = OneHotEncoder (drop = ‘first’, sparse = False) # преобразовать данные onehot = кодировщик.fit_transform (данные) печать (onehot)
# пример кодирования фиктивной переменной из numpy import asarray from sklearn.preprocessing import OneHotEncoder # define data data = asarray ([[‘красный’], [‘зеленый’], [‘синий ‘]]) print (data) # определить одно горячее кодирование encoder = OneHotEncoder (drop =’ first ‘, sparse = False) # преобразовать данные onehot = encoder.fit_transform (данные) печать (onehot) |
При выполнении примера сначала перечисляются три строки для категориальной переменной, затем кодирование фиктивной переменной, показывающее, что зеленый «кодируется» как [1, 0], «красный» кодируется как [0, 1], а «синий» — закодировано как [0, 0], как мы указали.
[[‘красный’] [‘зеленый’] [‘синий’]] [[0. 1.] [1. 0.] [0. 0.]]
[[«красный»] [«зеленый»] [«синий»]] [[0.1.] [1. 0.] [0. 0.]] |
Теперь, когда мы знакомы с тремя подходами к кодированию категориальных переменных, давайте посмотрим на набор данных, который имеет категориальные переменные.
Набор данных о раке молочной железы
В качестве основы этого руководства мы будем использовать набор данных «Рак молочной железы», который широко изучается в области машинного обучения с 1980-х годов.
Набор данных классифицирует данные о пациентах с раком груди как рецидив или отсутствие рецидива рака.Есть 286 примеров и девять входных переменных. Это проблема бинарной классификации.
Разумная оценка точности классификации для этого набора данных составляет от 68 до 73 процентов. Мы будем стремиться к этой области, но обратите внимание, что модели в этом руководстве не оптимизированы: они предназначены для демонстрации схем кодирования.
Нет необходимости загружать набор данных, поскольку мы получим к нему доступ непосредственно из примеров кода.
Глядя на данные, мы видим, что все девять входных переменных являются категориальными.
В частности, все переменные представляют собой строки в кавычках. Некоторые переменные показывают очевидную порядковую связь для диапазонов значений (например, возрастных диапазонов), а некоторые нет.
’40-49′, ‘premeno’, ’15-19′, ‘0-2’, ‘yes’, ‘3’, ‘right’, ‘left_up’, ‘no’, ‘повторяющиеся события’ «50-59», «ge40», «15-19», «0-2», «нет», «1», «вправо», «центральный», «нет», «без повторения событий» ’50-59 ‘,’ ge40 ‘,’ 35-39 ‘,’ 0-2 ‘,’ no ‘,’ 2 ‘,’ left ‘,’ left_low ‘,’ no ‘,’ повторяющиеся события ‘ ’40-49’, ‘premeno’, ’35-39′, ‘0-2’, ‘yes’, ‘3’, ‘right’, ‘left_low’, ‘yes’, ‘no-recurrence-events’ ’40-49′, ‘premeno’, ’30-34′, ‘3-5’, ‘yes’, ‘2’, ‘left’, ‘right_up’, ‘no’, ‘повторяющиеся события’ …
’40-49 ‘,’ premeno ‘,’ 15-19 ‘,’ 0-2 ‘,’ yes ‘,’ 3 ‘,’ right ‘,’ left_up ‘,’ no ‘,’ recurrence-events ‘ ’50 -59 ‘,’ ge40 ‘,’ 15-19 ‘,’ 0-2 ‘,’ no ‘,’ 1 ‘,’ right ‘,’ central ‘,’ no ‘,’ no-recurrence-events ‘ ’50 -59 ‘,’ ge40 ‘,’ 35-39 ‘,’ 0-2 ‘,’ no ‘,’ 2 ‘,’ left ‘,’ left_low ‘,’ no ‘,’ повторяющиеся события ‘ ’40-49 ‘,’ premeno ‘,’ 35-39 ‘,’ 0-2 ‘,’ yes ‘,’ 3 ‘,’ right ‘,’ left_low ‘,’ yes ‘,’ no-recurrence-events ‘ «40-49», «premeno», «30-34», «3-5», «да», «2», «левый», «right_up», «нет», «повторяющиеся события» … |
Обратите внимание, что в этом наборе данных отсутствуют значения, отмеченные значением « nan ».
Мы оставим эти значения как есть в этом руководстве и воспользуемся схемами кодирования для кодирования nan как просто другого значения. Это один из возможных и вполне разумных подходов к обработке пропущенных значений категориальных переменных.
Мы можем загрузить этот набор данных в память с помощью библиотеки Pandas.
… # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных данные = набор данных.значения
… # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = dataset.values |
После загрузки мы можем разделить столбцы на входные (X) и выходные (y) для моделирования.
… # разделить на столбцы ввода и вывода X = данные [:,: -1] .astype (str) y = данные [:, -1].Astype (ул.)
… # разделить на столбцы ввода и вывода X = data [:,: -1] .astype (str) y = data [:, -1] .astype (str) |
Ниже приведен полный пример загрузки и обобщения необработанного набора категориальных данных с использованием этой функции.
# загружаем и резюмируем набор данных из панд импортировать read_csv # определить расположение набора данных url = «https: // raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv » # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = данные [:,: -1] .astype (str) y = данные [:, -1] .astype (str) # суммировать print (‘Ввод’, X.shape) print (‘Вывод’, y.shape)
# загрузить и суммировать набор данных из pandas import read_csv # определить расположение набора данных url = «https: // raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv « # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = data [:,: -1] .astype (str) y = data [:, -1] .astype (str) # summarize print (‘ Input ‘, X.shape) print (‘ Output ‘, y.shape) |
При выполнении примера сообщается размер входных и выходных элементов набора данных.
Мы видим, что у нас есть 286 примеров и девять входных переменных.
Вход (286, 9) Выход (286,)
Вход (286, 9) Выход (286,) |
Теперь, когда мы знакомы с набором данных, давайте посмотрим, как мы можем его закодировать для моделирования.
Преобразование порядкового энкодера
Порядковое кодирование включает отображение каждой уникальной метки в целочисленное значение.
Этот тип кодирования действительно подходит только в том случае, если существует известная взаимосвязь между категориями. Эта связь действительно существует для некоторых переменных в нашем наборе данных, и в идеале ее следует использовать при подготовке данных.
В этом случае мы проигнорируем любые возможные существующие порядковые отношения и предположим, что все переменные являются категориальными. По-прежнему может быть полезно использовать порядковое кодирование, по крайней мере, в качестве ориентира с другими схемами кодирования.
Мы можем использовать OrdinalEncoder из scikit-learn для кодирования каждой переменной в целые числа.Это гибкий класс, который позволяет указывать порядок категорий в качестве аргументов, если такой порядок известен.
Примечание. Я оставлю вам в качестве упражнения обновление приведенного ниже примера, чтобы попытаться указать порядок для тех переменных, которые имеют естественный порядок, и посмотреть, влияет ли это на производительность модели.
После определения мы можем вызвать функцию fit_transform () и передать ее нашему набору данных, чтобы создать версию нашего набора данных с квантильным преобразованием.
… # порядковый номер входных переменных порядковый номер = OrdinalEncoder () X = порядковый номер. Fit_transform (X)
… # порядковый номер входных переменных порядковый = OrdinalEncoder () X = ordinal.fit_transform (X) |
Таким же образом мы можем подготовить мишень.
… # порядковый номер целевой переменной label_encoder = LabelEncoder () y = label_encoder.fit_transform (у)
… # порядковый номер целевой переменной label_encoder = LabelEncoder () y = label_encoder.fit_transform (y) |
Давайте попробуем использовать наш набор данных по раку груди.
Полный пример создания преобразования порядкового кодирования набора данных о раке груди и подведения итогов приведен ниже.
# порядковый номер кодирует набор данных рака груди из панд импортировать read_csv из склеарна.предварительная обработка импорта LabelEncoder из sklearn.preprocessing import OrdinalEncoder # определить расположение набора данных url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv» # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = данные [:,: -1] .astype (str) y = данные [:, -1] .astype (str) # порядковый номер входных переменных ordinal_encoder = OrdinalEncoder () X = порядковый_кодер.fit_transform (X) # порядковый номер целевой переменной label_encoder = LabelEncoder () y = label_encoder.fit_transform (y) # суммируем преобразованные данные print (‘Ввод’, X.shape) print (X [: 5,:]) print (‘Вывод’, y.shape) print (y [: 5])
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
# порядковый номер кодирует набор данных рака груди из pandas import read_csv из sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OrdinalEncoder # определить расположение набора данных url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv» # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = data [:,: -1 ] .astype (str) y = data [:, -1].astype (str) # порядковые входные переменные кодирования ordinal_encoder = OrdinalEncoder () X = ordinal_encoder.fit_transform (X) # целевые переменные порядкового кодирования label_encoder = LabelEncoder () y) # суммировать преобразованные данные print (‘Input’, X.shape) print (X [: 5,:]) print (‘Output’, y.shape) print (y [: 5]) |
При выполнении примера набор данных преобразуется и отображается форма результирующего набора данных.
Мы ожидаем, что количество строк и в данном случае количество столбцов останется неизменным, за исключением того, что все строковые значения теперь являются целочисленными значениями.
Как и ожидалось, в этом случае мы видим, что количество переменных не изменилось, но все значения теперь являются целыми числами в порядковой кодировке.
Вход (286, 9) [[2. 2. 2. 0. 1. 2. 1. 2. 0.] [3. 0. 2. 0. 0. 0. 1. 0. 0.] [3. 0. 6. 0. 0. 1. 0. 1. 0.] [2. 2. 6. 0. 1. 2. 1. 1. 1.] [2. 2.5. 4. 1. 1. 0. 4. 0.]] Выход (286,) [1 0 1 0 1]
Вход (286, 9) [[2. 2. 2. 0. 1. 2. 1. 2. 0.] [3. 0. 2. 0. 0. 0. 1. 0. 0.] [3. 0. 6. 0. 0. 1. 0. 1. 0.] [2. 2. 6. 0. 1. 2. 1. 1. 1.] [2. 2. 5. 4. 1. 1. 0. 4. 0.]] Выход (286,) [1 0 1 0 1] |
Теперь давайте оценим машинное обучение на этом наборе данных с этой кодировкой.
Лучшая практика при кодировании переменных — подогнать кодировку в наборе обучающих данных, а затем применить ее к обучающим и тестовым наборам данных.
Сначала мы разделим набор данных, затем подготовим кодировку на обучающем наборе и применим его к набору тестов.
… # разбиваем набор данных на обучающие и тестовые наборы X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0,33, random_state = 1)
… # разделить набор данных на наборы для обучения и тестирования X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.33, random_state = 1) |
Затем мы можем поместить OrdinalEncoder в обучающий набор данных и использовать его для преобразования обучающего и тестового наборов данных.
… # порядковый номер входных переменных ordinal_encoder = OrdinalEncoder () ordinal_encoder.fit (X_train) X_train = порядковый_кодер.преобразовать (X_train) X_test = ordinal_encoder.transform (X_test)
… # порядковые входные переменные кодирования ordinal_encoder = OrdinalEncoder () ordinal_encoder.fit (X_train) X_train = ordinal_encoder.transform (X_train) X_test = ordinal_encoder_transform (X_train) |
Тот же подход можно использовать для подготовки целевой переменной. Затем мы можем подогнать алгоритм логистической регрессии к набору обучающих данных и оценить его на наборе тестовых данных.
Полный пример приведен ниже.
# оценить логистическую регрессию в наборе данных о раке груди с порядковым кодированием из среднего значения импорта из numpy import std из панд импортировать read_csv из sklearn.model_selection import train_test_split из sklearn.linear_model import LogisticRegression из sklearn.preprocessing import LabelEncoder из sklearn.preprocessing import OrdinalEncoder из sklearn.metrics импортировать precision_score # определить расположение набора данных url = «https: // raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv » # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = данные [:,: -1] .astype (str) y = данные [:, -1] .astype (str) # разбиваем набор данных на обучающие и тестовые наборы X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0,33, random_state = 1) # порядковый номер входных переменных ordinal_encoder = OrdinalEncoder () ordinal_encoder.подходит (X_train) X_train = ordinal_encoder.transform (X_train) X_test = порядковый_кодировщик.transform (X_test) # порядковый номер целевой переменной label_encoder = LabelEncoder () label_encoder.fit (y_train) y_train = label_encoder.transform (y_train) y_test = label_encoder.transform (y_test) # определить модель model = LogisticRegression () # подходит для тренировочного набора model.fit (X_train, y_train) # прогноз на тестовом наборе yhat = model.predict (X_test) # оценить прогнозы точность = оценка_точности (y_test, yhat) print (‘Точность:%.2f ‘% (точность * 100))
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 |
# оценить логистическую регрессию в наборе данных рака груди с порядковым номером из numpy import mean из numpy import std из pandas import read_csv из sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OrdinalEncoder from sklearn.metrics import precision_score datt : //raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv « # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = набор данных.values # разделить на столбцы ввода и вывода X = data [:,: -1] .astype (str) y = data [:, -1] .astype (str) # разбить набор данных на обучающие и тестовые наборы X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.33, random_state = 1) # входные переменные порядкового кода ordinal_encoder = OrdinalEncoder () ordinal_encoder.fit X_train = ordinal_encoder.transform (X_train) X_test = ordinal_encoder.transform (X_test) # порядковый номер целевой переменной label_encoder = LabelEncoder () label_encoder.fit (y_train) y_train = label_encoder.transform (y_train) y_test = модельmodel = LogisticRegression () # соответствие на обучающем наборе model.fit (X_train, y_train) # прогнозирование на тестовом наборе yhat = model.predict (X_test) # оценка прогнозов precision = precision_score (y_test, yhat) print (‘Точность:%.2f ‘% (точность * 100)) |
При выполнении примера правильно подготавливается набор данных, а затем оценивается соответствие модели преобразованным данным.
Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.
В данном случае модель достигла точности классификации около 75.79 процентов, что является разумной оценкой.
Далее, давайте более подробно рассмотрим кодировку one-hot.
Преобразование OneHotEncoder
Одноразовое кодирование подходит для категориальных данных, где нет связи между категориями.
Библиотека scikit-learn предоставляет класс OneHotEncoder для автоматического горячего кодирования одной или нескольких переменных.
По умолчанию OneHotEncoder будет выводить данные с разреженным представлением, что эффективно, учитывая, что большинство значений в закодированном представлении равны 0.Мы отключим эту функцию, установив для аргумента « sparse » значение False , чтобы мы могли проверить эффект кодирования.
После определения мы можем вызвать функцию fit_transform () и передать ее нашему набору данных, чтобы создать версию нашего набора данных с квантильным преобразованием.
… # одна входная переменная горячего кодирования onehot_encoder = OneHotEncoder (sparse = False) X = onehot_encoder.fit_transform (X)
… # одна входная переменная горячего кодирования onehot_encoder = OneHotEncoder (sparse = False) X = onehot_encoder.fit_transform (X) |
Как и раньше, мы должны обозначить кодировку целевой переменной.
Полный пример создания преобразования быстрого кодирования набора данных о раке груди и подведения итогов приведен ниже.
# one-hot кодировать набор данных о раке груди из панд импортировать read_csv из склеарна.предварительная обработка импорта LabelEncoder из sklearn.preprocessing import OneHotEncoder # определить расположение набора данных url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv» # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = данные [:,: -1] .astype (str) y = данные [:, -1] .astype (str) # одна входная переменная горячего кодирования onehot_encoder = OneHotEncoder (sparse = False) X = onehot_encoder.fit_transform (X) # порядковый номер целевой переменной label_encoder = LabelEncoder () y = label_encoder.fit_transform (y) # суммируем преобразованные данные print (‘Ввод’, X.shape) print (X [: 5,:])
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
# one-hot кодировать набор данных рака груди из pandas import read_csv from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder # определить расположение набора данных url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv» # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = data [:,: -1 ] .astype (str) y = data [:, -1].astype (str) # одна входная переменная горячего кодирования onehot_encoder = OneHotEncoder (sparse = False) X = onehot_encoder.fit_transform (X) # порядковая переменная цели кодирования label_encoder = label_encoder.fit_transform (y) # суммируем преобразованные данные print (‘Input’, X.shape) print (X [: 5,:]) |
При выполнении примера набор данных преобразуется и отображается форма результирующего набора данных.
Мы ожидаем, что количество строк останется прежним, но количество столбцов резко увеличится.
Как и ожидалось, в этом случае мы видим, что количество переменных увеличилось с 9 до 43, и все значения теперь являются двоичными значениями 0 или 1.
Вход (286, 43) [[0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0.] [0. 0. 0. 1. 0. 0. 1. 0. 0. 0.0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0.] [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0.] [0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1.] [0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0.1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0.]]
Вход (286, 43) [[0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0.] [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0.] [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0.0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0.] [0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1.] [0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0.]] |
Затем давайте оценим машинное обучение на этом наборе данных с этой кодировкой, как мы это делали в предыдущем разделе.
Кодирование соответствует обучающему набору, затем применяется как к обучающему, так и к испытательному набору, как и раньше.
… # одноразовые входные переменные для кодирования onehot_encoder = OneHotEncoder () onehot_encoder.fit (X_train) X_train = onehot_encoder.transform (X_train) X_test = onehot_encoder.transform (X_test)
… # входные переменные быстрого кодирования onehot_encoder = OneHotEncoder () onehot_encoder.fit (X_train) X_train = onehot_encoder.transform (X_train) X_test = onehot_encoder.transform (X_test) |
Полный пример приведен ниже.
# оценить логистическую регрессию в наборе данных о раке груди с помощью однократного кодирования из среднего значения импорта из numpy import std из панд импортировать read_csv из sklearn.model_selection import train_test_split из склеарна.linear_model импорт LogisticRegression из sklearn.preprocessing import LabelEncoder из sklearn.preprocessing import OneHotEncoder из sklearn.metrics импортировать precision_score # определить расположение набора данных url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv» # загрузить набор данных набор данных = read_csv (url, header = None) # получить массив данных data = dataset.values # разделить на столбцы ввода и вывода X = данные [:,: -1].Astype (str) y = данные [:, -1] .astype (str) # разбиваем набор данных на обучающие и тестовые наборы X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0,33, random_state = 1) # одноразовые входные переменные для кодирования onehot_encoder = OneHotEncoder () onehot_encoder.fit (X_train) X_train = onehot_encoder.transform (X_train) X_test = onehot_encoder.transform (X_test) # порядковый номер целевой переменной label_encoder = LabelEncoder () label_encoder.fit (y_train) y_train = label_encoder.преобразовать (y_train) y_test = label_encoder.transform (y_test) # определить модель model = LogisticRegression () # подходит для тренировочного набора model.fit (X_train, y_train) # прогноз на тестовом наборе yhat = model.predict (X_test) # оценить прогнозы точность = оценка_точности (y_test, yhat) print (‘Точность:% .2f’% (точность * 100))
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 |
# оценить логистическую регрессию в наборе данных о раке груди с одним горячим кодированием из numpy import mean из numpy import std из pandas import read_csv из sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder from sklearn.metrics import precision_score https://www.metrics.com : //raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv « # загрузить набор данных dataset = read_csv (url, header = None) # получить массив данных data = набор данных.values # разделить на столбцы ввода и вывода X = data [:,: -1] .astype (str) y = data [:, -1] .astype (str) # разбить набор данных на наборы для обучения и тестирования X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.33, random_state = 1) # входные переменные быстрого кодирования onehot_encoder = OneHotEncoder () onehot_encoder () X_train) X_train = onehot_encoder.transform (X_train) X_test = onehot_encoder.transform (X_test) # порядковый номер целевой переменной label_encoder = LabelEncoder () label_encoder.fit (y_train) y_train = label_encoder.transform (y_train) y_test = модельmodel = LogisticRegression () # соответствие на обучающем наборе model.fit (X_train, y_train) # прогнозирование на тестовом наборе yhat = model.predict (X_test) # оценка прогнозов precision = precision_score (y_test, yhat) print (‘Точность:%.2f ‘% (точность * 100)) |
При выполнении примера правильно подготавливается набор данных, а затем оценивается соответствие модели преобразованным данным.
Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.
В данном случае модель достигла точности классификации около 70.53 процента, что немного хуже порядкового номера в предыдущем разделе.
Общие вопросы
В этом разделе перечислены некоторые общие вопросы и ответы при кодировании категориальных данных.
В. Что делать, если у меня смешанные числовые и категориальные данные?
Или, что, если у меня есть смесь категориальных и порядковых данных?
Вам нужно будет подготовить или закодировать каждую переменную (столбец) в вашем наборе данных отдельно, а затем снова объединить все подготовленные переменные в единый массив для подбора или оценки модели.
В качестве альтернативы вы можете использовать ColumnTransformer для условного применения различных преобразований данных к разным входным переменным.
В. Что, если у меня есть сотни категорий?
Или, что, если я объединю множество векторов с горячим кодированием для создания входного вектора из многих тысяч элементов?
Вы можете использовать горячую кодировку до тысяч и десятков тысяч категорий. Кроме того, наличие больших векторов в качестве входных данных звучит пугающе, но модели в целом могут справиться с этим.
В. Какой метод кодирования самый лучший?
Это непостижимо.
Протестируйте каждый метод (и многое другое) в своем наборе данных с выбранной моделью и выясните, что лучше всего подходит для вашего случая.
Дополнительная литература
В этом разделе представлены дополнительные ресурсы по теме, если вы хотите углубиться.
Учебники
Книги
API
Статьи
Сводка
В этом руководстве вы узнали, как использовать схемы кодирования для категориальных данных машинного обучения.
В частности, вы узнали:
- Кодирование — это обязательный этап предварительной обработки при работе с категориальными данными для алгоритмов машинного обучения.
- Как использовать порядковое кодирование для категориальных переменных, имеющих естественный порядок ранжирования.
- Как использовать быстрое кодирование для категориальных переменных, которые не имеют естественного порядка ранжирования.
Есть вопросы?
Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.
Получите представление о современной подготовке данных!
Подготовьте данные машинного обучения за считанные минуты
… всего несколькими строками кода Python
Узнайте, как в моей новой электронной книге:
Подготовка данных для машинного обучения
Он предоставляет учебные пособия для самообучения с полным рабочим кодом на:
Выбор функций , RFE , Очистка данных , Преобразования данных , Масштабирование , Снижение размерности ,
и многое другое…
Используйте современные методы подготовки данных в
проектах машинного обучения
Посмотреть, что внутри
Мощность от данных! Организация данных: переменные
Архивный контент
Информация, помеченная как архивная, предназначена для справочных, исследовательских или учетных целей. Он не регулируется веб-стандартами правительства Канады и не изменялся и не обновлялся с момента его архивирования. Свяжитесь с нами, чтобы запросить формат, отличный от доступных.
Слово переменная часто используется при изучении статистики, поэтому важно понимать его значение. Переменная — это характеристика, которая может принимать более одного набора значений, которым может быть назначена числовая мера.
Рост, возраст, размер дохода, провинция или страна рождения, оценки, полученные в школе, и тип жилья — все это примеры переменных. Переменные можно разделить на различные категории, некоторые из которых описаны в этом разделе.
Категориальные переменные
Категориальная переменная (также называемая качественной переменной) — это переменная, для которой каждый ответ может быть отнесен к определенной категории. Эти категории должны быть взаимоисключающими и исчерпывающими. Взаимоисключающий означает, что каждый возможный ответ на опрос должен принадлежать только к одной категории, тогда как исчерпывающий требует, чтобы категории охватывали весь набор возможностей. Категориальные переменные могут быть номинальными или порядковыми.
Номинальные переменные
Номинальная переменная — это переменная, которая описывает имя или категорию.В отличие от порядковых переменных, не существует «естественного упорядочивания» множества возможных имен или категорий. Пол и тип жилища являются примерами номинальных переменных. В таблице 1 переменная «вид транспорта для поездки на работу» является номинальной, поскольку она описывает категорию транспорта.
Автомобиль, грузовик, фургон в качестве водителя | 9 929 470 |
---|---|
Легковой, грузовой, фургон легковой | 923 975 |
Общественный транспорт | 1 406 585 |
Пешком | 881 085 |
Велосипед | 162 910 |
Другие методы | 146 835 |
Порядковые переменные
Порядковая переменная — это категориальная переменная, для которой возможные категории могут быть размещены в определенном порядке или каким-либо «естественным» способом.В таблице 2 переменная «поведение» является порядковой, потому что категория «Отлично» лучше, чем категория «Очень хорошо» и т. Д. Существует некоторый естественный порядок, но он ограничен, поскольку мы не знаем, насколько «Отлично». поведение лучше, чем «очень хорошее» поведение.
Отлично | 5 |
---|---|
Очень хорошо | 12 |
Хорошо | 10 |
Плохо | 2 |
Очень плохо | 1 |
Числовые переменные
Числовая переменная , также известная как количественная переменная, — это переменная, которая может принимать ряд реальных значений, таких как возраст или количество людей в домашнем хозяйстве.Однако не все переменные, описываемые числами, считаются числовыми. Например, когда вас просят присвоить значение от 1 до 5, чтобы выразить уровень вашего удовлетворения, вы используете числа, но переменная (удовлетворенность) на самом деле является порядковой переменной.
Числовые переменные могут быть непрерывными или дискретными.
Непрерывные переменные
Переменная называется непрерывной, если она может принимать бесконечное количество действительных значений. Примерами непрерывной переменной являются расстояние, возраст и температура.
Измерение непрерывной переменной ограничено используемыми методами или точностью измерительных инструментов. Например, рост ученика является непрерывной переменной, потому что рост ученика может быть 1,6321748755 … метра.
Однако, когда измеряется рост человека, он обычно измеряется с точностью до сантиметра. Таким образом, рост этого ученика будет равен 1,63 м.
Примечание: Для упрощения обработки непрерывные переменные обычно группируются в «интервалы классов», которые будут обсуждаться позже в этой главе.Группирование переменных — это часть процесса организации данных, чтобы они стали полезной информацией.
Дискретные переменные
В отличие от непрерывной переменной, дискретная переменная может принимать только конечное число реальных значений. Примером дискретной переменной может быть оценка, выставленная судьей гимнастке на соревновании: диапазон от 0 до 10, и оценка всегда дается с точностью до одного десятичного знака (, например, , оценка 8,5).
Дискретные переменные также могут быть сгруппированы.Опять же, группировка переменных упрощает их обработку.
Примечание: Измерение непрерывной переменной всегда является дискретным приближением.
Стереотипная логит-модель с эластичной сетью для упорядоченных категориальных данных
DOI: 10.15406 / bbij.2015.02.00049. Epub 2015 20 октября.Принадлежности Расширять
Принадлежности
- 1 Колледж общественного здравоохранения, Темплский университет, США.
- 2 Кафедра биостатистики Университета Содружества Вирджинии, США.
Элемент в буфере обмена
Андре Аа Уильямс и др. Биом Биостат Инт Дж. 2015 г.
Бесплатная статья PMC Показать детали Показать вариантыПоказать варианты
Формат АннотацияPubMedPMID
DOI: 10.15406 / bbij.2015.02.00049. Epub 2015 20 октября.Принадлежности
- 1 Колледж общественного здравоохранения, Темплский университет, США.
- 2 Кафедра биостатистики Университета Содружества Вирджинии, США.
Элемент в буфере обмена
Полнотекстовые ссылки Опции дисплея CiteDisplayПоказать варианты
Формат АннотацияPubMedPMID
Абстрактный
Исследования экспрессии генов приобретают все большее значение в области медицины.Фактически было показано, что подтипы одного и того же заболевания имеют разные профили экспрессии генов. Часто исследователи заинтересованы в дифференциации заболевания по категориальной классификации, указывающей на прогрессирование болезни. Например, может быть интересно идентифицировать гены, которые связаны с прогрессированием, и точно предсказать состояние прогрессирования с использованием данных об экспрессии генов. Одна из проблем при моделировании данных экспрессии генов на микрочипах состоит в том, что существует больше генов (переменных), чем имеется наблюдений.Кроме того, гены обычно демонстрируют сложную дисперсионно-ковариационную структуру. Следовательно, моделирование категориальной переменной, отражающей прогрессирование заболевания, с использованием данных экспрессии генов, представляет необходимость в методах, способных обрабатывать порядковый результат в присутствии многомерного ковариатного пространства. Мы представляем метод, сочетающий модель регрессии стереотипов с эластичным чистым штрафом, как метод, способный моделировать порядковый результат для высокопроизводительных наборов геномных данных. Приводятся результаты применения предложенного метода к данным по экспрессии генов и обсуждается эффективность предложенного метода.
Ключевые слова: Affymetrix; Эластичная сетка; Высокие габариты; Стереотип логит.
Заявление о конфликте интересов
Конфликт интересов Нет.
Цифры
Рисунок 1
Коробчатая диаграмма оценок параметров свыше…
Рисунок 1
Коробчатая диаграмма оценок параметров по повторным выборкам бутстрапа B = 200 для десяти действительно…
Рисунок 1Коробчатая диаграмма оценок параметров по повторным выборкам бутстрапов B = 200 для десяти действительно важных ковариат в составном симметричном моделировании.Окончательная модель была выбрана на основе наивысшего процента правильно классифицированных.
Рисунок 2
Коробчатые диаграммы на основе бутстрапа…
Рисунок 2
Коробчатые диаграммы, основанные на процедуре передискретизации бутстрапов для генов, выбранных из…
фигура 2Коробчатые диаграммы, основанные на процедуре повторной выборки бутстрапов для генов, выбранных в результате применения предложенной модели стереотипного логита.
Похожие статьи
-
Метод порядковых результатов: модель упорядоченного стереотипа.
Фернандес Д., Лю И., Костилья Р. Фернандес Д. и др. Int J Methods Psychiatr Res. 2019 Декабрь; 28 (4): e1801. DOI: 10.1002 / mpr.1801. Epub 2019 30 сен. Int J Methods Psychiatr Res. 2019. PMID: 31568635 Бесплатная статья PMC.
-
Прогнозирование порядковых результатов, когда связь между предикторами и исходом различается между уровнями результатов.
Лант М. Лант М. Stat Med. 2005 15 мая; 24 (9): 1357-69. DOI: 10.1002 / sim.2009. Stat Med. 2005 г. PMID: 15568208
-
Байесовский вывод для модели регрессии стереотипов: применение к исследованию случай-контроль рака простаты.
Ан Дж, Мукерджи Б., Банерджи М., Куни К.А. Ан Дж. И др. Stat Med. 2009 10 ноября; 28 (25): 3139-57. DOI: 10.1002 / sim.3693. Stat Med. 2009 г. PMID: 19731262 Бесплатная статья PMC.
-
Учебное пособие по моделированию упорядоченных категориальных данных ответа.
Агрести А. Агрести А. Psychol Bull. 1989 Март; 105 (2): 290-301. DOI: 10.1037 / 0033-2909.105.2.290. Psychol Bull. 1989 г. PMID: 2648444 Рассмотрение.
-
Модели регрессии для порядковых ответов: обзор методов и приложений.
Анант CV, Кляйнбаум Д.Г. Анант CV и др. Int J Epidemiol. 1997 декабрь; 26 (6): 1323-33. DOI: 10.1093 / ije / 26.6.1323. Int J Epidemiol. 1997 г. PMID: 9447413 Рассмотрение.
LinkOut — дополнительные ресурсы
-
Источники полных текстов
-
Другие источники литературы