4. Основы статистики и анализа данных

  1. Виды шкал и переменных
  2. описательная статистика
  3. одномерный распределение
  4. Двумерное распределение или кросс-табуляция
  5. Меры центральной тенденции
  6. Среднее (Mean)
  7. Медиана (Median)
  8. Мода (Mode)
  9. Нормальное распределение (Normal distribution)
  10. Дисперсия и стандартное отклонение
  11. бимодального распределения
  12. квартили
  13. Итог из пяти значений
  14. Сравнение переменных и корреляция
  15. регрессия

В разделе рассматриваются различные способы анализа данных, описываются базовые статистические инструменты и инструменты для сжатия информации средствами статистики

Целью анализа данных является знание об объекте исследования - выявление полезной информации, нахождение выводов, наконец, разумное (взвешенное) принятие решений. Анализ данных может иметь много аспектов и подходов, реализовываться с помощью различных инструментов - в том числе математических, статистических, с помощью различных способов визуализации, но главная задача его - сжатие информации.

Так, в примере с ценой и вкусом черешни на базаре - из предыдущих разделов - количество самых наблюдений очень невелика, и для принятия решения (купли черешни) не нужно применять различные статистические инструменты.

Впрочем, работая с открытым данным, часто можно иметь дело массивами данных, содержащих сотни, тысячи, а то и сотни тысяч наблюдений. Невооруженным глазом человек вряд ли сможет сделать из этих данных какие корректные выводы. Поэтому нужно применять различные средства для обобщения, сжатие информации, представленной в «сырых» или микроданных.

Поэтому нужно применять различные средства для обобщения, сжатие информации, представленной в «сырых» или микроданных

Адаптировано из: US Joint Chiefs of Staff diagram of the relationship between data, information and intelligence JP2-0 2013.

Статистика - наука сбора, представления, анализа и разумной интерпретации данных.

Статистика представляет собой строгий научный метод, позволяющий понять данные, дойти до их сути. Например, в исследовании измеряется вес 100 пациентов. Это уже достаточно большое количество наблюдений, и просто взглянув на данные невозможно получить быстрое информативное представление. Однако статистика может дать мгновенную общую картину данных - на основе доступной для восприятия визуализации или числового обобщения - независимо от количества наблюдений или единиц данных. Кроме обобщения данных, важной задачей статистики является формулировка логических выводов и предсказания зависимостей между переменными.

Статистические методы могут быть использованы для получения ответов типа:

  1. Какого типа данные и в каком количестве нужно собрать?
  2. Как следует организовать и обобщить данные?
  3. Как мы можем проанализировать данные и сделать выводы?
  4. Как мы можем оценить силу выводов и оценить их неуверенность?

Первый вопрос мы несколько рассмотрели в первом разделе, когда говорили о сборе данных. Об организации и структурирования данных мы говорили во второй главе. В этом разделе речь пойдет в основном о обобщение и анализ данных.

Виды шкал и переменных

Мы уже говорили о типах данных в первой главе, но для целей статистического анализа следует дать определение основных типов (и типов шкал) - от этого зависит, какие математические операции можно делать с разными переменными для статистического анализа.

Переменная - любая характеристика объекта измеряется или исследуется. Переменная может принимать различные значения для различных объектов. Выделяют следующие типы шкал:

Номинальная. Категориальная переменная, значение которой не могут быть упорядочены - например имя человека ( «Если бы выборы Президента Украины состоялись в ближайшее воскресенье, за кого бы Вы проголосовали?") Или пол.

Единственная операция, которую можно применять к переменным с номинальной шкале - это перечень, подсчет частоты появления того или иного значения в массиве.

Порядковая. Переменная, значение которой по определению упорядоченные (например «слабо», «умеренно», «сильно»). Примером порядковой переменной в социологическом опроса будет вопрос типа: «Насколько вы доверяете самому себе?» - с вариантами ответа «Совсем не доверяю», «Скорее не доверяю, чем доверяю», «Трудно сказать доверяю или нет», «Скорее доверяю нож не доверяю »,« Полностью доверяю ». Или же значение в поле «Образование» (неполное среднее, среднее, среднее специальное, высшее, высшее, ученая степень).

Значение такой переменной можно сравнивать на тождество, на «больше-меньше», но при этом нельзя сказать насколько больше или меньше.

Метрические шкалы:

Интервальная. Значение переменной упорядочены как в порядковой шкале, но при этом различия между значениями являются содержательными - например, температура по Цельсию, временные интервалы и тому подобное.

Допустимые операции - сложение и вычитание, но не умножения или деления.

Шкалы отношений Шкала измерений количественной свойства, переменные имеют все свойства, и интервальные, но также имеют «естественную» нулевую точку «отсчета» - например возраст, вес, температура по Кельвину.

Сложение, вычитание, умножение, деление - являются содержательными операциями.

Также переменные разделяют на дискретные и непрерывные. Так, количество детей в какой-то семье, количество автомобильных аварий на определенной территории, или количество людей, прочитавших этот текст за последний месяц - это результат простого подсчета случаев наступления определенного явления, и поэтому являются значениями дискретных переменных. Дискретной есть переменная, значениями которой могут быть только целые числа.

А непрерывные переменные - такие как длина, вес, температура, возраст - могут быть измерены достаточно точно, и не имеют минимальной неделимой единицы измерения. Вес может быть измерена с точностью до грамма, а может - и к микрограмма, а возраст - с точностью до дней, часов, минут, секунд.

В небольших массивах данных мы можем найти по крайней мере минимальное и максимальное значение, увидеть, насколько повторяются значения или как много значений близки друг к другу. Для этого достаточно отсортировать массив данных в электронной таблице по определенной колонкой (сменной) - упорядочить массив по определенному признаку. Но когда массивы данных слишком велики, нужно применять другие методы для сжатия информации, получения понимания о характеристиках массива.

описательная статистика

Простейшими способами статистического анализа является описанию статистики, которые, как видно из названия, на самом простом уровне количественно описывают или заключают массив данных.

одномерный распределение

Одномерный распределение - позволяет суммировать частоту, с которой различные значения определенной переменной наблюдаются в наборе данных. Например, мы имеем набор данных, в котором представлены 26 детей в возрасте от 1 до 6 лет. Тогда частотное распределение переменной «возраст» может выглядеть в таблице следующим образом:

Возраст 1 2 3 4 5 6 частоте 5 7 марта 5 4 2

Конечно, когда у нас переменные интервальные и значений их очень много, целесообразно разбить на определенные интервалы, объединить значения переменных по определенным категориям:

Возрастная группа 1-2 3-4 5-6 частотой 8 12 Июнь

Можно также увидеть частоту того или иного значения в виде доли или процента от всех наблюдений. В таблице ниже представлены частотное распределение и относительный частотное распределение.

0 - 25 февраля 0,13 26 - 50 5 0.31 51 - 75 4 0.25 76 - 100 5 0.31 Итого 16 1,00

Как видно из таблицы, результат относительной частоты в в каждой из категорий равен 1 - или 100% - поскольку включает в себя все наблюдения.

Одномерный распределение может быть реализован по качественным и количественным переменных, дискретных и непрерывных, для открытых и закрытых категорий (так, «открытой» категорией будет «люди старше 60 лет», или «доход ниже 3000 грн»). Мы можем классифицировать данные по количественным характеристикам - такими как возрастные группы, зарплата, уровень дохода и т.д.; можем классифицировать по качественным характеристикам - такими как пол, профессия, национальность и тому подобное.

Пример - частотное распределение количественных дискретных данных с открытой категорией 0 - 5000 15 0,30 5000 - 10000 25 0,50 10 000 - 10 0,20 Итого 50 1,00 пример - частотное распределение данных номинальной шкалы измерения Мужчины 20 0,40 Женщины 30 0,60 Итого 50 1,00

Двумерное распределение или кросс-табуляция

Еще одним способом обобщения данных в таблице является двовимириний распределение - «кросс-табуляция». По сути, это таблица, представляющая данные, сопоставляя две отдельные характеристики (переменные) - по колонкам и строкам. Так, в колонках - разные значения (или группы значений, категории) одной переменной, а в строках - значение другой переменной.

В предыдущем разделе, где речь шла о структурировании данных, мы рассматривали в качестве примера таблицу данным Госстата - в качестве примера плохо структурированных данных.

Винницкая 35441 37323 39184 Волынская 19546 20609 21971 Днепропетровская 95349 99995 109545 Донецкая 128767 135362 114135

Важно понимать, что с точки зрения грамотного и аккуратного структурирования данных - до начала анализа - в наборе данных (в таблице) все переменные должны быть в колонках, все наблюдения в строках, а на их пересечении - значения переменных для наблюдений.

Но для анализа данных, мы можем сравнивать одни переменные с другими, делать кросс-табуляцию, строить двумерные распределения - например для того, чтобы на самом простом уровне выявить зависимости между переменными.

Возьмем для примера два одномерных распределения приведенных выше - по доходу и полу.

0 - 5000 5000 - 10000 Мужчины 7 сентября Женщины 16 августа Вместе в колонках 15 25

Строя таблицу распределения для набора данных, содержащего большое количество наблюдений, следует придерживаться следующих основных правил:

  • Найти наименьшее и наибольшее значение переменной
  • Определить «ширину» категорий, по которым будут сгруппированы значение переменной
  • Включить все возможные значения переменной

Определяясь с шириной интервала, нужно найти компромисс - чтобы интервалы были достаточно узкими (чтобы все или большинство наблюдений не попавшие в один интервал), и при этом достаточно широкими (чтобы не получилось так, что будет в по одному наблюдению в интервале). Также важно, чтобы интервалы были взаимно исключительными.

Меры центральной тенденции

В статистике, такие показатели распределения как среднее, мода и медиана - называют мерами центральной тенденции. Они показывают общие характеристики распределения данных по определенной переменной, позволяют выявить одно значение (или несколько значений - если мода в распределении не одна, но об этом подробнее позже), описывающий все распределение. Можно сказать, что среднее, мода и медиана - это отдельные значения представляющие весь набор данных, типичные для всех значений в группе.

Меры центральной тенденции нужны по следующим соображениям:

  1. Чтобы получить общую картину распределения. Мы не можем запомнить каждый факт, касающийся сферы исследования.

  2. Чтобы получить четкую картину исследуемой сферы для понимания и получения нужных выводов.

  3. Чтобы получить четкое описание группы в целом и иметь возможность сравнивать две или более групп в терминах обычной «поведения».

Среднее (Mean)

Самой известной мере центральной тенденции - и наиболее применяемой в повседневном быту - есть среднее, или же простое среднее, или арифметическое среднее (arithmetic mean) - просто среднее значение ряда данных.

Для его вычисления достаточно сложить вместе все значение в распределении, и разделить на количество наблюдений. В Эксель или Google Spreadsheets для этого есть функция MEAN. Есть разные математические способы подсчеты среднего, но во всех современных электронных таблицах и специальных программных пакетах для работы с данными и статистикой эта функция, поэтому мы не будем останавливаться на математических выкладках.

Есть определенные общие правила для использования среднего, в частности:

  1. Среднее - это «центр тяжести» распределения, и каждое значение дает вклад в определение среднего значения, когда распространение значений являются симметричными вокруг центральной точки.

  2. Среднее значение более стабильное, чем медиана или мода. Поэтому, когда нужно найти наиболее стабильную мере центральной тенденции, используют среднее.

Преимущества среднего:

  1. Среднее определено очень жестко, поэтому не возникает вопросов или непонимание по его значения и сути.

  2. Это наиболее распространенная мера центральной тенденции, поскольку ее легко понять.

  3. Среднее легко подсчитать.

  4. Учитывает все значения распределения.

Ограничения или недостатки среднего:

  1. На значение среднего влияют экстремальные значения (известный ироничную шутку о «среднюю температуру по больнице»).

  2. Иногда средним имеет значение, не присутствует в распределении.

  3. Иногда результатом могут быть абсурдные значения. Например, есть 41, 44, и 42 учеников в 5а, 5б и 5в классах какой школы. Получается, что среднее количество учеников в 5 классах школы - 42,3 (3). А так не бывает.

Медиана (Median)

Медиану можно определить как точку на ряде распределения (упорядоченный набор значений переменной для различных наблюдений - например от малого до большого значения) - до этой точки расположены половина всех значений, и после этой точки тоже половина значений. То есть, медиана, это значение, делит упорядоченный ряд пополам. Если количество значений нечетная, то берется одно из значений - то, что стоит в распределении ровно по центру.

Когда значений четное количество, то берут два центральных значение, и находят их среднее.

Для чего используют медиану?

  1. Когда нужно найти точную среднюю точку, точку на «полпути» от наименьшего значения к наибольшему.

  2. Когда экстремальные значения влияют на среднее - медиана является лучшей степени центральной тенденции.

  3. Медиану используют когда нужно, чтобы определенные значения влияли на центральную тенденцию, но все, что о них известно - что они «ниже» или «выше» медианы

Преимущества медианы:

  1. Легко вычислить и понять.

  2. Для подсчета медианы не нужны все значение в распределении.

  3. Экстремальные значения распределения не влияют на медиану.

  4. Ее можно определить и для «открытых» категорий / классов интервалов.

Ограничения медианы:

  1. Она не так жестко определена как среднее, так как ее значение не так высчитывается, как находится (среди значений в распределении).

  2. Не учитывает все наблюдения (значение для всех наблюдений).

  3. С медианой потом нельзя делать алгебраические преобразования так, как со средним.

  4. Требует упорядочения значений или классов интервалов в восходящем или нисходящем порядке.

  5. Время медианой может быть значение, присутствует только в самом распределении.

Мода (Mode)

Третья мера центральной тенденции - это мода - значение, чаще всего встречается в распределении. Как правило, она представляет наиболее типичное значение. На моду никогда не влияют экстремальные значения в распределении, а влияют - экстремальные частоты значений, насколько часто то или иное значение переменной встречается в распределении.

Мода используется:

  1. Когда нам надо быстрая и приблизительная мера центральной тенденции.

  2. Когда нужна мера центральной тенденции, должно быть типичным значением.

Преимущества моды:

  1. Мода показывает наиболее распространенное значение в распределении.

  2. На моду не влияют экстремальные значения - так как на среднее.

  3. Моду можно определить для открытых интервалов / категорий.

  4. Помогает анализировать качественные данные.

  5. Моду можно обнаружить просто построив график распределения или столбчатую диаграмму.

ограничения:

  1. Не включает в определение / расчета все наблюдения распределения, а только концентрацию частот.

  2. Дальнейшие алгебраические преобразования невозможны - в отличие от среднего.

  3. Бывает трудно определить моду в случае багатомодального или бимодального распределения

Распределение может иметь более двух популярных значений, но если имеет более трех мод, описание такого распределения в терминах наиболее частых значений может терять всякий смысл.

Как читатель уже мог заметить, мы уже активно используем графическое отображение, визуализацию данных - для их анализа.

Мы можем представить распределение данных (особенно одномерный распределение) различного типа графиками. Как правило, используются два измерения (две оси) в графиках для распределений. На оси X располагают значения переменных, а на оси Y - частоту этих переменных - в абсолютных или относительных значениях.

Напомним себе, что анализ данных, построение определенных выводов на основе массивов данных - это, в первую очередь, сжатие информации, ее обобщение. Так, построение простой столбчатой ​​диаграммы - средствами любой электронной таблицы, например, - дает нам возможность быстро и просто - визуально - определить моду или медиану. Подробнее визуализацию данных будет рассмотрен в следующей главе, но в целом, надо помнить, что визуализация данных - не только важный элемент представления данных, например, во время публикации результатов исследования, но и важный элемент анализа, позволяет быстро находить особенности в массиве данных , делать определенные выводы, подталкивать на те или иные пути дальнейшего анализа.

Собственно, объяснение следующего важного понятия в статистике - нормального распределения - вряд ли возможно без визуализации, без графику т.н. «Кривой Гаусса».

Нормальное распределение (Normal distribution)

Распределение в котором все три степени центральной тенденции совпадают - то есть среднее равно медиане и равна моде, называется нормальным (есть еще другие характеристики нормального распределения, но о них позже - а эти являются основными).

Распределение в котором все три степени центральной тенденции совпадают - то есть среднее равно медиане и равна моде, называется нормальным (есть еще другие характеристики нормального распределения, но о них позже - а эти являются основными)

В нормальном распределении среднее, мода и медиана совпадают

Его также называют распределением Гаусса или «колоколовидных» (bell-shaped curve) - ведь график нормального распределения похож на форму колокола в профиль. Иногда говорят, что нормальное распределение играет в статистике такую ​​же роль, как Ньютонова механика - в физике.

Нормальное распределение - наиболее известный из всех распределений, и его применяют для анализа наверное больше других. Поскольку нормальное распределение так хорошо описывает много природных явлений, то он стал де-факто стандартом отсчета для многих вероятностных / статистических задач.

Например, возьмем распределение роста женщин определенного возраста в определенной стране. Наиболее популярными будут значения, соответствующие «среднему роста», а в экстремальных значений - очень низкий рост и очень высокий - будет очень мало.

Распределение роста (условный)

Почему модель нормального распределения полезной?

  • Многие вещи в мире является «нормально распределенными», или очень близкими к нормальному распределению. Кроме роста, о котором мы говорили, погрешности измерения также имеют нормальное распределение.

  • С нормальным распределением легко работать математическими средствами. Во многих практических случаях, методы, разработанные с использованием теории нормального распределения, работают достаточно хорошо, если распределение и не является нормальным.

  • Применение нормального распределения позволяет выявлять различные аномалии и в общественной жизни - например фальсификации на выборах ( news.liga.net/articles/politics/767097-gauss_protiv_falsifikatsiy_anomalii_na_vyborakh_2012.htm )

В нормальном распределении, большая часть значений данных имеет тенденцию к группировке, «кластеризации» вокруг среднего значения. Чем дальше значение среднего - тем меньше вероятность его появления. Конечно, распределения в реальной жизни совершенно точно не соответствуют нормальному. Но вы удивитесь, как много явлений, в распределении по своим параметрам очень приближаются к нормальному распределению. Центральная предельная теорема теории вероятности свидетельствует о том, что совокупность независимых, примерно одинаково распределенных величин имеет нормальное распределение.

Значение в распределении также делят по оси X по стандартным отклонениям (standard deviations). Стандартное отклонение используется как индикатор того, насколько «разбросанными» относительно среднего является значение определенной переменной в наборе данных, и измеряется в тех же единицах измерения, что и переменная, распределение. Важно знать, что в нормальном распределении 68% значений находятся в пределах одного стандартного отклонения от среднего (то есть +/- 1 стандартное отклонение)

Важно знать, что в нормальном распределении 68% значений находятся в пределах одного стандартного отклонения от среднего (то есть +/- 1 стандартное отклонение)

При этом, 95% значений - в пределах двух стандартных отклонений от среднего, а 99.7% - в пределах трех стандартных отклонений.

Дисперсия и стандартное отклонение

Что же такое это стандартное отклонение, и как его считают? Формула подсчета самом деле очень проста - это корень квадратный от дисперсии (variance).

Дисперсия является мерой отклонения значений случайной величины от центра распределения (среднего). Большие значения дисперсии свидетельствуют о больших отклонения значений случайной величины от центра распределения. Дисперсия подсчитывается как среднее квадратов разности значений распределения и среднего распределения. То есть, сначала обнаруживаем среднее распределения, затем от каждого значения вычитаем значение среднего, подносим его в квадратный степень, для всех этих квадратов высчитываем среднее. Это и будет дисперсия. Для того, чтобы получить стандартное отклонение, измеряется в тех же единицах, что и значение переменной, которую мы наблюдаем, берется квадратный корень из дисперсии.

Меры разброса - такие как дисперсия и стандартное отклонение - дают нам понимание, насколько хорошо, например, среднее представляет весь набор данных. Если разброс значений в распределении большой, то среднее не является репрезентативным, чем если разброс данных мал. То есть, большой разброс данных означает, что, вероятно, есть большие различия между значениями.

бимодального распределения

Важно также иметь в виду, что кроме нормальных распределений, измеренные общественные явления могут образовывать и другие распределения - например бимодального, то есть в которых не одна мода ( «популярное» значения), а две (или больше - хотя считают, более трех мод в распределении не имеют смысла для анализа). То есть, два пика в бимодальным распределении также представляют два локальных максимума.

То есть, два пика в бимодальным распределении также представляют два локальных максимума

Пример бимодального распределения - спрос на электроэнергию по часам суток. Источник - Антимонопольный комитет Украины

Бимодальнисть распределения дает важную информацию о природе переменной, анализируется. Например, если переменная представляет собой уровень отношения людей к чему-то, то бимодальное распределение может означать противоположность мнений. Также бимодальнисть может показать, что выборка не является однородной, и то, что мы наблюдаем - вызвано двумя или более наложенными делениями. Так, например, распределение людей определенного возраста по весу будет бимодального, если не выделить в отдельные группы мужчин и женщин.

Распределение веса (условный)

Иногда бимодальное распределение может означать, что выбранные инструменты не подходят для измерения явления (например «проблемы разметки» в естественных науках, «смещены ответы» в общественных).

квартили

Квартили делят распределение данных на четыре равные части. Значения, которые делят ряд распределения, называются первым (Q1), вторым (Q2) и третьим квартилей (Q3). Значение второго квартиль соответствует значению медианы - поскольку ровно 50% значений находятся во второй квартиль и 50% значений - после второго квартиль. Первый квартиль - это значение, находящееся посередине между наименьшим значением и вторым квартилей.

Квартили - это полезный инструмент измерения разброса, поскольку они гораздо меньше зависимы от экстремальных значений или перекоса в наборе данных, чем среднее и стандартное отклонение. Поэтому информацию о квартили часто подают вместе с медианой (как меры разброса и центральной тенденции) - в случае работы с массивами данных, где есть существенные перекосы или экстремальные значения. Часто квартили подают в виде мижквартильного размаха - как разницу между третьим и первым квартилями.

Итог из пяти значений

Итог из пяти значений - это вид описательной статистики, предоставляет информацию о наборе наблюдений, и, как видно из самого названия - состоит из пяти важных показателей:

  1. Минимальное значение в наблюдении
  2. Первый (или нижний) квартиль
  3. Медиана (срединное значение)
  4. Третий (или верхний) квартиль
  5. максимальное значение

Эти пять показателей дают достаточно исчерпывающий результат распределения наблюдений. Преимущество наличия этих пяти показателей, в частности, в том, что не нужно решать, какая итоговая статистика будет наиболее приемлемой для анализа распределения. Так, пять показателей дают информацию о центральной тенденции (медиана), размах (квартили) и диапазон (минимальное и максимальное значения).

Некоторые варианты визуализации «итоге пяти значений»

Некоторые варианты визуализации «итоге пяти значений»

Сравнение переменных и корреляция

Наиболее наглядный пример показать связь между двумя количественными переменными - это диаграмма рассеяния. В отличие от гистограмм, которые мы рассматривали ранее - при анализе одномерных распределений на оси y показывает не частоту того или иного значения переменной по оси x, а значение другой переменной. Точка на диаграмме означает одновременно значения двух переменных для одного наблюдения ( «строка» в таблице данных).

Точка на диаграмме означает одновременно значения двух переменных для одного наблюдения ( «строка» в таблице данных)

диаграмма рассеяния

В корреляции есть два свойства - сила и направление. Сила корреляции определяется числовым значением, а направление - тем, корреляция положительная или отрицательная.

  • Положительная корреляция: обе переменные меняются в том же направлении. То есть, если одна переменная растет, вторая растет тоже. Если одна приходит, то вторая приходит так же.

    • Например, уровень образования - сколько лет человек учился (в нормальных странах) и годовой заработок коррелируют между собой положительно.
  • Отрицательная корреляция: переменные движутся в противоположных направлениях. По мере того, как одна переменная приходит, другая растет, и наоборот.

    • Например - количество часов, проведенных человеком во сне и количество часов бодрствования - коррелируют отрицательно (что очевидно - чем больше спишь - тем меньше времени остается наяву, и наоборот).

Отрицательная и положительная корреляции

Коэффициент корреляции показывает степень, в которой две переменные связаны (насколько совместно или подобно меняются их значение для различных наблюдений) - то есть какой силы между ними может быть связь. Значение коэффициента корреляции может быть от -1.0 до 1.0. Если рассчитана корреляция больше 1 или меньше -1 - значит где-то в подсчетах произошла ошибка, ведь 1 - означает абсолютную прямую (положительную) корреляцию, а 1 - абсолютное обратную (негативную) корреляцию.

Как подсчитывается коэффициент корреляции? Равна сумме произведений отклонений, деленной на произведение их стандартных отклонений

Что значит, когда мы говорим, что между двумя переменными Нет корреляции? Это означает, что между двумя переменными нет прямой связи. Например, нет прямой корреляции между размером обуви и зарплатой. То есть, большие значения размера обуви имеют такие же шансы встретиться среди людей с высокой зарплатой, как с низкой.

Корреляция и причинно-следственная связь. Даже если две переменные выглядят связанными между собой, это не значит, что одна вызвала другую. Классический пример - это корреляция между ростом преступности и потреблением мороженого в течение летних месяцев в США. Две переменные являются связанные между собой, но ни одно явление не является причиной другого. На самом деле, оба явления вызваны повышением температуры воздуха, а не друг другом.

Важно также помнить, что корреляция - это мера линейной связи. При этом, корреляция не говорит нам, какая переменная влияет на какую - корреляция только показывает наличие связи, но влияния. Измеряя корреляцию, нельзя сказать - это А влияет на Б, или Б влияет на А.

Диаграмма рассеяния для двух переменных может выглядеть, например, так:

Для этих двух переменных корреляция будет равна нулю. Но это еще не значит, что связи между переменными нет - просто он может быть не линейным.

регрессия

Напомним, что значение переменной, по определению, может варьироваться, меняться от одного наблюдения к другому - например, для различных индивидов с различными характеристиками, или для различных промежутков времени. При работе со статистическими моделями, в которых некоторые переменные используются для того, чтобы предусмотреть другие исследователи пытаются обнаружить, что разные переменные не изменяются независимо (в статистическом смысле), а они имеют тенденцию меняться вместе.

Для этого выделяют зависимую и независимую переменную - то есть делается предположение, что зависимая переменная меняется в зависимости от значений независимой переменной (например, как меняется уровень потребления природного газа домохозяйствами - в зависимости от температуры воздуха в Украине).

Регрессионный анализ помогает понять, как типичное значение зависимой переменной меняется, когда меняется независимая переменная (в то время как другие независимые переменные зафиксировано). Регрессия не только позволяет увидеть, как одна переменная влияет на другую, но и делать предсказания (например, за пределами данных наблюдений).

Этот метод впервые был использован для изучения связи между ростом родителей и сыновей. Эти две переменных, конечно, были связаны между собой, но корреляция была меньше 1,0. Так, высокий отец мог иметь сыновей, ниже него, а низкорослый отец - высших него сыновей. Высота сыновей «регрессировала» ( «двигалась назад») до среднего значения. Теперь термин «регрессия» используется для разного вида подбора формул для описания зависимости переменных.

Линия регрессии (а мы рассматриваем сейчас простую линейную регрессию) - это прямая линия, пытается объяснить и предсказать зависимости между двумя явлениями, также известная как линия тренда. Простая линейная регрессия - это предвидение, когда одна переменная (y) зависит от другой переменной (x), на основе уравнения регрессии (функции) для определенного набора данных.

Почему мы предполагаем, что связь между переменными является линейным?

  1. Потому что линейные связи являются самыми простыми не тривиальная связями, которые можно представить (и, соответственно, с ними проще работать)

  2. Потому что «реальные» связи между переменными часто есть по крайней мере примерно линейными для распределения значений, нас интересует.

  3. Даже если связи таковыми не являются (не является линейным), часто мы можем трансформировать переменные таким образом, чтобы сделать связи линейными

Это сильное предположение, и первым шагом в построении регрессионной модели стоит посмотреть на диаграмму рассеяния переменных, чтобы понять, имеет ли смысл делать регрессионный анализ вообще. После подгонки модели, стоит исследовать графики ошибок (plots of the errors), чтобы увидеть, есть ли необъяснимые нелинейные паттерны. Это особенно важно, если целью является сделать предположение или предсказания сценариев за пределами имеющихся исторических данных (когда отличии от четкой линейной модели вероятно будут иметь наибольший эффект).

Результатом регрессионного анализа должно быть построение уравнения (функции зависимости - зависимой переменной от независимой переменной) - например

y = 15 + 3 x

MS Excel имеет возможности для расчета коэффициента регрессии. Для этого нужно доинсталюваты «Пакет анализа» в надстройках (как это сделать: goo.gl/Josoz3 ).

Итак, в регрессии две функции - предсказания и объяснения причин. Предсказания дает нам представление, как будет вести себя зависимая переменная, если независимая переменная будет принимать определенные значения; то есть, имея x, можно спрогнозировать y (ведь нам известное уравнение регрессии на основе массива наблюдений). Помощь факторов - это возможность понять насколько, y зависит от x, какой вклад делает независимая переменная в зависимую. Но, важно помнить, что в данном случае мы говорим только о линейная связь.

Как следует организовать и обобщить данные?
Как мы можем проанализировать данные и сделать выводы?
Как мы можем оценить силу выводов и оценить их неуверенность?
«Если бы выборы Президента Украины состоялись в ближайшее воскресенье, за кого бы Вы проголосовали?
Примером порядковой переменной в социологическом опроса будет вопрос типа: «Насколько вы доверяете самому себе?
Для чего используют медиану?
Как подсчитывается коэффициент корреляции?
Почему мы предполагаем, что связь между переменными является линейным?