Урок №26. Последовательность решения задач анализа данных.
Вы уже знаете, что такое анализ данных, теперь настало время изучить дорожную карту анализа данных.
Она помогает не забывать последовательность шагов и уметь определять необходимые ресурсы, включая временные.
Этап 1. Определение области и целей анализа
Этап 2. Обработка исходных данных
Этап 3. Исследовательский этап анализа данных
Этап 4. Моделирование и прогнозирование
Этап 5. Смысловой поиск
Этап 6. Подготовка и презентация отчёта (упорядочивание информации)
Описанные шаги будут содержаться в любом анализе данных. В проектах, связанных с нейронными сетями и интеллектуальными алгоритмами, этапы 3-4 могут повторяться несколько раз, а также выбираться другие значимые свойства для анализа.
Коэффициент корреляции.При анализе данных, зачастую, появляется задача выявления зависимости одного параметра от другого. Например, необходимо определить есть ли зависимость уровня зрения от количества часов, проведенных за компьютером. Рассмотрим массив данных, в которых для каждого субъекта исследования приведено два параметра — уровень зрения и количество часов, которые он ежедневно проводит перед экраном монитора.
Для определения зависимости используется коэффициент корреляции. Это числовое значение, которое показывает степень линейной зависимости между двумя переменными. Он может принимать значения от —1 до 1, где —1 означает полную обратную корреляцию (то есть, когда одна переменная увеличивается, другая уменьшается), 0 — отсутствие корреляции и 1 — полную прямую корреляцию, то есть, когда обе переменные увеличиваются или уменьшаются вместе.
В электронных таблицах существует специальная функция для определения коэффициента корреляции — КОРРЕЛ или CORREL, в которую передаются два диапазона данных, между которыми определяется зависимость

В данном примере мы получаем значение —0,943475, которое говорит о том, что зависимость существует. Так как полученное число близко к —1. Выявленная зависимость — обратная. То есть, чем больше часов человек проводит за компьютером, тем хуже (ниже) показатель уровня зрения.
Линия трендаДля прогнозирования какого-либо показателя можно использовать линию тренда. Это линия, которая показывает, как меняются значения во времени или в зависимости от другой переменной.

Например, если мы имеем данные о рождаемости и смертности в определенном городе за последние несколько лет, то линия тренда покажет, как изменяется население во времени. Если линия тренда идет вверх, то это означает, что население увеличивается, а если идет вниз, то уменьшается. Линия тренда помогает предсказать, как будет меняться этот показатель в будущем.
Рассмотрим таблицу рождаемости и смертности в Казане за последние 13 лет.
Добавим столбец «Прирост/убыль населения», в который заложим разность между рождаемость и смертностью.

На первый взгляд, ситуация достаточно неплохая. Большинство чисел в последнем столбце положительное. Посмотрим, что покажет линия тренда. Для этого построим точечную диаграмму (зависимость столбца D от столбца А) и добавим на неё линию тренда.

На диаграмме видно, что линия тренда (зеленая) уходит вниз, следовательно, численность населения падает.