Общее·количество·просмотров·страницы

Java Dev Notes - разработка на Java (а также на JavaScript/Python/Flex и др), факты, события из АйТи

четверг, 21 октября 2010 г.

Коэффициент корреляции Пирсона (Pearson)

При рассмотрении одной задачки пришлось вспомнить статистику, а именно - что такое коэффициент корреляции Пирсона (Pearsons's correlation coefficient). Пользовался при этом двумя ссылками: Wikipedia: (Pearson product-moment correlation coefficient) и MachineLearning.ru: Коэффициент корреляции Пирсона.

Итак, коэффициент корреляции Пирсона - мера корреляции (линейной зависимости) между двумя выборками X и Y, принимающая значения от +1 до −1 включительно. Другими словами, коэффициент корреляции Пирсона характеризует существование линейной зависимости между двумя величинами. Равенство коэффициента "+1" указывает на строгую прямую линейную зависимость, "-1" - на обратную. Если коэффициент равен нулю, то выборки линейно независимы.

Пусть даны две выборки:

Коэффициент корреляции Пирсона рассчитывается по формуле:

где - это средние значения выборок X и Y.

Слабые стороны этой метрики:

  • неустойчивость к выбросам

  • С помощью коэффициента корреляции можно определить линейную зависимость между величинами, другие взаимосвязи выявляются методами регрессионного анализа

  • Необходимо понимать различие понятий "независимость" и "некоррелированность". Из первого следует второе, но не наоборот


Ниже показаны примеры выборок и значения коэффициента Пирсона для каждой и зних. Картинка взята из Википедии:

Интерпретация величины коэффициента некоторыми исследователями:




КорреляцияОтрицательноеПоложительное
Отсутствуетот -0.09 до 0.0от 0.00 до 0.09
Малаяот -0.3 до -0.1от 0.1 до 0.3
Средняяот -0.5 до -0.3от 0.3 до 0.5
Большаяот -1.0 до -0.5от 0.5 до 1.0

Комментариев нет:

Отправить комментарий

Постоянные читатели