Выселение. Приватизация. Перепланировка. Ипотека. ИСЖ

Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимоза­висимостях только формируются.

Умение работать с данной статистической техникой важно и в силу того, что она используется как со­ставная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.

Целью корреляционного анализа является измерение стати­стической взаимозависимости между двумя или более переменными. В слу­чае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух - множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» - они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколь­ко методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них - метод Пирсона (Pearson) . Его применение ограничено следующими условиями:

Переменные должны быть измерены, как минимум, на интер­вальном уровне;

Связь между переменными должна носить линейный характер, т.е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватно­го отображения;

Коэффициент Пирсона вычисляется по следующей формуле: ,

где Xj и у/ - значения двух переменных, х и у - их средние значения, sx и sy - их стан­дартные отклонения; п - количество пар значений.

Анализируемые переменные должны быть распределены нор­мально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статисти­ческой взаимосвязи между переменными:

Направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

Интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной пе­ременной на основании значений другой.

Чтобы более наглядно представить себе особенности корреляцион­ного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный ана­лиз электората двух политических партий либеральной ориентации - Союза правых сил и «Яблока». Наша задача - понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федера­ции. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, по­скольку выборы в Чеченской Республике не проводились).

bgcolor=white>7.24
Случай Переменные (%)
«Яблоко» СПС
Республика Адыгея 4,63 3,92
Республика Алтай 3,38 5,40
Республика Башкортостан 3,95 6,04
Республика Бурятия 3,14 8,36
Республика Дагестан 0,39 1,22
Республика Ингушетия 2,89 0,38
Кабардино-Балкарская Республика 1,38 1,30
Республика Калмыкия 3,07 3,80
Карачаево-Черкесская Республика 4,17 2,94
Республика Карелия 9,66 10,25
Республика Коми 8,91 9,95
Республика Марий Эл 4,68
И т.д. (всего 88 случаев)

Таким образом, у нас есть две переменные - «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне реги­онов РФ.

Далее, в нашем распоряжении есть методический прием, кото­рый является одним из основных в статистике, - геометрическое представление. Геометрическим представлением называют представ­ление случая как точки в условном пространстве, формируемом «осями» - переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось Сформирует признак «поддержка СПС», ось Г- «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X- значение переменной «поддержка СПС» (процент, набранный в регионе дан­ной партией); по оси Г- значение переменной «поддержка "Ябло­ка"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай - (3,38; 5,4) и т.д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.

Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квад­ратов расстояний от наблюдаемых точек до прямой является минимальной).

Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициен­те корреляции (обозначается г), который и является числовым ре­зультатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г= 1 связь приобретает характер функциональной - все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статис­тической связи (подробнее об интерпретации коэффициента кор­реляции см. ниже).

Тип связи определяется наклоном линии регрессии. В коэффици­енте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак « + » традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.

Сегодня коэффициент корреляции Пирсона можно легко подсчи­тать с помощью всех компьютерных пакетов программ статистическо­го анализа (SPSS, Statistica, NCSS и др.) и даже в широко распростра­ненной программе Excel (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.

Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод - именно зри­тельная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется беспо­лезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т.е. нетипичные, резко выделяющиеся случаи.

Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистра­ли», тенденции связи переменных. Это точка, представляющая дан­ные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт- Петербурга.

Можно скорректировать данные анализа, удалив сильно отклоня­ющиеся наблюдения, т.е. произведя «чистку выбросов». В силу специ­фики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.

Удалив только один из 88 случаев - Самарскую область, - мы по­лучим значение коэффициента корреляции, отличное от полученно­го ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 - это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской об­ластям, получим еще более высокую плотность: 0,77.

Впрочем, чисткой выбросов не следует увлекаться: сокращая ко­личество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых кри­териев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ - содержательно понять, с чем связано наличие «выброса». Так, в нашем примере не­типичное положение Самарской области в признаковом простран­стве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.

Возвратимся к нашему исследованию. Мы выяснили, что голосо­вание за СПС и «Яблоко» довольно плотно коррелирует между собой на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие - в сельских районах. Мы можем выдвинуть гипотезу, что од­ним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего операционализировать через переменную «доля сельского населения» или «доля городского населения». Такая статистика существует по каждо­му субъекту Федерации.

Теперь в наших исходных данных появляется третья переменная - пусть это будет «доля сельского населения».

Чисто технически мы можем вычислять каждый парный коэффици­ент корреляции отдельно, но удобнее сразу получить матрицу интер­корреляций (матрицу парных корреляций). Матрица обладает диаго­нальной симметрией. В нашем случае она будет выглядеть следующим образом:

Мы получили статистически значимые коэффициенты корреля­ции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Мож­но заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».

Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская области и Усть-Ордынский Бурятский АО) плотности коэффициента для СПС увеличивается до -0,65.

В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых пе­ременных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.

Интерпретация интенсивности связи

Мы подошли к проблеме интерпретации интенсивности связи на ос­нове значения коэффициента корреляции Пирсона.

Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Тра­диционной можно считать следующую схему интерпретации данного коэффициента:

Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораз­до большей степени опирающихся на количественные данные, не­жели наука политическая (например, в экономике). В эмпиричес­ких исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 - случай просто уникаль­ный. Это связано прежде всего с особенностями мотивации поли­тического поведения - сложной, многофакторной, нередко ирра­циональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию, не может целиком подчи­няться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:

0,4 > г> 0,3 - слабая корреляция;

0,6 > г> 0,4 - средняя корреляция;

Г> 0,7 - сильная корреляция.

Существует еще одна полезная процедура, позволяющая оце­нить значимость коэффициента корреляции в процессе вычисле­ния коэффициента детерминации, который представляет собой г, возведенный в квадрат (г 2). Смысл процедуры состоит в том, что при возведении в квадрат низкие коэффициенты потеряют «в весе»

гораздо сильнее, чем высокие. Так, 0,9 2 = 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2 = 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2 = 0,42. Несколько упрощая реальное положение дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.


1991 1993 1995 19961 1999 2000 2003 2004
1991 1
1993 0,83 1
1995 0,52 0,66 1
1996 0,43 0,47 0,76 і
1999 0,14 0,26 0,61 0,56 1
2000 0,13 0,15 0,34 0,47 0,74 1
2003 0,04 0,13 0,36 0,38 0,81 0,75 1
2004 0,04 0,10 0,11 0,21 0,55 0,66 0,73 1

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г= 0,76; 1999 - 2000: г = 0,74; 2003 - 2004: г= 0,73). На максимальной времен­ной дистанции - между президентскими и парламентскими выбора­ми 1991 - 1993 и 2003 - 2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени проис­ходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парла­ментских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определен­ная преемственность обнаруживается на протяжении восьми лет, в те­чение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свиде­тельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электораль­ной культуры территорий.

Другие коэффициенты корреляции

Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим чис­лом категорий)?

гораздо сильнее, чем высокие. Так, 0,9 2= 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2= 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2= 0,42. Несколько упрощая реальное положе­ние дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обна­ружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной ха­рактеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных ре­гионов России.

Устойчивость пропорционального распределения явки по субъ­ектам Федерации достаточно просто проверяется методом корреля­ционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991 - 2004 гг. довольно четко демонстрирует существующую тенденцию. Статис­тическая связь наиболее сильна внутри одного электорального цик­ла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

Изучение реальной действительности показывает, что практически каждое общественное явление находится в тесной связи и взаимодействии с другими явлениями, какими бы случайными они не казались на первый взгляд. Так, например, уровень урожайности сельскохозяйственных культур зависит от множества природных и экономических факторов, тесно связанных между собой.

Исследования и измерения взаимосвязей и взаимозависимостей социально-экономических явлений является одной из важнейших задач статистики.

Для исследования взаимосвязей между явлениями статистика использует ряд методов и приемов: статистические группировки (простые и комбинационные). индексный, корреляционный и дисперсионный анализ, балансовый, табличный, графический и др. Содержание, специфика и возможности применения некоторых из перечисленных методов уже были рассмотрены в предыдущих разделах учебника. Индексный и графический методы рассматриваются соответственно в 11 и 12 главах.

Наряду с уже рассмотренными методами изучения взаимосвязей особое место занимает метод корреляции, который является логическим продолжением таких методов как аналитическое группировки, дисперсионный анализ и сопоставление параллельных рядов. В сочетании с этими методами он предоставляет статистическому анализу законченный, завершенный характер.

Основателями теории корреляции являются английские статистики Ф.Гальтон (1822-1911 гг.) и К.Пірсон (1857-1936 гг.).

Срок корреляция происходит от английского слова correlation - соотношение, соответствие (взаимосвязь, взаимозависимость) между признаками, которая проявляется при массовом наблюдении изменения средней величины одного признака в зависимости от значения другой. Признаки, связанные между собой корреляционным связью, называют корельованими.

Корреляционный анализ дает возможность измерить степень влияния факторных признаков на результативные, установить единую меру тесноты связи и роль изучаемого фактора (факторов) в общем изменении результативного признака. Корреляционный метод позволяет получить количественные характеристики степени связи между двумя и большим числом признаков, а потому в отличие от рассмотренных выше методов, дает более широкое представление о связи между ними.

Связи между факторами достаточно разнообразны. При этом одни признаки выступают в роли факторов, действующих на другие, вызывая их изменение, вторые-в роли действия этих факторов. Первые из них называют факторными признаками, вторые -результативными.

Исследуя связи между признаками, необходимо выделить прежде всего два вида связей: 1) функциональный (полный) и 2) корреляционная (статистическая) связь.

Функциональным называют такую связь между признаками, при которой каждому значению одной переменной (аргумента) соответствует строго определенное значение другой переменной (функции). Такие связи наблюдаются в математике, физике, химии, астрономии и других науках.

Например, площадь круга (8 = яР2) и длина окружности (С = 27ГЇР) полностью определяется величиной радиуса, площади треугольника и прямоугольника - длина их сторон и т.д. Так, с увеличением радиуса окружности на 1 см его длина увеличивается на 6,28 см, на 2 см - на 12,56 см и т.д.

В сельскохозяйственном производстве примером функциональной связи может быть связь между выручкой от продажи продукции, цене реализации 1 ц и количеством реализованной продукции; валовому сбору, урожайности и размеру посевной площади; фондоотдачей, стоимостью валовой продукции и основных фондов; заработной платой и количеством отработанного времени при повременной оплате и т.д.

Функциональная связь проявляется как в совокупности в целом, так и в каждой ее единицы абсолютно точно и выражается с помощью аналитических формул.

В социально-экономических явлениях функциональные связи между признаками случаются редко. Здесь чаще всего имеют место следующие связи между переменными величинами, при которых численному значению одной из них соответствует несколько значений другого. Такая связь между признаками получил название корреляционной (статистической) связи. Например, известно, что с увеличением доз минеральных удобрений и улучшением их структуры (соотношения), как правило, урожайность сельскохозяйственных культур повышается, но хорошо известно, что прирост урожайности в каждом отдельном случае будет разным при одинаковых нормах внесения удобрений. Кроме того, одни и те же нормы удобрений, даже при очень выровненных условиях, часто по-разному влияют на урожайность. Кроме самих удобрений на величину формирования урожайности влияют также другие факторы, прежде всего, такие как качество почвы, осадки, сроки и способы сева и уборки и т.д. Известна закономерность между урожайностью и удобрениями проявится при достаточно большом количестве наблюдений и при сравнении достаточно большого количества средних значений результативного и факторного признаков.

Примером корреляционной связи в сельскохозяйственном производстве может быть связь между продуктивностью животных и уровнем кормления, качеством кормов, породностью скота; между стажем работы и производительностью труда рабочих и т.д.

Корреляционная связь является неполным, он проявляется при большом количестве наблюдений, при сравнении средних значений результативного и факторного признаков. В этом отношении выявление корреляционных зависимостей связано с действием закона больших чисел: только при достаточно большом количестве наблюдений индивидуальные особенности и второстепенные факторы сгладятся и зависимость между результативным и факторным признаками, если она имеет место, окажется достаточно отчетливо.

С помощью корреляционного анализа решают следующие основные задачи:

а) определение среднего изменения результативного признака под влиянием одного или нескольких факторов (в абсолютном или относительном выражении);

б) характеристика степени зависимости результативного признака от одного из факторов при фиксированном значении других факторов, включенных в корреляционной модели;

в) определение тесноты связи между результативными и факторными признаками (как со всеми факторами, так и с каждым фактором в отдельности при исключении влияния других);

г) определение и разложения общего объема вариации результативного признака на соответствующие части и установление роли каждого отдельного фактора в этой вариации;

д) статистическая оценка выборочных показателей корреляционной связи. Корреляционная связь выражается соответствующими математическими уравнениями. По направлению связь между корелюючими признакам может быть прямым и обратным. При прямой связи оба признака изменяются в одном направлении, то есть с увеличением факторного признака возрастает результативная и наоборот (например, связь между качеством почвы и урожайностью, уровнем кормления и продуктивностью животных, стажем работы и производительностью труда). При обратном связи оба признака изменяются в разных направлениях (например, связь между урожайностью и себестоимостью продукции, производительностью труда и себестоимостью продукции).

По форме или аналитическим выражением различают связи прямолинейные (или просто линейные) и нелинейные (или криволинейные). Если связь между признаками выражается уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой (параболы, гиперболы, показательной, степенной и т.д.), то такую связь называют нелинейной или криволинейным.

в Зависимости от количества исследуемых признаков различают парную (простую) и множественную корреляцию. При парной корреляции изучают связь между двумя признаками (результативным и факторным), при множественной корреляции - связь между тремя и большим числом признаков (результативным и двумя и большим числом факторов).

С помощью метода корреляционного анализа решается две главных задачи: 1) определение формы и параметров уравнения связи; 2) измерение тесноты связи.

Первая задача решается нахождением уравнения связи и определению его параметров. Второе - с помощью расчета различных показателей тесноты связи (коэффициент корреляции, корреляционного отношения, индекса корреляции и др.).

Схематично корреляционный анализ можно разделить на пять этапов:

1) постановка задачи, установление наличия связи между исследуемыми признаками;

2) отбор наиболее существенных факторов для анализа;

3) определение характера связи, его направления и формы, выбор математического уравнения для выражения существующих связей;

4) расчет числовых характеристик корреляционной связи (определение параметров уравнения и показателей тесноты связи);

5) статистическая оценка выборочных показателей связи.

Научно обоснованное применение корреляционного метода требует прежде всего глубокого понимания сущности взаимосвязей социально-экономических явлений. Сам метод не устанавливает наличие и причин возникновения связей между изучаемыми явлениями, его назначение состоит в их количественном измерении. На первом этапе корреляционного анализа осуществляется общее ознакомление с исследуемым объектом и явлениями, уточняются цель и задачи исследования, устанавливается теоретическая возможность причинно-следственной связи между признаками.

Установление причинных зависимостей в изучаемом явлении предшествует собственно корреляционному анализа. Поэтому применению методов корреляции должен предшествовать глубокий теоретический анализ, который охарактеризует основной процесс, протекающий в исследуемом явлении, определит существенные связи между отдельными его сторонами и характер их взаимодействия.

Предварительный анализ данных создает основу для формулирования конкретной задачи исследования связей, отбора важнейших факторов, установление возможной формы взаимосвязи признаков и тем самым приводит к математической формализации - к выбору математического уравнения, которое наиболее полно реализует существующие связи.

Одним из важнейших вопросов корреляционного анализа является отбор результативной и факторной (факторных) признаков. Факторные и результативные признаки, отбираемые для корреляционного анализа, должны быть существенными, первые должны непосредственно влиять на другие. Отбор факторов для включения их в корреляционную модель должен базироваться прежде всего на теоретических основах и практическом опыте анализа исследуемого социально-экономического явления. Большую помощь в решении этой задачи могут оказать такие статистические приемы и методы, как сопоставление параллельных рядов, построение таблиц распределения численностей по двум признакам (корреляционных таблиц, построение статистических группировок как по результативным признаком с анализом взаимосвязанных с ним факторов, так и по факторным признаком (или комбинацией факторных признаков) с анализом их влияния на результативный признак.

Отбор факторов для парных корреляционных моделей не сложный: из множества факторов, влияющих на результативный признак, отбирается один из важнейших факторов, который в основном определяет вариацию результативного признака или же фактор, существенность влияния которого на результативный признак предполагается изучить или проверить. Отбор факторов для множественных корреляционных моделей имеет ряд особенностей и ограничений. Они будут рассмотрены при изложении вопросов множественной корреляции.

Одной из главных проблем построения корреляционной модели является определение формы связи и на этой основе установление типа аналитической функции, отражающей механизм связи результативного признака с факторным (факторными). Под формой корреляционной связи понимают тип аналитического уравнения, выражающего зависимость между исследуемыми признаками.

Выбор того или иного уравнения для исследования связей между признаками является наиболее трудным и ответственным заданием, от которого зависят результаты корреляционного анализа. Все дальнейшие найретельніші расчеты могут быть обезцінені, если форма связи выбрана неверно. Важность этого этапа заключается в том, что правильно установленная форма связи позволяет подобрать и построить наиболее адекватную модель и на основе ее решения получить статистически достоверные и надежные характеристики.

Установление формы связи между признаками в большинстве случаев обосновывается теорией или практическим опытом предыдущих исследований. Если форма связи неизвестна, то при парной корреляции математическое уравнение может быть установлено с помощью составления корреляционных таблиц, построения статистических группировок, просмотра различных функций на ЭВМ и выбор такого уравнения, которое дает наименьшую сумму квадратов отклонений фактических данных от выровненных (теоретических) значений и др.

в Зависимости от исходных данных теоретической линией регрессии могут быть различные типы кривых или прямая линия. Так, если изменение результативного признака под влиянием фактора характеризуется постоянными приращениями, то это указывает на линейный характер связи, если же изменения результативного признака под влиянием фактора характеризуется постоянными коэффициентами роста, то есть основание предположить криволинейный связь.

Особое место в обосновании формы связи при проведении корреляционного анализа относится графиков, построенных в системе прямоугольных координат на основе эмпирических данных. Графическое изображение фактических данных дает наглядное представление о наличии и форму связи между исследуемыми признаками.

Согласно правилам математики при построении графика на оси абсцисс откладывают значения факторного признака, а на оси ординат - значения результативного признака. Отложив на пересечении соответствующих значений двух признаков точки, получим точечный график, который называют корреляционным полем. По характеру размещения точек на корреляционному поле делают вывод о направление и форму связи. Достаточно взглянуть на график, чтобы прийти к выводу о наличие и форму связи между признаками. Если точки концентрируются вокруг мнимой оси направленного слева, снизу, направо, вверх, то связь прямая, если к напротив слева, сверху, направо, вниз - связь обратная. Если точки разбросаны по всему полю, то это свидетельствует о том, что связь между признаками отсутствует или очень слабый. Характер размещения точек на корреляционному поле указывает также и на наличие прямолинейного или криволинейного связи между исследуемыми признаками.

С помощью графика подбирают соответствующее математическое уравнение для количественной оценки связи между результативным и факторным признаками. Уравнение, отражающее связь между признаками, называют уравнением регрессии или корреляционным уравнением. Если уравнение регрессии связывает только два признака, то оно называется уравнением парной регрессии. Если уравнение связи отражает зависимость результативного признака от двух и более факторных признаков, оно называется уравнением множественной регрессии. Кривые, построенные на основе уравнений регрессии, называют кривыми регрессии или линиями регрессии.

Различают эмпирическую и теоретическую линии регрессии. Если на корреляционному поле соединить точки отрезками прямой линии, то получим ломаную линию с некоторой тенденцией, которая называется эмпирической линией регрессии. в Теоретической линией регрессии называется та линия, вокруг которой концентрируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи. Теоретическая линия регрессии должна отражать изменение средних величин результативного признака по мере изменения величин факторного признака при условии полного взаємопогашення всех других - случайных по отношению к фактору - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек корреляционного поля от соответствующих точек теоретической линии равнялась нулю, а сумма квадратов отклонений была бы минимальной величине. Поиск, построение, анализ и практическое применение теоретической линии регрессии называют регрессионным анализом.

По эмпирической линией регрессии не всегда удается установить форму связи и добрать уравнения регрессии. В таких случаях строят и решают различные уравнения регрессии. Затем оценивают их адекватность и подбирают такое уравнение, которое обеспечивает наилучшую аппроксимацию (приближение) фактических данных к теоретическим и достаточную статистическую достоверность и надежность.

Если подходить строго, регресійно-корреляционный анализ следует расчленить на регрессионный и корреляционный. Регрессионный анализ решает вопрос построения, разрешения и оценки уравнений регрессии, а при корреляционному анализе этих вопросов присоединяется еще круг вопросов, связанных с определением тесноты связи между результативным и факторным (факторными) признакам. В дальнейшем изложении регресійно-корреляционный анализ рассматривается как единое целое и называется просто корреляционный анализ.

Чтобы результаты корреляционного анализа нашли практическое применение и дали научно обоснованные результаты, должны выполняться определенные требования в отношении объекта исследования и качества исходной статистической информации. Основные из этих требований следующие:

Качественная однородность исследуемой совокупности, что предполагает близость формирование результативных и факторных признаков. Необходимость выполнения этого условия вытекает из содержания параметров уравнения связи. Из математической статистики известно, что параметры являются средними величинами. В качественно однородной совокупности они будут типичными характеристиками, в качественно разнородной - искаженными, что искажают характер связи. Количественная однородность совокупности заключается в отсутствии единиц наблюдения, которые за своими числовыми характеристиками существенно отличаются от основной массы данных. Такие единицы наблюдения следует исключать из совокупности и изучать отдельно;

Достаточно большое число наблюдений, поскольку связи между признаками обнаруживаются только в результате действия закона больших чисел. Количество единиц наблюдения должна в 6 - 8 раз превышать число включенных в модель факторов;

Случайность и независимость отдельных единиц совокупности друг от друга. Это означает, что значения признаков в одних единиц совокупности не должны зависеть от значений других единиц данной совокупности;

Устойчивость и независимость действия отдельных факторов;

Постоянство дисперсии результативного признака при изменении факторных признаков; - нормальное распределение признаков.

Математические методы анализа и прогнозирования

Корреляционный анализ

Введение

2. Регрессионный анализ

3. Факторный анализ

4. Кластерный анализ

5. Анализ динамики и прогнозирования социально-правовых процессов

Заключение

Между социально-экономическими явлениями и процессами воз­можны два вида зависимости: функциональная и стохастическая. При или иных параметров, характеризующих различные явления. Примеры такого рода зависимостей в социальной среде практически не встречаются.

При стохастической (вероятностной) зависимости конкретному значению зависимой переменной соответствует набор значений объ­ясняющей переменной. Это связано, прежде всего, с тем, что на за­висимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных: вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.

В социально-экономической сфере приходится сталкиваться со многими явлениями, имеющими вероятностную природу. Так, число совершенных и раскрытых преступлений за фиксированный отрезок времени, число дорожно-транспортных происшествий в каком-либо регионе за определенное время - все это случайные величины.

Для изучения стохастических взаимосвязей существуют специальные методы, в частности корреляционный анализ ("корреляция" ­соотношение, связь между имеющимися явлениями и процессами).

Корреляционный анализ - это использование в определенной последовательности совокупности статистических методов обработки ин­формации, позволяющее исследовать взаимосвязи между различными признаками.

Задачей корреляционного анализа как метода математической статистики является установление формы и направления связи, а также измерение тесноты этой связи между изучаемыми случайными признаками.

В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции . Величина линейной зависимости одной перемен­ной от нескольких других измеряется коэффициентом множественной ми после устранение части линейной зависимости, обусловленной связью этих переменных с другими переменными.

По форме корреляционные связи могут быть линейными (прямо­линейными) и нелинейными (криволинейными), а по направлению ­

Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшают­ся) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увели­чению) значений другого признака.



Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корре­ляции и проверки их значимости.

Коэффициент корреляции может принимать значения при прямой связи от 0 до +1, а при обратной от -1 до 0. При коэффициен­тах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффици­ентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 ­связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).

Однако такая упрощенная оценка силы связи не всегда кор­ректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициен­та корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уве­ренности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (крити­ческих) значений коэффициента корреляции.

Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При дан­ном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.

Для определения существования и величины линейной зависи­мости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [{Xi,Yi},i=1,n] на плоскость . Полученный график называется допустимости предположения о линейной зависимости между перемен­ными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого исполь­зуется выборочный коэффициент корреляции:

где n - количество измерений, Xi,Yi - i-е значения, X,Y - сред­ние значения, sx, sy - среднеквадратические отклонения перемен­ных X и Y соответственно.

В теории статистического анализа корреляционная связь опре­деляется как линейная зависимость в условиях нормальности расп­ределения анализируемых переменных. Поэтому для корректного при­менения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.

Достаточно простой в вычислительном отношении способ про­верки нормальности эмпирического распределения состоит в оценке следующего отношения:

,

где C - среднее абсолютное отклонение, s - среднеквадратическое отклонение.

Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности примене­ния коэффициента корреляции как меры линейной статистической связи между переменными.

В общем случае на уровень преступности влияет множество фак­торных признаков. К ним относятся социально-экономические, геог­рафические и климатические, демографические и др., а также приз­наки, характеризующие силы и средства, степень организованности органа внутренних дел.

Однако даже при наличии сильной статистически значимой свя­зи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существо­вать другие причины (факторы), определяющие их совместную ста­тистическую взаимосвязь. Статистические выводы должны быть всег­да обоснованы надежной теоретической концепцией.

В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержа­тельная концепция и практический опыт указывают на ее возможное существование.

Любой закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследований относится к задачам статистического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный, ковариационный анализ и анализ таблиц сопряженности.

    Существует ли связь между исследуемыми переменными?

    Как измерить тесноту связей?

Общая схема взаимосвязи параметров при статистическом исследовании приведена на рис. 1.

На рисунке S – модель исследуемого реального объекта, Объясняющие (независимые, факторные) переменные описывают условия функционирования объекта. Случайные факторы – это факторы, влияние которых трудно учесть или влиянием которых в данный момент пренебрегают. Результирующие (зависимые, объясняемые) переменные характеризуют результат функционирования объекта.

Выбор метода анализа взаимосвязи осуществляется с учетом природы анализируемых переменных.

Корреляционный анализ - метод обработки статистическихданных, заключающийся в изучении связи между переменными.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует.

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 1) и нелинейные (см. рис. 2). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

Направление связи является положительным, если увеличение значения одного признака приводит к увеличению значения второго (см. рис. 3) и отрицательным, если увеличение значения одного признака приводит к уменьшению значения второго (см. рис. 4).

Зависимости, имеющие только положительные или только отрицательные направленности, называются монотонными.

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.



Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter
ПОДЕЛИТЬСЯ:
Выселение. Приватизация. Перепланировка. Ипотека. ИСЖ