2
Статистическое изучение взаимосвязей
Содержание
- 1. Сущность корреляционной связи
-
- 2. Статистические методы выявления наличия корреляционной связи между признаками
- 3. Измерение степени тесноты корреляционной связи между двумя признаками
- 4. Уравнение регрессии и способы его расчета
1. Сущность корреляционной связи
Изучение действительности показывает, что каждое общественное явление находится в тесной связи и взаимодействии с другими явлениями. Так, например, уровень производительности труда работников будет зависеть от степени совершенства применяемого оборудования технологии, организации производства труда и управления и других факторов. Именно изучение такой зависимости окружающих условий на вариацию признака и составляет содержание теории корреляции.
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обуславливающих изменение других признаков и называются признаками - факторами (факторными признаками). Признаки, которые являются результатом влияния этих факторов называются результатами. Например, производительность труда - результирующий признак.
Рассматривая зависимости между признаками, необходимо выделить прежде всего две категории зависимостей:
1) зависимости функциональные;
2) зависимости корреляционные.
Функциональная характеризуется полным соответствием между изменением причины и изменением результативной величины и соответствием каждому значению признака - фактора определенного результативного признака.
В корреляционных связях между изменением факторного и результативного признаков нет полного соответствия и влияние отдельных факторов проявляется лишь в среднем при массовом наблюдении факторов, поскольку каждому значению факторного признака может соответствовать распределение значений результативного признака. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака фактора будет соответствовать целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направление своего воздействия.
Сравнивая между собой функциональные и корреляционные зависимости следует принять во внимание, что при наличие корреляционной зависимости устанавливается только тенденция изменения результативного признака при изменении величины факторного признака.
При исследовании корреляционных зависимостей между признаками решению подлежит широкий круг вопросов, к которым следует отнести:
1. предварительный анализ свойств совокупности единиц;
2. установление фактора наличия связи, определения ее направления и формы;
3. изменение степени точности связи между признаками;
4. построение регрессионной модели;
5. оценка модели, ее экономическое обоснование и практическое применение.
Чтобы результаты корреляционного анализа нашли практическое применение, должны выполняться определенные требования в отношении отбора объекта исследования и признаков - факторов.
1. однородность единиц, подвергающихся изучению методами корреляционного анализа;
2. оценка однородности исследуемой совокупности при помощи показателей вариации (коэффициентов вариации);
3. достаточное число наблюдений;
4. независимость друг от друга факторных признаков;
5. нормальный характер распределения исследуемых признаков;
6. количественное выражение факторных признаков, что дает возможность составить модель корреляционной зависимости.
2. Статистические методы выявления наличия корреляционной связи между признаками
Для выявления наличия или отсутствия корреляционной связи используется ряд методов:
1. параллельное сопоставление рядов значений результативного и факторного признаков. При этом значения факторного признака располагают в возрастающем порядке, а затем прослеживают направление изменения результативного. Результативный признак будет - Y, а факторный - Х;
2. построение групповой и корреляционной таблиц.;
3. дисперсионный анализ.
Результативный признак функцию обозначаем через Y, факторный признак через Х. Например, по 20 партиям деталей была установлена величина среднего времени межоперационных перерывов между двумя смежными технологическими операциями и величина средней занятости рабочего места выполнением одной операции.
Таблица 1
|
№ партии деталей
|
Средняя занятость рабочего места, ч
|
Среднее время межоперационных перерывов, ч
|
№ партии деталей
|
Средняя занятость рабочего места, ч
|
Среднее время межоперационных перерывов, ч
|
|
1
|
0,22
|
1,46
|
11
|
0,26
|
0,69
|
|
2
|
0,22
|
1,12
|
12
|
0,30
|
0,80
|
|
3
|
0,22
|
1,18
|
13
|
0,30
|
0,61
|
|
4
|
0,24
|
0,82
|
14
|
0,30
|
0,95
|
|
5
|
0,24
|
1,26
|
15
|
0,30
|
0,73
|
|
6
|
0,24
|
0,90
|
16
|
0,32
|
0,50
|
|
7
|
0,24
|
1,02
|
17
|
0,32
|
0,37
|
|
8
|
0,24
|
1,08
|
18
|
0,32
|
0,47
|
|
9
|
0,26
|
0,57
|
19
|
0,32
|
0,32
|
|
10
|
0,26
|
1,37
|
20
|
0,32
|
0,36
|
|
|
Параллельное сопоставление позволяет установить, что увеличение средней занятости рабочего места влечет за собой уменьшение среднего времени межоперационных перерывов, хотя в отдельных случаях наличие отмеченной зависимости может и не усматриваться.
Однако наличие большого числа различных значений результативных признаков, соответствующих одному и тому же значению признака - фактора затрудняет восприятие таких рядов, поэтому для установления факта наличия связи пользуются корреляционными или групповыми таблицами.
В корреляционной таблице факторный признак Х располагается в строках, а результат Y в колонках таблицы. Числа расположенные на пересечении строк и столбцов показывают частоту повторений данного сочетания значений Х и Y.
Построим корреляционную таблицу 2, в которой Х - средняя занятость рабочего места (факторный признак); Y - среднее время межоперационных перерывов (результативный признак).
|
Среднее время
межоперац.
перерывов.
Средняя Группа
Занятость поY
по Х
|
0,32 -0,55
|
0,55 - 0,78
|
0,78 - 1,01
|
1,01 - 1,24
|
1,24 - 1,47
|
|
|
|
Середина интервала
|
0,435
|
0,665
|
0,895
|
1,125
|
1,355
|
|
|
|
0,22
0,24
0,26
0,30
0,32
|
5
|
2
2
|
2
2
|
2
2
|
1
1
1
|
3
5
3
4
5
|
1, 202
1,079
0,895
0,780
0,435
|
|
|
5
|
4
|
4
|
4
|
3
|
20
|
|
|
|
- среднее значение результатов признака;
- частота повторений данного варианта значений факторного признака во всей совокупности;
- частота повторений значений результатов признака во всей совокупности.
Для результатов признака необходимо определить величину интервала по формуле Стреджесса
,
.
Среднее время межоперационных перерывов для партии деталей имеющих среднюю занятость рабочего места 0,223
и т.д.
Корреляционная таблица уже при общем знакомстве дает возможность выдвинуть предложение о наличии или отсутствии связи, а также выявить ее направление.
Если частота в корреляционной таблице расположена по диагонали из левого верхнего угла в правый нижний угол (т.е. большим значениям Х соответствует большее значение Y) можно предположить о наличии прямой корреляционной зависимости, если наоборот то обратной. Т.о. уменьшение средних значений результативного признака с увеличением значения факторного признака еще раз свидетельствует о обратной корреляционной зависимости среднего времени межоперационных перерывов партии деталей от средней занятости рабочего места. Другим приемом обнаружения связи является построение групповой таблицы 3. Все наблюдения разбиваем на группы в зависимости от величины признака - фактора и по каждой группе вычисляем среднее значение результативного признака.
|
Группы партий деталей по уровню средней занятости
|
Сумма значений результативного признака в группе
|
Число партий деталей в группе
|
Среднее значение результативного признака в группе
|
|
0,22
|
3,76
|
3
|
1,253
|
|
0,24
|
5,08
|
5
|
1,016
|
|
0,26
|
2,63
|
3
|
0,877
|
|
0,30
|
3,09
|
4
|
0,773
|
|
0,32
|
2,02
|
5
|
0,404
|
|
Итого
|
16,58
|
20
|
0,829
|
|
|
Сравнив средние значения результирующего признака по группам можно также сделать вывод, что рост средней занятости рабочего места влечет за собой снижение величины межоперационных перерывов, т.е. можно сказать имеет место обратная корреляционная связь.
Если бы связи между факторными и результативными признакам не было, то все групповые средние были бы приблизительно одинаковы по величине. Оценка существенности расхождения групповых средних лежит в основе использования метода дисперсионного анализа для выявления наличия и оценки связи.
Для предварительного выявления связи и раскрытия ее характера применяют графический метод. Используя данные таблицы 1 построить точечный график, который называют поле корреляции.
Нанеся данные таблицы 3 и соединяя последовательно отрезками прямых соответствующих им точек, получим эмпирическую линию связи.
Если эмпирическая линия приближается к прямой, - предполагают наличие прямолинейной корреляционной связи, если к какой либо кривой, то это может быть связано с наличием криволинейной корреляционной связи.
3. Измерение степени тесноты корреляционной связи между двумя признаками
Показатели тесноты связи дают возможность охарактеризовать степень зависимости вариации результативного признака от вариации признака - фактора.
Зная показатели тесноты корреляционной связи можно ответить на следующие группы вопросов.
1. о необходимости изучения данной связи между признаками и целесообразности ее практического применения;
2. о степени различий тесноты связи в ее проявлении для конкретных условий;
3. сопоставляя показатели тесноты связи результативного признака с различными факторами, можно выявить те факторы, которые в данных конкретных условиях являются решающими.
К простейшим показателям тесноты связи относится коэффициент корреляции знаков (коэффициент Г. Фехнера), основанный на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующей средней.
Если обозначить - число совпадений знаков отклонений индивидуальных величин от средней, - число несовпадений, тогда коэффициент Фехнера будет иметь вид:
Если знаки всех отклонений совпадут то и - свидетельствует о наличие прямой связи, если все знаки не совпадают, тогда и - наличие обратной связи.
Рассмотрим расчет на примере
|
№
партии
|
Средняя занятость рабочего места
|
Среднее время межоперационного перерыва, ч, у
|
Знак отклонения от средней
|
Совпадение (а) или несовпадение (в)
|
|
|
|
|
для х
|
для у
|
|
|
1
|
0,22
|
1,46
|
-
|
+
|
в
|
|
2
|
0,22
|
1,12
|
-
|
+
|
в
|
|
3
|
0,22
|
1,18
|
-
|
+
|
в
|
|
4
|
0,324
|
0,82
|
-
|
-
|
а
|
|
5
|
0,24
|
1,26
|
-
|
+
|
в
|
|
6
|
0,24
|
0,90
|
-
|
+
|
в
|
|
7
|
0,24
|
1,02
|
-
|
+
|
в
|
|
8
|
0,24
|
1,08
|
-
|
+
|
в
|
|
9
|
0,26
|
0,57
|
-
|
-
|
а
|
|
10
|
0,26
|
1,37
|
-
|
+
|
в
|
|
11
|
0,26
|
0,69
|
-
|
-
|
а
|
|
12
|
0,30
|
0,80
|
+
|
-
|
в
|
|
13
|
0,30
|
0,61
|
+
|
-
|
в
|
|
14
|
0,30
|
0,95
|
+
|
+
|
а
|
|
15
|
0,30
|
0,73
|
+
|
-
|
в
|
|
16
|
0,32
|
0,50
|
+
|
-
|
в
|
|
17
|
0,32
|
0,37
|
+
|
-
|
в
|
|
18
|
0,32
|
0,47
|
+
|
-
|
в
|
|
19
|
0,32
|
0,32
|
+
|
-
|
в
|
|
20
|
0,32
|
0,36
|
+
|
-
|
в
|
|
Итого
|
5,44
|
16,58
|
|
|
|
|
|
Получаем:
= 4, = 16,
Тогда
,
что свидетельствует от наличии
обратной зависимости.
При малом объеме исходной информации коэффициент Фехнера отвечает также на вопрос о наличии связи.
Более современным показателем степени тесноты связи является линейный коэффициент корреляции r.
При расчете этого показателя учитывается не только знаки отклонений индивидуальных значений от средней, но и сами величины таких отклонений, т.е. . Однако непосредственно сопоставить полученные абсолютные величины нельзя, т.к они обычно выражаются в разных единицах. Поэтому сравнению могут подлежать отклонения выраженные в относительных величинах, обычно в долях среднего квадратичного отклонения (нормируемые отклонения).
Так для факторного признака эта величина будет равна , а для результативного ;
Для того, чтобы на основе сопоставления рассчитанных нормируемых отклонений получить обобщающую характеристику степени тесноты связи между признаками рассчитывают среднее произведение нормированных отклонений. Полученная таким образом средняя и является линейным коэффициентом корреляции r
;
преобразовав формулу:
;
Далее
.
Линейный коэффициент принимает значения от - 1 до +1.
Чем ближе коэффициент r по абсолютной величине к 1, тем теснее корреляционная связь. Положительный знак r указывает на прямо пропорциональную зависимость, а отрицательный на обратно. пропорциональную зависимость.
Для примера рассчитаем r
Полученная величина свидетельствует о достаточно тесной взаимосвязи между рассматриваемыми признаками.
Квадрат линейного коэффициента называется коэффициентом детерминации. Для примера Это означает, что вариации времени межоперационных перерывов объясняется вариацией средней занятости рабочего места выполненной одной операцией.
При исследовании степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативного признака, используют коэффициент ассоциации. Например, нужно оценить влияют ли существующие формы повышения квалификации бухгалтеров на уровень их профессионального мастерства. Располагая данными о результатах аттестации экспертами 320 бухгалтеров, из которых 240 повысили квалификацию, составляем следующую таблицу.
|
Группы преподавателей
|
Средний балл по сравнению с предыдущим результатом аттестации
|
Всего
|
|
|
Не изменился,
и вырос
|
Снизился
|
|
|
Повысившие квалификацию
|
163 (а)
|
77 (b)
|
240
|
|
Не прошедшие повышение квалификации
|
43 (c)
|
34 (d)
|
80
|
|
Всего
|
209
|
111
|
320
|
|
|
Построенная в такой форме таблица носит название таблицы “четырех полей", частоты которых обозначим соответственно а, b, c, d/
Коэффициент ассоциации определяем по формуле
.
В проводимом примере этот коэффициент равен
Таким образом, по данным обследования вряд ли можно сделать о существенном повышении профессионального мастерства по одной из принятых форм (стажировка, курсы, факультативы, творческий отпуск и т.д.).
4. Уравнение регрессии и способы его расчета
Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной изменяются в зависимости от того, какие значения принимает другая переменная, рассматриваемая как причина по отношению к зависимой переменной.
Определяя средние значения результативного признака для данной группы значений признака отчасти элиминируется влияние случайностей. Вычисляя параметры теоретической линии связи, производится их дальнейшее элиминирование и результатом является однозначное изменение Y с изменением фактора Х.
Теоретической линией регрессии называется та линия, вокруг которой группируется точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.
Эта линия должна быть проведена так, что бы сумма отклонений точек поля корреляции от соответствующей теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Наиболее часто для характеристики связей экономических явлений используют следующие типы функций:
линейную ;
гиперболическую ;
параболическую ;
степенную
В рассматриваемом примере линии регрессии больше всего приближается к прямой и следовательно, теоретическая линия регрессии может быть представлена уравнением прямой
;
Для нахождения параметров а и b уравнения регрессии используем метод наименьших квадратов.
Критерий методов наименьших квадратов можно записать таким образом
т.к , то
После преобразований с используем производных получим систему уравнений способа наименьших квадратов для определения параметров а и b уравнения линейной корреляционной связи.
Используя данные таблиц 3 и 4 можно записать систему уравнений
Параметр b в уравнении называют коэффициентом регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной - коэффициент регрессии отрицательный.
Коэффициент регрессии показывает, насколько в среднем изменится величина результативного признака Y при изменении факторного признака Х на единицу.
Зная линейный коэффициент корреляции можно определить коэффициент регрессии b по следующей формуле
,
где , - средне квадратичное отклонение результативного и факторного признаков.
Наличие этого соотношения дает возможность производить вычисление коэффициента корреляции и параметров уравнения линейной регрессии одновременно.
Расчет показателей по не сгруппированным данным приводит к следующим результатам
= 0,0386, = 0,3461, r = - 0,812
тогда
и
и уравнение линейной регрессии примет вид:
= 2,8091 - 7,28х
коэффициент регрессии применяют для определения коэффициента эластичности, который показывает на сколько процентов в среднем изменится величина результативного признака Y при изменении признака - фактора Х на один процент.
Для определения коэффициента эластичности используется формула
Это означает, что при расчете средней занятости рабочего места на 1% величина межоперационных перерывов снизится на 2,389%.
Значение корреляционной зависимости между двумя переменными имеет существенное практическое значение, т.к дает возможность составить прогноз значений результирующего признака в предположении, что признак - фактор имеет определенное значение.
|