Коефициент на корелация 1 означава. Как да изчислим коефициента на линейна корелация

Регресионният анализ ви позволява да оцените как една променлива зависи от друга и какво е разпространението на стойностите на зависимата променлива около правата линия, която определя зависимостта. Тези оценки и свързаните с тях доверителни интервали предсказват стойността на зависимата променлива и определят точността на тази прогноза.

Резултатите от регресионния анализ могат да бъдат представени само в доста сложна цифрова или графична форма. Често обаче се интересуваме не от прогнозиране на стойността на една променлива по стойността на друга, а просто от характеристиката на плътността (силата) на връзката между тях, в същото време изразена с едно число.

Тази характеристика се нарича коефициент на корелация, обикновено се обозначава с буквата g. Коефициентът на корелация е

Може да приема стойности от -1 до +1. Знакът на коефициента на корелация показва посоката на връзката (напред или назад), а абсолютната стойност - плътността на връзката. Коефициент, равен на -1, дефинира връзка, която е толкова тясна, колкото единица, равна на 1. При липса на връзка, коефициентът на корелация е нула.

На фиг. Фигура 8.10 показва примери за зависимости и съответните стойности на r. Ще разгледаме два коефициента на корелация.

Коефициентът на корелация на Пиърсън е предназначен да опише линейната връзка на количествените характеристики; като регресия
анализ, изисква нормално разпределение. Когато говорим просто за "коефициент на корелация", те почти винаги имат предвид коефициента на корелация на Пиърсън и точно това ще направим.

Коефициентът на корелация на ранг на Спиърман може да се използва, когато връзката е нелинейна, и то не само за количествени, но и за редни характеристики. Това е непараметричен метод и не изисква конкретен тип разпределение.

За количествените, качествените и редните знаци вече говорихме в гл. 5. Количествените признаци са общи числови данни като височина, тегло, температура. Стойностите на даден количествен признак могат да се сравняват една с друга и да се каже коя от тях е по-голяма, колко и колко пъти. Например, ако единият марсианец тежи 15 г, а другият 10, тогава първият е по-тежък от втория и един и половина пъти и 5 г. колко пъти. В медицината редовите знаци са доста често срещани. Например, резултатите от вагиналния тест за цитонамазка се оценяват по следната скала: 1) нормална, 2) лека дисплазия, 3) умерена дисплазия, 4) тежка дисплазия, 5) рак in situ. Както количествените, така и порядковите характеристики могат да бъдат подредени в ред - това общо свойство е в основата на голяма група непараметрични критерии, които включват коефициента на корелация на ранга на Спирман. С други непараметрични критерии ще се запознаем в гл. десет.

Коефициент на корелация на Пиърсън

И все пак, защо регресионният анализ не може да се използва за описване на стегнатостта на връзката? Остатъчното стандартно отклонение може да се използва като мярка за плътността на връзката. Въпреки това, ако разменим местата на зависимата и независимата променлива, тогава остатъчното стандартно отклонение, подобно на други показатели на регресионния анализ, ще бъде различно.

Разгледайте фиг. 8.11. Две регресионни линии бяха конструирани с помощта на извадка от 10 познати ни марсианци. В един случай теглото е зависима променлива, а във втория е независима променлива. Регресионните линии са значително различни



20

Ако размените x и y, уравнението на регресията ще бъде различно, но коефициентът на корелация ще остане същият.

се очакват. Оказва се, че връзката между ръст и тегло е една, а теглото с височината е различна. Асиметрията на регресионния анализ е това, което затруднява директното му използване за характеризиране на силата на връзката. Коефициентът на корелация, въпреки че идеята му е извлечена от регресионния анализ, е свободен от този недостатък. Даваме формулата.

r Y (X - X) (Y - Y)

& ((- X) S (y - Y) 2 "

където X и Y са средните стойности на променливите X и Y. Изразът за r "симетрично" - променяйки местата на X и Y, получаваме същата стойност. Коефициентът на корелация приема стойности от -1 до +1. Колкото по-близка е връзката, толкова по-голяма е абсолютната стойност на коефициента на корелация. Знакът показва посоката на комуникация. При r> 0 те говорят за пряка корелация (с увеличаване на едната променлива, другата също се увеличава), за r Да вземем примера с 10 марсианци, които вече разгледахме от гледна точка на регресионния анализ. Нека изчислим коефициента на корелация. Изходните данни и междинните резултати от изчисленията са показани в табл. 8.3. Размер на извадката n = 10, средна височина

X = £ X / n = 369/10 = 36,9 и тегло Y = £ Y / n = 103,8 / 10 = 10,38.

Откриваме U - X) (Y - Y) = 99,9, U - X) 2 = 224,8, £ (Y - Y) 2 = 51,9.

Заменете получените стойности във формулата за коефициента на корелация:

224,8 x 51,9 дюйма

Стойността на r е близка до 1, което показва тясна връзка между височината и теглото. За да получите по-добра представа кой коефициент на корелация трябва да се счита за голям и кой е незначителен, разгледайте

Таблица 8.3. Изчисляване на коефициента на корелация
х Й X -X Y-Y (X -X) (Y-Y) (X-X) 2 (Y-Y) 2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


тези на масата. 8.4 - показва коефициентите на корелация за примерите, които обсъдихме по-рано.

Връзка между регресия и корелация

Първоначално използвахме всички примери за корелационни коефициенти (Таблица 8.4) за конструиране на регресионни линии. Всъщност съществува тясна връзка между коефициента на корелация и параметрите на регресионния анализ, който сега ще демонстрираме. Различните начини за представяне на коефициента на корелация, които ще получим в същото време, ще направят възможно по-доброто разбиране на значението на този индикатор.

Припомнете си, че уравнението за регресия е предназначено да минимизира сумата от квадратите на отклоненията от регресионната линия.


Нека обозначим тази минимална сума от квадрати като S (тази стойност се нарича остатъчна сума от квадрати). Сумата от квадратите на отклоненията на стойностите на зависимата променлива Y от нейната средна стойност Y ще бъде обозначена със S ^. Тогава:

Величината r2 се нарича коефициент на детерминация - това е просто квадратът на коефициента на корелация. Коефициентът на детерминация показва силата на връзката, но не и нейната посока.

От горната формула може да се види, че ако стойностите на зависимата променлива лежат на линията на регресия, тогава S = 0 и по този начин r = +1 или r = -1, тоест има линейна връзка между зависимите и независимите променливи. Всяка стойност на независимата променлива може да се използва за точно прогнозиране на стойността на зависимата променлива. Напротив, ако променливите изобщо не са свързани, тогава Soci = SofSisi Тогава r = 0.

Вижда се също, че коефициентът на детерминация е равен на тази част от общата дисперсия S ^, която се причинява или, както се казва, се обяснява с линейна регресия.

Остатъчната сума на квадратите S е свързана с остатъчната дисперсия s2y \ x чрез отношението Socj = (n - 2) s ^, а общата сума на квадратите S ^ с дисперсия s2 чрез отношението S ^ = (n - 1) s2. В такъв случай

r2 = 1 _ n _ 2 sy \ x n _1 sy

Тази формула дава възможност да се прецени зависимостта на коефициента на корелация от дела на остатъчната дисперсия в общата дисперсия

шест / s2y Колкото по-малка е тази пропорция, толкова по-голям (по абсолютна стойност) е коефициентът на корелация и обратно.

Уверихме се, че коефициентът на корелация отразява плътността на линейната връзка на променливите. Въпреки това, когато става въпрос за прогнозиране на стойността на една променлива от стойността на друга, нататък
коефициентът на корелация не трябва да се разчита прекалено. Например, данните на фиг. 8.7 съответства на много висок коефициент на корелация (r = 0.92), но ширината на зоната на доверие на стойностите показва, че несигурността на прогнозата е доста значителна. Следователно, дори и с голям коефициент на корелация, не забравяйте да изчислите региона на доверие.


И накрая, ние представяме съотношението на коефициента на корелация и коефициента на наклон на регресионната линия b:

където b е наклонът на регресионната линия, sx и sY са стандартните отклонения на променливите.

Ако не вземем предвид случая sx = 0, тогава коефициентът на корелация е нула, ако и само ако b = 0. Сега ще използваме този факт, за да оценим статистическата значимост на корелацията.

Статистическа значимост на корелацията

Тъй като b = 0 предполага r = 0, хипотезата за липса на корелация е еквивалентна на хипотезата за нулев наклон на линията на регресия. Следователно, за да оценим статистическата значимост на корелацията, можем да използваме вече познатата ни формула за оценка на статистическата значимост на разликата между b и нула:

Тук броят на степените на свобода v = n - 2. Ако обаче коефициентът на корелация вече е изчислен, по-удобно е да се използва формулата:

Броят на степените на свобода тук също е v = n - 2.

С външното несходство на двете формули за t те са идентични. Наистина от факта, че


r 2 _ 1 - n_ 2 Sy] x_

Заместване на sy ^ x във формулата за стандартна грешка

Животински мазнини и рак на гърдата

Изследвания върху лабораторни животни показват, че високото съдържание на животински мазнини в храната увеличава риска от рак на гърдата. Наблюдава ли се тази зависимост при хората? К. Карол събра данни за консумацията на животински мазнини и смъртността от рак на гърдата за 39 страни. Резултатът е показан на фиг. 8.12A. Коефициентът на корелация между консумацията на животински мазнини и смъртността от рак на гърдата е 0,90. Нека оценим статистическата значимост на корелацията.

0,90 1 - 0,902 39 - 2

Критичната стойност на t с броя на степените на свобода v = 39 - 2 = 37 е равна на 3,574, тоест по-малка от получената от нас. По този начин, при ниво на значимост от 0,001, може да се твърди, че има връзка между консумацията на животински мазнини и смъртността от рак на гърдата.

Сега нека проверим дали смъртността е свързана с консумацията на растителни мазнини? Съответните данни са показани на фиг. 8.12B. Коефициентът на корелация е 0,15. Тогава

1 - 0,152 39 - 2

Дори при ниво на значимост от 0,10, изчислената стойност на t е по-малка от критичната стойност. Корелацията не е статистически значима.

Коефициентът на корелация е степента на връзката между две променливи. Изчислението му дава представа дали има връзка между двата набора от данни. За разлика от регресията, корелацията не предсказва стойностите на количествата. Изчисляването на коефициента обаче е важна стъпка в предварителния статистически анализ. Така например установихме, че коефициентът на корелация между нивото на преките чуждестранни инвестиции и темпа на растеж на БВП е висок. Това ни дава идеята, че за да се осигури просперитет, е необходимо да се създаде благоприятен климат специално за чуждестранните предприемачи. Не толкова очевидно заключение на пръв поглед!

Корелация и причинно-следствена връзка

Може би няма нито една сфера на статистиката, която би се закрепила толкова здраво в живота ни. Коефициентът на корелация се използва във всички области на общественото знание. Основната му опасност се крие във факта, че често се спекулират високите му стойности, за да се убедят хората и да се накарат да повярват в някои заключения. В действителност обаче силната корелация изобщо не показва причинно-следствена връзка между количествата.

Коефициент на корелация: формула на Пиърсън и Спиърман

Има няколко основни индикатора, които характеризират връзката между две променливи. Исторически, първият е коефициентът на линейна корелация на Пиърсън. Провежда се в училище. Тя е разработена от К. Пиърсън и Дж. Юл въз основа на произведенията на о. Галтън. Този коефициент ви позволява да видите връзката между рационалните числа, които се променят рационално. Винаги е по-голямо от -1 и по-малко от 1. Отрицателно число показва обратна връзка. Ако коефициентът е нула, тогава няма връзка между променливите. Равно на положително число - има правопропорционална връзка между изследваните стойности. Коефициентът на корелация на ранга на Спирман опростява изчисленията чрез изграждане на йерархия от променливи стойности.

Връзки между променливи

Корелацията помага да се отговори на два въпроса. Първо, връзката между променливите е положителна или отрицателна. Второ, колко силна е зависимостта. Анализът на корелацията е мощен инструмент, с който можете да получите тази важна информация. Лесно е да се види, че доходите и разходите на домакинствата намаляват и нарастват пропорционално. Тази връзка се счита за положителна. Напротив, когато цената на даден продукт се покачва, търсенето за него пада. Тази връзка се нарича отрицателна. Стойностите на коефициента на корелация са в диапазона между -1 и 1. Нула означава, че няма връзка между изследваните стойности. Колкото по-близо е полученият индикатор до екстремните стойности, толкова по-силна е връзката (отрицателна или положителна). Липсата на зависимост се доказва от коефициента от -0,1 до 0,1. Трябва да се разбере, че такава стойност показва само липсата на линейна връзка.

Характеристики на приложението

Използването на двата индикатора включва определени допускания. Първо, наличието на силна връзка не води до факта, че едно количество определя друго. Възможно е да има трета величина, която определя всяка от тях. Второ, високият коефициент на корелация на Пиърсън не показва причинно-следствена връзка между изследваните променливи. Трето, показва изключително линейна връзка. Корелацията може да се използва за оценка на значими количествени данни (напр. атмосферно налягане, температура на въздуха), а не категории като пол или любим цвят.

Коефициент на множествена корелация

Пиърсън и Спиърман изследват връзката между двете променливи. Но как да действаме, ако има три или дори повече. Тук идва коефициентът на множествена корелация. Така например брутният национален продукт се влияе не само от преките чуждестранни инвестиции, но и от паричната и фискалната политика на държавата, както и от нивото на износа. Темпът на растеж и обемът на БВП са резултат от взаимодействието на редица фактори. Трябва обаче да се разбере, че моделът на множествена корелация се основава на редица опростявания и допускания. Първо, мултиколинеарността между количествата се елиминира. Второ, връзката между зависимите и влияещите променливи се счита за линейна.

Области на използване на корелационния и регресионния анализ

Този метод за намиране на връзката между стойностите се използва широко в статистиката. Най-често се прибягва до три основни случая:

  1. За тестване на причинно-следствената връзка между стойностите на две променливи. В резултат на това изследователят се надява да намери линейна връзка и да изведе формула, която описва тези връзки между количествата. Техните мерни единици могат да бъдат различни.
  2. За да проверите дали има връзка между стойностите. В този случай никой не определя коя променлива е зависима. Може да се окаже, че стойността на двете величини определя някакъв друг фактор.
  3. За да изведем уравнението. В този случай можете просто да замените числа в него и да разберете стойностите на неизвестната променлива.

Човек в търсене на причинно-следствена връзка

Съзнанието е подредено по такъв начин, че определено трябва да обясним събитията, които се случват наоколо. Човек винаги търси връзка между картината на света, в който живее, и информацията, която получава. Често мозъкът създава ред от хаоса. Той лесно може да види причинно-следствена връзка там, където няма такава. Учените трябва специално да се научат да преодоляват тази тенденция. Способността да се оценяват обективно връзките между данните е от съществено значение в академичната кариера.

Медийна пристрастност

Помислете как наличието на корелация може да бъде тълкувано погрешно. Група британски студенти с лошо поведение бяха попитани дали родителите им пушат. Тогава тестът беше публикуван във вестника. Резултатът показа силна връзка между тютюнопушенето на родителите и престъпността на децата им. Професорът, който проведе това проучване, дори предложи да се постави предупреждение върху кутиите цигари за това. Има обаче редица проблеми с това заключение. Първо, корелацията не показва коя от величините е независима. Следователно е напълно възможно да се предположи, че пристрастяването на родителите е причинено от неподчинението на децата. Второ, не може да се каже със сигурност, че и двата проблема не са се появили поради някакъв трети фактор. Например семейства с ниски доходи. Трябва да се отбележи емоционалният аспект на първоначалните констатации на професора, който е провел изследването. Той беше пламенен противник на тютюнопушенето. Затова не е изненадващо, че той интерпретира резултатите от своето изследване по този начин.

заключения

Погрешното тълкуване на корелацията като причинно-следствена връзка между две променливи може да доведе до неудобни грешки в изследването. Проблемът е, че той лежи в самата основа на човешкото съзнание. Много маркетингови трикове се основават на тази функция. Разбирането на разликата между причинно-следствената връзка и корелацията ви позволява да анализирате рационално информация както в ежедневието, така и в професионалната си кариера.

Коефициент на корелацияТова е стойност, която може да варира от +1 до –1. В случай на пълна положителна корелация, този коефициент е равен на плюс 1 (те казват, че с увеличаване на стойността на една променлива, стойността на друга променлива се увеличава), а при пълна отрицателна корелация, минус 1 (те показват обратна връзка, т.е. с увеличаване на стойностите на една променлива, стойностите на другата намаляват).

Пример 1 .:

Графика на зависимостта на срамежливостта и дипломацията. Както можете да видите, точките (субектите) не са разположени хаотично, а са подредени около една линия и, гледайки тази линия, можем да кажем, че колкото повече срамежливост се изразява в човек, толкова повече е депресията, т.е. , тези явления са взаимосвързани.

Пример 2 .: График за срамежливост и общителност. Виждаме, че с увеличаване на срамежливостта общителността намалява. Техният коефициент на корелация е -0,43. По този начин, коефициент на корелация, по-голям от 0 до 1, показва пряко пропорционална връзка (колкото повече ... толкова повече ...), а коефициентът от -1 до 0 показва обратно пропорционална връзка (колкото повече ... толкова по-малко . ..)

Ако коефициентът на корелация е 0, двете променливи са напълно независими една от друга.

Корелационна връзка- това е връзка, при която въздействието на отделните фактори се проявява само като тенденция (средно) при масовото наблюдение на действителните данни. Примери за корелационна зависимост могат да бъдат зависимостта между размера на активите на банката и размера на печалбата на банката, растежа на производителността на труда и трудовия стаж на служителите.

Използват се две системи за класификация на корелациите според тяхната сила: обща и частна.

Обща класификация на корелациите: 1) силни или близки, с коефициент на корелация r>0,70; 2) средни, с 0,500,70, а не само корелация с високо ниво на значимост.

Следващата таблица изброява имената на коефициентите на корелация за различните видове скали.

Дихотомична скала (1/0) Рангова (редна) скала
Дихотомична скала (1/0) Коефициент на асоцииране на Пиърсън, коефициент на конюгиране на четири клетки на Пиърсън. Бисерийна корелация
Рангова (редна) скала Ранг-бисериална корелация. Коефициент на корелация на ранг на Спиърман или Кендъл.
Интервал и абсолютна скала Бисерийна корелация Стойностите на интервалната скала се преобразуват в рангове и се използва ранговият коефициент Коефициент на корелация на Пиърсън (линеен коефициент на корелация)

В r=0 няма линейна корелация. В този случай средните за групата на променливите съвпадат с техните общи средни, а линиите на регресия са успоредни на координатните оси.

Равенство r=0 говори само за отсъствието на линейна корелационна зависимост (некорелирани променливи), но не и като цяло за липсата на корелация и още повече, на статистическа зависимост.

Понякога заключението, че няма корелация, е по-важно от наличието на силна корелация. Нулевата корелация между две променливи може да означава, че няма влияние на една променлива върху другата, при условие че се доверяваме на резултатите от измерването.

В SPSS: 11.3.2 Коефициенти на корелация

Досега само изяснявахме самия факт за съществуването на статистическа връзка между двата признака. След това ще се опитаме да разберем какви заключения могат да се направят за силата или слабостта на тази зависимост, както и за нейния вид и посока. Критериите за количествено определяне на връзката между променливите се наричат ​​коефициенти на корелация или мерки за свързаност. Две променливи са положително корелирани една с друга, ако има пряка, еднопосочна връзка между тях. В еднопосочна връзка малки стойности на една променлива съответстват на малки стойности на друга променлива, големите стойности съответстват на големи. Две променливи са в отрицателна корелация една с друга, ако има обратна, многопосочна връзка между тях. В многопосочна връзка малки стойности на една променлива съответстват на големи стойности на друга променлива и обратно. Стойностите на коефициента на корелация винаги са в диапазона от -1 до +1.

Коефициентът на Спиърман се използва като коефициент на корелация между променливи, принадлежащи към порядковата скала, и коефициент на корелация на Пиърсън (момент на продуктите) за променливи, принадлежащи към интервалната скала. Трябва да се има предвид, че всяка дихотомична променлива, тоест променлива, принадлежаща към номиналната скала и имаща две категории, може да се счита за редна.

Първо ще проверим дали има връзка между променливите пол и психика от файла studium.sav. В този случай ще вземем предвид, че дихотомната променлива пол може да се счита за редна. Следвай тези стъпки:

Изберете Crosstabs ... от командната лента Анализ

· Преместете променливата пол в списъка с низове и променливата психика в списъка с колони.

· Щракнете върху бутона Статистика .... В диалоговия прозорец Crosstabs: Statistics поставете отметка в квадратчето Корелации. Потвърдете избора си с бутона Продължи.

· В диалоговия прозорец Crosstabs не извеждайте таблици, като поставите отметка в квадратчето Потискане на таблици. Щракнете върху бутона OK.

Ще бъдат изчислени коефициентите на корелация на Спиърман и Пиърсън и ще се провери тяхната значимост:

/ SPSS 10

Задача номер 10 Корелационен анализ

Концепция за корелация

Корелацията или коефициентът на корелация е статистическа мярка вероятностенвръзки между две променливи, измерени на количествени скали. За разлика от функционалната връзка, на която съответства всяка стойност на една променлива строго дефиниранистойността на друга променлива, вероятностна връзкахарактеризиращ се с това, че всяка стойност на една променлива съответства на много значенияДруга променлива, Пример за вероятностна връзка е връзката между височината и теглото на хората. Ясно е, че хората с различно тегло могат да имат еднакъв ръст и обратно.

Корелацията е стойност между -1 и + 1 и се обозначава с буквата r. Освен това, ако стойността е по-близка до 1, това означава наличието на силна връзка, а ако е по-близо до 0, тогава слаба. Стойност на корелация по-малка от 0,2 се счита за слаба корелация, над 0,5 - за висока. Ако коефициентът на корелация е отрицателен, това означава, че има обратна връзка: колкото по-висока е стойността на една променлива, толкова по-ниска е стойността на другата.

В зависимост от приетите стойности на коефициента r могат да се разграничат различни видове корелация:

Силна положителна корелациясе определя от стойността r = 1. Терминът "строг" означава, че стойността на една променлива се определя еднозначно от стойностите на друга променлива, а терминът " положителен "-че с увеличаването на стойностите на една променлива, стойностите на другата променлива също се увеличават.

Силната корелация е математическа абстракция и почти никога не се среща в изследванията в реалния живот.

Положителна корелациясъответства на стойности 0

Липса на корелациясе определя от стойността r = 0. Нулев коефициент на корелация означава, че стойностите на променливите не са свързани по никакъв начин.

Липса на корелация Х о : 0 r xy =0 формулиран като отражение нулахипотези в корелационния анализ.

Отрицателна корелация: -1

Силна отрицателна корелациясе определя от стойността r = -1. Тя, подобно на строгата положителна корелация, е абстракция и не намира израз в практически изследвания.

маса 1

Видове корелации и техните дефиниции

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, чрез която се измерват стойностите на променливата.

Коефициент на корелация rПиърсъне основно и може да се използва за променливи с номинални и частично подредени, интервални скали, разпределението на стойностите над които съответства на нормата (корелация на моментите на продукта). Коефициентът на корелация на Пиърсън дава доста точни резултати в случаите на анормални разпределения.

За разпределения, които не са нормални, е за предпочитане да се използват коефициентите на корелация на ранг на Спиърман и Кендъл. Те са класирани, защото програмата предварително класира корелираните променливи.

Програмата SPSS изчислява корелацията rSpeaker, както следва: първо, променливите се превеждат в рангове, а след това формулата на Пиърсън се прилага към ранговете.

Корелацията, предложена от М. Кендъл, се основава на идеята, че посоката на връзката може да се прецени чрез сравняване по двойки на субектите един с друг. Ако за двойка субекти промяната в X съвпада по посока с промяната в Y съвпада, тогава това показва положителна връзка. Ако не съвпада, тогава за отрицателна връзка. Този коефициент се използва предимно от психолози, работещи с малки проби. Тъй като социолозите работят с големи количества данни, е трудно да се изброят двойки, да се идентифицира разликата в относителните честоти и инверсии на всички двойки субекти в извадката. Най-често срещаният е коефициентът. Пиърсън.

Тъй като коефициентът на корелация rPirson е основен и може да се използва (с известна грешка в зависимост от вида на скалата и нивото на аномалия в разпределението) за всички променливи, измерени в количествени скали, ще разгледаме примери за неговото използване и ще сравним получените резултати с резултатите от измерванията за други корелационни коефициенти.

Формулата за изчисляване на коефициента r- Пиърсън:

r xy = ∑ (Xi-Xav) ∙ (Yi-Yav) / (N-1) ∙ σ x ∙ σ y ∙

Където: Xi, Yi- Стойности на две променливи;

Xср, Yср - средни стойности на две променливи;

σ x, σ y - стандартни отклонения,

N е броят на наблюденията.

Двойни корелации

Например, бихме искали да разберем как отговорите между различните видове традиционни ценности корелират в представите на учениците за идеалното място на работа (променливи: a9.1, a9.3, a9.5, a9.7) , а след това за съотношението на либералните стойности (a9 .2, a9.4. A9.6, a9.8). Тези променливи се измерват по 5-членни подредени скали.

Използваме процедурата: „Анализ“,  „Корелации“,  „Сдвоени“. По подразбиране коеф. Pearson е инсталиран в диалоговия прозорец. Използваме коефициента. Пиърсън

Тестваните променливи се прехвърлят в прозореца за избор: a9.1, a9.3, a9.5, a9.7

Като щракнете върху OK, получаваме изчислението:

Корелации

a9.1.t. Колко важно е да имате достатъчно време за семейството и личния живот?

Корелация на Пиърсън

Zn (2-странно)

a9.3.t. Колко важно е да не се страхувате да загубите работата си?

Корелация на Пиърсън

Zn (2-странно)

a9.5.t. Колко важно е да имате шеф, който да се консултира с вас при вземането на това или онова решение?

Корелация на Пиърсън

Zn (2-странно)

a9.7.t. Колко важно е да работиш в добре координиран екип, да се чувстваш част от него?

Корелация на Пиърсън

Zn (2-странно)

** Корелацията е значима при 0,01 (2-странно).

Таблица на количествените стойности на конструираната корелационна матрица

Частични корелации:

Първо, нека изградим корелация по двойки между тези две променливи:

Корелации

c8. Чувствайте се близо до тези, които живеят близо до съседите ви

Корелация на Пиърсън

Zn (2-странно)

c12. Чувствайте се близо до семейството им

Корелация на Пиърсън

Zn (2-странно)

**. Корелацията е значима на ниво 0,01 (2-странно).

След това използваме процедурата за конструиране на частична корелация: „Анализ“,  „Корелации“,  „Частно“.

Да предположим, че стойността „Важно е самостоятелно да определите и промените реда на вашата работа“ по отношение на посочените променливи ще бъде решаващият фактор, под влиянието на който идентифицираната преди това връзка ще изчезне или ще бъде незначителна.

Корелации

Изключени променливи

c8. Чувствайте се близо до тези, които живеят близо до съседите ви

c12. Чувствайте се близо до семейството им

c16. Чувствайте се близки с хора, които имат същото богатство като вас

c8. Чувствайте се близо до тези, които живеят близо до съседите ви

Корелация

Значение (двустранно)

c12. Чувствайте се близо до семейството им

Корелация

Значение (двустранно)

Както се вижда от таблицата, под влиянието на контролната променлива, връзката леко намалява: от 0, 120 до 0, 102. Това леко намаление обаче не ни позволява да твърдим, че идентифицираната по-рано връзка е отражение на фалшива корелация, т.к той остава достатъчно висок и позволява оборване на нулевата хипотеза с нулева грешка.

Коефициент на корелация

Най-точният начин за определяне на плътността и естеството на корелацията е да се намери коефициентът на корелация. Коефициентът на корелация е число, определено по формулата:


където r xy е коефициентът на корелация;

x i -стойности на първия признак;

i -стойности на втория признак;

Средно аритметичното на стойностите на първия знак

Средноаритметичното на стойностите на втория признак

За да използваме формула (32), изграждаме таблица, която ще осигури необходимата последователност при изготвяне на числата за намиране на числителя и знаменателя на коефициента на корелация.

Както се вижда от формула (32), последователността на действията е следната: намираме средните аритметични и на двата знака x и y, намираме разликата между стойностите на признака и неговата средна стойност (x і -) и у і -), тогава намираме тяхното произведение (x і -) ( y i -) - сборът от последното дава числителя на коефициента на корелация. За да се намери знаменателят му, разликата (x i -) и (y i -) трябва да се постави на квадрат, да се намерят техните суми и да се извлече корен квадратен от тяхното произведение.

Така например 31 намирането на коефициента на корелация в съответствие с формулата (32) може да бъде представено, както следва (табл. 50).

Полученото число на коефициента на корелация дава възможност да се установи наличието, плътността и естеството на връзката.

1. Ако коефициентът на корелация е нула, няма връзка между признаците.

2. Ако коефициентът на корелация е равен на единица, връзката между признаците е толкова голяма, че преминава във функционална.

3. Абсолютната стойност на коефициента на корелация не надхвърля интервала от нула до единица:

Това дава възможност да се съсредоточи върху плътността на връзката: колкото по-близо до нула е стойността на коефициента, толкова по-слаба е връзката и колкото по-близо до единица, толкова по-близка е връзката.

4. Знакът на коефициента на корелация "плюс" означава пряка корелация, знакът "минус" - обратен.

маса 50

x i при i (x i -) (при i -) (x i -) (y i -) (x i -) 2 (y i -) 2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


По този начин, коефициентът на корелация, изчислен в пример 31, е r xy = +0,9. ни позволява да направим следните изводи: има корелация между големината на мускулната сила на дясната и лявата ръка при изследваните ученици (коефициент r xy = + 0,9 е различен от нула), връзката е много близка (коефициент r xy = + 0,9 е близо до единица), корелацията е пряка (коефициент r xy = +0,9 положителен), т.е. с увеличаване на мускулната сила в едната ръка силата на другата ръка се увеличава.

При изчисляване на коефициента на корелация и използване на неговите свойства трябва да се има предвид, че заключенията дават правилни резултати в случай, когато характеристиките са нормално разпределени и когато се разглежда връзката между голям брой стойности на двете характеристики.

В разглеждания пример 31 се анализират само 7 стойности на двата знака, което, разбира се, не е достатъчно за такива изследвания. Тук отново напомняме, че примерите в тази книга като цяло и в тази глава в частност имат характер на илюстрации на методи, а не на подробно представяне на каквито и да било научни експерименти. В резултат на това се отчитат малък брой стойности на характеристиките, измерванията се закръгляват - всичко това се прави, за да не се помрачи идеята за метода с тромави изчисления.

Особено внимание трябва да се обърне на същността на разглежданата връзка. Коефициентът на корелация не може да доведе до правилни резултати от изследването, ако анализът на връзката между признаците се извършва формално. Нека се върнем отново към пример 31. И двата разглеждани признака са стойностите на мускулната сила на дясната и лявата ръка. Нека си представим, че под знака xi в пример 31 (14.0; 14.2; 14.9 ... ... 18.1) имаме предвид дължината на случайно уловената риба в сантиметри, а под знака y i (12.1 ; 13.8; 14.2 .. ... 17.4) е теглото на инструментите в лабораторията в килограми. Формално, използвайки апарата за изчисления за намиране на коефициента на корелация и получавайки в този случай също r xy = + 0> 9, трябваше да заключим, че има тясна връзка от пряк характер между дължината на рибата и теглото на устройствата. Безсмислеността на подобно заключение е очевидна.

За да се избегне формален подход към използването на коефициента на корелация, трябва да се използва всеки друг метод - математически, логически, експериментален, теоретичен - за разкриване на възможността за корелация между знаците, тоест за откриване на органичното единство на знаците. Едва тогава човек може да започне да използва корелационен анализ и да установи мащаба и естеството на връзката.

В математическата статистика също има понятието множествена корелация- връзката между три или повече характеристики. В тези случаи се използва множествен коефициент на корелация, състоящ се от описаните по-горе коефициенти на корелация по двойки.

Например, коефициентът на корелация на три знака - x i, i, z i - е:

където R xyz е коефициентът на множествена корелация, изразяващ как характеристиката x i зависи от характеристиките y i и z i;

r xy е коефициентът на корелация между знаците x i и y i;

r xz е коефициентът на корелация между знаците Xi и Zi;

r yz - коефициент на корелация между характеристиките y i, z i

Анализът на корелацията е:

Корелационен анализ

Корелация- статистическата връзка на две или повече случайни променливи (или количества, които могат да се считат за такива с известна приемлива степен на точност). Освен това промените в една или повече от тези стойности водят до систематична промяна в друга или други стойности. Коефициентът на корелация служи като математическа мярка за корелацията на две случайни променливи.

Корелацията може да бъде положителна и отрицателна (възможна е и ситуация, при която няма статистическа връзка - например за независими случайни променливи). Отрицателна корелация - корелация, при която увеличението на една променлива е свързано с намаляване на друга променлива, докато коефициентът на корелация е отрицателен. Положителна корелация - корелация, при която увеличението на една променлива е свързано с увеличаване на друга променлива, докато коефициентът на корелация е положителен.

Автокорелация - статистическа връзка между случайни променливи от една и съща серия, но взети с отместване, например за случаен процес - с изместване във времето.

Методът за обработка на статистически данни, който се състои в изследване на коефициентите (корелации) между променливите, се нарича корелационен анализ.

Коефициент на корелация

Коефициент на корелацияили коефициент на сдвоена корелацияв теорията на вероятностите и статистиката, това е индикатор за естеството на промените в две случайни променливи. Коефициентът на корелация се обозначава с латинската буква R и може да приема стойности между -1 и +1. Ако стойността на модула е по-близка до 1, това означава наличието на силна връзка (когато коефициентът на корелация е равен на единица, те говорят за функционална връзка), а ако е по-близо до 0, тогава слаба.

Коефициент на корелация на Пиърсън

За метрични стойности се прилага коефициентът на корелация на Пиърсън, чиято точна формула е въведена от Франсис Галтън:

Нека бъде х,Й- две случайни променливи, дефинирани в едно и също вероятностно пространство. Тогава техният коефициент на корелация се дава по формулата:

,

където cov означава ковариация, а D означава дисперсия или еквивалентно

,

където символът обозначава математическото очакване.

За да представите графично такава връзка, можете да използвате правоъгълна координатна система с оси, които съответстват на двете променливи. Всяка двойка стойности е маркирана със специфичен символ. Такъв график се нарича "разпръснат график".

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, към която принадлежат променливите. Така че, за измерване на променливи с интервални и количествени скали, е необходимо да се използва коефициентът на корелация на Пиърсън (корелация на моментите на работа). Ако поне една от двете променливи има порядкова скала или не е нормално разпределена, тогава трябва да се използва корелацията на ранг на Спирман или корелацията на Кендал τ (tau). В случай, че една от двете променливи е дихотомична, се използва точкова двуредова корелация, а ако и двете променливи са дихотомични: четириполева корелация. Изчисляването на коефициента на корелация между две недихотомични променливи има смисъл само ако връзката между тях е линейна (еднопосочна).

Коефициент на корелация на Кендъл

Използва се за измерване на взаимното разстройство.

Коефициент на корелация на Спирман

Свойства на коефициента на корелация

  • Неравенство на Коши - Буняковски:
ако вземем ковариацията като скаларен продукт на две случайни променливи, тогава нормата на произволната променлива ще бъде равна на , а следствието от неравенството на Коши - Буняковски ще бъде:. , където . Освен това в този случай знаците и ксъвпада: .

Корелационен анализ

Корелационен анализ- метод за обработка на статистически данни, който се състои в изследване на коефициентите ( корелации) между променливи. В този случай коефициентите на корелация се сравняват между една двойка или множество двойки характеристики, за да се установят статистически връзки между тях.

Цел корелационен анализ- да осигури получаване на информация за една променлива, използвайки друга променлива. В случаите, когато е възможно да се постигне целта, те казват, че променливите корелират... В най-общата си форма приемането на хипотезата за наличието на корелация означава, че промяна в стойността на променлива А ще настъпи едновременно с пропорционална промяна в стойността на B: ако и двете променливи растат, тогава корелацията е положителнаако една променлива расте, а другата намалява, корелацията е отрицателна.

Корелацията отразява само линейната зависимост на стойностите, но не отразява тяхната функционална свързаност. Например, ако изчислите коефициента на корелация между стойностите А = син(х) и Б = ° Сос(х), то ще бъде близо до нула, т.е. няма зависимост между величините. Междувременно величините A и B са очевидно функционално свързани от закона син 2(х) + ° Сос 2(х) = 1.

Ограничения на корелационния анализ



Графики на разпределения на двойки (x, y) със съответните корелационни коефициенти x и y за всяка от тях. Имайте предвид, че коефициентът на корелация отразява линейна връзка (горен ред), но не описва крива на зависимост (среден ред) и изобщо не е подходящ за описване на сложни, нелинейни връзки (долен ред).
  1. Приложението е възможно, ако има достатъчен брой случаи за изследване: за конкретен тип коефициент на корелация е от 25 до 100 двойки наблюдения.
  2. Второто ограничение следва от хипотезата на корелационния анализ, на която се основава линейна зависимост на променливите... В много случаи, когато е надеждно известно, че зависимостта съществува, корелационният анализ може да не даде резултати просто поради факта, че зависимостта е нелинейна (изразена, например, под формата на парабола).
  3. Самият факт на корелация не дава основание да се твърди коя от променливите предхожда или причинява промени, или че променливите обикновено са причинно свързани, например поради действието на трети фактор.

Област на приложение

Този метод за обработка на статистически данни е много популярен в икономиката и социалните науки (по-специално в психологията и социологията), въпреки че обхватът на приложение на коефициентите на корелация е широк: контрол на качеството на промишлени продукти, металургия, агрохимия, хидробиология, биометрия и др. .

Популярността на метода се дължи на две точки: корелационните коефициенти са относително лесни за изчисляване, тяхното прилагане не изисква специално математическо обучение. В съчетание с лекотата на интерпретация, лекотата на прилагане на коефициента доведе до широкото му използване в областта на статистическия анализ на данни.

Фалшива корелация

Често примамливата простота на корелационните изследвания подтиква изследователя към фалшиви интуитивни заключения за наличието на причинно-следствена връзка между двойки признаци, докато коефициентите на корелация установяват само статистически връзки.

В съвременната количествена методология на социалните науки всъщност има отхвърляне на опитите за установяване на причинно-следствени връзки между наблюдаваните променливи чрез емпирични методи. Следователно, когато изследователите в социалните науки говорят за установяване на връзки между изследваните променливи, се подразбира или общо теоретично предположение, или статистическа зависимост.

Вижте също

  • Автокорелационна функция
  • Кръстосана корелационна функция
  • Ковариация
  • Коефициент на детерминация
  • Регресионен анализ

Фондация Уикимедия. 2010 г.

Корелацията е степента на връзка между 2 или повече независими явления.

Корелацията е положителна и отрицателна.

Положителна корелация (пряка)възниква, когато 2 променливи се променят едновременно в едни и същи посоки (положителни или отрицателни). Например връзката между броя на потребителите, идващи на сайта от резултатите от търсенето, и натоварването на сървъра: колкото повече потребители, толкова по-голямо е натоварването.

Корелацията е отрицателна (обратна)ако промяната на едно количество води до противоположна промяна в друга. Например с увеличаването на данъчната тежест върху компаниите печалбите им намаляват. Колкото повече данъци, толкова по-малко пари за развитие.

Ефективността на корелацията като статистически инструмент се крие в способността да се изрази връзката между две променливи с помощта на коефициента на корелация.

Коефициентът на корелация (CC) е в диапазона от числа от -1 до 1.

Когато стойността на KK е равна на 1, трябва да се разбере, че при всяка промяна на 1-ва променлива има еквивалентна промяна на 2-ра променлива в същата посока.


Ако стойността на KK е -1, тогава при всяка промяна има еквивалентна промяна във втората променлива в обратна посока.


Колкото по-близка е корелацията до -1 или 1, толкова по-силна е връзката между променливите. Когато стойността е нула (или близка до 0), няма значителна връзка между двете променливи или е много минимална.

Този метод за обработка на статистическа информация е популярен в икономическите, техническите, социалните и други науки поради простотата на изчисляване на QC, лекотата на интерпретация на резултатите и липсата на необходимост от овладяване на математиката на високо ниво.

Корелацията отразява само връзката между променливите и не говори за причинно-следствени връзки: положителна или отрицателна корелация между две променливи не означава непременно, че промяната в една променлива причинява промяна в другата.

Например, има положителна връзка между повишаването на заплатата на мениджърите по продажбите и качеството на работа с клиенти (подобряване на качеството на обслужване, работа с възражения, познаване на положителните качества на продукта в сравнение с конкурентите) с подходящ персонал мотивация. Увеличените продажби, а съответно и заплатите на мениджърите, не означава, че мениджърите са подобрили качеството на работа с клиенти. Вероятно големи поръчки са постъпили случайно и са били изпратени, или маркетинговият отдел е увеличил рекламния си бюджет, или се е случило нещо друго.

Може би има някаква трета променлива, която влияе върху причината за наличието или липсата на корелация.

Коефициентът на корелация не се изчислява:

  • когато връзката между две променливи не е линейна, например квадратична;
  • данните съдържат повече от 1 наблюдение за всеки случай;
  • има ненормални наблюдения (изблици, "отстъпници");
  • данните съдържат отделни подгрупи от наблюдения.

КУРСОВА РАБОТА

Тема: Корелационен анализ

Въведение

1. Корелационен анализ

1.1 Концепцията за корелация

1.2 Обща класификация на корелациите

1.3 Корелационни полета и целта на тяхното изграждане

1.4 Етапи на корелационен анализ

1.5 Коефициенти на корелация

1.6 Нормализиран коефициент на корелация на Brave-Pearson

1.7 Коефициент на корелация на ранга на Спирман

1.8 Основни свойства на корелационните коефициенти

1.9 Проверка на значимостта на корелационните коефициенти

1.10 Критичните стойности на коефициента на корелация на двойката

2. Планиране на многовариантен експеримент

2.1 Проблемно състояние

2.2 Определяне на центъра на плана (основно ниво) и нивото на вариация на факторите

2.3 Изграждане на матрица за планиране

2.4 Проверка на хомогенността на дисперсията и еднородността на измерването в различни серии

2.5 Коефициенти на регресионното уравнение

2.6 Дисперсия на възпроизводимост

2.7 Проверка на значимостта на коефициентите на регресионното уравнение

2.8 Проверка на адекватността на регресионното уравнение

Заключение

Библиография

ВЪВЕДЕНИЕ

Планирането на експеримента е математическа и статистическа дисциплина, която изучава методите за рационална организация на експерименталното изследване - от оптималния избор на изследваните фактори и дефинирането на действителния експериментален план в съответствие с предназначението му до методите за анализ на резултатите. Началото на планирането на експеримента е поставено от трудовете на английския статистик Р. Фишър (1935), който подчертава, че рационалното планиране на експеримента дава не по-малко значителна печалба в точността на оценките, отколкото оптималната обработка на измерването резултати. През 60-те години на 20-ти век се развива съвременната теория на планирането на експеримента. Неговите методи са тясно свързани с теорията на апроксимацията на функциите и математическото програмиране. Конструират се оптимални проекти и се изследват техните свойства за широк клас модели.

Планирането на експеримента е изборът на план за експеримент, който отговаря на определените изисквания, набор от действия, насочени към разработване на експериментална стратегия (от получаване на априорна информация до получаване на работещ математически модел или определяне на оптимални условия). Това е целенасочен контрол на експеримента, който се осъществява при условия на непълно познаване на механизма на изследваното явление.

В процеса на измерване, последваща обработка на данните, както и формализиране на резултатите под формата на математически модел възникват грешки и част от информацията, съдържаща се в изходните данни, се губи. Използването на експериментални методи за планиране ви позволява да определите грешката на математическия модел и да прецените неговата адекватност. Ако точността на модела се окаже недостатъчна, тогава използването на методи за експериментално планиране ви позволява да модернизирате математическия модел с допълнителни експерименти, без да губите предишната информация и с минимални разходи.

Целта на планирането на експеримента е да се намерят такива условия и правила за провеждане на експерименти, при които е възможно да се получи надеждна и надеждна информация за обект с най-малко трудоемкост, както и тази информация да се представи в компактна и удобна форма с количествено оценка на точността.

Сред основните методи за планиране, използвани на различни етапи от проучването, те използват:

Планиране на скрининг експеримент, чийто основен смисъл е подборът от целия набор от фактори на група съществени фактори, които подлежат на по-нататъшно подробно изследване;

Проектиране на експеримент за анализ на дисперсията, т.е. изготвяне на планове за обекти с качествени фактори;

Планиране на регресионен експеримент, който ви позволява да получите регресионни модели (полиномни и други);

Планиране на екстремен експеримент, при който основна задача е експериментална оптимизация на обекта на изследване;

Планиране при изследване на динамични процеси и др.

Целта на изучаването на дисциплината е да подготви студентите за производствено-технически дейности по специалността им, използвайки методите на теорията на планирането и съвременните информационни технологии.

Цели на дисциплината: изучаване на съвременни методи за планиране, организиране и оптимизиране на научни и производствени експерименти, експерименти и обработка на резултатите.

1. КОРЕЛАЦИОНЕН АНАЛИЗ

1.1 Концепция за корелация

Изследователят често се интересува от това как две или повече променливи в една или повече изследвани проби са свързани една с друга. Например, може ли височината да повлияе на теглото на човек или налягането може да повлияе на качеството на продукта?

Този вид връзка между променливите се нарича корелация или корелация. Корелацията е последователна промяна в две черти, отразяваща факта, че променливостта на едната черта е в съответствие с променливостта на другата.

Известно е, например, че средно има положителна връзка между ръста на хората и тяхното тегло и такава, че колкото по-голям е ръстът, толкова по-голямо е теглото на човек. Има обаче изключения от това правило, когато относително ниските хора са с наднормено тегло и, обратно, астениците с висок растеж са леки. Причината за подобни изключения е, че всеки биологичен, физиологичен или психологически признак се определя от влиянието на много фактори: екологични, генетични, социални, екологични и т.н.

Корелационните връзки са вероятностни промени, които могат да бъдат изследвани само върху представителни извадки чрез методи на математическата статистика. И двата термина - корелация и корелация - често се използват взаимозаменяемо. Зависимостта предполага влияние, връзката предполага всяка договорена промяна, която може да бъде приписана на стотици причини. Корелационните връзки не могат да се разглеждат като доказателство за причинно-следствена връзка, те само показват, че промените в една характеристика, като правило, са придружени от определени промени в друга.

Корелационна зависимост - това са промени, които въвеждат стойностите на една характеристика във вероятността за поява на различни стойности на друга характеристика.

Задачата на корелационния анализ се свежда до установяване на посоката (положителна или отрицателна) и формата (линейна, нелинейна) на връзката между различни знаци, измерване на нейната плътност и накрая до проверка на нивото на значимост на получените корелационни коефициенти.

Корелационните връзки се различават по форма, посока и степен (сила) .

По форма корелацията може да бъде права или извита. Например връзката между броя на тренировките на симулатора и броя на правилно решените задачи в контролната сесия може да бъде ясна. Например, връзката между нивото на мотивация и ефективността на изпълнението на задачата може да бъде криволинейна (Фигура 1). С повишаване на мотивацията ефективността на задачата първо се увеличава, след това се постига оптималното ниво на мотивация, което съответства на максималната ефективност на задачата; по-нататъшното повишаване на мотивацията вече е придружено от намаляване на ефективността.

Фигура 1 – Връзката между ефективността на решаването на проблема и силата на мотивационната тенденция

По посока на корелацията връзката може да бъде положителна („директна“) и отрицателна („обратна“). При положителна праволинейна корелация по-високите стойности на една характеристика съответстват на по-високи стойности на друга, а по-ниските стойности на една характеристика съответстват на по-ниски стойности на друга (Фигура 2). При отрицателна корелация съотношенията се обръщат (Фигура 3). При положителна корелация коефициентът на корелация има положителен знак, при отрицателна корелация - отрицателен знак.

Фигура 2 - Пряка корелация

Фигура 3 - Обратна корелация


Фигура 4 - Липса на корелация

Степента, силата или плътността на корелацията се определя от стойността на коефициента на корелация. Силата на връзката не зависи от нейната посока и се определя от абсолютната стойност на коефициента на корелация.

1.2 Обща класификация на корелациите

В зависимост от коефициента на корелация се разграничават следните корелации:

Силни или стегнати с коефициент на корелация r> 0,70;

Средно (при 0,50

Умерено (при 0,30

Слаба (при 0,20

Много слаб (за r<0,19).

1.3 Корелационни полета и целта на тяхното изграждане

Корелацията се изследва на базата на експериментални данни, които представляват измерени стойности (x i, y i) на два признака. Ако експерименталните данни са малко, тогава двувариантното емпирично разпределение се представя като двойна серия от стойности x i и y i. В този случай корелационната зависимост между характеристиките може да бъде описана по различни начини. Съответствието между аргумент и функция може да бъде определено чрез таблица, формула, графика и т.н.

Корелационният анализ, подобно на други статистически методи, се основава на използването на вероятностни модели, които описват поведението на изследваните характеристики в определена генерална популация, от които се получават експерименталните стойности x i и y i. Когато се изследва връзката между количествените характеристики, чиито стойности могат да бъдат точно измерени в единици метрични скали (метри, секунди, килограми и т.н.), тогава много често се използва моделът на двуизмерна нормално разпределена обща съвкупност приет. Такъв модел показва връзката между променливите x i и y i графично под формата на локус от точки в правоъгълна координатна система. Тази диаграма се нарича още диаграма на разсейване или корелационно поле.
Този модел на двуизмерно нормално разпределение (корелационно поле) ви позволява да дадете визуална графична интерпретация на коефициента на корелация, тъй като разпределението в съвкупността зависи от пет параметъра: μ x, μ y - средни стойности (математически очаквания); σ x, σ y са стандартните отклонения на случайните променливи X и Y, а p е коефициентът на корелация, който е мярка за връзката между случайните променливи X и Y.
Ако p = 0, тогава стойностите x i, y i, получени от двуизмерна нормална популация, се намират на графиката в координати x, y в областта, ограничена от окръжност (Фигура 5, а). В този случай няма корелация между случайните променливи X и Y и те се наричат ​​некорелирани. За бивариантно нормално разпределение некорелацията означава в същото време независимостта на случайните променливи X и Y.

Споделете с приятели или запазете за себе си:

Зареждане...