Коефициентът на корелация, равен на 1 означава това. Статистика и обработка на данни в психологията (продължение)

"Статистика

Статистика и обработка на данни в психологията
(продължение)

Анализ на корелацията

При изучаване корелациисе опита да установи дали има някаква връзка между двата показателя в една проба (например, между ръста и теглото на децата или между нивото IQ.и изпълнение училище) или между две различни проби (например, когато се сравняват двойки близнаци), и ако съществува тази връзка, след това повишаване на един индикатор е придружено от увеличение (положителна корелация) или понижаване (негативна корелация) на друга .

С други думи, корелационен анализ помага да се установи дали е възможно да се предскаже възможните стойности на един индикатор, знаейки, количеството на другия.

До сега, когато се анализират резултатите от нашия опит в изучаването на действието на марихуана, ние съзнателно игнорира такъв показател като времето за реакция. Междувременно би било интересно да се провери дали има връзка между ефективността на реакциите и тяхната скорост. Това би дало възможност, например, да се твърди, че лицето, което се забавя, толкова по-точни и по-ефективно ще бъде действията си, и обратно.

За тази цел могат да се използват два различни метода: параметричен метод за изчисляване на коефициента на противника (R) и изчисляване на коефициента на корелация на редиците на спиремите (R S), който се прилага към редните данни, т.е. Това е непараметрично. Въпреки това, ние ще разберем първо във факта, че такъв коефициент на корелация е.

Коефициент на корелация

Коефициентът на корелация е стойност, която може да варира от +1 до -1. В случай на пълна положителна корелация, този коефициент е плюс 1 и с пълен отрицателен - минус 1. Директната линия съответства на графиката на пресичането на стойностите на всяка двойка данни:

В случая, ако тези точки не са построени по права линия, и образуват "облак", коефициентът на корелация в абсолютната стойност става по-малък от единицата и тъй като този облак закръглен, той се приближава към нула:

Ако коефициентът на корелация е 0, двата променливи са напълно независими един от друг.

В хуманитарната наука корелацията се счита за силна, ако нейният коефициент е над 0,60; Ако надвишава 0.90, корелацията се счита за много силна. Въпреки това, за да се направят заключения относно връзките между променливите, размерът на извадката е от голямо значение: отколкото пробата е по-голяма, толкова по-скъпа е стойността на коефициента на корелация. Има маси с критични стойности на коефициента на корелация смели-Pearson и Spearman за различен брой степени на свобода (е равен на броя на двойки по-малко от 2, т.е. н-2). Само ако корелационните коефициенти са по-големи от тези критични стойности, те могат да се считат за надеждни. Така че, за да може коефициентът на корелация от 0.70 да бъде надежден, не по-малко от 8 двойки данни трябва да бъдат взети в анализа (х. \u003d N.-2 \u003d 6) при изчисляване на R (виж Таблица 4 в допълнение) и 7 двойки данни (h \u003d n-2 \u003d5) при изчисляване на R S (Таблица 5 в приложението).

Бих искал отново да подчертая, че същността на тези два коефициента е малко по-различна. Коефициентът на отрицателно на R показва, че ефективността на най-често по-висока от времето за реакция е по-малко, докато при изчисляване на коефициента на R S, че е необходимо да се провери дали по-бързо тестисите винаги реагира по-точно и по-бавно - по-малко точно.

Коефициент на корелация Brave-Pearson (R) - това е етопараметричен индикатор за изчисляване на средните и стандартните отклонения на резултатите от две измерения. В същото време те използват формулата (от различни автори, които могат да изглеждат различни)

където σ. Xy -количеството данни от всяка двойка;
n-брой двойки;
X - Средно за променливи данни Х;
Y. - среда за променлива на данни Y.
S x -
стандартно отклонение за разпространение х;
S y -
стандартно отклонение за разпространение w.

Коефициентът на корелация на коефициента на копия (r S. ) - Това е непараметричен индикатор, с който се опитват да идентифицират връзката между редиците на съответните стойности в два реда измервания.

Този коефициент е по-лесен за изчисляване, но резултатите са по-малко точни, отколкото при използване на R. Това се дължи на факта, че при изчисляването на коефициента на духа се използва редът на данните, а не техните количествени характеристики и интервали между класове.

Факт е, че когато се използва коефициентът на корелация на ранг spirmen (РС), тя се проверява само дали данни за класиране за всяка проба е същото като в редица други данни за този образец, свързани по двойки с първия (например, дали едни и същи "ранг" студенти, когато преминават по психология и математика, или дори с две различни учители психология?). Ако коефициентът е близо до 1, това означава, че двата реда са практически съвпадат, а ако този коефициент е близък до -1, можем да говорим за пълна обратна зависимост.

Коефициент r S.изчисляване по формула

където д.- разликата между редиците на конюгиращите признаци на знаци (независимо от неговия знак) и броя на двойките.

Обикновено този непараметричен тест се използва в случаите, когато трябва да направите някои заключения не толкова много интервалимежду данните, колко около тях . \\ Tи дори когато кривите на разпределение са твърде асиметрични и не позволяват използването на параметрични критерии като коефициент на R (в тези случаи е необходимо да се превърнат количествените данни в ординал).

Резюме

Така че, разгледахме различни параметрични и непараметрични статистически методи, използвани в психологията. Нашият преглед беше много повърхностен и основната му задача беше, че читателят ще разбере, че статистиката не е толкова ужасна, както изглежда, и изисква главно здрав разум. Ние ви напомняме, че данните за "опита", с които се занимаваме тук, са измислени и не могат да служат като основа за всички заключения. Въпреки това, такъв експеримент ще струва наистина да се харчат. Тъй като за този опит е избран чисто класическа техника, същият статистически анализ може да се използва в различни експерименти. Във всеки случай, ни се струва, че сме описали някои основни направления, които могат да бъдат полезни за тези, които не знаете откъде да започнете статистически анализ на получените резултати.

Литература

  1. Гледай Дж.Какво е психологията. - М., 1992.
  2. Chatillon G.,1977. Stististique en Науки Хумайнс, троос-ривие, Ед. SMG.
  3. Gilbert n ..1978. Статистики, Монреал, Ед. HRW.
  4. Moroney m.j.,1970. Компордава La Statistique, Verviers, Gerard et cie.
  5. Siegel S.,1956. Непараметрична статистика, Ню Йорк, Macgraw-Hill Book Co.

Допълнение Таблица

Бележки.1) за големи проби или ниво на значимост, по-малко от 0.05 трябва да се отнасят до таблици по квоти за статистика.

2) Таблиците на стойностите на други непараметрични критерии могат да бъдат намерени в специални ръководства (виж библиографията).

Таблица 1. Стойности на критериите t.Студент
х. 0,05
1 6,31
2 2,92
3 2,35
4 2,13
5 2,02
6 1,94
7 1,90
8 1,86
9 1,83
10 1,81
11 1,80
12 1,78
13 1,77
14 1,76
15 1,75
16 1,75
17 1,74
18 1,73
19 1,73
20 1,73
21 1,72
22 1,72
23 1,71
24 1,71
25 1,71
26 1,71
27 1,70
28 1,70
29 1,70
30 1,70
40 1,68
¥ 1,65
Таблица 2. Стойности на критерия χ 2
х. 0,05
1 3,84
2 5,99
3 7,81
4 9,49
5 11,1
6 12,6
7 14,1
8 15,5
9 16,9
10 18,3
Таблица 3. Надеждни Z стойности
r. Z.
0,05 1,64
0,01 2,33
Таблица 4. Надеждни (критични) стойности r
h \u003d (n-2) p \u003d.0,05 (5%)
3 0,88
4 0,81
5 0,75
6 0,71
7 0,67
8 0,63
9 0,60
10 0,58
11 0.55
12 0,53
13 0,51
14 0,50
15 0,48
16 0,47
17 0,46
18 0,44
19 0,43
20 0,42
Таблица 5. Надеждни (критични) стойности r s
h \u003d (n-2) p \u003d.0,05
2 1,000
3 0,900
4 0,829
5 0,714
6 0,643
7 0,600
8 0,564
10 0,506
12 0,456
14 0,425
16 0,399
18 0,377
20 0,359
22 0,343
24 0,329
26 0,317
28 0,306

При изучаване корелацииопитайте се да установите дали има някаква връзка между двата показателя в една проба (например между растежа и теглото на децата или между нивото IQ.и изпълнение училище) или между две различни проби (например, когато се сравняват двойки близнаци), и ако съществува тази връзка, след това повишаване на един индикатор е придружено от увеличение (положителна корелация) или понижаване (негативна корелация) на друга .

С други думи, анализът на корелацията помага да се установи дали е възможно да се предскажат възможните стойности на един индикатор, като знаете количеството на другото.

Досега, когато анализираме резултатите от нашия опит в изучаването на действието на марихуана, ние съзнателно пренебрегнахме такъв индикатор като времето за реакция. Междувременно би било интересно да се провери дали има връзка между ефективността на реакциите и тяхната скорост. Това би позволило, например, да се твърди, че лицето се забавя, толкова по-точни и по-ефективно ще бъдат неговите действия и обратно.

За тази цел могат да се използват два различни метода: параметричен метод за изчисляване на смелите коефициент - Pearson (R)и изчисляване на коефициента на корелация на алкохолните редици (R. с. ), което се прилага към ред данни, т.е. не са параметрични. Въпреки това, ние ще разберем първо във факта, че такъв коефициент на корелация е.

Коефициент на корелация

Коефициентът на корелация е стойността, която може да варира от -1 до 1. в случай на пълна положителна корелация, този коефициент е плюс 1 и с пълен отрицателен - минус 1. Правата линия преминава през точките на пресичане на всяка двойка Данни:

Променлива

В случая, ако тези точки не са построени в права линия, както и формата на "облак", коефициента на корелация в абсолютна стойност се превръща в по-малко от единица и като този облак заоблени е близо до нула:

Ако коефициентът на корелация е 0, двата променливи са напълно независими един от друг.

В хуманитарната наука корелацията се счита за силна, ако нейният коефициент е над 0,60; Ако надвишава 0.90, корелацията се счита за много силна. Въпреки това, за да се направят заключения относно връзките между променливите, размерът на извадката е от голямо значение: отколкото пробата е по-голяма, толкова по-скъпа е стойността на коефициента на корелация. Има маси с критични стойности на коефициента на корелация смели-Pearson и Spearman за различен брой степени на свобода (е равен на броя на двойки по-малко от 2, т.е. н.-2). Само ако корелационните коефициенти са по-големи от тези критични стойности, те могат да се считат за надеждни. Така че, за да може коефициентът на корелация от 0.70 да бъде надежден, не по-малко от 8 двойки данни трябва да бъдат взети в анализа ( = р2 = 6) при изчисляване r.(Таблица. V.4) и 7 двойки данни ( \u003d P -2 \u003d 5) при изчисляване r. с. (Таблица 5 в допълнение Б. 5).

Смел коефициент - Pearson

За да се изчисли този коефициент, се използва следната формула (от различни автори може да изглежда различно):

където . Xy. - количеството данни от всяка двойка;

н. - брой двойки;

- среда за променлива на данни Х.;

Среда за променлива на данни Y.;

С. Х. - х.;

с. Y. - стандартно отклонение за разпространение y.

Сега можем да използваме този коефициент, за да установим дали има връзка между времето за реакция на субектите и ефективността на техните действия. Вземете, например, фоновото ниво на контролната група.

н.= 15  15,8  13,4 = 3175,8;

(н.1)С. х. С. y. = 14  3,07  2,29 = 98,42;

r. =

Отрицателната стойност на коефициента на корелация може да означава, че колкото по-голямо е времето за реакция, толкова по-ниска е ефективността. Въпреки това, това е твърде малко, за да се говори за надеждна връзка между тези две променливи.

nxy \u003d.………

(Н.- 1) S. Х. С. Y. = ……

Какво заключение може да се направи от тези резултати? Ако мислите, че има връзка между променливите, тогава какво е това - директно или обратното? Това е надеждно [виж Маса. 4 (в допълнение Б. 5) с критични ценности r.]?

Коефициентът на корелация на копия на Spearmanr. с.

Този коефициент е по-лесен за изчисляване, но резултатите са по-малко точни, отколкото при използване r.Това се дължи на факта, че при изчисляването на коефициента на духа се използва редът на данните, а не техните количествени характеристики и интервали между класове.

Факт е, че когато използвате коефициента на корелация Spearmene.(R. с. ) проверете само дали данни за класиране за всяка проба е същото като в редица други данни за този образец, свързани по двойки с първия (например студенти ще бъдат еднакво "класира", когато те преминават като психология и математика, или дори с две различни учители по психология?). Ако коефициентът е близо до + 1, това означава, че и двата реда са почти съвпадащи и ако този коефициент е близо до - 1, можете да говорите за пълна обратна зависимост.

Коефициент r. с. изчисляване по формула.

където д-разликата между редиците на конюгиращите признаци на знаци (независимо от неговия знак) и н.- пара.

Обикновено този непараметричен тест се използва в случаите, когато трябва да направите някои заключения не толкова много интервалимежду данните, колко около тях . \\ Tи след това, когато кривите на разпределение са твърде асиметрични и не позволяват използването на такива параметрични критерии като коефициент r.(В тези случаи е необходимо да се превърнат количествените данни в ординал).

Тъй като случаят е случаят с разпределението на стойностите на ефективността и времето на реакцията в експерименталната група след експозицията, е възможно да се повторят изчисленията, които вече сте направили за тази група, само сега не е за Коефициент r., и за индикатора r. с. . Това ще ви позволи да видите колко много тези показатели се различават *.

* Трябва да се помни това

1) За броя на посещенията, 1-ви ранг отговаря на най-високите, и изпълнението на 15-ия ниско, като за времето за реакция на 1-ви ранг съответства на най-кратко време, както и 15-то дълго време;

2) ex aequo data приложен среден ранг.

Така, както в случая с коефициента r,получени положителни, макар и ненадеждни, резултати. КАКВО ДА СЕ ПРАВЛЕНО: r \u003d.-0.48 Or r. с. \u003d +0.24? Този въпрос може да застане само ако резултатите са надеждни.

Бих искал отново да подчертая, че същността на тези два коефициента е малко по-различна. Отрицателен коефициент r.показва, че ефективността най-често е по-висока от времето за реакция, докато при изчисляване на коефициента r. с. беше необходимо да се провери дали по-бързите субекти винаги реагират по-точно и по-бавно - по-малко точно.

Тъй като експерименталната група след експозицията е получена коефициент r. с. , равна 0.24, такава тенденция тук очевидно не е проследена. Опитайте се да го разберете в собствените си данни за контролната група след експозиция, като знаете, че д. 2 = 122,5:

Шпакловка Значително?

Какво е вашето заключение? ............................................... .................................................... ............

…………………………………………………………………………………………………………………….

Така че, разгледахме различни параметрични и непараметрични статистически методи, използвани в психологията. Нашият преглед беше много повърхностен и основната му задача беше, че читателят ще разбере, че статистиката не е толкова ужасна, както изглежда, и изисква главно здрав разум. Ние ви напомняме, че данните за "опита", с които се занимаваме тук, са измислени и не могат да служат като основа за всички заключения. Въпреки това, такъв експеримент ще струва наистина да се харчат. Тъй като за този опит е избран чисто класическа техника, същият статистически анализ може да се използва в различни експерименти. Във всеки случай, ни се струва, че сме описали някои основни направления, които могат да бъдат полезни за тези, които не знаете откъде да започнете статистически анализ на получените резултати.

Има три основни дяла на статистиката: описателна статистика, индуктивна статистика и анализ на корелацията.

7.3.1. Коефициенти на корелация и определяне.Можете да определите количествено цялостна комуникация. между фактори и нея храна(Директно или обратното), изчислено:

1) Ако е необходимо да се определи връзката между връзката между два фактора - коефициент на чифткорелация: при 7.3.2 и 7.3.3, изчислителните операции на сдвоения линеен коефициент на корелация върху Brash-Personcon ( r.) и двойката ранг коефициент на корелация в духа ( r.);

2) Ако искаме да определим връзката между два фактора, но тази връзка е очевидно нелинейна корелантиране ;

3) Ако искаме да определим връзката между един фактор и някои комбинация от други фактори - тогава (или, че същото, "коефициент на множествен корелация");

4), ако искаме да се установи връзката на само един фактор, с конкретен човек, който е включен в групата фактори, влияещи върху първите, за които е необходимо да се разгледа влиянието на останалите фактори непроменени - частен (частичен) коефициент на корелация .

Всеки коефициент на корелация (R, R) не може да надвишава абсолютната стойност 1, т.е. -1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знакът в коефициента на корелация определя фокуса на комуникацията: знак "+" (или липсата на знак) означава, че връзката прав (положителен), знакът "-" - че връзката обратен (отрицателен). Няма връзка няма връзка с плътността на връзката

Коефициентът на корелация характеризира статистическа връзка. Но често е необходимо да се идентифицира друг вид пристрастяване, а именно: какъв е приносът на някакъв фактор при формирането на друг фактор, свързан с него. Характеризира се този вид зависимост с част от конвенцията коефициент на определяне (Д. ) дефинирани по формулата Д. \u003d R2 '100% (където R е коефициент на корелация на Brash-Personcon, виж 7.3.2). Ако измерванията бяха извършени мащаб (скала за ранг), С някои щети на надеждност, е възможно да се замени стойността на R във формулата R (коефициента на корелация на spirmetue, вижте 7.3.3).

Например, ако сме получили като характеристика на зависимостта на фактора В от коефициента и коефициента на корелация R \u003d 0.8 или R \u003d -0.8, след това d \u003d 0.8 2 '100% \u003d 64%, т.е., около 2 ½ 3. следователно приносът на фактор А и неговите промени в образуването на фактор B е приблизително 2 ½ 3 от общия принос на всички фактори.

7.3.2. Коефициентът на корелация върху смел-Пиърсън. Процедурата за изчисляване на коефициента на корелация върху Brash-Personcon ( r. ) Може да се използва само в случаите, когато комуникацията се счита за образци, които имат нормално разпределение на честотата ( нормална дистрибуция ) и измерванията, получени в диапазоните на интервали или взаимоотношения. Изчислената формула на този корелационен коефициент:



å ( х. I -) ( y. I -)

R. = .

n × s x × s y

Какво показва коефициентът на корелация? Първо, знакът в коефициента на корелация показва фокуса на комуникацията, а именно: знакът "-" показва, че връзката обратен, или отрицателен (Налице е тенденция: с намаляване на стойностите на един фактор, съответните стойности на другия фактор нараства и с увеличаване - намаляване) и липсата на знак или знак "+" прав, или положителенкомуникации (има тенденция: с увеличаване на стойностите на същия фактор, стойностите на другия се увеличават и намаляват с намаление). Второ, абсолютният (независим от знака) величината на коефициента на корелация говори за стягане (сила) на комуникацията. Счита се (достатъчно условно): при стойностите на r< 0,3 корреляция много слаб, често просто не е взето под внимание, при 0.3 £ r< 5 корреляция слаб, при 0.5 £ r< 0,7) - средно аритметично, при 0.7 £ R £ 0.9) - сила И накрая, при R\u003e 0.9 - много силен.В нашия случай (R "0.83) връзката е обратна (отрицателна) и силна.

Спомнете си: Стойностите на коефициента на корелация могат да бъдат в диапазона от -1 до +1. Изходната стойност на R за тези граници показва, че в изчисленията е разрешено грешка . Ако r. \u003d 1, това означава, че връзката не е статистическа, но функционалната - която в спорта, биологията, медицината практически не се случва. Въпреки че с малко количество от измервания, случаен избор на стойности, което дава представа за функционален съобщението, е възможно, но този случай е по-малко вероятно, толкова по-голям размер на comparatable проби (N), което означава, че Брой двойки сравнителни измервания.

Изчислената таблица (Таблица 7.1) е построена по формулата.

Таблица 7.1.

Таблица за изчисление за изчисляване на грък

X I. Y I. (х. I -) (х. I -) 2 (y. I -) (y. I -) 2 (х. I -) ( y. I -)
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
ÅX I \u003d 137 \u003d 13.00 Yy i \u003d 56,1 \u003d 5.1 å( х. I -) 2 \u003d \u003d 1.78 å( y. I -) 2 \u003d \u003d 1,015 å( х. I -) ( y. I -) \u003d -1.24

Дотолкова доколкото с. x \u003d ï ï = ï ï» 0.42, А.

с. y \u003d. ï ï» 0,32, r » –1,24ï (11'0,42'0,32) » –1,24ï 1,48 » –0,83 .

С други думи, е необходимо да се знае много твърдо, че коефициентът на корелация не мога В абсолютна стойност, за да се надвишава 1.0. Това често избягва грубите грешки, по-точно - да се намери и коригира разрешената грешка при изчисляване.

7.3.3. Коефициент на корелация на копия. Както вече бе споменато, е възможно да се прилагат коефициента на корелация BRAVE-Peyson (R) само в случаите, когато се анализират фактори разпространение честота са близки до нормалните и възможности стойност се получават чрез измервания задължително в мащаб връзка или в скалата интервал, който ще стане, ако те са изразени физически единици. В други случаи се намира коефициентът на корелация на духа ( r.). Този коефициент обаче мога се прилагат в случаите, когато са разрешени (и за предпочитане ! ) Приложете коефициента на корелация на Bävse-Pearson. Но трябва да се има предвид, че процедурата за определяне на коефициента на борба с кесията има по-голяма сила ("разрешаващаспособност"), така r.по-информативен от r.. Дори и с големи н. отклонение r. Може да бъде около ± 10%.

Таблица 7.2 Изчисляваната формула на коефициента

x i y i r x r y | d r | D R 2 Корелация на копията

13,2 4,75 8,5 3,0 5,5 30,25 r. \u003d 1 -. Почивка

13.5 4.70 11.0 2.0 9.0 81.00 Използваме нашия пример

12.7 5,10 4.5 6.5 2.0 4.00 за изчисление r.Но изграждане

12.5 5.40 3.0 9.0 6.0 36.00 Друга таблица (Таблица 7.2).

13.0 5.10 6.0 6.5 0.5 0.25 Заместване на стойностите:

13.2 5.00 8.5 4.5 4.0 16.00 R \u003d 1- \u003d

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13.4 4.65 10.0 1.0 9.0 81.00 Виждаме: r. Оказа се, че е малко

12.4 5.60 2.0 11.0 9.0 81.00 Повече от r.но е

12.3 5.50 1.0 10.0 9.0 81.00 чия не е много голяма. В крайна сметка, когато

12.7 5.20 4.5 8.0 3.5 12.25 Такива малки н. Стойности r. и r.

ÅD R2 \u003d 423 е много приблизителен, малко надежден, тяхната действителна стойност може да се колебае широко, следователно разликата r. и r. 0.1 е ненужно. Обикновеноr.помислете като аналоговr. Но само по-малко точни. Признаци за r.и r.показва фокуса на комуникацията.

7.3.4. Прилагане и проверка на точността на корелационните коефициенти. Определянето на степента на корелация между факторите е необходима за управление на развитието на факторите, от които се нуждаем: за това трябва да повлияете на други фактори, които значително го засягат, и трябва да знаете мярката за тяхната ефективност. Вие трябва да знаете за връзката фактори, за да се развиват или изберете готови тестове: на информативността на теста се определя от съотношението на резултатите от нея с проявите на функцията или свойствата на интерес за нас. Без познания за корелациите, всякакви форми на подбор са невъзможни.

Беше отбелязано над това в спорта и като цяло, педагогическата, медицинската и дори икономическата и социологическата практика е от голям интерес за определението на депозит , какъв е един фактор допринася за образуването на друг. Това се дължи на факта, че в допълнение към разглежданите фактори, мишена (Ние сме заинтересовани от) фактор Закон, давайки на всеки един или друг принос за него и други.

Смята се, че мярката за приноса на всяка причина може да бъде коефициент на определяне D i \u003d R 2 '100%. Например, ако r \u003d 0.6, т.е. Връзката между факторите А и В е средна, след това d \u003d 0.6 2 '100% \u003d 36%. Зная, по такъв начин, че приносът на фактор А в образуването на фактор B е приблизително 1 ½ 3, можете например да посветлите целевото развитие на този фактор приблизително 1 ½ 3 време за обучение. Ако коефициентът на корелация е R \u003d 0.4, след това d \u003d R2 100% \u003d 16%, или приблизително 1 ½ 6 - още два пъти по-малко и да я посвещават на развитието на тази логика, съответно само 1 ½ 6 част от времето за обучение.

Ценностите на DI за различни съществени фактори дават приблизителен поглед върху количественото отношение на влиянието им върху целевия фактор, който ни интересува, за да подобри, които всъщност и работим по други фактори (например, a дългосрочна скачач работи на увеличаване на скоростта на неговото предене план, така че това е фактор, който дава най-съществен принос за формирането на резултата в скокове).

Припомнете това определяне Д. Това е възможно вместо това r. Слагам r.Въпреки че, разбира се, точността на определението е по-ниска.

Базиран селективен (изчислени при избирателни данни) Коефициентът на корелация не може да се заключи, че връзката между разглежданите фактори не е възможна. За да се направи такова заключение с една степен на разумност, използвайте стандарт критерии за корелация. Тяхната употреба предполага линейна връзка между факторите и нормална дистрибуция Честотите във всяка от тях (което не е проба, но общото им представяне).

Можете например да приложите T-критериите на ученика. Неговото разстояние

дори формула: т.= –2 , където К е изследваният коефициент на селективна корелация, a н. - обем на компирами проби. Получената изчислена стойност на Т-критерия (T p) се сравнява с таблицата с таблица, която е избрана от нас и броя на свободата на свободата n \u003d n - 2. да се отървете от работата по сетълмента, можете да използвате a Специална таблица. критични ценности на селективните коефициенти на корелация(виж по-горе), съответстващо на наличието на надеждна връзка между факторите (включително н. и а.).

Таблица 7.3.

Гранични стойности на доверието на коефициента на селективна корелация

Броят на степента на свобода при определяне на коефициентите на корелация е равен на 2 (т.е. н. \u003d 2), посочени в таблицата. 7.3 Стойностите имат долната граница на доверителния интервал вярно коефициентът на корелация е 0, т.е. при такива стойности не е невъзможно да се каже, че корелацията обикновено се случва. С стойността на селективния коефициент на корелация над посочената в таблицата, е възможно на подходящото ниво на значимост да се смята, че истинският коефициент на корелация не е нула.

Но отговорът на въпроса е дали има истинска връзка между разглежданите фактори, оставя място за друг въпрос: в който се намира интервалът истинска стойност Коефициент на корелация, как може действително да бъде, с безкрайно голям н.? Този интервал за всяка конкретна стойност r. и н. в сравнение с факторите могат да бъдат изчислени, но е по-удобно да се използва системата от графики ( nomogram.), където всяка двойка криви, построени за един, определен над тях н.съответства на интервалните граници.

Фиг. 7.4. Доверете се на границите на коефициента на селективна корелация (A \u003d 0.05). Всяка крива съответства на посочените по-горе н..

Завъртане към номограмата на фиг. 7.4, интервал от стойности на истинския корелационен коефициент може да се определи за изчислените стойности на селективния коефициент на корелация при A \u003d 0.05.

7.3.5. Отношения на корелация.Ако корелацията на двойката нелинене невъзможно да се изчисли коефициентът на корелация, да се определи отношения на корелация . Задължително изискване: Знаците трябва да бъдат измерени в мащаба на взаимоотношенията или в мащаба на интервали. Възможно е да се изчисли зависимостта на корелацията на фактора Х. от фактор Y.и зависимост на корелацията на фактора Y.от фактор Х. - те се различават. С малко количество н. Въпросните проби, представляващи фактори, могат да се използват за изчисляване на отношенията между корелацията:

коефициент на корелация H. x ½ y.= ;

съотношение съотношение h y ½ X.= .

Тук и - средните аритметични проби X и Y, и - интраклас Средна аритметика. Е - аритметичната средна стойност на тези стойности в извадката на фактор X, с който конюгатни идентични стойности. В извадката на коефициента y (например, ако е в коефициента x има стойности от 4, 6 и 5, с които 3 опции със същата стойност 9 са конюгат в пробата от коефициента y, след това \u003d (4 + 6 + 5) ½ 3 \u003d 5). Съответно, аритметичната средна стойност на тези стойности в извадката на коефициента y, с която същите стойности са конюгирани в пробата на фактора X. Нека да дадем пример и да извършим изчислението:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4.

Изчислена маса

X I. Y I. X Y. x I - X (x I - x) 2 x I - x y. (x I. X Y.) 2
–4 –1
–2
–3 –2
–1
–3
x \u003d 79. Y \u003d 43. S \u003d 76. S \u003d 28.

Следователно, H. Y ½ x.\u003d "0.63.

7.3.6. Частни и множество коефициенти на корелация.За да се оцени връзката между 2 фактора, изчисляване на коефициентите на корелация, ние, каквито беше, ние предполагаме, че никоя други фактори за тази зависимост нямат ефекти. В действителност ситуацията е погрешна. Така че зависимостта между теглото и растежа е много значително повлияна от калоричността на храненето, величината на систематичното физическо натоварване, наследствеността и т.н., когато е необходимо при оценката на комуникацията между 2 фактора значително влияние други фактори и в същото време как да се изолират от тях като ги вземат непроменени, изчисли частни (в противен случай - частичен ) Корелационни коефициенти.

Пример: Трябва да оцените двойката зависимост между трите значително активни фактора x, y и z. donote r. Xy (z) частен (частичен) коефициент на корелация между фактори x и y (в същото време считаме, че стойността на фактора z непроменена), \\ t r. ZX (Y) е частен корелационен коефициент между фактори Z и X (с последователната стойност на фактора y), \\ t r. Yz (x) е частен коефициент на корелация между Y и Z фактори (с постоянната стойност на коефициента x). Използване на изчислените коефициенти на корелация на прост двойка (смели) r. XY. r. XZ I. r. Yz, m.

възможно е да се изчислят частни (частични) корелационни коефициенти по формули:

r xy - r. XZ ' r. Yz. r. XZ - r. Xy ' r. ZY. r. Zy -r zx ' r. Yz.

r. Xy (z) \u003d; r. XZ (Y) \u003d; r. ZY (x) \u003d

Ö (1- r. 2 xz) (1- r. 2 години) Ö (1- r. 2 xy) (1- r. 2 ZY) Ö (1- r. 2 ZX) (1- r. 2 Yx)

И частните коефициенти на корелация могат да приемат стойности от -1 до +1. Издигнете ги на квадрат, получават подходящо частно коефициенти на определяне , също така наричан частни мерки за сигурност (умножаване на 100, изразяват в %%). Частните коефициенти на корелация са повече или по-малко различни от прости (пълни) сдвоени коефициенти, което зависи от силата на влиянието върху тях от третия фактор (като че ли непроменен). Проверка е нулева хипотеза (H 0), която е хипотеза за липсата на комуникация (зависимост) между x и y фактори (с общо признаци к.) Изчисляване на Т-критерия по формулата: t. P \u003d. r. Xy (z) '( н.-K) 1. ½ 2 '(1- r. 2 xy (z)) -1 ½ 2 .

Ако t. R.< t. N, хипотезата се приема (ние вярваме, че няма зависимост), ако t. P ³. t. А н - хипотезата се отхвърля, т.е. се смята, че зависимостта наистина се осъществява. t. На масата се приема N t.- ученик, и к. - брой отчитани фактори (в нашия пример 3), броя на степените на свободата н. \u003d N - 3. Други коефициенти на частни корелация се проверяват подобно (в формулата вместо това r. Xy (z) съответно се заменят r. XZ (Y) или r. Zy (x)).

Таблица 7.5.

Първоначални данни

Ö (1 - 0.71 2) (1 - 0.71 2) Ö (1 - 0.5) (1 - 0.5)

За да се оцени зависимостта на факторите от съвместното действие на няколко фактора (тук, факторите y и z), изчисляват стойностите на прости коефициенти на корелация на двойки и, които ги използват, изчисляват коефициент на множество корелация r. X (yz):

Ö r. 2 XY +. r. 2 XZ - 2 r. Xy ' r. XZ ' r. Yz.

r. X (yz) = .

Ö 1 - r. 2 години.

7.2.7. Коефициент на сдружението. Често се изисква да се определи количествено връзката между тях качество Знаци, т.е. такива признаци, които не могат да бъдат представени (характеризират) количествено, което неизмерим. Например, си струва да се установи дали зависимостта между спортната специализация също е ангажирана с такива лични свойства като интрамертер (посоката на лицето на феномена на собствения си субективен свят) и екстровергия (посоката на лицето на лицето. Светът на външните обекти). Условните обозначения ще бъдат представени в таблица. 7.6.

Таблица 7.6.

X (години) Y (времена) Z (времена) X (години) Y (времена) Z (времена)
Знак 1 знак 2 Интраверт Екстрастебилност
Спортни игри но б.
Гимнастика от д.

Очевидно е, че само честоти на разпределенията могат да бъдат числа с наше разположение. В този случай изчислете коефициент на сдружението (друго име " коефициент на свързване "). Разгледайте най-простия случай: връзката между две двойки знаци, с изчисления коефициент на конюгиция тетракорика (Виж таблицата.).

Таблица 7.7.

a \u003d 20. b \u003d 15. а. + б. = 35
c \u003d 15. d \u003d 5. ° С. + д. = 20
а. + ° С. = 35 б. + д. = 20 н. = 55

Изчисления произвеждат по формулата:

aD - BC 100 - 225 -123

Изчисляването на коефициентите на сдружението (коефициенти на сдвояване) с по-голям брой функции е свързан с изчисления на подобна матрица на съответния ред.

Коефициент на корелация - Това е величина, която може да варира от +1 до -1. В случай на пълна положителна корелация, този коефициент е плюс 1 (те предполагат, че с увеличаване на стойността на една променлива, стойността на друга променлива се увеличава) и с пълна отрицателна - минус 1 (показват обратна връзка, т.е. С увеличаване на стойностите на една променлива, различните стойности са намалени).

PR1:

Графиката на зависимостта на срамежливостта и дипрозата. Както можете да видите, точките (субекти) не са хаотични, но построени около една линия и гледат на тази линия можем да кажем, че колкото по-висок е човекът, толкова по-депресивност, т.е. тези явления са взаимосвързани.

PR2.: График за срамежливост и общителност. Виждаме, че с увеличаване на срамежливостта, максимишлението намалява. Коефициентът на корелация е -0.43. По този начин коефициентът на корелация по-голям от 0 до 1 говори за пряка пропорционална комуникация (колкото повече ... колкото повече ...), и коефициентът от -1 до 0 за позорните (колкото повече ... колкото по-малко .. .)

Ако коефициентът на корелация е 0, двата променливи са напълно независими един от друг.

Корелация - Това е връзка, когато експозицията на отделни фактори се проявява само като тенденция (средно) с масово наблюдение на действителните данни. Примери за зависимост на корелацията могат да бъдат зависимости между размера на активите на банката и размера на печалбите на банката, растежа на производителността на труда и опита на служителите.

Използват се две системи за класификация на корелационните връзки в тяхната сила: общо и частно.

Обща класификация на корелациите: 1) силни, или затварят коефициента на корелация R\u003e 0.70; 2) средно при 0.500.70, а не само корелация на високо ниво на значимост.

Следната таблица написа имената на корелационните коефициенти за различни видове скали.

Дихотомична скала (1/0) Ранг (ординал) мащаб
Дихотомична скала (1/0) Коефициентът на Асоциацията на Пиърсон, четирите бордови коефициент на Пиърсън. Корелация на колан
Ранг (ординал) мащаб Класиране на колелата. Коефициент на обхват на корелация на духа или Кендала.
Интервал и абсолютна скала Корелация на колан Стойностите на интервалната скала се превеждат в редици и се използва коефициент на ранга Коефициент на корелация на Пиърсън (коефициент на линейна корелация)

За r.=0 линейна корелация липсва. В същото време средните променливи на групата съвпадат с техните споделени средни стойности, а регресионните линии са успоредни на координатните оси.

Равенство r.=0 той говори само за липсата на линейна зависимост на корелацията (не корозия на променливите), но не и за липсата на корелация, и още повече, статистическа зависимост.

Понякога заключението за липсата на корелация е по-важно от наличието на силна корелация. Нулевата корелация на две променливи може да покаже, че няма ефект на една променлива в друга, при условие, че ние се доверяваме на резултатите от измерването.

В SPSS: 11.3.2 Коефициенти на корелация

Досега разбрахме само факта на съществуването на статистическа зависимост между двата знака. След това ще се опитаме да разберем кои заключения могат да се направят за силата или слабостта на тази зависимост, както и за неговата форма и ориентация. Критериите за количествена оценка на връзката между променливите се наричат \u200b\u200bкоефициенти на корелация или свързани мерки. Два променливи корелират помежду си положително, ако има пряко, еднопосочно съотношение между тях. С еднопосочно съотношение малки стойности на една променлива съответстват на малки стойности на друга променлива, големи стойности са големи. Две променливи корелират един с друг отрицателно, ако има обратна, многопосочна коефициент между тях. С многопосочно съотношение малки стойности на една променлива съответстват на големите стойности на друга променлива и обратно. Стойностите на коефициентите на корелация винаги са лежащи в диапазона от -1 до +1.

Коефициентът на корелация между променливите, принадлежащ към ординалния мащаб, се използва от коефициента на коефициента и за променливи, принадлежащи към интервала - коефициентът на корелация на Pearson (момента на строителните работи). Трябва да се отбележи, че всяка дихотомна променлива, т.е. променлива, принадлежаща към номиналната скала и имаща две категории, може да се разглежда като ординал.

За да започнем, ще проверим дали връзката между пола и психиката променливите от файла Studium.sav. В същото време вземаме под внимание, че дихотомската променлива на секса може да се счита за обикновена. Следвай тези стъпки:

· Изберете команди за описателна статистика (описателна статистика) в менюто Analyze Command ... (таблици за конюгиция)

· Прехвърлете променливата на пола в списъка с низ, а променливата на психиката е в списъка с колони.

· Кликнете върху бутона Статистика ... (Статистика). В диалоговия прозорец Crosstabs: Статистика изберете квадратчето корелации (корелация). Потвърдете контакта с бутона "Продължи".

· В диалоговия прозорец Crosstabs откажете да изведете квадратчето за проверка на таблиците с бъркотия. Кликнете върху бутона OK.

Ще бъдат изчислени коефициентите на корелационните коефициенти на Spirote и Pearson и тяхното значение се проверява:

/ Spss 10.

Задача номер 10 Корелационен анализ

Концепция за корелация

Коефициентът на корелация или корелация е статистически индикатор вероятносткомуникация между две променливи, измерени чрез количествени скали. За разлика от функционалната връзка, в която всяка стойност на една променлива съответства на строго дефиниранистойността на друга променлива, вероятносття се характеризира с факта, че всяка стойност на една променлива съответства на много ценностидруга променлива, пример за вероятностна комуникация е връзката между растежа и теглото на хората. Ясно е, че същата височина може да бъде в хора с различно тегло и обратно.

Корелацията е стойността, сключена от -1 до + 1 и е обозначена с буквата R. Освен това, ако стойността е по-близо до 1, това означава наличието на силна връзка и ако се доближи до 0, след това слаба. Стойността на корелацията по-малка от 0.2 се счита за слаба корелация, над 0.5 - висока. Ако коефициентът на корелация е отрицателен, това означава наличието на обратна връзка: колкото по-висока е стойността на една променлива, толкова по-ниска е различната стойност.

В зависимост от стойността на стойностите на коефициента е възможно да се разпределят различни видове корелация:

Строга положителна корелацияопределено от стойността на R \u003d 1. Терминът "строг" означава, че стойността на една променлива е уникално определена от стойностите на друга променлива, и терминът " положителен "- Това с увеличаване на стойностите на една променлива, стойността на друга променлива също се увеличава.

Строгата корелация е математическа абстракция и практически не се среща в реални изследвания.

Положителна корелация Съответства на стойностите на 0

Липса на корелацияопределена от стойността на R \u003d 0. Коефициентът на корелация нула предполага, че стойностите на променливите не са свързани помежду си.

Липса на корелация Х. о. : 0 r. xy. =0 формулиран като отражение нула Хипотеза в анализа на корелацията.

Отрицателна корелация: -1

Строга отрицателна корелацияопределена от стойността на R \u003d -1. Също така, както и строга положителна корелация, е абстракция и не намира израз в практически изследвания.

маса 1

Видове корелации и техните дефиниции

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, на която се измерват стойностите на променливата.

Коефициент на корелация r.Пиърсънтой е основният и може да се използва за променливи с номинални и частично поръчани, интервални скали, разпределението на стойностите, чрез които съответства на нормалното (корелация на моментите на работата). Коефициентът на корелация на Pearson дава доста точни резултати и в случаите на необичайни разпределения.

За разпределения, които не са нормални, е за предпочитане да се използват коефициентите на класацията корелация на спирмъните и Кендала. Обхват Те са, защото програмата е предварително класиране на корелирани променливи.

Съотношението на програмите на RPrman предвижда следното: Първо, променливите се прехвърлят в редици, а след това формула се използва за ранг.

В основата на съответната корелация, предложена от М. Кендала, има идея, че посоката на комуникация може да бъде съдена, в двойки сравняването на субектите помежду си. Ако чифт тествани промени в X съвпадат в посоката с промяна в плащането, това показва положителна връзка. Ако не съвпада - тогава негативна връзка. Този коефициент се използва главно от психолози, работещи с малки проби. Тъй като социолозите работят с големи масиви за данни, е трудно да се идентифицира разликата в относителните честоти и инверсии на всички двойки субекти в извадката. Най-често срещаният е коефициентът. Пиърсън.

Тъй като коефициентът на съотношението на RPRIRSON е основно и може да се използва (с определена грешка в зависимост от вида на скалата и нивото на аномалия в разпределението) за всички променливи, измерени чрез количествени скали, помислете за примери за неговото използване и сравнете резултатите, получени с измерване Резултати според други коефициенти на корелация.

Формула за изчисляване на коефициента r.- Пиърсън:

r xy \u003d σ (Xi-XCP) ∙ (Yi-YCR) / (n - 1) ∙ σ x ∙ σ y ∙

Където: xi, yi - стойностите на две променливи;

XSR, YCR - средни стойности на две променливи;

Σ x, σ y - стандартни отклонения,

N- брой наблюдения.

Сдвоени корелации

Например, бихме искали да разберем как отговорите между различните видове традиционни ценности се отнасят в идеята за учениците за идеалното място на работа (променливи: A9.1, A9.3, A9.5, A9.7), а след това съотношението на либералните стойности (A9 .2, A9.4. A9.6, A9.8). Тези променливи се измерват с 5-членни поръчани скали.

Използваме процедурата: "Анализ",  "корелация",  "Сдвоен". Coeff по подразбиране. Pearson е зададен в диалоговия прозорец. Използваме коефициенти. Пиърсън

Променливите за тестване се прехвърлят в прозореца за избор: A9.1, A9.3, A9.5, A9.7

Като натиснете OK, ние получаваме изчислението:

Корелация

a9.1.T. Колко важно е достатъчно време за семейството и личния живот?

Корелация на Пиърсън

Znch. (2 страни)

a9.3.T. Колко важно е да не се страхувате да загубите работата си?

Корелация на Пиърсън

Znch. (2 страни)

a9.5.T. Колко важно е да има такъв шеф, който ще ви посъветва, приемайки това или това решение?

Корелация на Пиърсън

Znch. (2 страни)

a9.7.T. Колко важно е да се работи в един последователен екип, да се чувствате част от нея?

Корелация на Пиърсън

Znch. (2 страни)

** Корелацията е смислена на нивото от 0,01 (2 страни).

Таблица на количествените стойности на изградената корелационна матрица

Частни корелации:

За да започнем, изграждаме корелация на двойка между двете посочени от двете променливи:

Корелация

c8. Чувствам интимност с тези, които живеят близо до вас, съседи

Корелация на Пиърсън

Znch. (2 страни)

c12. Чувствам интимност със семейството си

Корелация на Пиърсън

Znch. (2 страни)

**. Корелацията е смислена на нивото от 0.01 (2 страни).

След това използвайте процедурата за изграждане на частна корелация: "анализ",  "корелация",  "частен".

Да предположим, че стойността "е важно да се определи и променя реда на вашата работа" във връзка с посочените променливи ще бъде решаващият фактор, под влиянието на която предишната идентифицирана връзка ще изчезне или ще бъде неоснователна.

Корелация

Изключени променливи

c8. Чувствам интимност с тези, които живеят близо до вас, съседи

c12. Чувствам интимност със семейството си

c16. Чувствам интимност с хора, които имат същото богатство като вас

c8. Чувствам интимност с тези, които живеят близо до вас, съседи

Корелация

Значимост (2-ри.)

c12. Чувствам интимност със семейството си

Корелация

Значимост (2-ри.)

Както може да се види от таблицата под влиянието на променливата за управление, връзката леко намалява: от 0, 120 до 0, 102. Въпреки това, това леко намаление не позволява да се твърди, че раната е отражение на фалшивата корелация, \\ t като Тя остава достатъчно висока и позволява с нулева грешка, за да опровергае нулевата хипотеза.

Коефициент на корелация

Най-точен начин за определяне на кръстовете и естеството на корелацията е да се намери коефициентът на корелация. Коефициентът на корелация е номерът, определен по формулата:


където R HU е коефициентът на корелация;

x I -TICIC на първата функция;

в i-aposition на втората функция;

Средните аритметични стойности на първия знак

Средните аритметични стойности на втората характеристика

За да използвате формулата (32), изграждаме таблица, която ще осигури необходимата последователност при приготвянето на цифри, за да намери числителя и знаменателя на коефициента на корелация.

Както може да се види от формула (32), последователността на действията е това: ние намираме средната аритметика на двата знака X и Y, ние намираме разликата между стойностите на функцията и средната му (XI -) и І -), след това намират тяхната работа (x І) (i І) - сумата на свещеника дава цифровия коефициент на корелация. За да намери своя знаменател, той следва разликата (x i -) и (в І -) да изгради квадрат, да ги намерят суми и извлича квадратния корен от работата си.

Така например 31, коефициентът на корелация в съответствие с формула (32) може да бъде представен както следва (Таблица 50).

Полученият брой коефициент на корелация дава възможност да се установи наличието, стягане и характер на комуникацията.

1. Ако коефициентът на корелация е нула, няма връзка между знаците.

2. Ако коефициентът на корелация е равен на един, връзката между знаците е толкова голяма, която се превръща във функционален.

3. Абсолютната стойност на коефициента на корелация не надхвърля диапазона от нула към едно:

Това дава възможност за навигация на плътността на връзката: стойността на коефициента по-близо до нула, връзката е по-слаба и по-близо до една, връзката е по-близо.

4. Знакът "плюс" корелационен коефициент означава пряка корелация, знак "минус".

Таблица 50

x І. І. (x I -) (Y -) (x І -) (Y -) (x І -) 2 (y І -) 2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Така, изчислено в пример 31, коефициентът на корелация r xy \u003d +0.9. Позволява ви да направите такива заключения: налице е връзка между мащаба на мускулната сила на дясната и лявата четка в изследваните ученици (коефициентът r xy \u003d + 0.9 е различен от нула), връзката е много близка (коефициентът r xy \u003d + 0.9 е В близост до една) корелацията е ясна (R коефициент xy \u003d +0.9 положителен), т.е. с увеличаване на мускулната здравина на една от четките, якостта на друга четка се увеличава.

При изчисляване на коефициента на корелация и използване на неговите свойства, трябва да се отбележи, че заключенията дават правилни резултати в случая, когато знаците се разпределят нормално и когато се разглежда връзката между големия брой стойности на двата знака.

В разглеждания пример 31 са анализирани само 7 стойности на двата знака, които, разбира се, не е достатъчна за такива проучвания. Напомняме отново, че примерите в тази книга като цяло и по-специално в тази глава са естеството на методите на методите, а не подробно представяне на научни експерименти. В резултат на това се разглежда малък брой признаци на знаци, измерването е закръглено - всичко това се прави, за да може обемистите изчисления да не се отказват от идеята за метода.

Специално внимание следва да се обърне на същността на разглежданата връзка. Коефициентът на корелация не може да доведе до правилните резултати от проучването, ако анализът на връзката между знаците се извършва формално. Нека да се върнем отново за пример 31. И двете считат, че функциите са значението на мускулната сила на дясната и лявата четка. Представете си, че под знака на XI в Пример 31 (14.0; 14.2; 14.9 ... ... 18.1) Ние разбираме продължителността на случайно уловена риба в сантиметра и под знака на І (12,1; 13.8; 14.2. .. ... 17.4) -АТ устройства в лабораторията в килограми. Формално, използвайки изчислителния апарат за намиране на коефициента на корелация и получаване в този случай също R xy \u003d + 0\u003e 9, трябваше да заключим, че има тясна връзка между рибата и теглото на инструментите. Безсмислеността на това заключение е очевидна.

За да се избегне официален подход за използване на коефициента на корелация, следва всеки друг метод - математически, логически, експериментални, теоретични - за идентифициране на възможността за съществуване на връзка между знаците, т.е. за откриване на органичното единство на знаци. Само след това можете да пристъпите към използването на корелационния анализ и да зададете стойността и естеството на връзката.

В математическата статистика все още има концепция множество връзки - Връзки между три и повече знака. В тези случаи използвайте множествения коефициент на корелация, състоящ се от сдвоени коефициенти на корелация, описани по-горе.

Например, корелационният коефициент на три знака-х І, y І, z І - там:

където R XYZ е множество корелационни цилиндрични цилиндър, изразявайки като знак x I зависи от признаците на І и z I;

r xy-клетъчна корелация между знаците x I и Y I;

r XZ -Coffer корелация между знаци Xi и Zi;

r yz. - коефициент на корелация между признаци Y I, Z I

Анализът на корелацията е:

Анализ на корелацията

Корелация - статистическата връзка между две или няколко случайни променливи (или стойности, които могат да се считат за такива с някаква допустима точност). В същото време промените в една или повече от тези стойности водят до системна промяна в други или други стойности. Математическата мярка за съотношението на две случайни променливи е коефициентът на корелация.

Корелът може да бъде положителен и отрицателен (има и ситуация на липса на статистически отношения - например за независими случайни променливи). Отрицателна корелация - корелация, при която увеличаването на една променлива е свързано с намаление на друга променлива, докато коефициентът на корелация е отрицателен. Положителна корелация - корелация, при която увеличаването на една променлива е свързано с увеличаване на друга променлива, докато коефициентът на корелация е положителен.

Автокорелация - статистическата връзка между произволни стойности от един ред, но да се вземе с промяна, например за случаен процес - с промяна във времето.

Наречен е методът за обработка на статистически данни, състоящ се в изследването на коефициентите (корелация) между променливите, се нарича анализ на корелацията.

Коефициент на корелация

Коефициент на корелация или коефициент на корелация на земеделски производител В теорията на вероятността и статистиката, това е индикатор за естеството на промяната в две случайни променливи. Коефициентът на корелация е обозначен с латинската буква r и може да приема стойности между -1 и +1. Ако стойността на модула е по-близо до 1, това означава наличието на силна връзка (със корелационен коефициент, уредът говори за функционалната връзка) и ако се доближи до 0, след това слаба.

Коефициент на корелация на Пиърсън

За метрични стойности коефициентът на корелация на Pearson се прилага, точната формула на която е въведена от Франсис Галтън:

Нека бъде Х.,Y. - две случайни променливи, дефинирани на едно вероятностно пространство. Тогава техният коефициент на корелация е зададен по формулата:

,

където COV означава ковариация, и D е дисперсия, или че едно и също нещо

,

където символът се отнася до математическо очакване.

Можете да използвате правоъгълна координатна система с оси, които съответстват на двете променливи. Всяка двойка стойности се маркира с помощта на специфичен символ. Такава графика се нарича "разсейваща диаграма".

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, до която се отнасят променливите. По този начин, за измерване на променливите с интервал и количествени скали, е необходимо да се използва коефициентът на корелация на Pearson (корелация на моментите на строителните работи). Ако поне една от двете променливи има скала за последователност или обикновено не се разпределя, е необходимо да се използва ранг корелация на алкохолната или τ (tau) kendale. В случая, когато една от двете променливи е дихотомно, се използва точкова двуредова корелация и ако и двете променливи са дихотомни: четирипосочна корелация. Изчисляването на коефициента на корелация между две не-фракционни променливи не е лишено от значение само след това, връзката е връзка между тях на линейни (еднопосочни).

Коефициент на корелация Кендела

Използвани за измерване на взаимно разстройство.

Коефициент на корелация на копия

Свойства на коефициента на корелация

  • Неравенството на Cauchy - Bunyakovsky:
Ако приемате като скаларен продукт на две случайни ковариния, тогава скоростта на случайната променлива ще бъде равна на И следствието на неравенството на Cauchy - Bunyakovsky ще бъде :. където. Освен това в този случай знаците и к. съвпада: .

Анализ на корелацията

Анализ на корелацията - метод за обработка на статистически данни, състоящ се в изследването на коефициентите ( корелация) Между променливите. В този случай коефициентите на корелация се сравняват между един двойка или различни двойки характеристики, за да се установят статистически отношения между тях.

предназначение анализ на корелацията - предоставят информация за една променлива, като използвате друга променлива. В случаите, когато е възможно да се постигне целта, се казва, че променливи корелат. В най-общата форма приемането на хипотезата в присъствието на корелация означава, че промяната в стойността на променливата А ще се случи едновременно с пропорционална промяна в стойността на Б: ако и двете променливи растат положителна корелацияАко една променлива расте, и второто намаление, отрицателна корелация.

Корелацията отразява само линейна зависимост на количествата, но не отразява тяхната функционална свързаност. Например, ако изчисляте коефициента на корелация между стойностите А. = с.i.н.(х.) I. Б. = ° С.о.с.(х.), след това ще бъде близо до нула, т.е. зависимостта между стойностите отсъстват. Междувременно стойностите А и Б очевидно са свързани с функционално по закон с.i.н.2(х.) + ° С.о.с.2(х.) = 1.

Ограничения на корелационния анализ



Двойки (x, y) разпределителни графики с подходящи x и y корелационни коефициенти за всяка от тях. Обърнете внимание, че коефициентът на корелация отразява линейната зависимост (най-горната линия), но не описва кривата на зависимостта (средната линия) и изобщо не е подходяща за описване на сложни, нелинейни зависимости (по-ниска линия).
  1. Приложението е възможно в случай на достатъчен брой случаи за изследване: за специфичен тип коефициент на корелация варира от 25 до 100 двойки за наблюдение.
  2. Второто ограничение следва от хипотезата за анализа на съответствието, в който е положен линейна зависимост на променливите. В много случаи, когато е надеждно известно, че зависимостта съществува, анализът на корелацията може да не даде резултати само поради факта, че връзката е нелинейна (изразена, например, под формата на парабола).
  3. Сам по себе си фактът на корелационните зависимости не осигурява основание да се твърди коя от променливите предшества или е причина за промени, или че променливите обикновено са причинно свързани помежду си, например поради действията на третия фактор.

Площ на приложение

Този метод за обработка на статистически данни е много популярен в икономиката и социалните науки (по-специално в психологията и социологията), въпреки че обхватът на коефициентите на корелация е обширен: качествен контрол на промишлени продукти, метални проучвания, агрохимия, хидробиология, биометри и др. .

Популярността на метода се дължи на два моменти: коефициентите на корелация са сравнително прости при броене, използването им не изисква специално математическо обучение. В комбинация с простотата на тълкуване, простотата на коефициента доведе до широко разпространението си в обхвата на анализа на статистическите данни.

Фалшива корелация

Често изкушаващата простота на корелационните изследвания избутват изследователя да направи фалшиви интуитивни заключения за наличието на причинно-следствена връзка между двойките знаци, докато коефициентите на корелация установяват само статистически отношения.

В съвременната количествена методология на социалните науки всъщност имаше отказ да се опита да се установят причинно-следствени отношения между наблюдаваните променливи на емпирични методи. Следователно, когато изследователите в социалните науки говорят за създаването на взаимовръзки между изследваните променливи, това означава или общоприето предположение или статистическа зависимост.

Вижте също

  • Функция за автокорелация
  • Съответна функция
  • Ковариатор
  • Коефициент на определяне
  • Анализ на регресия

Фондация Wikimedia. 2010.

Коефициент на корелация - Това е величина, която може да варира от +1 до -1. В случай на пълна положителна корелация, този коефициент е плюс 1 (те предполагат, че с увеличаване на стойността на една променлива, стойността на друга променлива се увеличава) и с пълна отрицателна - минус 1 (показват обратна връзка, т.е. С увеличаване на стойностите на една променлива, различните стойности са намалени).

PR1:

Графиката на зависимостта на срамежливостта и дипрозата. Както можете да видите, точките (субекти) не са хаотични, но построени около една линия и гледат на тази линия можем да кажем, че колкото по-висок е човекът, толкова по-депресивност, т.е. тези явления са взаимосвързани.

PR2.: График за срамежливост и общителност. Виждаме, че с увеличаване на срамежливостта, максимишлението намалява. Коефициентът на корелация е -0.43. По този начин коефициентът на корелация по-голям от 0 до 1 говори за пряка пропорционална комуникация (колкото повече ... колкото повече ...), и коефициентът от -1 до 0 за позорните (колкото повече ... колкото по-малко .. .)

Ако коефициентът на корелация е 0, двата променливи са напълно независими един от друг.

Корелация - Това е връзка, когато експозицията на отделни фактори се проявява само като тенденция (средно) с масово наблюдение на действителните данни. Примери за зависимост на корелацията могат да бъдат зависимости между размера на активите на банката и размера на печалбите на банката, растежа на производителността на труда и опита на служителите.

Използват се две системи за класификация на корелационните връзки в тяхната сила: общо и частно.

Обща класификация на корелациите: 1) силни, или затварят коефициента на корелация R\u003e 0.70; 2) средно при 0.500.70, а не само корелация на високо ниво на значимост.

Следната таблица написа имената на корелационните коефициенти за различни видове скали.

Дихотомична скала (1/0) Ранг (ординал) мащаб
Дихотомична скала (1/0) Коефициентът на Асоциацията на Пиърсон, четирите бордови коефициент на Пиърсън. Корелация на колан
Ранг (ординал) мащаб Класиране на колелата. Коефициент на обхват на корелация на духа или Кендала.
Интервал и абсолютна скала Корелация на колан Стойностите на интервалната скала се превеждат в редици и се използва коефициент на ранга Коефициент на корелация на Пиърсън (коефициент на линейна корелация)

За r.=0 линейна корелация липсва. В същото време средните променливи на групата съвпадат с техните споделени средни стойности, а регресионните линии са успоредни на координатните оси.

Равенство r.=0 той говори само за липсата на линейна зависимост на корелацията (не корозия на променливите), но не и за липсата на корелация, и още повече, статистическа зависимост.

Понякога заключението за липсата на корелация е по-важно от наличието на силна корелация. Нулевата корелация на две променливи може да покаже, че няма ефект на една променлива в друга, при условие, че ние се доверяваме на резултатите от измерването.

В SPSS: 11.3.2 Коефициенти на корелация

Досега разбрахме само факта на съществуването на статистическа зависимост между двата знака. След това ще се опитаме да разберем кои заключения могат да се направят за силата или слабостта на тази зависимост, както и за неговата форма и ориентация. Критериите за количествена оценка на връзката между променливите се наричат \u200b\u200bкоефициенти на корелация или свързани мерки. Два променливи корелират помежду си положително, ако има пряко, еднопосочно съотношение между тях. С еднопосочно съотношение малки стойности на една променлива съответстват на малки стойности на друга променлива, големи стойности са големи. Две променливи корелират един с друг отрицателно, ако има обратна, многопосочна коефициент между тях. С многопосочно съотношение малки стойности на една променлива съответстват на големите стойности на друга променлива и обратно. Стойностите на коефициентите на корелация винаги са лежащи в диапазона от -1 до +1.

Коефициентът на корелация между променливите, принадлежащ към ординалния мащаб, се използва от коефициента на коефициента и за променливи, принадлежащи към интервала - коефициентът на корелация на Pearson (момента на строителните работи). Трябва да се отбележи, че всяка дихотомна променлива, т.е. променлива, принадлежаща към номиналната скала и имаща две категории, може да се разглежда като ординал.

За да започнем, ще проверим дали връзката между пола и психиката променливите от файла Studium.sav. В същото време вземаме под внимание, че дихотомската променлива на секса може да се счита за обикновена. Следвай тези стъпки:

· Изберете команди за описателна статистика (описателна статистика) в менюто Analyze Command ... (таблици за конюгиция)

· Прехвърлете променливата на пола в списъка с низ, а променливата на психиката е в списъка с колони.

· Кликнете върху бутона Статистика ... (Статистика). В диалоговия прозорец Crosstabs: Статистика изберете квадратчето корелации (корелация). Потвърдете контакта с бутона "Продължи".

· В диалоговия прозорец Crosstabs откажете да изведете квадратчето за проверка на таблиците с бъркотия. Кликнете върху бутона OK.

Ще бъдат изчислени коефициентите на корелационните коефициенти на Spirote и Pearson и тяхното значение се проверява:

/ Теория. Коефициент на корелация

Коефициент на корелация - двумерна описателна статистика, количествена мярка за връзката (съвместна вариабилност) на две променливи.

Към днешна дата са разработени много различни коефициенти на корелация. Въпреки това, най-важните комуникационни мерки - Pearson, Spearman и Kendalla . Тяхната цялостна функция е това те отразяват връзката на два знака , измерено в количествена скала - ранг или метрик .

Най-общо казано, всяко емпирично проучване е фокусирано върху изучаването на връзките на две или повече променливи. .

Ако промяната в една променлива на единица винаги води до промяна в друга променлива на една и съща стойност, функцията е линеен (Графикът представлява права линия); всяка друга връзка - нелинея . Ако увеличението на една променлива е свързано с увеличаване на другото, тогава комуникация - положителен ( прав ) ; Ако увеличаването на една променлива е свързано с намаление в другото, тогава комуникация - отрицателен ( обратен ) . Ако посоката на промяна на една променлива не се променя с увеличаване на (низходяща) друга променлива, тогава такава функция - monotonna. ; в противен случай функцията се нарича nonmonotonic. .

Функционалните отношения са идеализации. Тяхната характеристика е, че една стойност от една променлива съответства на строго определена стойност на друга променлива. Например, това е връзката на две физически променливи - тежести и дължини на тялото (линейно положително). Въпреки това, дори във физически експерименти, емпиричната връзка ще се различава от функционалната връзка поради неизвестни или неизвестни причини: колебания на състава на материала, грешки при измерване и др.

При изучаване на връзката на знаците от оглед на изследователя, много възможни причини за променливостта на тези признаци неизбежно пада. Резултатът е, че дори съществуващата в действителност функционалната връзка между променливите действа емпирично като вероятност (стохастична): същата стойност на една променлива съответства на разпределението на различни стойности на друга променлива (и обратно).

Най-простият пример е съотношението на растежа и теглото на хората. Емпиричните резултати от изследването на тези два знака ще покажат, разбира се, тяхната положителна връзка. Но е лесно да се предположи, че тя ще се различава от строга, линейна, положителна - идеална математическа функция, дори и с всички трикове на изследователя за отчитане на хармонията или пълнотата на темите. Малко вероятно е, че на тази основа някой ще има ум да отрече факта на наличието на строга функционална връзка между дължината и теглото на тялото.

Така, функционалната връзка на явленията емпирично може да бъде открита само като вероятностно свързване на съответните знаци.

Визуална представа за характера на вероятностната комуникация дава дисперсионна диаграма - графика, чиято оста съответства на стойностите на две променливи и всеки субект е точка. Коефициентите на корелация се използват като цифрова характеристика на комуникацията с вероятност.

Можете да въведете три градации за стойностите на корелацията за комуникационна сила:

r.< 0,3 - слабая связь (менее 10% от общей доли дисперсии);

0,3 < r < 0,7 - умеренная связь (от 10 до 50% от общей доли дисперсии);

r\u003e 0.7 - Силна връзка (50% или повече от общата фракция на дисперсия).

Частна корелация

Често се случва, че две променливи корелират един с друг само поради факта, че и двете се променят под влиянието на една трета променлива. Това е всъщност връзката между съответните свойства на тези две променливи отсъства, но се проявява в статистическа връзка или корелация, под влияние на общата причина за третата променлива).

Така, ако връзката между две променлива намалява, с фиксирана трета случайна стойност, това означава, че тяхната взаимозависимост се извършва отчасти чрез въздействието на тази трета променлива. Ако частната корелация е нула или много малка, можем да заключим, че тяхната взаимозависимост е изцяло поради собственото си въздействие и не е свързано с третата променлива.

Също така, ако частната корелация е по-голяма от първоначалната корелация между две променливи, можем да заключим, че други променливи отслабват връзката или "скрита" корелацията.

Освен това е необходимо да се помни това корелацията не е причинно-следствена връзка . Въз основа на това, ние нямаме право да говорим за наличието на причинно-следствена връзка: някои напълно различни от анализа, разглеждани в анализа, може да бъде източникът на тази корелация. Както с обикновена връзка, така и при частни корелации, предположението за причинно-следствие винаги трябва да има свои собствени нежизнени основи.

Коефициент на корелация на Пиърсън

r- Пиърсън използвани за изучаване на връзката между две метрични променливи , измерено на една и съща проба . Има много ситуации, в които използването му е подходящо. Интелигентността влияе ли на академичните постижения в висшите курсове на университета? Дали размерът на служител със своя благосклонност към колегите? Настроението на училището влияе ли на успеха на решаването на сложна аритметична задача? За отговор на такива въпроси изследовател трябва да измерва двата показателя за интерес за всеки член на извадката.

Стойността на коефициента на корелация не засяга какви знаци са представени в кои измервателни единици. Следователно, всяко преобразуване на линейно символи (умножение към постоянното, добавянето на постоянното) не променя стойностите на коефициента на корелация. Изключението е умножението на един от знаците върху отрицателната константа: коефициентът на корелация променя своя знак към обратното.

Корелация на Пиърсън има линейна комуникация между две променливи . Тя ви позволява да определите , колко пропорционална на променливостта на две променливи . Ако променливите са пропорционални един на друг, тогава графично връзката между тях може да бъде представена като права линия с положителна (пряка пропорция) или отрицателна (обратна пропорция) от наклона.

На практика връзката между две променливи, ако е, е вероятност и графично прилича на облачна дисперсия на елипсоидна форма. Тази елипсоид обаче може да бъде подадена (приблизителна) под формата на права линия или регресионни линии. Регресионна линия - Това е права линия, конструирана от най-малките квадрати: сумата на квадратите на разстоянията (изчислена по y оста) от всяка точка на графика на разсейването към стрейт е минимална.

От особено значение за оценката на точността на прогнозата е разпръскването на оценките на зависимата променлива. В действителност, дисперсията на оценките на зависимата променлива Y е частта от пълната му дисперсия, която се дължи на влиянието на независима променлива X. с други думи, съотношението на разпръскването на оценките на зависимата променлива за неговата вярна Дисперсията е равна на квадрата на коефициента на корелация.

Квадратът на коефициента на корелация на зависими и независими променливи е част от дисперсията на зависимата променлива поради влиянието на независима променлива и се нарича коефициент на определяне . Коефициентът на определяне, по този начин показва степента, до която вариабилността на една променлива се дължи на (определено) с влиянието на друга променлива.

Коефициентът на определяне има важно предимство в сравнение с коефициента на корелация. Корелацията не е линейна комуникационна функция между две променливи. Следователно средните коефициенти на аритметични корелация за множество проби не съвпадат с корелацията, изчислена незабавно за всички теми от тези проби (т.е. коефициентът на корелация не е добавена). Напротив, коефициентът на определяне отразява връзката линейно и следователно е добавка: нейното осредняване е разрешено за няколко проби.

Допълнителна информация за силата на комуникацията дава стойността на коефициента на корелация на квадрата - коефициентът на определяне: това е част от дисперсията на една променлива, която може да бъде обяснена с ефекта на друга променлива. За разлика от коефициента на корелация, коефициентът на определяне ли е линейно увеличаване с увеличаване на комуникационната сила.

Коефициенти на корелация на духа и τ-kendalla (ранг корелации). Ако двете променливи са между които се изследва връзката, са представени в мащаб на процедурата или един от тях - по ред, а другият - в метриката, тогава се прилагат коефициентите на ранга: Spearman или τ. - Кендела . И Т. , и друг коефициент изисква използването на предварително класиране на двете променливи. .

Коефициентът на корелация на копия на Spearman - това е непараметричен метод , който се използва за целите на статистическото изследване на комуникацията между явленията . В този случай действителната степен на паралелизъм се определя между двата количествени реда на изследваните характеристики и е дадена оценка на определението на установената връзка, използвайки количествено изразен коефициент.

Ако членовете на членовете на групата се класират първо по променлива x, след това според променливата Y, след това може да се получи корелация между променливите X и Y, просто изчисляване на коефициента на Пиърсон за два реда редици. При спазване на облигации в редици (т.е. липсата на повтарящи се редици) от другата променлива, формулата за Pearson може да бъде значително опростена в изчислителни условия и се трансформира във формула, известна като Spearmene. .

Коефициентът на властта на реката корелация на духа е донякъде по-нисък от силата на параметричния коефициент на корелация.

Коефициентът на ранг корелация е препоръчително да се прилага, ако има малък брой наблюдения . Този метод може да се използва не само за количествено изразени данни. , но също така и в случаите , когато регистрираните стойности се определят чрез описателни признаци за различна интензивност .

Коефициентът на ранг корелация на алкохолната с голям брой идентични редици върху една или и двете съвместими променливи дава груби стойности. В идеалния случай, двата корелирани реда трябва да бъдат две последователности на неподходящи стойности.

Алтернатива на корелацията на Spearman за правата представлява корелация τ-kendalla. . В основата на съответната корелация, предложена от М. Кендале, се крие идеята, че посоката на комуникация може да бъде съдена, в двойно сравняване на тестовете помежду си: ако чифт тестове под x съвпадат в посоката с промяна в Y, Това показва положителна връзка, ако не съвпада - след това върху отрицателна връзка.

Коефициентите на корелация са специално проектирани за числено определяне на силата и посоката на комуникация между двете свойства, измерени в цифрови скали (метричен или ранг).

Както вече споменахме максималната здравина на комуникацията съответства на стойностите на корелацията +1 (строга пряка или директно пропорционална комуникация) и -1 (стриктно обратна или обратна пропорционална комуникация), липсата на комуникация съответства на корелацията, равна на нула.

Допълнителна информация за силата на комуникацията дава стойността на коефициента на определяне: това е част от дисперсията на една променлива, която може да бъде обяснена с ефекта на друга променлива.

Тема 12 Корелационен анализ

Функционална зависимост и корелация. Повече Хипократ през VI век. БК д. Обърна внимание на наличието на комуникация между физиката и темперамента на хората, между структурата на тялото и предразположеността към една или друга болести. Някои видове тези отношения също са идентифицирани в животното и света на растенията. Така че има връзка между физиката и производителността в селскостопанските животни; Връзката между качеството на семената и добива на култивирани растения и др. Що се отнася до такива зависимости в екологията, има зависимости между съдържанието на тежки метали в почвата и снежната покривка от тяхната концентрация в атмосферния въздух и др. Ето защо, естествено, желанието да се използва този модел в интерес на човека, дават го повече или по-малко точен количествен израз.

Както е известно, математическата концепция на функцията се отнася за описването на връзките между променливите е.което поставя в съответствие с всяка специфична стойност на независима променлива х. определена стойност на зависимата променлива y.. . Този вид недвусмислени взаимоотношения между променливите х. и y. Обади се функционален. Въпреки това, този вид комуникация в естествените обекти е далеч от винаги. Следователно зависимостта между биологичните, както и екологичните знаци не е функционална, а статистически характер, когато в масата на хомогенните индивиди, определена стойност от една функция, която се счита за аргументация, съответства на не същата цифрова значимост, но като цяло Обхват на разпространението на числени вариации Стойностите на друга характеристика се считат за зависима променлива или функция. Този вид зависимост между променливите се нарича корелация или корелация ..

Функционалните облигации могат лесно да бъдат открити и измерени на единични и групови обекти, но това не може да се извърши с връзки за корелация, които могат да бъдат изследвани само върху групите на групата по методи за математическа статистика. Корелационната връзка между знаците е линейна и нелинейна, положителна и отрицателна. Задачата на корелационния анализ се свежда до установяване на посоката и формата на комуникация между различните знаци, измерването на нейното настроение и накрая, за да се провери точността на селективните индикатори за корелация.

Зависимост между променливите Х. и Y. Тя може да бъде изразена аналитично (с помощта на формули и уравнения) и графично (като геометрично местоположение в системата на правоъгълните координати). Графиката на корелационната зависимост е изградена от уравнението или се нарича регресия. Тук и - средната аритметика, която се намира в състоянието, което Х. или Y. Някои стойности ще приемат х. или y.. Тези среди се наричат условно.

11.1. Параметрични комуникационни индикатори

Коефициент на корелация. Между променливи стойности х. и y. Можете да зададете чрез съвпадение на цифровите стойности на един от тях със съответните стойности на другия. Ако другият се увеличава с увеличаване на една променлива, тя показва положителна комуникация между тези стойности и обратно, когато увеличаването на една променлива е придружено от намаляване на стойността на друга, това показва отрицателна комуникация.

За да се характеризират връзката, нейната посока и степента на свързване на променливите се използват от следните показатели:

    линейна зависимост - коефициент на корелация;

    нелинейни - връзка за корелация.

За да се определи коефициентът на емпирична корелация, се използва следната формула:

. (1)

Тук с. х. и с. y. - средно квадратични отклонения.

Коефициентът на корелация може да бъде изчислен, без да се прибягва до изчисляването на квадратични отклонения със средни размери, което опростява изчислителната работа, съгласно следната подобна формула:

. (2)

Коефициентът на корелация е безразмерен номер в диапазона от -1 до +1. В случай на независими варианти на знаците, когато връзката между тях е напълно отсъстваща ,. Колкото по-силно е свързването между знаците, толкова по-висока е корелационната стойност на коефициента. Следователно, като този показател характеризира не само присъствието, но и степента на сключване между знаците. С положителна или директна връзка, когато големи стойности на една характеристика съответстват на най-големите стойности на другия, коефициентът на корелация има положителен знак и е в диапазона от 0 до +1, с отрицателна или обратна връзка, Когато по-малки стойности на другия отговарят на големите стойности на една функция, коефициентът на корелация, придружен от отрицателен знак и варира от 0 до -1.

Коефициентът на корелация се използва широко на практика, но не е универсален индикатор за връзките на корелацията, тъй като само линейните връзки могат да се характеризират, т.е. изразено от линейното уравнение на регресия (виж темата 12). Ако има нелинейна зависимост между различни признаци, се използват други комуникационни индикатори, обсъдени по-долу.

Изчисляване на коефициента на корелация. Това изчисление се произвежда по различни начини и по различни начини в зависимост от броя на наблюденията (вземане на проби). Разгледайте отделно спецификата на изчисляване на коефициента на корелация в присъствието на малки проби и проби от голям обем.

Малки проби. В присъствието на малки проби коефициентът на корелация се изчислява директно от стойностите на конюгатите, без преди групиране на данни за променливите ленти. За това се сервират горните формули (1) и (2). По-удобно, особено в присъствието на многоценки и частични числа, които се изразяват от варианта х. i. и y. i. От средно и се обслужват следните работни формули:

където ;

;

Тук х. i. и y. i. - сдвоени версии на конюгирани знаци х. и y.Шпакловка и -S-аритметика; - разликата между опциите на двойката на конюгиращите знаци х. и y.; н. - общ брой сдвоени наблюдения или количеството селективен агрегат.

Емпиричният коефициент на корелация, като всеки друг селективен индикатор, служи като оценка на неговата общ параметър ρ И като случайна стойност е придружена от грешка:

Съотношението на коефициента на селективна корелация към неговата грешка служи като критерий за проверка на нулевата хипотеза - предположението, че в общата популация този параметър е нула, т.е. . Нулева хипотеза отхвърля при все по-голямото ниво на значимост α , ако

Стойности на критични точки t. св. За различни нива на значимост α и броят на степените на свободата са дадени в приложения за таблица 1.

Установено е, че при обработката на малки проби (особено когато н.< 30 ) Изчисляване на коефициента на корелация съгласно формулите (1) - (3) дава няколко подценени оценки на общия параметър ρ . Необходимо е да се направи следното изменение:

фишър Z-преобразуване. Правилното използване на коефициента на корелация включва нормалното разпределение на двуизмерния набор от конюгирани стойности на случайни променливи х. и y.. От математическа статистика е известно, че със значителна корелация между променливите, т.е. кога R. xy. > 0,5 Селективното разпределение на коефициента на корелация за по-голям брой малки проби, взети от нормално разпределянето на общата популация, е значително отклонен от нормалната крива.

Като се има предвид това обстоятелство Р. Фишър Установи по-точен начин за оценка на общия параметър на стойността на коефициента на селективна корелация. Този метод се свежда до замяна R. xy. Трансформираната стойност Z, която е свързана с емпиричния коефициент на корелация, както следва:

Разпределението на стойността Z е почти непроменено във форма, тъй като малко зависи от размера на пробата и стойността на коефициента на корелация в общата популация и се приближава към нормалното разпределение.

Критерият за надеждността на индикатора Z е следното отношение:

Нулевата хипотеза се отхвърля на приетото ниво на значимост α и броя на степените на свободата. Стойности на критични точки t. св. LED в приложения за таблица 1.

Приложение z-трансформация Позволява ви да оцените статистическата значимост на коефициента на селективна корелация, както и разликата между емпиричните коефициенти, когато възникне нуждата.

Минимален размер на извадката за точна оценка на коефициента на корелация. Можете да изчислите размера на извадката за определената стойност на коефициента на корелация, което би било достатъчно, за да опровергае нулевата хипотеза (ако връзката между знаците Y. и Х. наистина съществува). За това служи като следната формула:

където н. - желания размер на извадката; t. - стойността, посочена в съответствие с приетото ниво на значимост (по-добро за α \u003d 1%); z. - трансформиран емпиричен корелационен коефициент.

Големи проби. В присъствието на многобройни източници, те трябва да бъдат групирани в вариационни редове и, изграждане на корелационна мрежа, разликата в нейните клетки (клетки) общи честоти на конюгирани редове. Решетката на корелацията се формира от пресичането на редове и колони, чийто броя на които е равен на броя на групите или класове корелирани редове. Класовете са разположени в горния низ и в първата (лявата) колона на таблицата за корелация и общите честоти, посочени от символа е. xy. - в клетките на корелационната решетка, което съставлява основната част от таблицата на корелация.

Класовете, поставени в горната линия на масата, обикновено се намират от ляво на дясно в нарастващ ред, а в първата колона на таблицата - отгоре надолу в намаляващ ред. С това местоположение на класа на вариантните серии, техните общи честоти (ако има положителна връзка между знаците Y. и Х.) Те ще бъдат разпределени през решетъчните клетки под формата на елипса по диагонално от долния ляв ъгъл към горния десен ъгъл на решетката или (в присъствието на отрицателна връзка между знаците) в посоката от горния ляв ъгъл до долния десен ъгъл на решетката. Ако честотата е. xy. Разпределя се върху клетките на корелационната решетка повече или по-малко равномерно, без да образува елипсна фигура, тя ще покаже липсата на корелация между знаците.

Честотно разпределение е. xy. Според клетките на корелационната решетка, е дадена само обща представа за наличието или липсата на комуникация между знаците. Означаваме или по-малко само заради стойността и знака коефициент на корелация. При изчисляване на коефициента на корелация с предварителна група от данни от извадката в интервалните вариационни ленти не трябва да се вземат твърде широки интервали от клас. Грубното групиране е много по-силно от стойността на коефициента на корелация, отколкото това се извършва при изчисляване на средните стойности и показатели за вариация.

Припомнете си, че величината на класовия интервал се определя по формулата

където х. макс , х. мин. - максимална и минимална комбинация; ДА СЕ - броя на класовете, към които трябва да се раздели характеризирането на функцията. Опитът показва, че в областта на анализа на корелацията, величината ДА СЕ Тя може да бъде пристрастена към размера на пробата приблизително, както следва (Таблица 1).

маса 1

Обем на вземане на проби

Което означава К.

50 ≥ n\u003e 30

100 ≥ n\u003e 50

200 ≥ n\u003e 100

300 ≥ n\u003e 200

Подобно на други статистически характеристики, изчислени с предварителното групиране на първоначалните данни в вариантски серии, коефициентът на корелация се определя от различни методи, които дават напълно идентични резултати.

Метод на произведения. Коефициентът на корелация може да бъде изчислен с помощта на основните формули (1) или (2), което прави корекция на повторяемостта на версията в димерната съвкупност. В същото време опростяването на символика, отклонения от техните средни стойности означават но. и. След това формула (2), като се вземе предвид повторяемостта на отклоненията, ще приеме следното изразяване:

Надеждността на този показател се оценява от критерия на ученика, който представлява съотношението на коефициента на селективна корелация към неговата грешка, определена с формулата

Следователно и ако тази стойност надвишава стандартната стойност на студентското критично критикуване за степента на свобода и нивото на значимост (виж таблица 2 на приложенията), тогава нулевата хипотеза се отхвърля.

Метод на условни средни стойности. При изчисляване на коефициента на корелация на опцията за отклонение ("класове") е възможно да се намери не само от средната аритметика и, но и на условната средна и X и y. В този случай методът в цифровия номер на формула (2) прави корекция и формулата придобива следната форма:

където е. xy. - честоти на класовете на един и други редове на разпространение; и, т.е. Отклонения от класове от условни средни стойности, свързани с размера на интервалите на класа λ ; н. - общия брой на сдвоените наблюдения или вземане на проби; и - условните моменти на първата поръчка, където е. х. - честоти на реда Х., но е. y. - честоти на реда Y.; с. х. и с. y. - средно квадратични отклонения от серията Х.и Y.изчислени по формулата.

Методът на условните средни стойности има предимство пред метода на строителните работи, тъй като прави възможно избягването на транзакции с частични числа и да се даде същия (положителен) признак на отклонения а. х. и а. y. Това опростява техниката на изчислителната работа, особено в присъствието на многоценки.

Оценка на разликата между коефициентите на корелация. При сравняване на коефициентите на корелация от две независими проби, нулевата хипотеза се намалява до предположението, че в общата популация разликата между тези показатели е нула. С други думи, тя трябва да се произнесе от предположението, че разликата, наблюдавана между компилните емпирични коефициента на корелация, е възникнала случайно.

За да проверите нулевата хипотеза, се сервира T-критерий на ученика, т.е. Съотношението на разликата между емпиричните коефициенти на корелация R. 1 и R. 2 Към статистическата си грешка, определена по формулата:

където с. R1. и с. R2. - Грешки в сравняваните коефициенти на корелация.

Нулева хипотеза се отхвърля, при условие, че скоростта на значимостта има α и броя на степените на свободата.

Известно е, че по-точна оценка на точността на коефициента на корелация се получава чрез прехвърляне R. xy. Номер z.. Не е изключение и оценка на разликата между коефициентите на селективните корелационни R. 1 и R. 2 , особено в случаите, когато последните се изчисляват върху пробите от относително малък обем ( н.< 100 ) и в абсолютната си стойност значително надвишава 0.50.

Разликата се оценява от ученика Т-критерия, който е изграден във връзка с тази разлика в неговата грешка, изчислена по формулата

Нулевата хипотеза отхвърля, ако за приетото ниво на значимост.

Корелантиране. За измерване на нелинейни взаимоотношения между променливите х. и y. Използвайте индикатор, който се нарича съотношение отношениякойто описва двустранната връзка. Дизайнът на връзката на корелация включва сравнение на два вида вариант: променливост на отделните наблюдения по отношение на индивидуалната средна и вариации на частните средни стойности в сравнение с общата средна стойност. По-малката част ще бъде първият компонент във връзка с втория, темите на комуникацията ще бъдат по-големи. В границата, когато няма промяна на индивидуалните знаци близо до частни средни стойности, тя ще бъде изключително голяма. По същия начин, при липса на променливост на частните средни стойности, съединителят е минимален. Тъй като това съотношение на вариация може да се обмисли за всеки от двата знака, се получават два показателя за стегнатостта - х. yX. и х. xy. . Връзката с корелацията е стойността на относителя и може да приема стойности от 0 до 1. едновременно коефициентите на съотношението на корелацията обикновено не са равни един на друг, т.е. . Равенството между тези показатели е осъществимо само със строго линейни взаимоотношения между знаците. Връзката между корелацията е универсален индикатор: позволява ви да характеризирате всяка форма на корелация и линейна и нелинейна.

Коефициенти на корелация х. yX. и х. xy. Определят обсъжданите по-горе методи, т.е. Метода на произведенията и метода на условни средни стойности.

Метод на произведения. Коефициенти на корелация х. yX. и х. xy. Определете следните формули:

където и - групови дисперсии,

а и - общи дисперсии.

Тук и - обща средна аритметична и средна аритметика; е. yi. - честоти на реда Y., но е. xI. - честоти на реда Х.; к. - броя на класовете; н. - броя на различните знаци.

Формулите за изчисляване на съотношенията на корелацията са както следва:

Метод на условни средни стойности. Определяне на коефициентите на съотношението на корелацията чрез формули (15), отклонения от класовата опция х. i. И y мога да бъда взет не само от средна аритметика и, но и от условна средна и x и y. В такива случаи група и общи отклонения се изчисляват по формули и, както и, както и, и, така.

В разгърната форма на формула (15) изглеждат така:

;

. (17)

В тези формули и - отклонения от класове от условни средни стойности, съкратено от стойността на интервалите на класа; Стойности а. y. и а. х. Броят на естествените редове се изразяват: 0, 1, 2, 3, 4, .... Осталните символи са обяснени по-горе.

Сравняване на метода на творбите с метода на условна средна, е невъзможно да не забележите предимството на първия метод, особено в случаите, когато трябва да се справите с многоцелеви номера. Подобно на други селективни показатели, връзката на корелация е оценка на нейния общ параметър и, като случайна стойност, е придружена от грешка, определена с формулата

Точността на оценката на корелацията може да бъде проверена от Т-критерия за ученик. H 0 е хипотезе от предположението, че общият параметър е нула, т.е. Трябва да се извърши следното условие:

за броя на степените на свободата и нивото на значимостта.

Коефициент на определяне. Да тълкуват стойностите, предприети от показателите за хъркане на корелацията; коефициенти на определянекоито показват какъв е делът на вариациите на една функция зависи от разликата от друга характеристика. В присъствието на линейна връзка коефициентът на определяне е квадратът на коефициента на корелация R2 XY и с нелинейна зависимост между знаците y. и х. - квадрат на съотношението съотношение h2 yx. Коефициентите на определяне дават основание да изградят следния примерен мащаб, като позволяват да се прецени стягане на връзката между знаците: с връзката се счита за средна; Показва слаба връзка и само когато човек може да прецени силна връзка, когато около 50% от характеризирането на функцията Y. Зависи от вариацията на функцията Х..

Оценка на формуляра за комуникация. Със строго линейни връзки между променливите y. и х. Се извършва равенство. В такива случаи коефициентите на корелационната връзка съвпадат със стойността на коефициента на корелация. Съвпадението в тази стойност и коефициентите на определяне, т.е. . Следователно, по отношение на разликата между тези стойности, човек може да прецени формата на корелационна зависимост между променливите y. и х.:

Очевидно, с линейна връзка между променливите y. и х. Индикаторът γ ще бъде нула; Ако връзката между променливите y. и х. нелинейни, γ\u003e 0.

Индикаторът γ е оценка на общия параметър и, като случайност трябва да се провери. Това произтича от предположението, че връзката между стойностите y. и х. Линейна (нулева хипотеза). Проверка на тази хипотеза позволява F-критериите на Fisher:

където а. - броя на групите или класове на вариантни серии; N - обем на вземане на проби. Нулевата хипотеза се отхвърля, ако приложенията са хоризонтално (намерени хоризонтално), (намерени в първата колона на една и съща таблица) и приетото ниво на значимост.

Определяне на значението на корелацията

Класификация на коефициентите на корелация

Коефициентите на корелация се характеризират със сила и значение.

Класификация на корелационните коефициенти за сила.

Класификация на коефициентите на корелация до значимост.

2 от тези класификации не трябва да се бъркат, тъй като те определят различни характеристики. Силната корелация може да бъде случайна и тя стана ненадеждна. Особено често се случва в пробата с малък обем. И в голяма проба, дори слаба корелация може да бъде високо ценена.

След изчисляване на коефициента на корелация, е необходимо да се поставят статистически хипотези:

H 0: Корелационната скорост не се различава значително от нула (случайно).

H 1: Корелационната скорост е значително по-различна от нула (тя е не-случайно).

Проверка на хипотезата се сравнява с получените емпирични коефициенти с критични стойности на масата. Ако емпиричното значение достигне критично или го надвишава, тогава нулевата хипотеза се отхвърля: R emf ≥ r kr, но, þ h 1. В такива случаи те заключават, че точността на различията се открива.

Ако емпиричното значение не надвишава критичното, тогава нулевата хипотеза не се отхвърля: R EMF< r кр Þ Н 0 . В таких случаях делают вывод, что достоверность различий не установлена.

Статистика / корелация

Изчисляване на матрицата на сдвоените коефициенти

корелация

За да изчислите матрицата на коефициентите на свързване, обадете се на менюто Корелационни матрици модул Основастатистийци.

Фиг. 1 модулен панел основна статистика

Основните етапи на анализа на корелацията в системата Statst_s ще разгледат данните на примера (виж фиг. 2). Първоначалните данни са резултатите от наблюденията на дейностите на 23 предприятия на една от индустриите.

Фиг.2 Първоначални данни

Графиките на масата съдържат следните индикатори:

Печеливша - рентабилност,%;

Делът на роб е делът на работниците в състава на ПЧП, единици;

FONDOTD - FODDO Studios, единици;

Osnfonds - средната годишна стойност на основните производствени мощности, милиони рубли;

Неочаквани - непроизводствени разходи, хиляди рубли. Изисква се да проучи зависимостта на рентабилността от други

gIH индикатори.

Да предположим, че разглежданите знаци в общия агрегат са предмет на нормалното законодателство за разпределение и тези наблюдения са проба от агрегата.

Изчислете коефициентите на свързване на корелацията между всички променливи. След като изберете линията Корелационни матрици На екрана се появява диалогов прозорец. Корелации на Пиърсън. Името се дължи на факта, че за първи път този коефициент е Pearson, Edgeworth и Veldon.

Изберете променливи за анализ. За да направите това, в диалоговия прозорец има два бутона: Quad. матрицата (един списък) и Право. матрицата (два списъка).


Фиг. 3 диалогов прозорец за анализ на корелацията

Първият бутон е предназначен да изчисли матрицата на обичай. Симетрични видове с коефициенти на корелансиране на всички комбинации от променливи. Ако използвате всички индикатори, когато анализирате, можете да натиснете бутона в диалоговия прозорец за избор на променлива. Изберете всичко. (Ако променливите не са подред, можете да изберете да изберете щракване с мишката с едновременно натискане на ключа Ctrl.)


Ако кликнете върху Подробности. Ще се покаже диалогов прозорец за всяка променлива дълги имена. Като кликнете върху този бутон отново (ще се нарича Накратко), Получавам кратки имена.

Бутон Информация Отваря прозореца за избраното повторно, което можете да видите неговите характеристики: Long Name, формат на дисплея, сортиран списък на стойностите, описателна статистика (брой стойности, средно, стандартно отклонение).

След като изберете променливите, щракнете върху OK или бутон Средалатка диалогов прозорец Корелация Пиърсън. На екрана се появява изчислената корелационна матрица.

Значителни коефициенти на корелация на екрана са маркирани в червено.

В нашия пример показателят за рентабилност е най-свързан с показателите фондостич (пряка връзка) и производствени разходи (Обратна връзка, включваща края V с увеличаване X). Но колко внимателно са доволни знаците? Счита се, че е свързано с стойностите на коефициента на модула повече от 0.7 и слаб - по-малък от 0.3. По този начин, с по-нататъшно изграждане на регресионното уравнение, тя следва да бъде ограничена до показателите на "студенти" и "непроизводителни разходи" като най-информативно.

Въпреки това, в нашия пример има феномен. многоцветен, Когато има връзка между самите независими променливи (коефициентът на корелация на двойката в модула е по-голям от 0.8).

Опция правоъгълната матрица (два списък на променливи) отваря диалогов прозорец за избор на два променливи списъка. Поза като на снимката


В резултат на това получаваме правоъгълна корелационна матрица, съдържаща само корелационните коефициенти с зависима променлива.


Ако е инсталирана опция Corr. Матрица (значима проби),след това, след като кликнете върху бутона Корелация Ще бъде изградена матрица с сеоф, изолирана на нивото на значимост r..


Ако е избрана опция Подробни резултати от таблицата, след това на огън КорелацияПолучаваме таблица, която съдържа не само корелационни коефициенти, но и средно, отбора на мелницата, коефициентите на регресионното уравнение, неговия член на Бод в уравнението на регресията и други статистически данни \\ t


Когато променливите имат малък относителен вариант (съотношението на стандартното отклонение със средното по-малко от 0,00 милиарда 20 000 0001), се изисква по-висока степен на оценка. Тя може да бъде настроена чрез поставяне на опцията за изчисление с нарастващата точност на диалоговия прозорец на корелацията на Pearson.

Режимът на работа с пропуснати данни се определя от desigid отстраняване на PD. Ако го изберете, тогава Statіst игнорира всички наблюдения, които са прескачащи. В обратния случай се прави тяхното двойно отстраняване.

Маркираният режим за показване на дългите променливи имена ще доведе до таблица с дълги имена на променливи.

Графичен образ на зависимостите на корелацията

Диалоговият прозорец на корелацията на Pearson съдържа редица бутони за получаване на графичен образ на зависимостите на корелацията.

2М опцията за разсейване изгражда последователност на разсейване на диаграма за всяка избрана променлива. Прозорецът за техния избор е идентичен с фигура 6. Отляво трябва да посочите жизнените променливи, на правилния независим - печеливш. Като кликнете върху OK, получаваме графика, на която ще бъде изобразена подравнението на директните и доверителните граници на Regression на Rognosis.

Линейният коефициент на корелация дава най-обективната оценка на тона на комуникацията, ако местоположението на точките в координатната система прилича на директна линия или удължена елипса, ако точките са разположени под формата на крива, след това коефициентът на орагулация дава засегнат рейтинг.

Въз основа на графика, ние отново можем да потвърдим връзката между показателите за рентабилност и фундамента, тъй като тези наблюдения са разположени под формата на наклонена елипса. Трябва да се каже, че връзката се счита за факта, че има блистерна точка до основната ос на елипсата.

В нашия пример промяната в индикатора за основата на единица ще доведе до промяна в рентабилността с 5.7376%.

Нека разгледаме въздействието на непроизводствените разходи за стойността на рентабилността. За да направите това, изградете подобен график

Анализираните данни вече са по-малко напомняни от нейната елипсна форма, а коефициентът на корелация е донякъде по-нисък. Намерената стойност на коефициента на регресия показва, че с увеличаване на непроизводствените разходи на 1000 рубли, рентабилността намалява с 0.7017%.

Трябва да се отбележи, че изграждането на множествена регресия (разглеждана в следващите глави), когато уравнението е едновременно с характеристиките, води до други стойности на регресионните коефициенти, което се обяснява с взаимодействието, което обяснява променливите помежду си .

Когато използвате бутони на точка на диаграма на разсейване, ще получите съответните номера или имена, ако са предварително определени.

Следващата опция, показваща графиката на матрицата, изгражда ярост на разсейващи диаграми за избрани променливи.

изглежда графичният елемент на тази матрица съдържа корелат-йонни полета, образувани от съответните променливи с

женен за тях регресионна линия.

При анализиране на матрицата на разсейващите диаграми трябва да се обърне внимание на тези графики, чиито регресионни линии имат значителен наклон към оста х, което предполага съществуването на взаимозависимостта между съответните първоначални признаци.

Specting SM опцията изгражда триизмерно поле за корелация за избрани променливи. Ако се използва бутонът на името, точките на диаграмата за разсейване ще бъдат маркирани с номера или имена на съответните наблюдения, ако ги имат.

Повърхността на графичната опция изгражда SM до разсейващата диаграма за избраните три променливи заедно с поставената повърхност на втори ред.

Опцията катагор. Диаграмите на разсейване на свой ред изграждат каскада на корелационните полета за избраните индикатори.

След като натиснете съответния бутон, програмата ще помоли на потребителя да направи два от избрания от тях бутон за променливи. След това на екрана ще се появи нова.

прозорецът за заявка за задача на група за групиране, въз основа на който всички налични наблюдения ще бъдат класифицирани.

Резултатът е изграждането на корелационни полета в съкращенията на наблюдателни групи за всяка двойка променливи, преувелителни в различни списъци

3.4. Изчисляване на частни и множество коефициентикорелации

Да се \u200b\u200bизчислят частните и многобройните коефициенти на КР. Модул за връзки Многократно регресияИзползване на бутона за превключване на модула. На екрана се появява следният диалогов прозорец:

Натисни бутона Променливи, изберете променливи за анализ: от лявата зависима - рентабилности отдясно на независими - фондостич и непродуктивни разходи. Останалите променливи няма да участват в по-нататъшен анализ - въз основа на анализа на корелацията, те се признават като неинформативни за модела на регресия.

В полето Въвеждане на файлове. Предлагат се общи източници, които са входни данни, което е таблица с променливи и наблюдения или корелационна матрица. Корелационната матрица може да бъде предварително създадена в самия модул за регресия или да изчисли бързата основна статистика с помощта на опцията.

Когато работите с файла с източника, можете да зададете описание на прескачане:

    Изграждане на отстраняване. Ако е избрана тази опция, само тези наблюдения, които нямат пропуснати стойности във всички избрани променливи, се използват в анализа.

    Средно заместване. Пропуснатите стойности във всяка променлива се заменят със средно изчислено от съществуващите пълни наблюдения.

    Родителска делеция на пропуснати данни. Ако е избрана тази опция, след това при изчисляване на корелациите на двойки, наблюденията, които са пропуснали стойности в съответните променливи двойки, се отстраняват.

В полето Вид регресия Потребителят може да избере стандартна или фиксирана нелинейна регресия. По подразбиране е избран стандартен анализ на множествена регресия, в която се изчислява стандартната корелационна матрица на всички избрани променливи.

Режим Фиксирана нелинейна регресия Позволява ви да извършвате различни трансформации на независими променливи. Вариант Анализ на поведение По подразбиране настройките, подходящи за определяне на стандартна раждаеща наслада, включително свободен член. Ако тази опция е отменена, след това, когато кликнете върху бутона OK стартовия панел, дефиницията на диалоговия прозорец за определяне на модела, в който сте EJET, за да изберете като тип регресионен анализ (например стъпка по стъпка, гребена и т.н.) и други опции.

Проверка на квадратчето за опция за линията Показване на описателни описателниCorr. Матрица И кликнете върху OK, ние получаваме диалогов прозорец със статистически характеристики на данните.

В него можете да видите подробна описателна статистика (включително броя на наблюденията, чрез които коефициентът на корелация е изчислен за всяка двойка променливи). За да продължите анализа и отворете диалоговия прозорец Детерминантите на модела, щракнете върху OK.

Ако анализираните индикатори имат изключително малка относителна дисперсия, изчислена като общата дисперсия, разделена средно, проверете квадратчето в близост до опцията Изчисления с висока точност Да се \u200b\u200bполучат по-точни стойности на елементите на корелационната матрица.

Чрез инсталиране на всички необходими параметри в диалоговия прозорец. Многократно регресия, Натиснете OK и вземете резултатите от необходимите изчисления.

Според нашия пример, коефициентът на множествен корелация се оказа 0.61357990 и съответно коефициентът на определяне е 0.37648029. По този начин само 37,6% от дисперсията на показателя "рентабилност" се обяснява с измерването на показателите за "фондо-проучвания" и "непроизводствени разходи". Такава ниска стойност показва липса на брой фактори, въведени в модела. Нека се опитаме да променим броя на независимите променливи, като добавим списъка на ре-"основните фондове" (въведение в образеца на индикатора "Делът на работниците в ПЧП" води до мултиколенции, което е неприемливо). Коефициентът на определяне се повиши донякъде, но не толкова много за значително подобряване на резултатите - стойността му е около 41%. Очевидно нашата къща изисква допълнителни изследвания, за да се идентифицират фактори, които засягат рентабилността.

Значението на множествения коефициент на корелация е про-несъмнено върху таблицата на Fischer. Хипотезата за неговото значение се отхвърля, ако вероятната стойност на отклонението надвишава определеното ниво (най-често се приема A \u003d 0.1, 0.05; 0.01 0.001). В нашия пример P \u003d 0.008882< 0.05, что свидетельствует о значимости коэффициента.

Таблицата с резултати съдържа следните графики:

    Бета коефициент (в) - стандартизиран коефициент на регресия на съответната променлива;

    Частна корелация - частни коефициенти на съотношението между съответната променлива и зависима, когато се определят влиянието на оставащия в модела.

Коефициентът на частна корелация между рентабилността и ученикът в нашия пример е 0.459899. Това означава, след влизането в модела на индикатор за непродуктивни RAS-EVI влиянието на плащането на фондове върху рентабилност донякъде е донякъде - от 0.49 (стойността на коефициента на корелация) 0.46. Подобен коефициент за индикатор за недеривативни разходи също е намалял - от 0.46 (стойността на съотношението на двойката на корелацията) до 0.42 (те приемат стойност на модула), характеризира промяната във връзка с зависимата променлива входа в модела на основния индикатор.

    Корелацията на партията е корелация между некоригирана зависима променлива и съответното неизвестно отчитане на влиянието на оставащите в модела.

    Толерантност (дефинирана като 1 минус квадрата на множествената корелация между съответната променлива и всички независими променливи в уравнението на регресията).

    Коефициентът на определяне е квадратът на коефициента на множествен корелация между съответната независима променлива и всички други променливи, включени в уравнението на регресията.

    1-стойности - изчислената стойност на критерия на ученика за изпитване на хипотезата за значението на коефициента на частния корелация с посочените (в скоби) по броя на степените на свободата.

    r-ниво! - вероятността за отклонение на хипотезата за значението на коефициента на частния корелация.

В нашия случай получената стойност на P за първия коефициент (0.031277) е по-малка от избраната  \u003d 0.05. Стойността на втория коефициент е донякъде по-висока (0.050676), която показва неговата незначителност на това ниво. Но това е значително, например, при  \u003d 0.1 (в десет случая от сто хипотеза, въпреки това ще бъде неправилно).

Споделете с приятели или запазете за себе си:

Зареждане...