7 coeficiente de correlación. Criterios de correlación de Pienson

Al estudiar la salud pública y la atención médica con fines científicos y prácticos, el investigador a menudo tiene que llevar a cabo un análisis estadístico de la relación entre factor y signos efectivos de agregado estadístico (relación causal) o determinar la dependencia de los cambios paralelos en varios signos de este Totalidad desde cualquier tercer valor (de la causa total de su). Es necesario poder estudiar las características de esta conexión, para determinar su tamaño y dirección, así como también evaluar su precisión. Esto utiliza métodos de correlación.

  1. Tipos de manifestación de vínculos cuantitativos entre signos.
    • comunicación funcional
    • correlación
  2. Definiciones de funcional y correlación.

    Comunicación funcional - Este tipo de relación entre dos signos, cuando cada valor de uno de ellos corresponde a un valor estrictamente definido de la otra (el área del círculo depende del radio del círculo, etc.). La comunicación funcional es característica de los procesos físicos y matemáticos.

    Correlación - tal conexión, en la que cada valor específico de una característica corresponde a unos pocos valores de otra característica interconectada con ella (la relación entre el crecimiento y el peso corporal del cuerpo humano; la relación entre la temperatura corporal y la tasa de pulso , etc.). El vínculo de correlación es característico de los procesos médicos y biológicos.

  3. La importancia práctica de establecer correlación.. Detección de causales entre los factores y las características efectivas (en la evaluación del desarrollo físico, para determinar la relación entre las condiciones de trabajo, la vida y la salud, al determinar la dependencia de la frecuencia de los casos de enfermedades de la edad, la experiencia, la disponibilidad de las intorias industriales, etc.)

    La dependencia de los cambios paralelos de varios signos de un tercer valor. Por ejemplo, bajo la influencia de altas temperaturas en el taller hay cambios. presión sanguínea, viscosidad sanguínea, frecuencia de pulso, etc.

  4. El valor que caracteriza la dirección y la potencia de la comunicación entre los signos.. El coeficiente de correlación, que en un número da una idea de la dirección y la fuerza de la conexión entre los signos (fenómenos), los límites de sus oscilaciones de 0 a ± 1
  5. Métodos para presentar correlación.
    • horario (diagrama de dispersión)
    • coeficiente de correlación
  6. Dirección de correlación
    • derecho
    • obata
  7. Fuerza de correlación
    • fuerte: ± 0.7 a ± 1
    • promedio: ± 0.3 a ± 0.699
    • débil: 0 a ± 0.299
  8. Métodos para determinar el coeficiente de correlación y la fórmula.
    • método cuadrado (método de Pearson)
    • método de rango (método de Spearman)
  9. Requisitos metódicos para el uso del coeficiente de correlación.
    • la comunicación medir es posible solo en agregados homogéneos de alta calidad (por ejemplo, la medición de la comunicación entre el crecimiento y el peso en los agregados, homogéneos por sexo y edad)
    • el cálculo se puede realizar utilizando valores absolutos o derivados.
    • no agrupado para calcular el coeficiente de correlación. filas de variación (Este requisito se aplica solo al calcular el coeficiente de correlación por el método de los cuadrados)
    • número de observaciones de al menos 30
  10. Recomendaciones para el uso de un método de correlación de anillos (método de Spearman)
    • cuando no hay necesidad de establecer con precisión la fuerza de comunicación, y los datos bastante indicativos
    • cuando se presentan los signos, no solo cuantitativos, sino también valores de atributos.
    • cuando las filas de distribución de señales tienen opciones abiertas (por ejemplo, experiencia laboral hasta 1 año, etc.)
  11. Recomendaciones para el uso del método de cuadrados (Método Pearson).
    • cuando se requiere el establecimiento preciso de la fuerza de conexión entre los signos.
    • cuando los signos tienen solo una expresión cuantitativa.
  12. Metodología y procedimiento para calcular el coeficiente de correlación.

    1) Método cuadrado

    2) Método de rango

  13. Esquema de evaluación de correlación para el coeficiente de correlación
  14. Cálculo del error del coeficiente de correlación.
  15. Evaluación de la precisión del coeficiente de correlación obtenido por correlación de rango y el método de cuadrados.

    Método 1
    La precisión está determinada por la fórmula:

    El criterio t se estima en la tabla de valores T, teniendo en cuenta el número de grados de libertad (N - 2), donde n es el número de opción emparejada. El criterio T debe ser igual o más tabular correspondiente a la probabilidad de p ≥99%.

    Método 2
    La confiabilidad se estima en una tabla especial de coeficientes de correlación estándar. Al mismo tiempo, un coeficiente de correlación se considera confiable cuando con un cierto número de grados de libertad (N - 2), es igual a una tabla más, correspondiente al grado de predicción sin errores p ≥95% .

para aplicar el método cuadrado.

La tarea: Calcule el coeficiente de correlación, determine la dirección y la resistencia de la comunicación entre la cantidad de calcio en agua y la rigidez del agua, si se conocen los siguientes datos (Tabla 1). Evaluar la precisión de la comunicación. Haz una conclusión.

tabla 1

Justificación de la elección del método. Para resolver el problema, se selecciona el método cuadrado (Pearson), porque Cada uno de los signos (rigidez al agua y la cantidad de calcio) tiene una expresión numérica; No hay opción abierta.

Decisión.
La secuencia de cálculo se establece en el texto, los resultados se presentan en la tabla. Al construir filas de pares de signos comparados, se les refería a través de X (rigidez de agua en grados) y a través de Y (la cantidad de calcio en agua en MG / L).

Dureza del agua
(en grados)
Cantidad de calcio en el agua
(en mg / l)
d h. d u d x x d u d x 2. d y 2.
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x \u003d Σ x / n M y \u003d σ y / n Σ d x x d y \u003d 7078 Σ d x 2 \u003d 982 Σ d y 2 \u003d 51056
M x \u003d 120/6 \u003d 20 M y \u003d 852/6 \u003d 142
  1. Determine los valores promedio de M X una cantidad de opción "X" y M en una serie de opciones "Y" por fórmulas:
    M x \u003d σх / n (gráfico 1) y
    M y \u003d Σu / n (gráfico 2)
  2. Encuentre la desviación (D X y D) de cada opción del valor del promedio calculado en la serie "X" y en la fila "Y"
    d x \u003d x - m x (gráfico 3) y d y \u003d y - m y (graf4).
  3. Encuentre un producto de desviaciones d x x d y y resumirlas: Σ d x x d y (gráfico 5)
  4. Cada desviación DX y D tiene que construir un cuadrado y resumir sus valores para una serie de "X" y para una serie de "Y": Σ DX 2 \u003d 982 (gráfico 6) y σ dy 2 \u003d 51056 ( gráfico 7).
  5. Determine el producto σ d x \u200b\u200b2 x σ d y 2 y de este trabajo para extraer raíz cuadrada
  6. Los valores obtenidos σ (d x x d y) y √ (ΣD x 2 x σd y 2) Sustituamos en la fórmula para calcular el coeficiente de correlación:
  7. Determinar la precisión del coeficiente de correlación:
    1ª forma. Encuentre el error del coeficiente de correlación (Sr. XY) y el criterio T de acuerdo con las fórmulas:

    Criterio t \u003d 14.1, que corresponde a la probabilidad de una predicción libre de errores P\u003e 99.9%.

    2ª Vía. La precisión del coeficiente de correlación se estima en la tabla "Coeficientes de correlación estándar" (consulte el Apéndice 1). Cuando se grados de la libertad (N - 2) \u003d 6 - 2 \u003d 4, nuestro coeficiente de correlación estimado R xu \u003d + 0.99 es más grande que la tabla (Tab \u003d + 0.917 en P \u003d 99%).

    Producción. Cuanto más calcio en el agua, más difícil (comunicación. recto, fuerte y confiable: R hu \u003d + 0.99, p\u003e 99.9%).

    en el uso de un método de rango

    La tarea: Establecemos la dirección y la fuerza de la relación entre la experiencia laboral en años y la frecuencia de las lesiones si se obtienen los siguientes datos:

    Justificación de la elección del método: Para resolver la tarea, solo se puede seleccionar el método de correlación de rango, porque La primera fila de la "experiencia laboral en años" tiene opciones abiertas (experiencia laboral hasta 1 año y 7 años o más), que no permite utilizar un método más preciso para establecer la comunicación entre las características asociadas, el método cuadrado.

    Decisión. La secuencia de cálculo se establece en el texto, los resultados se presentan en la tabla. 2.

    Tabla 2

    Experiencia laboral en años Número de lesión Números de pedido (rangos) Diferencia de pista Diferencia de clasificación cuadrada
    X. Y d (x-y) d 2.
    Hasta 1 año 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 o más 6 5 1 +4 16
    Σ d 2 \u003d 38.5

    Coeficientes de correlación estándar que se consideran confiables (por L.S. KAMINSKY)

    El número de grados de libertad - 2 El nivel de probabilidad P (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. VLASOV V.V. Epidemiología. - M.: GOOTAR-MIEL, 2004. - 464 p.
    2. Lisitsyn yu.p. Salud pública y salud. Libro de texto para universidades. - M.: GOEOTAR-MIEL, 2007. - 512 p.
    3. Medica V.A., Yuriev V.K. Curso de salud pública y conferencias de salud: Parte 1. Salud pública. - M.: Medicina, 2003. - 368 p.
    4. MINAEV V.A., Vishnyakov n.i. y otros. Medicina social y organización de salud (directrices en 2 volúmenes). - San Petersburgo, 1998. -528 p.
    5. Kucherenko v.z., Agarkov n.m. y otra organización social de higiene y atención médica ( Tutorial- - Moscú, 2000. - 432 p.
    6. S. Glanz. Estadísticas médicas y biológicas. Por con inglés. - M., Práctica, 1998. - 459 p.

El coeficiente de correlación refleja el grado de relación entre los dos indicadores. Siempre toma un valor de -1 a 1. Si el coeficiente se encuentra a aproximadamente 0, entonces dicen que no hay conexión entre las variables.

Si el valor está cerca de uno (de 0.9, por ejemplo,), existe una fuerte relación directa entre los objetos observados. Si el coeficiente está cerca de otro. punto extremo Rango (-1), entonces hay una fuerte relación inversa entre las variables. Cuando el valor está en algún lugar en el medio de 0 a 1 o 0 a -1, esta es una conexión débil (directa o inversa). Por lo general, esta relación no se tiene en cuenta: se cree que no lo es.

Cálculo del coeficiente de correlación en Excel.

Considere en los métodos de ejemplo para calcular el coeficiente de correlación, las características de la relación directa y inversa entre las variables.

Los valores de los indicadores X e Y:

Y es una variable independiente, dependiente de X. Es necesario encontrar enlaces de resistencia (fuerte / débil) y dirección (en línea recta / inversa) entre ellos. La fórmula del coeficiente de correlación se ve así:


Para simplificar su comprensión, nos dividimos en varios elementos simples.

Se determina una conexión directa fuerte entre las variables.

La función Correla incorporada evita cálculos complejos. Calcule el coeficiente de correlación del par en Excel con su ayuda. Llame a las funciones de funciones. Encontramos el deseado. Argumentos de la función: una matriz de valores y y una matriz de valores X:

Mostrar los valores de las variables en el horario:


Un fuerte vínculo entre Y y X es visible, porque Las líneas van casi paralelas entre sí. La relación es directa: crece y - crece x, y disminuye: disminuye x.



Matriz de coeficientes de correlación marítimo en Excel

La matriz de correlación es una tabla, en la intersección de filas y columnas de las cuales son los coeficientes de correlación entre los valores correspondientes. Tiene sentido construirlo para varias variables.

La matriz de coeficientes de correlación en Excel se construye utilizando la herramienta "correlación" del paquete de análisis de datos.


Entre los valores de Y y X1, se detectó una fuerte relación directa. Entre X1 y X2 hay una respuesta fuerte. La comunicación con valores en la columna X3 está prácticamente ausente.

¡Nota! Su decisión tarea específica Se verá como el mismo este ejemplo, incluyendo todas las tablas y textos explicativos presentados a continuación, pero teniendo en cuenta sus datos de origen ...

Una tarea:
Hay una muestra de punto de 26 pares de valores (x k, y k):

k. 1 2 3 4 5 6 7 8 9 10
x k. 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k. 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k. 11 12 13 14 15 16 17 18 19 20
x k. 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k. 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k. 21 22 23 24 25 26
x k. 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k. 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Se requiere calcular / construir:
- coeficiente de correlación;
- Compruebe la hipótesis de la dependencia de las variables aleatorias X e Y, a nivel de importancia α \u003d 0.05;
- coeficientes de la ecuación de regresión lineal;
- Diagrama de dispersión (campo de correlación) y horario de línea de regresión;

DECISIÓN:

1. Calcule el coeficiente de correlación.

El coeficiente de correlación es un indicador de la influencia de la probabilidad mutua de dos variables aleatorias. Coeficiente de correlación R. puede hacer valores de -1 antes de +1 . Si el valor absoluto está más cerca de 1 , entonces esto es evidencia de una conexión fuerte entre los valores y, si está más cerca de 0 - Eso, habla de una conexión débil o su ausencia. Si el valor absoluto R. Igual a uno, entonces podemos hablar sobre la conexión funcional entre los valores, es decir, un valor se puede expresar a través de otro por medio de una función matemática.


Calcule el coeficiente de correlación en las siguientes fórmulas:
NORTE.
Σ
k \u003d 1.
(x k -m x) 2, Σ y 2. =
M x. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
x k MI. =

o por fórmula

R x, y =
M xy - m x m y
S x s y
(1.4), donde:
M x. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
x k MI. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
y k M xy. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
x k y k (1.5)
S x 2. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
x k 2 - m x 2, S y 2. =
1
NORTE.
NORTE.
Σ
k \u003d 1.
y k 2 - m y 2 (1.6)

En la práctica, la fórmula (1.4) se usa a menudo para calcular el coeficiente de correlación. Requiere menos computación. Sin embargo, si la covarianza se calculó previamente. cOV (X, Y), es más rentable usar fórmula (1.1), porque Además de la covarianza real, puede utilizar los resultados de los cálculos intermedios.

1.1 Calcular el coeficiente de correlación por fórmula (1.4)Para hacer esto, calcule los valores de x k 2, y k 2 y x k y k y llevarlos a la Tabla 1.

tabla 1


k.
x k. y k. x k. 2 y k. 2 x k.y k.
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Calcular m x según la fórmula (1.5).

1.2.1. x k.

x 1 + x 2 + ... + x 26 \u003d 25.20000 + 26.40000 + ... + 25.80000 \u003d 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x \u003d 25.750000

1.3. Del mismo modo, calcular m y.

1.3.1. Mezclar constantemente todos los elementos. y k.

y 1 + Y 2 + ... + Y 26 \u003d 30.80000 + 29.40000 + ... + 30.80000 \u003d 793.000000

1.3.2. Dividimos la cantidad recibida por el número de elementos de muestreo.

793.00000 / 26 = 30.50000

M y \u003d 30.500000

1.4. Similarmente calcular m xy.

1.4.1. Mezclar constantemente todos los elementos de la 6ª columna de la Tabla 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Dividimos la cantidad recibida por el número de artículos.

20412.83000 / 26 = 785.10885

M xy \u003d 785.108846

1.5. Calcule el valor de S X 2 por fórmula (1.6.).

1.5.1. Moviendo secuencialmente todos los elementos de la 4ª columna de la Tabla 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Dividimos la cantidad recibida por el número de artículos.

17256.91000 / 26 = 663.72731

1.5.3. Suscríbase desde el último número, se obtiene el cuadrado del valor M X para S X 2

S x 2. = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Calcule el valor de S y 2 por fórmula (1.6.).

1.6.1. Mezcle los elementos secuenciales de la 5ª columna de la Tabla 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Dividimos la cantidad recibida por el número de artículos.

24191.84000 / 26 = 930.45538

1.6.3. Submar desde el último número, se obtendrá el cuadrado del valor de M y para S y 2

S y 2. = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Calcule el producto de los valores de S X 2 y S y 2.

S x 2 s y 2 \u003d 0.66481 0.20538 \u003d 0.136541

1.8. Extracción de la raíz cuadrada del último número, obtenemos el valor de S X S Y.

S x s y \u003d 0.36951

1.9. Calcule el valor del coeficiente de correlación por fórmula (1.4.).

R \u003d (785.10885 - 25.75000 30.50000) / 0.36951 \u003d (785.10885 - 785.37500) / 0.36951 \u003d -0.72028

Respuesta: R x, y \u003d -0.720279

2. Compruebe la importancia del coeficiente de correlación (verificamos la hipótesis de la dependencia).

Dado que la evaluación del coeficiente de correlación se calcula en la muestra final, y por lo tanto puede desviarse de su valor general, es necesario probar la importancia del coeficiente de correlación. El cheque se realiza utilizando T-Criteria:

t \u003d.
R x, y
N - 2.
1 - R 2 X, Y
(2.1)

Valor aleatorio t. Es seguido por la distribución T del estudiante y en la distribución de la Tabla T, es necesario encontrar el valor crítico del criterio (T K.α) a un nivel determinado de importancia α. Si la fórmula calculada por fórmula (2.1) t sobre el módulo será inferior a T kr.α, entonces la relación entre valores aleatorios X y y no. De lo contrario, los datos experimentales no contradicen la hipótesis de la dependencia de las variables aleatorias.


2.1. Calcule el valor de los criterios T por fórmula (2.1) obtenemos:
t \u003d.
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Definimos en la tabla de distribución T, el valor crítico del parámetro t kr.α

La T de T kr.α se encuentra en la intersección de la cadena correspondiente al número de grados de libertad y la columna del nivel correspondiente de importancia α.
En nuestro caso, el número de grados de libertad es N - 2 \u003d 26 - 2 \u003d 24 y α \u003d 0.05 Lo que corresponde al valor crítico del criterio t kr.α \u003d 2.064 (ver tabla 2)

Tabla 2 distribución t

El número de grados de libertad
(N - 2)
α \u003d 0.1. α \u003d 0.05 α \u003d 0.02 α \u003d 0.01 α \u003d 0.002. α \u003d 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Compara el valor absoluto de T-Criteria y T K.α

El valor absoluto de los criterios en T no es menor que el T \u003d 5.08680, T kr.α \u003d 2.064, por lo tanto, datos experimentales, con una probabilidad de 0.95. (1 - α), no contradigne la hipótesis. Sobre la dependencia de las variables aleatorias X e Y.

3. Calcule los coeficientes de la ecuación de regresión lineal.

La ecuación de regresión lineal es la ecuación de una dependencia recta, aproximada (aproximadamente describiendo) entre los valores aleatorios X e Y. Si asumimos que el valor X es gratuito, y depende de X, entonces la ecuación de regresión se registra de la siguiente manera


Y \u003d a + b x (3.1), donde:

b \u003d.R x, y
Σ y.
Σ x.
= R x, y
S y
S X.
(3.2),
a \u003d m y - b m x (3.3)

Calculado por fórmula (3.2) coeficiente b. Llamado el coeficiente de regresión lineal. En algunas fuentes uNA. referido como un coeficiente de regresión constante y b. En consecuencia, las variables.

Los errores de la predicción Y a un valor dado de X se calculan por fórmulas:

El valor de σ y / x (fórmula 3.4) también se llama desviación cuadrática media residualCaracteriza el cuidado de Y de la línea de regresión descrita por la ecuación (3.1), con un valor fijo (especificado) de X.

.
S y 2 / s x 2 \u003d 0.20538 / 0.66481 \u003d 0.30894. Eliminación de la raíz cuadrada del último número: obtenemos:
S y / s x \u003d 0.55582

3.3 Calcular el coeficiente B Por fórmula (3.2)

b. = -0.72028 0.55582 = -0.40035

3.4 Calcular el coeficiente A Por fórmula (3.3)

uNA. = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Establecer el error de la ecuación de regresión..

3.5.1 Eliminación de la raíz cuadrada de S y 2 que recibimos:

= 0.31437
3.5.4 Calculamos el error relativo en la fórmula (3.5)

Δ y / x \u003d (0.31437 / 30.50000) 100% \u003d 1.03073%

4. Construye el diagrama de dispersión (campo de correlación) y gráfico de línea de regresión.

Diagrama de dispersión es imagen gráfica Pares relacionados (x k, y k) en forma de puntos de plano, en coordenadas rectangulares con ejes X e Y. El campo de correlación es una de las representaciones gráficas de la muestra asociada (par). En el mismo sistema de coordenadas, también se construye el calendario de línea de regresión. Debe elegir cuidadosamente la escala y los puntos de inicio en los ejes para que el diagrama sea lo más claro posible.

4.1. Encontramos que el elemento de muestreo mínimo y máximo X son los elementos 18 y 15, respectivamente, x MIN \u003d 22.10000 y X MAX \u003d 26.60000.

4.2. Encontramos que el elemento de muestreo mínimo y máximo son los elementos 2 y 18, respectivamente, y min \u003d 29.40000 y y max \u003d 31.60000.

4.3. En el eje de abscisa, seleccione el punto de inicio ligeramente dejado el punto x 18 \u003d 22.1000, y tal escala para que el punto x 15 \u003d 26.60000 se pueda colocar en el eje y los otros puntos distinguidos.

4.4. En el eje de las Ordenadas, seleccionamos el punto de inicio ligeramente dejado el punto y 2 \u003d 29.40000, y tal escala para que el punto y 18 \u003d 31.60000 se pueda colocar en el eje y los otros puntos distinguidos.

4.5. En el eje de Abscissa, colocamos los valores de X K, y los valores de la Y K en el eje son la ordenada.

4.6. Aplique (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) en el plano de coordenadas. Obtenemos el diagrama de dispersión (campo de correlación) que se muestra en la figura a continuación.

4.7. Línea de regresión de características.

Para hacer esto, encontramos dos puntos diferentes con las coordenadas (X R1, Y R1) y (x R2, Y R2) Satisfacción de la ecuación (3.6), los aplicaremos al avión de coordenadas y pasaremos directamente a través de ellos. Como abscisa del primer punto, tome el valor x min \u003d 22.10,000. Sustituamos el valor de X min a la ecuación (3.6), obtenemos el orden del primer punto. Por lo tanto, tenemos un punto con las coordenadas (22.1000, 31.96127). De manera similar, obtenemos las coordenadas del segundo punto, poniendo el x max \u003d 26.60000 como abscisa. El segundo punto será: (26.60000, 30.15970).

La línea de regresión se muestra en la siguiente figura en rojo

Tenga en cuenta que la línea de regresión siempre pasa a través de los valores promedio de los valores de X e Y, es decir, Coordenadas (m x, m y).

06.06.2018 16 235 0 Igor

Psicología y sociedad

Todo en el mundo está interrelacionado. Cada persona al nivel de intuición está tratando de encontrar la relación entre los fenómenos para poder influir en ellos y administrarlos. El concepto que refleja esta relación se llama la correlación. ¿Qué significa ella palabras simples?

Contenido:

Concepto de correlación

Correlación (del latín "correlalatio" - relación, relación) - un término matemático, lo que significa la medida de la dependencia de la probabilidad estadística entre los valores aleatorios (variables).



Ejemplo: Toma dos tipos de interconexión:

  1. Primero - Pluma en la mano del hombre. De qué manera se mueve la mano, de la misma manera y maneja. Si la mano está en reposo, entonces la manija no escribirá. Si una persona apenas se pega, entonces la traza en el papel será rica. Este tipo de relación refleja una dura dependencia y no es una correlación. Esta relación es funcional.
  2. Segunda vista - Dependencia entre los niveles de formación humana y la lectura de la literatura. No se sabe de antemano quién lee más las personas: con educación más alta O sin eso. Esta relación es aleatoria o estocástica, se estudia su ciencia estadística, que se involucra solo por los fenómenos de masa. Si el cálculo estadístico le permite probar la vínculo de correlación entre el nivel de educación y la lectura de la literatura, brindará la oportunidad de realizar cualquier pronóstico, para predecir el evento probabilístico. En este ejemplo, con mucha probabilidad, es posible decir que las personas con educación superior son leen más libros de lectura, aquellos que están más educados. Pero como la conexión entre estos parámetros no es funcional, entonces podemos y cometemos un error. Siempre puede calcular la probabilidad de un error de este tipo, lo que será inequívocamente pequeño y se denomina nivel de significación estadística (P).

Ejemplos de interconexión entre cada uno. fenomenos naturales están: La cadena nutricional en la naturaleza, el cuerpo humano, que consiste en sistemas de órganos, interrelacionados y funcionando en su conjunto.

Todos los días nos enfrentamos a la dependencia de la correlación en la vida cotidiana: entre el clima y buen humor, la redacción adecuada de los objetivos y su logro, actitud positiva y suerte, sintiendo la felicidad y el bienestar financiero. Pero estamos buscando comunicación, confiando no en cálculos matemáticos, sino en mitos, intuición, superstición y superstición. Estos fenómenos son muy difíciles de traducir al lenguaje matemático, expresar en números, medir. Otra cosa es cuando analizamos los fenómenos que puede calcular, envíe en forma de números. En este caso, podemos determinar la correlación utilizando el coeficiente de correlación (R), lo que refleja el poder, el grado, la estanqueidad y la dirección de la correlación entre las variables aleatorias.

Fuerte correlación entre valores aleatorios - Certificado de la presencia de alguna conexión estadística específicamente entre estos fenómenos, pero esta conexión no se puede transferir a los mismos fenómenos, sino para otra situación. A menudo, los investigadores, habiendo recibido una correlación significativa entre dos variables en los cálculos, basadas en la simplicidad del análisis de correlación, realizan suposiciones intuitivas falsas sobre la existencia de las relaciones causales entre los signos, olvidando que el coeficiente de correlación sea probabilístico.

Ejemplo: El número de heridos durante el hielo y el número de accidentes entre los vehículos. Estos valores se correlacionarán entre sí, aunque no están absolutamente interrelacionados, pero solo tienen una conexión con la razón total de estos eventos aleatorios - Holyty. Si el análisis no reveló la relación de correlación entre los fenómenos, esto aún no es evidencia de la falta de relación entre ellos, lo que puede ser un complejo no lineal, no se detecta utilizando cálculos de correlación.




El primero en introducir el concepto de correlación en la circulación científica fue francesa. paleontólogo georges kuwier. En el siglo XVIII, llevó la ley la correlación de las partes y los órganos de los organismos vivos, gracias a la posibilidad de restaurar la base de toda la criatura fósil, un animal en las partes encontradas del cuerpo (restos). En las estadísticas, la correlación del término primero aplicó un científico inglés en 1886. Francis Galton. Pero no pudo eliminar la fórmula exacta para calcular el coeficiente de correlación, pero esto fue hecho por su estudiante. el matemático más famoso y el biólogo Karl Pearson.

Tipos de correlación

En importancia - Altamente valorado, significativo e insignificante.

Puntos de vista

que es R.

Alto riesgo

r corresponde al nivel de significación estadística p<=0,01

Significativo

r corresponde a P.<=0,05

Insignificante

r no alcanza p\u003e 0.1

Negativo (Reducir el valor de una variable conduce a un aumento en el nivel del otro: cuanto mayor es la fobias humanas, menos probabilidades de tomar una posición de orientación) y positiva (si el crecimiento de un valor conlleva un aumento en el nivel de la Otro: Cuanto más nervioso, es más probable que se enferme). Si no hay conexión entre las variables, entonces tal correlación se llama cero.

Lineal (Cuando un valor aumenta o disminuye, el segundo también aumenta o disminuye) y no lineal (cuando, cuando un cambio en un valor, la naturaleza del segundo cambio no se puede describir mediante dependencia lineal, se aplican otras leyes matemáticas, polinomio, hiperbólico adiccion).

Por poder.

Factores




Dependiendo de qué escala incluya las variables estudiadas, se calculan varios tipos de coeficientes de correlación:

  1. El coeficiente de correlación de Pearson, el par de coeficiente de correlación lineal o la correlación de los puntos de las obras se calcula para variables de la escala de medición intervalo y cuantitativa.
  2. El coeficiente de correlación de rango del espíritu o kendalla: cuando al menos uno de los valores tiene una escala de secuencia no se distribuye normal.
  3. El punto de la correlación de la fila de puntos (el coeficiente de correlación de los signos de Fechner) es si uno de los dos valores es dicotómico.
  4. El coeficiente de la correlación de cuatro años (el coeficiente de correlación múltiple de rango (concordación), si dos variables son dicotómicas.

El coeficiente de Pearson se refiere a indicadores de correlación paramétrica, todos los demás, a no paramétricos.

El valor del coeficiente de correlación va desde -1 a +1. Con una correlación positiva completa, R \u003d +1, con un negativo completo - R \u003d -1.

Fórmula y cálculo.





Ejemplos

Es necesario determinar la relación de dos variables: el nivel de desarrollo intelectual (según las pruebas) y el número de deseos para el mes (de acuerdo con los registros en la revista de capacitación) de los escolares.

Los datos iniciales se presentan en la tabla:

DATOS IQ (X)

Datos sobre el número de deseos (y)

Suma

1122

Promedio

112,2


Para habilitar la interpretación correcta del indicador resultante, es necesario analizar el signo de coeficiente de correlación (+ o -) y su valor absoluto (módulo).

De acuerdo con la tabla de clasificación, el coeficiente de correlación de la fuerza concluimos que RXY \u003d -0.827 es una fuerte dependencia negativa de la correlación. Por lo tanto, el número de escolares tardíos tiene una dependencia muy fuerte de su nivel de desarrollo intelectual. Se puede decir que los estudiantes con un IQ de alto nivel tienen menos probabilidades de ocupar que los estudiantes con IQ bajo.



El coeficiente de correlación se puede utilizar como científicos para confirmar o refutar el supuesto de la dependencia de dos cantidades o fenómenos y medir su fuerza, importancia y estudiantes para estudios empíricos y estadísticos sobre diversos temas. Debe recordarse que este indicador no es una herramienta ideal, se calcula solo para medir la resistencia de la dependencia lineal y siempre será un valor probabilístico que tenga un cierto error.

El análisis de correlación se aplica en las siguientes áreas:

  • ciencia económica;
  • astrofísica;
  • ciencias sociales (sociología, psicología, pedagogía);
  • agroquímica;
  • estudios de metal;
  • industria (para control de calidad);
  • hidrobiología;
  • biometría, etc.

Causas de la popularidad del método de análisis de correlación:

  1. La simplicidad relativa de calcular los coeficientes de correlación no se necesita educación matemática especial.
  2. Le permite calcular la relación entre los valores aleatorios de masas que están sujetos a la ciencia estadística. En este sentido, este método ganó generalizado en el campo de los estudios estadísticos.

Espero que ahora pueda distinguir la relación funcional de la correlación y sabrá que cuando escuche en la televisión o lea en una prensa de correlación, entonces, subraya una interdependencia positiva y suficientemente significativa entre dos fenómenos.

En estadísticas coeficiente de correlación (inglés Coeficiente de correlación.) Se utiliza para probar la hipótesis sobre la existencia de una relación entre dos valores aleatorios, y también nos permite evaluar su fuerza. En una teoría de la cartera, este indicador se usa generalmente para determinar la naturaleza y la fuerza de la dependencia entre la rentabilidad de la seguridad (activo) y el rendimiento de la cartera. Si la distribución de estas variables es normal o cerca de la normalidad, entonces debe usar coeficiente de correlación de Pearsonque se calcula por la siguiente fórmula:

La desviación estándar de la rentabilidad de las acciones de la Compañía A será de 0.6398, las acciones de la Compañía B 0.5241 y la cartera de 0.5668. ( ¿Qué tan calculada se puede leer la desviación estándar?)

El coeficiente de correlación de la rentabilidad de la Compañía de la Compañía A y la rentabilidad de la cartera será de -0.864 y las acciones de la Compañía B 0.816.

R a \u003d -0.313 / (0,6389 * 0,5668) \u003d -0,864

R b \u003d 0.242 / (0,5241 * 0,5668) \u003d 0,816

Se puede concluir sobre la presencia de una relación bastante fuerte entre el rendimiento de la cartera y la rentabilidad de la Compañía de la Compañía A y la Compañía B. Al mismo tiempo, la rentabilidad de las acciones de la Compañía A demuestra el movimiento multidireccional con el rendimiento de la cartera, y la rentabilidad del movimiento unidireccional de las acciones de la compañía.

Comparte con amigos o ahorra para ti mismo:

Cargando...