viernes, 2 de mayo de 2014

Correlación entre variables y regresión lineal en SAS

Dentro de las actividades habituales en minería de datos, se encuentra el estudio de correlaciones entre variables. En este post vamos a realizar un ejemplo sencillo de estudio de correlación entre variables.

Nuestro conjunto de datos de entrada es el que se muestra a continuación y nuestro objetivo es determinar si existe correlación entre las variables var1 y var2.


var1
var2
1
6
2
9
3
10
4
12
5
16
6
18
7
19
8
21
9
22
10
24
11
29
12
30
13
34
14
32
15
39
16
38
17
40
18
44
19
48
20
46

En primer lugar utilizamos el procedimiento proc corr de SAS con objeto de obtener la matriz de correlación entre las 2 variables.

proc corr outp=tabla outs=correl;
var var1 var2;
run;

MEAN

10.5
26.85
STD

59.160.797.831
13.031.439.715
N

20
20
CORR
var1
1
0.9954887218
CORR
var2
0.9954887218
1

En la matriz se obtiene el coeficiente de correlación de Pearson que al ser mayor que cero indica que existe una correlación positiva y al ser próxima a 1, indica que la correlación es fuerte.

Una vez detectada la correlación, el siguiente paso es obtener qué tipo de relación existe entre las variables. Como primer paso pintamos un gráfico con var2 en el eje-y y var1 en el eje-x, utilizando el procedimiento proc gplot.

proc gplot data=tabla;
plot var2*var1;
run;



El gráfico muestra una posible relación lineal, de modo que utilizamos el procedimiento proc reg, con objeto de obtener los coeficientes de la regresión lineal.

proc reg data=tabla;
model var2=var1;
run;

The REG Procedure
Model: MODEL1
Dependent variable: var2
Number of Observations Read
20
Number of Observations Used
20
 
Analysis of Variance
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
1
3190.06353
3190.06353
1573.77
<.0001
Error
18
36.48647
2.02703


Corrected Total
19
3226.55000



 
Root MSE
1.423737
R-Square
0.988692
Dependent Mean
26.850000
Adj R-Sq
0.988064
Coeff Var
5.302557

 
Parameter Estimates
Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
3.85263
0.66137
5.83
<.0001
var1
1
2.19023
0.05521
39.67
<.0001

Obtenemos como resultado la siguiente regresión lineal:

var2 = 2,19*var1 + 3,85

Lógicamente los pasos a dar una vez detectada una correlación entre variables dependerá del tipo de relación que hayamos detectado.

Formación SAS

No hay comentarios:

Publicar un comentario