miércoles, 30 de abril de 2014

Ejemplo procedimiento ANOVA en SAS


En este post incluímos un ejemplo muy sencillo de empleo de procedimiento anova en SAS. En el ejemplo queremos ver la influencia de la variable ciudad en el consumo de un conjunto de clientes.  Se trata de validar si la ciudad influye en el consumo medio cliente, para ello empleamos el procedimiento anova.



Sin entrar a definir con detalle lo que es el Análisis de Varianza (ANOVA, ANalysis Of VAriance), si indicar que es un método que se basa en el estudio de las varianzas y que se puede utilizar para establecer diferencias entre medias arítmeticas de 2 o más grupos.

En nuestro ejemplo, vamos a analizar las medias de consumo mensual de clientes en base a su ciudad, pudiendo tomar la variable ciudad tres valores (Madrid, Barcelona y Valencia), para saber si existe alguna relación entre la ciudad y el consumo, Queremos comprobar si hay diferencias estadísticas significativas en las medias de los tres grupos o no las hay.

En primer lugar realizamos un proc means en base a la variable ciudad:

proc means data=consumo_mensual noprint nway;
   class ciudad;
   var arpu;
   output out=consumo_mensual_ag(drop=_type_)
   mean(arpu) = arpu_medio;
run;

Obtenemos lo siguiente:

ciudad
_freq_
arpu_medio
Madrid
6835
14,90
Barcelona
5922
15,03
Valencia
5075
15,00

A continuación ejecutamos el procedimiento ANOVA:

proc anova data=consumo_mensual;
  class ciudad;
  model arpu = ciudad; /* variables sobre las que estamos validando la posible dependencia */
  means ciudad;
run;

Obtenemos lo siguiente:
The ANOVA Procedure
Class Level Information
Class
Levels
Values
ciudad
3
Barcelona Madrid Valencia
 
Number of Observations Read
17832
Number of Observations Used
17832
Dependent variable: arpu
 
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
2
60.24488295
30.12244147
0.40
0.6690
Error
17829
1336051.8277
74.93700307


Corrected Total
17831
1336112.0726



 
R-Square
Coeff Var
Root MSE
arpu Mean
0.000045
57.82388
8.656616
14.970659
 
Source
DF
Anova SS
Mean Square
F Value
Pr > F
ciudad
2
60.24488295
30.12244147
0.40
0.6690
 
Level of ciudad
N
arpu Mean
arpu Std Dev
Barcelona
5922
15.02762749
8.67528423
Madrid
6835
14.89803950
8.62331428
Valencia
5075
15.00198621
8.67954484

Del resultado obtenido nos llama la atención el valor obtenido en el p-valor (Pr > F). El p-valor nos vale para constrastar nuestra hipótesis nula que sería que los tres valores medios no muestren diferencias estadísticamente significativas.

El valor de p-valor es significativo, ya que se suelen dar como valor umbral para rechazar la hipótesis p-valor entorno a 0,05.  Como el p-valor es mayor que 0,05, entonces no podemos rechazar la hipótesis nula de que todas las medias son iguales, aceptando que la provincia del cliente no influye  en el consumo mensual  o al menos no tenemos evidencias estadísticas que apoyen esta hipótesis.

Formación SAS

No hay comentarios:

Publicar un comentario