Ejemplo procedimiento ANOVA en SAS
En este post incluímos un ejemplo muy sencillo de empleo de procedimiento anova en SAS. En el ejemplo queremos ver la influencia de la variable ciudad en el consumo de un conjunto de clientes. Se trata de validar si la ciudad influye en el consumo medio cliente, para ello empleamos el procedimiento anova.
Sin entrar a definir con detalle lo que es el Análisis de Varianza (ANOVA, ANalysis Of VAriance), si indicar que es un método que se basa en el estudio de las varianzas y que se puede utilizar para establecer diferencias entre medias arítmeticas de 2 o más grupos.
En nuestro ejemplo, vamos a analizar las medias de consumo mensual de clientes en base a su ciudad, pudiendo tomar la variable ciudad tres valores (Madrid, Barcelona y Valencia), para saber si existe alguna relación entre la ciudad y el consumo, Queremos comprobar si hay diferencias estadísticas significativas en las medias de los tres grupos o no las hay.
En primer lugar realizamos un proc means en base a la variable ciudad:
proc means data=consumo_mensual noprint nway;
class ciudad;
var arpu;
output out=consumo_mensual_ag(drop=_type_)
mean(arpu) = arpu_medio;
run;
Obtenemos lo siguiente:
ciudad | _freq_ | arpu_medio |
Madrid | 6835 | 14,90 |
Barcelona | 5922 | 15,03 |
Valencia | 5075 | 15,00 |
A continuación ejecutamos el procedimiento ANOVA:
proc anova data=consumo_mensual;
class ciudad;
model arpu = ciudad; /* variables sobre las que estamos validando la posible dependencia */
means ciudad;
run;
Obtenemos lo siguiente:
The ANOVA Procedure
Class Level Information | ||
Class | Levels | Values |
ciudad | 3 | Barcelona Madrid Valencia |
Number of Observations Read | 17832 |
Number of Observations Used | 17832 |
Dependent variable: arpu
Source | DF | Sum of Squares | Mean Square | F Value | Pr > F |
Model | 2 | 60.24488295 | 30.12244147 | 0.40 | 0.6690 |
Error | 17829 | 1336051.8277 | 74.93700307 | ||
Corrected Total | 17831 | 1336112.0726 |
R-Square | Coeff Var | Root MSE | arpu Mean |
0.000045 | 57.82388 | 8.656616 | 14.970659 |
Source | DF | Anova SS | Mean Square | F Value | Pr > F |
ciudad | 2 | 60.24488295 | 30.12244147 | 0.40 | 0.6690 |
Level of ciudad | N | arpu Mean | arpu Std Dev |
Barcelona | 5922 | 15.02762749 | 8.67528423 |
Madrid | 6835 | 14.89803950 | 8.62331428 |
Valencia | 5075 | 15.00198621 | 8.67954484 |
Del resultado obtenido nos llama la atención el valor obtenido en el p-valor (Pr > F). El p-valor nos vale para constrastar nuestra hipótesis nula que sería que los tres valores medios no muestren diferencias estadísticamente significativas.
El valor de p-valor es significativo, ya que se suelen dar como valor umbral para rechazar la hipótesis p-valor entorno a 0,05. Como el p-valor es mayor que 0,05, entonces no podemos rechazar la hipótesis nula de que todas las medias son iguales, aceptando que la provincia del cliente no influye en el consumo mensual o al menos no tenemos evidencias estadísticas que apoyen esta hipótesis.
Formación SAS
Formación SAS
Comentarios
Publicar un comentario