Entradas

Mostrando entradas de junio, 2014

Ejemplos de componentes para tratamiento de datos en SAS, SPSS y R. Equivalencias entre herramientas (II)

Imagen
Continuamos con la serie de posts, en la que mostramos componentes de tratamientos de datos codificados en las herramientas: SAS, SPSS y R.



Ejemplo 7. Obtener agregados:
SAS:
proc summary data=tabla1 noprint nway;    class cod_cliente ;    output out=tabla_ag(drop=_type_ _freq_)    sum(arpu) = suma_arpu mean(arpu) = media_arpu ; run;

SPSS:
aggregate outfile 'c:\temp\tabla_ag.sav'  /break cod_cliente  /suma­_arpu = sum(arpu).  /media_arpu = mean(arpu) get file 'c:\temp\tabla1.sav'. list.

R: tabla_ag <- aggregate(tabla1["arpu"], by=list(cod_cliente=tabla1$cod_cliente), FUN=sum)

Ejemplo 8. Eliminar duplicados:
SAS:
proc sort data=tabla1 nodupkeys; by cod_cliente; run;

SPSS:
GET FILE='C:\temp\tabla1.sav'. SORT CASES BY cod_cliente . MATCH FILES /FILE = * /BY cod_cliente /LAST = ultimo . FILTER BY ultimo . EXECUTE.
R:
tabla1_uniq <- unique(tabla1)

Ejemplo 9. Recodificación variables:
SAS:
data tabla2; set tabla1; if arpu >= 0 and arpu <= 10 then do;        grupo_arpu = 1; end; els…

SAS, SPSS and R: Ejemplos de componentes para tratamiento de datos en SAS, SPSS y R. Equivalencias entre herramientas (I)

Imagen
Existen en el mercado numerosas herramientas para tratamiento de datos. En este post, nos vamos a centrar en algunas de las más utilizadas: SAS, SPSS y R. Sin entrar a valorar la mejor o peor adecuación de cada una de ellas al tipo de proyecto en el que trabajemos, sus ventajas o sus inconvenientes,  lo que es evidente es que son tres herramientas muy extendidas.  
En este post, empezamos una serie, en la que mostraremos ejemplos de manipulación de datos en las tres herramientas, con objeto de tener el mismo código traducido a las tres herramientas. Estos ejemplos pretenden ser de ayuda para que usuarios de una de las tres herramientas puedan empezar a conocer las otras dos o también como ayuda en un proyecto de migración de procesos de una herramienta a otra.



Ejemplo 1. Obtener datos de una BBDD vía ODBC:
SAS:
proc sql; connect to odbc(dsn=dm_demo uid=user pwd=****); create table tabla1 as select * from connection to odbc( select * from tabla_bbdd ); quit;
SPSS:
*tabla1.sps. GET DATA /TYPE=ODBC /CO…

Versión gratuita de SAS

Imagen
Ha puesto SAS una versión gratuita a disposición de la comunidad de usuarios.

http://www.sas.com/en_us/software/university-edition.html


Es necesario tener una máquina virtual instalada ( Oracle VirtualBox o VMware ) y los siguientes recursos:


Arquitectura 64 bits y 1Gb RAMMicrosoft Windows 7 o posteriorNavegador: Internet Explorer 9,10 u 11,  Mozilla Firefox 21 o posterior o Google Chrome 27 o posterior

Segmentación de clientes: proceso de clusterización (proc fastclus)

Imagen
En este post vamos a realizar un ejemplo de segmentación de datos de clientes, empleando un proceso de clusterización, concretamente el procedimiento proc fastclus de SAS.


Este procedimiento realiza agrupamiento de datos basándonse en el algoritmo k-medias. Este algoritmo, es un método de agrupamiento, que tiene como objetivo la partición de un conjunto denobservaciones enkgrupos en el que cada observación pertenece al grupo más cercano a la media.
En nuestro caso, tenemos una tabla de clientes con el consumo medio realizado por los clientes en los últimos tres meses. El consumo medio está entre 0 y 50 euros, y vamos a generar 5 grupos  de clientes, entorno a 5 valores medios de consumo medio.




El algoritmo k-means es iterativo de forma que tenemos que indicar en el procedimiento el número máximo de iteraciones.
Utilizamos el procedimiento proc fastclus, indicamos el número de grupos a realizar en el parámetro maxc y el número máximo de iteraciones en maxiter. La tabla de entrada es clien…

Ejemplo análisis discriminante en SAS (proc discrim)

Imagen
En el presente post mostramos un sencillo ejemplo de análisis discriminante en SAS que puede servir para analizar relaciones entre variables en un conjunto de datos


El análisis discriminante es una técnica estadística multivariante cuya finalidad es describir (si existen) las diferencias entre grupos de objetos sobre los que se observan determinadas variables (variables discriminantes).
Los dos principales usos del análisis discriminante son la clasificación de objetos en grupos preestablecidos y la identificación de variables descriptivas que mejor definan la pertenencia a grupos. En nuestro ejemplo tenemos una tabla con un listado de clientes en el que una variable de tipo flag (0,1) indica si el cliente ha sido baja (1) o permanece en cartera (0) en el último mes. Se incluyen otras variables que caracterizan al cliente, aunque nos vamos a centrar en las siguientes:
Compromiso (0/1): indica si el cliente tiene(1) o no (0) compromiso de permanencia en base a una acción comercial que haya…