Entradas

Mostrando entradas de mayo, 2014

Big Data: Gestión de datos no estructurados

Imagen
La gestión de los datos no estructurados se ha convertido en uno de los principales retos a los que hacen frente las compañías en lo relativo a gestión de información. En este post damos una breve introducción al tratamiento de los mismos y las problemáticas más comunes en su gestión.






Definición de datos no estructurados:

Una posible definición de datos no estructurados,  son aquellos datos no almacenados en una base de datos tradicional. La información no estructurada no puede ser almacenada en estructuras de datos relacionales predefinidas. Se pueden establecer diferentes clasificaciones, vamos a considerar dos de ellas.

Datos no estructurados y semiestructurados. Los datos semiestructurados serían aquellos datos que no residen de bases de datos relacionales, pero presentan una organización interna que facilita su tratamiento, tales como documentos XML y datos almacenados en bases de datos NoSQL.Datos de tipo texto y no-texto. Datos no estructurados de tipo texto podrían ser datos gener…

Correlación entre variables y regresión lineal en SAS

Imagen
Dentro de las actividades habituales en minería de datos, se encuentra el estudio de correlaciones entre variables. En este post vamos a realizar un ejemplo sencillo de estudio de correlación entre variables.
Nuestro conjunto de datos de entrada es el que se muestra a continuación y nuestro objetivo es determinar si existe correlación entre las variables var1 y var2.

var1 var2 1 6 2 9 3 10 4 12 5 16 6 18 7 19 8 21