miércoles, 6 de junio de 2012

Algoritmos de mineria de datos - sql server 2008

Hace unas semanas atras conversaba con un amigo sobre Data mining y me hizo la interrogante que muchos nos hemos echo en algun momento de nuestro aprendizaje .. Cuando debo utilizar tal o cual algoritmo y en que casos?… yo siempre respondia “depende” y pues retomando la lectura de Microsoft Technet para SSAS estaba leyendo lo que les pongo a continuacion a manera de un Copy & Paste de la info que Microsoft.

Los modelos de minería de datos pueden predecir valores, generar resúmenes de datos y buscar correlaciones ocultas. Para ayudarle a seleccionar los algoritmos para su solución de minería de datos, la siguiente tabla proporciona sugerencias sobre qué algoritmos usar en tareas específicas.
 

Tarea Algoritmos de Microsoft que se pueden usar
Predecir un atributo discreto.
Por ejemplo, predecir si el destinatario de una campaña de envío de correo directo adquirirá un producto.
Algoritmo de árboles de decisión de Microsoft
Algoritmo Bayes naive de Microsoft
Algoritmo de clústeres de Microsoft (Analysis Services - Minería de datos)
Algoritmo de red neuronal de Microsoft (Analysis Services - Minería de datos)
Predecir un atributo continuo.
Por ejemplo, prever las ventas del año próximo.
Algoritmo de árboles de decisión de Microsoft
Algoritmo de serie temporal de Microsoft (Analysis Services - Minería de datos)
Predecir una secuencia.
Por ejemplo, realizar un análisis clickstream del sitio web de una empresa.
Algoritmo de agrupación en clústeres de secuencia de Microsoft
Buscar grupos de elementos comunes en las transacciones.
Por ejemplo, utilizar el análisis de la cesta de la compra para sugerir a un cliente la compra de productos adicionales.
Algoritmo de asociación de Microsoft
Algoritmo de árboles de decisión de Microsoft
Buscar grupos de elementos similares.
Por ejemplo, segmentar datos demográficos en grupos para comprender mejor las relaciones entre atributos.
Algoritmo de clústeres de Microsoft (Analysis Services - Minería de datos)
Algoritmo de agrupación en clústeres de secuencia de Microsoft

Técnicas de Mineria de Datos

Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
  • Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
  • Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
  • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
  • Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
  • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
  • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Minería de Datos

CONCEPTO

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

PROCESO

Un proceso típico de minería de datos consta de los siguientes pasos generales:
  1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.
  2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
  3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.
  4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
  5. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
  6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.