Minería de Datos aplicada - Ejemplo

download Minería de Datos aplicada - Ejemplo

of 19

Transcript of Minería de Datos aplicada - Ejemplo

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    1/19

     

    UNIVERSIDAD ESTATAL A DISTANCIA

    ESCUELA CIENCIAS EXACTAS Y NATURALES

    Cátedra de Desarrollo de Software

    Bases de Datos II

    Código: 3084

    Proyecto Final“Minería de Datos” 

     Alumno: Michael Arroyo Ávalos

    Carnet: 1 1548 0472

    Centro Universitario: San Isidro (13)

    Fecha Entrega: 25 de Abril

    I CUATRIMESTRE, AÑO 2015

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    2/19

    2

    TABLA DE CONTENIDO

    TABLA DE ILUSTRACIONES ........................................................................................ 4 

    INTRODUCCIÓN ............................................................................................................. 5 

    DESARROLLO ................................................................................................................ 6 

    Entendimiento del negocio ........................................................................................... 6 

    Objetivos del negocio ............................................................................................... 6 

    Evaluación de la situación ........................................................................................ 6 

    Objetivos de Minería de Datos ................................................................................. 8 

    Plan del proyecto ...................................................................................................... 8 

    Comprensión de los Datos ........................................................................................... 9 

    Recolección de datos iniciales ................................................................................. 9 

    Descripción de los datos .......................................................................................... 9 

    Exploración de los datos ........................................................................................ 10 

    Verificación de la calidad de los datos.................................................................... 10 

    Preparación de los Datos ........................................................................................... 10 

    Selección de los datos............................................................................................ 11 

    Limpieza de los datos ............................................................................................. 11 

    Construcción de nuevos datos ............................................................................... 11 

    Integración de los datos ......................................................................................... 12 

    Formato de los datos .............................................................................................. 12 

    Modelado ................................................................................................................... 13 

    Selección de técnica de modelado ......................................................................... 13 

    Generación de los modelos .................................................................................... 13 

    Evaluación ................................................................................................................. 14 

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    3/19

    3

    Evaluación de los resultados .................................................................................. 14 

    Revisión del proceso .............................................................................................. 15 

    Determinar próximos pasos .................................................................................... 15 

    Implementación .......................................................................................................... 15 

    Planificación de la implementación ........................................................................ 16 

    Planificación del control y mantenimiento ............................................................... 16 

    Informe Final .......................................................................................................... 16 

    CONCLUSIONES .......................................................................................................... 17 

    RECOMENDACIONES ................................................................................................. 18 

    Bibliografía ..................................................................................................................... 19 

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    4/19

    4

    TABLA DE ILUSTRACIONES

    Ilustración 1 Árbol de decisión Modelo para autorizar cliente a recibir crédito .............. 13 

    Ilustración 2 Árbol de decisión Modelo para determinar monto por incobrables............ 14 

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    5/19

    5

    INTRODUCCIÓN

    El presente trabajo corresponde al proyecto final del curso Bases de Datos II, el cual

    forma parte del plan de estudio de la carrera Licenciatura en Ingeniería Informática yDesarrollo de Aplicaciones Web de la Universidad Estatal a Distancia, Costa Rica. El

    propósito del mismo es desarrollar un proyecto de implementación de minería de datos,

    haciendo uso de la metodología CRISP-DM, sus distintas fases y actividades requeridas

    para obtener los resultados deseados.

    El proyecto seleccionado y aprobado de manera previa se fundamenta en la obtención o

    estimación del monto por incobrables para una empresa determinada en un periodo

    determinado, utilizando datos relacionados con cada uno de los clientes mediantetécnicas de minería de datos como por ejemplo arboles de decisión. Esto puesto que está

    comprobado que los métodos para existentes en la actualidad para el cálculo de

    incobrables no son lo deseablemente acertados.

    Una estimación bastante apegada a la realidad de dicho monto ayuda a llevar finanzas

    sanas en la empresa y a evitar problemas y pérdidas con montos de dinero muy grandes

    que luego no se pueden recuperar. Por ello este proyecto se basa en la idea de que todas

    las ventas a crédito no se pueden tratar de igual manera sino que es importante primeroanalizar los antecedentes de cada uno de los clientes para determinar si se le puede

    habilitar un crédito para luego determinar qué porcentaje de dicho crédito se puede

    establecer como probablemente incobrable para por ultimo realizar una estimación total

    de dicho monto.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    6/19

    6

    DESARROLLO

    Entendimiento del negocio

    Es importante tener una perspectiva amplia del problema que se desea resolver, que nos

    permita satisfacer los objetivos del proceso de proceso de minería de datos y con elloslos del negocio. A continuación se desarrolla cada una de las actividades

    correspondientes a esta etapa.

    Objetivos del negocio

    Pese a existir varios métodos contables para estimar el monto por incobrables para un

    periodo determinado, ninguno es lo deseablemente exacto. Por medio de la minería de

    datos, es posible determinar características, comportamientos o patrones en los usuarios

    que permitan determinar el monto por estimables para un periodo futuro, así como a

    cuales clientes no es conveniente permitirles cierta cantidad de crédito. La inexactitud de

    dichos métodos existentes en la actualidad, provoca en las empresas no poder realizar

    una sana contabilidad, así como además grandes pérdidas de dinero por cuentas que no

    son canceladas en el periodo establecido y por cederles crédito a personas a las cuales

    no se debería.

    El objetivo primordial es poder determinar de manera más segura el monto por

    incobrables para un determinado periodo, para que así el personal de la empresa pueda

    tomar decisiones referentes a ello sin luego verse sorprendidos por malos cálculos o

    predicciones.

    El criterio de éxito utilizado para medir el proyecto será la reducción de la imprecisión en

    la predicción en el cálculo por incobrables a un máximo de un 3% con respecto a la cifra

    real obtenida.

    Evaluación de la situación

    Para el desarrollo del proyecto se cuenta con distinto personal que se verá involucrado

    en el mismo, entre ellos se encuentran:

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    7/19

    7

      Personal Administrativo: encargado de aprobar y comunicar distintas normativas

    relacionadas con el proyecto.

      Departamento de Tecnologías de la Información: encargado de llevar a cabo el

    proyecto.

      Departamento de Contabilidad: responsables de suministrar los datos contables

    de la empresa y de aclarar cualquier información que probablemente no este clara.

      Departamento de Soporte Técnico: personal responsable de capacitar al resto de

    personal de la empresa sobre el uso del nuevo método de cálculo de incobrables.

     Además se requieren algunos recursos indispensables, entre los que destacan

    principalmente los datos contables de la empresa, que son obtenidos de las bases de

    datos del software contable de la empresa o en su defecto los libros mayores de la

    empresa. Además se requiere equipo de cómputo con aproximadamente 4GB de

    memoria RAM, procesador INTEL CORE i3, 1TB disco duro. En cuanto al software se

    necesita que los equipos tengan instalados Windows 7 o Windows 8, así como alguna

    herramienta de minería de datos, se recomienda RapidMiner o WEKA, los cuales son

    programas gratuitos y de fácil uso.

    Es importante recalcar que como parte del desarrollo del proyecto, se toman como

    hechos algunas situaciones, entre ellas.

      Toda la información se encuentra digitalizada dentro de las bases de datos del

    sistema contable utilizado por la empresa.

      La empresa realiza ventas a crédito.

      La empresa utiliza algún método de cálculo de incobrables.

     Algunos de los posibles riesgos asociados con la realización del proyecto son:

      Económico.

      Duración del proyecto más de lo esperado.

      Perdida de datos.

      Proyecto no logra el impacto deseado.

      Tecnológicos, no se cuenta con las herramientas o procedimientos requeridos

    para llevar a cabo determinada tarea.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    8/19

    8

    Los costos asociados con el proyecto son básicamente todo lo relacionado con el tiempo

    invertido por los distintos miembros de la empresa y personal externo que pudiese ser

    requerido, así como algún equipo técnico necesario para su desarrollo. Por otro lado los

    beneficios están relacionados con una reducción de tiempo en el cálculo de incobrables

    de la empresa, una mayor aproximación a dicho monto y un mejor análisis de sus clientes.

    De manera estimada, un resumen de costos es el siguiente:

    Elemento Costo

    Hardware $ 1.500

    Software $ 0

    Personal Humano $ 1.800

    Servicios Asociados $ 250TOTAL $3.550

    Objetivos de Minería de Datos

    El objetivo de minería de datos para este proyecto es determinar a partir de conductas

    identificadas en los clientes de la empresa cuáles de ellos son aptos para optar por ventas

    a crédito. Con ello nos aseguramos de que únicamente de aquellos clientes de los cuales

    hay cierta certeza de que pagaran obtendrán un crédito, simplificando así el cálculo delmonto por incobrables, el cual además es reducido sustancialmente.

    Plan del proyecto

    Fase Tiempo Recursos Riesgos

    Entendimiento del

    negocio.1 semana Analistas Económico

    Entendimiento de

    los datos. 3 semanas

     Analistas, datos

    contables de laempresa.

    Económico

    Preparación de los

    datos.4 semanas

     Analistas,

    Departamento de

    Contabilidad

    Económico,

    duración del

    proyecto

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    9/19

    9

    Modelado. 3 semanas AnalistasEconómico,

    tecnológico

    Evaluación. 2 semanas AnalistasEconómico,

    tecnológico

    Transferencia. 1 semanaDepartamento de

    TI

    Económico, perdida

    de datos

    Fuente: propia

    Comprensión de los Datos

    En esta sección se muestra de manera cercana los distintos datos disponibles para la

    realización del proyecto, permitiéndonos así determinar la calidad de dicha información.

    La descripción de cada una de sus fases para nuestro proyecto de predicción de cuentas

    incobrables.

    Recolección de datos iniciales

    Las principales fuentes de datos que se utilizaran en este proyecto son las siguientes:

      Base de datos de ventas: en ellas se puede observar en detalle las compras

    realizadas por distintos clientes en distintos momentos y bajo distintas

    condiciones.

      Base de datos de clientes: en la cual podamos encontrar todos los detallesrelacionados con los clientes de la empresa.

      Libros mayores de la empresa.

    Descripción de los datos

    Los datos son tomados de las ventas a crédito realizadas por la empresa, para ello se

    toman los montos de dichas ventas para un aproximado de 1000 clientes. Dichos datos

    son de tipo numérico. Sumado a ello se toman datos relacionados con los clientes

    asociados a dichas ventas, dichos datos son el nombre (cadena de texto), edad (entero),

    sexo (representado como “F” o “M”), es una empresa (  si o no), fecha de la primera

    compra realizada (fecha), promedio de compras por mes (decimal), monto promedio de

    compras por mes (decimal). Este último valor es tomado como el monto total de las

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    10/19

    10

    compras realizadas entre el número de meses que han pasado desde la primera compra

    realizada.

    Exploración de los datos

     Algunas de las hipótesis formuladas de manera inicial corresponden a la idea de que

    entre más tiempo tenga la relación entre el cliente y la empresa, así como entre mayor

    sea la cantidad promedio mensual de compras del cliente, mayor confianza existe en

    dicho cliente para cederle un crédito. Por ello los atributos que más importancia presentan

    para la formulación de criterios de minería de datos serian la fecha de la primera compra

    realizada, el promedio de compras realizadas mensualmente y el total de compras

    realizadas.

    Para un uso posterior podemos usar la totalidad de las ventas a crédito cedidas y estimar

    el monto por incobrables como un porcentaje promedio mensual de las ventas a crédito

    mensual que no se pagaron.

    Verificación de la calidad de los datos

    En el proceso de tratamiento de los datos se pueden presentar una serie de problemas

    que pueden influir de manera negativa en nuestro proyecto, ellos son:

      Perdida de datos: se pueden extraviar datos referentes a ventas realizadas o a

    detalles de los clientes de la empresa.

      Cambio de administración en una empresa cliente: esto puede llevar a que los

    incobrables aumenten considerablemente con respecto a lo estimado.

      Error en el registro de la información.

    Preparación de los Datos

    Esta es una de las fases más importantes de cualquier proyecto de minería de datos,

    debido a que comprende las actividades que más tiempo demandan. En este proyecto

    dichas actividades son las siguientes:

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    11/19

    11

    Selección de los datos

    Elementos: para el proyecto se toman 1000 ventas a crédito registradas en la base de

    datos del sistema utilizado en la empresa, sea empresas o personas físicas.

     Atributos: los atributos de dichas ventas serán la fecha de realización, el monto y todoslos datos relacionados con el cliente.

    Limpieza de los datos

     A los diferentes problemas encontrados en la fase anterior se propone la siguiente

    alternativa.

    Problema encontrado Solución Posible

    Perdida de datos. Fijar un valor predeterminado en caso de que no

    se asigne uno a dicho atributo.

    Errores en el ingreso de datos. Utilizar validaciones. Excluir ese atributo del

    proyecto.

    Cambios en el responsable de

    una empresa cliente.

    Ligar una empresa cliente con una persona física

    responsable.

    Fuente: propia

    Construcción de nuevos datos

    Los nuevos datos generados en este proyecto de minería de datos son básicamente de

    dos tipos:

     Atributos generados: en este proyecto algunos atributos de este tipo son:

      Meses siendo cliente = Fecha Actual – Fecha primera compra.

      Monto total de compras realizadas = Sumatoria del monto las compras realizadas.

      Promedio de compras realizadas por mes = Numero de compras realizadas /

    meses siendo cliente.

      Monto promedio de compras realizadas por mes = Monto total de compras

    realizadas / Meses siendo cliente.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    12/19

    12

    Filas generadas: como fusión de los datos de las ventas con los de los clientes asociadas

    a ellas, se genera un nuevo registro, el cual contiene los detalles de las ventas a crédito

    realizadas, contiene lo siguiente: monto de la venta, identificador del cliente, fecha de

    vencimiento y porcentaje estimado como incobrable. Con ello los incobrables no van a

    ser un porcentaje fijo para todos los clientes de la empresa, sino que variable de cliente

    en cliente.

    Integración de los datos

    Los datos con distintos orígenes en este proyecto se integran de la siguiente forma:

      Adición de los datos de las ventas a crédito con los datos de los clientes: para

    completar el registro de una venta a crédito se debe saber de manera preliminar

    si dicho cliente tiene la autorización para recibir crédito. Así como cuál es la

    cantidad máxima que se le puede asignar y el plazo correspondiente.

      Adición de los detalles de las ventas con los detalles de las ventas a crédito: se

    debe tener claro antes de autorizar un crédito en un cliente detalles relacionados

    con las compras realizadas por él.

    Formato de los datos

    Los datos deben contar con el siguiente formato:

      Clientes

    o  Identificación: numero de 10 dígitos

    o  Fecha de primera compra: formato dd/mm/aaaa

    o  Crédito Habilitado : S = Si y N = No

      Ventaso  Ordenarlas de mayor a menor monto.

    o  Monto: en colones y con dos decimales diferenciados con coma.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    13/19

    13

    Modelado

    En esta sección se detalla la técnica de minería de datos utilizada

    Selección de técnica de modelado

    Para este proyecto la técnica de minería de datos más apropiada y además más sencillade aplicar son los arboles de decisión. Esto debido a que el problema se fundamenta

    en la toma de decisiones sobre la asignación o no de un crédito a un determinado cliente.

    Generación de los modelos

    Modelo para determinar si un cliente es apto para darle crédito

    Ilustración 1 Árbol de decisión Modelo para autorizar cliente a recibir crédito

    Modelo para el cálculo del monto por incobrables

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    14/19

    14

    Ilustración 2 Árbol de decisión Modelo para determinar monto por incobrables

    Evaluación

    En esta fase se lleva a cabo la evaluación de los modelos, teniendo en cuenta distintos

    factores. Las actividades que correspondientes se desarrollan a continuación.

    Evaluación de los resultados

    El objetivo planteado por la empresa de manera inicial fue poder determinar de manera

    más acertada el monto por incobrables para un periodo determinado. Para ello los

    resultados obtenidos con el modelo expresan de manera cuantificable cual va a ser dicho

    monto. Quizá un punto en contra del modelo es que no realiza un descubrimiento especial

    o tremendamente novedoso más que permitirnos observar que se puede obtener dichomonto tomando en cuenta el comportamiento y características de cada cliente por

    separado y no como una norma para todos los clientes de la empresa.

    El modelo y el proyecto en sí es evaluable fácilmente con la simple comparación del

    monto estimado contra el monto real por lo que se adapta muy bien a los objetivos

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    15/19

    15

    comerciales de cualquier empresa. Ambos modelos son aprobados dada su necesidad

    para la obtención del monto esperado, ya que no podemos estimar el monto total sin

    antes realizar una sumatoria de cada una de las cantidades.

    Revisión del proceso

    En este proyecto de minería de datos existen aspectos que se podrían mejorar, los cuales

    están principalmente relacionados con la selección de clientes para establecer el monto

    correspondiente a la estimación por incobrables. Ya que por ejemplo no existe criterio

    para establecer el porcentaje por incobrables que se debe estimar para clientes nuevos,

    por lo que se asume que no se le debe brindar crédito a clientes nuevos, que sería

    bastante negativo para cualquier negocio.

    Es importante contemplar todos esos casos así como realizar las mejoras que sean

    necesarias para convertir el modelo en lo más eficiente posibles, de modo que el monto

    estimado sea más acertado que cualquiera de los métodos existentes, llámese porcentaje

    sobre ventas a crédito o porcentaje sobre la utilidad bruta, etcétera.

    Determinar próximos pasos

     Antes de continuar con la fase de distribución o implementación es importante iterar sobre

    las mejoras y refinar lo más posible hasta encontrar resultados óptimos. Esto puede

    reducir costos económicos dado que el modelo aún no ha sido implementado, en el caso

    opuesto el estancamiento en las operaciones para resolver un problema puede ser

    bastante costoso para la empresa.

    Implementación

    Esta es la última fase del modelo CRISP –DM, en ella se realizan las actividadesnecesarias para la implementación de las mejoras necesarias en la organización. Dichas

    actividades son:

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    16/19

    16

    Planificación de la implementación

    El nuevo método para la estimación de incobrables será implementado como parte de un

    esfuerzo conjunto de todos los miembros de la organización, especialmente haciendo

    énfasis en el personal de soporte, quienes se encargaran de instruir al personal de

    contabilidad acerca del nuevo método. Para ello probablemente existirá una actualización

    del software de contabilidad que utiliza la empresa actualmente, la cual incoropore el

    nuevo método.

    Planificación del control y mantenimiento

     Acá también juega un papel importante el personal de soporte, quienes estarán a

    disposición del resto de personal para aclarar dudas sobre cualquier aspecto relacionadocon el modelo implementado. Además se realizaran revisiones mensuales al modelo y

    entrevistas al personal que lo implementa, sobre su rendimiento y su efectivo

    acercamiento a la realidad.

    Informe Final

    Luego de un periodo de seis meses de implementado el nuevo método de estimación de

    incobrables y de haber obtenido la retroalimentación necesaria, se elaborara el informe

    final, el cual contiene aspectos como los siguientes:

      Problema resuelto con la realización del proyecto.

      Mejoras realizadas.

      Costo final del proyecto.

      Efectividad en los resultados obtenidos luego de su implementación.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    17/19

    17

    CONCLUSIONES

    Del análisis de los distintos contenidos necesarios para la realización de este proyecto y

    de la aplicación de los mismos para el desarrollo del mismo se han obtenido importantesconclusiones las cuales se listan a continuación:

      La minería de datos es una herramienta muy importante que podemos utilizar en

    una variedad enorme de áreas para solucionar muchos de los problemas que

    actualmente existen. Áreas como la estadística o la contabilidad se verían

    sumamente beneficiadas y simplificadas si aplicamos modelos de minería de

    datos. En nuestro proyecto por ejemplo, un tema complejo para la contabilidad

    como el cálculo del monto que no pagaran los clientes de la empresa puede serbastante sencillo si utilizamos la minería de datos. 

      El uso de un modelo de proceso de minería de datos como es el caso de CRoss

    Industry Process for Data Mining (CRISP-DM) facilita en gran manera la labor de

    desarrollo de un proyecto de minería de datos, esto ya que te guían acerca de

    todas las fases necesarias y las actividades que se deben desarrollar en cada una

    de ellas. Además de que dirigen el rumbo del mismo, definiendo los entregables

    para cada una de ellas. Por ello, una vez se define el modelo y la temática del

    proyecto es solo seguir todas las instrucciones brindadas para cumplir con éxito el

    proyecto.

      En la fase de evaluación del proyecto se debe ser bastante cuidadoso de no

    apresurarse y no continuar con la fase de implementación hasta que

    verdaderamente el proyecto esté bien depurado. Aprobar el proyecto cuando no

    está listo puede generar gastos económicos muy altos en el momento de la

    corrección de dichos errores.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    18/19

    18

    RECOMENDACIONES

    Este como primer proyecto de minería de datos, provee grandes conocimientos, que de

    manera segura podrán ser utilizados en futuros proyectos ya sea en el ámbito formativo

    o laboral. Dentro de las principales recomendaciones que podrán ser utilizadas en el

    futuro destacan:

      Es un hecho que la minería de datos podría simplificar enormemente muchas

    actividades realizadas en muchas áreas de trabajo, pero también se deben

    contemplar aspectos muy importantes relacionados con los datos. Es

    recomendable verificar que los datos que van a ser utilizados como base del

    proyecto sean bastante confiables, de modo que permitan obtener resultados

    confiables.

      Se recomienda utilizar siempre un modelo de proceso como por ejemplo CRISP-

    DM ya que aunque posiblemente demore más tiempo el desarrollo del proyecto,

    tenemos garantía de que se cumplen todas las etapas, se generan entregables de

    calidad y existe más garantía de éxito en nuestro proyecto.

      Se deben planificar muy bien cada uno de los recursos necesarios para eldesarrollo del proyecto, de tal forma que haya seguridad de que esos recursos

    sean necesarios para una correcta implementación y que no se dé el caso de que

    se tenga que abandonar a “medio camino” por motivos de falta de recursos para

    continuar.

  • 8/18/2019 Minería de Datos aplicada - Ejemplo

    19/19

    19

    BIBLIOGRAFÍA

    Chapman, P., Clinton, J., & Kerber, R. (2000). CRISP-DM 1.0. IBM.

    DELL. (s.f.). What is Data Mining (Predictive Analytics, Big Data). Obtenido de DELL

    Software: http://www.statsoft.com/Textbook/Data-Mining-Techniques

    Gómez Jiménez, E. (2015). Orientaciones Académicas de la Asignatura Bases de Datos

    II. San José: EUNED.

    Hastie, T., Tibshirani, R., & Friedman, J. (2011). The Elements of Statistical Learning:

    Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.

    Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004). Introduccióna la Minería de Datos. Madrid: PEARSON Educación.

    IBM. (2012). Manual CRISP-DM de IBM SPSS Modeler.  Estados Unidos: IBM

    Corporation.

    Virseda, F., & Román , J. (s.f.). Minería de datos y aplicaciones. Madrid: Universidad

    Carlos III.