Post on 07-Jul-2018
8/18/2019 Minería de Datos aplicada - Ejemplo
1/19
UNIVERSIDAD ESTATAL A DISTANCIA
ESCUELA CIENCIAS EXACTAS Y NATURALES
Cátedra de Desarrollo de Software
Bases de Datos II
Código: 3084
Proyecto Final“Minería de Datos”
Alumno: Michael Arroyo Ávalos
Carnet: 1 1548 0472
Centro Universitario: San Isidro (13)
Fecha Entrega: 25 de Abril
I CUATRIMESTRE, AÑO 2015
8/18/2019 Minería de Datos aplicada - Ejemplo
2/19
2
TABLA DE CONTENIDO
TABLA DE ILUSTRACIONES ........................................................................................ 4
INTRODUCCIÓN ............................................................................................................. 5
DESARROLLO ................................................................................................................ 6
Entendimiento del negocio ........................................................................................... 6
Objetivos del negocio ............................................................................................... 6
Evaluación de la situación ........................................................................................ 6
Objetivos de Minería de Datos ................................................................................. 8
Plan del proyecto ...................................................................................................... 8
Comprensión de los Datos ........................................................................................... 9
Recolección de datos iniciales ................................................................................. 9
Descripción de los datos .......................................................................................... 9
Exploración de los datos ........................................................................................ 10
Verificación de la calidad de los datos.................................................................... 10
Preparación de los Datos ........................................................................................... 10
Selección de los datos............................................................................................ 11
Limpieza de los datos ............................................................................................. 11
Construcción de nuevos datos ............................................................................... 11
Integración de los datos ......................................................................................... 12
Formato de los datos .............................................................................................. 12
Modelado ................................................................................................................... 13
Selección de técnica de modelado ......................................................................... 13
Generación de los modelos .................................................................................... 13
Evaluación ................................................................................................................. 14
8/18/2019 Minería de Datos aplicada - Ejemplo
3/19
3
Evaluación de los resultados .................................................................................. 14
Revisión del proceso .............................................................................................. 15
Determinar próximos pasos .................................................................................... 15
Implementación .......................................................................................................... 15
Planificación de la implementación ........................................................................ 16
Planificación del control y mantenimiento ............................................................... 16
Informe Final .......................................................................................................... 16
CONCLUSIONES .......................................................................................................... 17
RECOMENDACIONES ................................................................................................. 18
Bibliografía ..................................................................................................................... 19
8/18/2019 Minería de Datos aplicada - Ejemplo
4/19
4
TABLA DE ILUSTRACIONES
Ilustración 1 Árbol de decisión Modelo para autorizar cliente a recibir crédito .............. 13
Ilustración 2 Árbol de decisión Modelo para determinar monto por incobrables............ 14
8/18/2019 Minería de Datos aplicada - Ejemplo
5/19
5
INTRODUCCIÓN
El presente trabajo corresponde al proyecto final del curso Bases de Datos II, el cual
forma parte del plan de estudio de la carrera Licenciatura en Ingeniería Informática yDesarrollo de Aplicaciones Web de la Universidad Estatal a Distancia, Costa Rica. El
propósito del mismo es desarrollar un proyecto de implementación de minería de datos,
haciendo uso de la metodología CRISP-DM, sus distintas fases y actividades requeridas
para obtener los resultados deseados.
El proyecto seleccionado y aprobado de manera previa se fundamenta en la obtención o
estimación del monto por incobrables para una empresa determinada en un periodo
determinado, utilizando datos relacionados con cada uno de los clientes mediantetécnicas de minería de datos como por ejemplo arboles de decisión. Esto puesto que está
comprobado que los métodos para existentes en la actualidad para el cálculo de
incobrables no son lo deseablemente acertados.
Una estimación bastante apegada a la realidad de dicho monto ayuda a llevar finanzas
sanas en la empresa y a evitar problemas y pérdidas con montos de dinero muy grandes
que luego no se pueden recuperar. Por ello este proyecto se basa en la idea de que todas
las ventas a crédito no se pueden tratar de igual manera sino que es importante primeroanalizar los antecedentes de cada uno de los clientes para determinar si se le puede
habilitar un crédito para luego determinar qué porcentaje de dicho crédito se puede
establecer como probablemente incobrable para por ultimo realizar una estimación total
de dicho monto.
8/18/2019 Minería de Datos aplicada - Ejemplo
6/19
6
DESARROLLO
Entendimiento del negocio
Es importante tener una perspectiva amplia del problema que se desea resolver, que nos
permita satisfacer los objetivos del proceso de proceso de minería de datos y con elloslos del negocio. A continuación se desarrolla cada una de las actividades
correspondientes a esta etapa.
Objetivos del negocio
Pese a existir varios métodos contables para estimar el monto por incobrables para un
periodo determinado, ninguno es lo deseablemente exacto. Por medio de la minería de
datos, es posible determinar características, comportamientos o patrones en los usuarios
que permitan determinar el monto por estimables para un periodo futuro, así como a
cuales clientes no es conveniente permitirles cierta cantidad de crédito. La inexactitud de
dichos métodos existentes en la actualidad, provoca en las empresas no poder realizar
una sana contabilidad, así como además grandes pérdidas de dinero por cuentas que no
son canceladas en el periodo establecido y por cederles crédito a personas a las cuales
no se debería.
El objetivo primordial es poder determinar de manera más segura el monto por
incobrables para un determinado periodo, para que así el personal de la empresa pueda
tomar decisiones referentes a ello sin luego verse sorprendidos por malos cálculos o
predicciones.
El criterio de éxito utilizado para medir el proyecto será la reducción de la imprecisión en
la predicción en el cálculo por incobrables a un máximo de un 3% con respecto a la cifra
real obtenida.
Evaluación de la situación
Para el desarrollo del proyecto se cuenta con distinto personal que se verá involucrado
en el mismo, entre ellos se encuentran:
8/18/2019 Minería de Datos aplicada - Ejemplo
7/19
7
Personal Administrativo: encargado de aprobar y comunicar distintas normativas
relacionadas con el proyecto.
Departamento de Tecnologías de la Información: encargado de llevar a cabo el
proyecto.
Departamento de Contabilidad: responsables de suministrar los datos contables
de la empresa y de aclarar cualquier información que probablemente no este clara.
Departamento de Soporte Técnico: personal responsable de capacitar al resto de
personal de la empresa sobre el uso del nuevo método de cálculo de incobrables.
Además se requieren algunos recursos indispensables, entre los que destacan
principalmente los datos contables de la empresa, que son obtenidos de las bases de
datos del software contable de la empresa o en su defecto los libros mayores de la
empresa. Además se requiere equipo de cómputo con aproximadamente 4GB de
memoria RAM, procesador INTEL CORE i3, 1TB disco duro. En cuanto al software se
necesita que los equipos tengan instalados Windows 7 o Windows 8, así como alguna
herramienta de minería de datos, se recomienda RapidMiner o WEKA, los cuales son
programas gratuitos y de fácil uso.
Es importante recalcar que como parte del desarrollo del proyecto, se toman como
hechos algunas situaciones, entre ellas.
Toda la información se encuentra digitalizada dentro de las bases de datos del
sistema contable utilizado por la empresa.
La empresa realiza ventas a crédito.
La empresa utiliza algún método de cálculo de incobrables.
Algunos de los posibles riesgos asociados con la realización del proyecto son:
Económico.
Duración del proyecto más de lo esperado.
Perdida de datos.
Proyecto no logra el impacto deseado.
Tecnológicos, no se cuenta con las herramientas o procedimientos requeridos
para llevar a cabo determinada tarea.
8/18/2019 Minería de Datos aplicada - Ejemplo
8/19
8
Los costos asociados con el proyecto son básicamente todo lo relacionado con el tiempo
invertido por los distintos miembros de la empresa y personal externo que pudiese ser
requerido, así como algún equipo técnico necesario para su desarrollo. Por otro lado los
beneficios están relacionados con una reducción de tiempo en el cálculo de incobrables
de la empresa, una mayor aproximación a dicho monto y un mejor análisis de sus clientes.
De manera estimada, un resumen de costos es el siguiente:
Elemento Costo
Hardware $ 1.500
Software $ 0
Personal Humano $ 1.800
Servicios Asociados $ 250TOTAL $3.550
Objetivos de Minería de Datos
El objetivo de minería de datos para este proyecto es determinar a partir de conductas
identificadas en los clientes de la empresa cuáles de ellos son aptos para optar por ventas
a crédito. Con ello nos aseguramos de que únicamente de aquellos clientes de los cuales
hay cierta certeza de que pagaran obtendrán un crédito, simplificando así el cálculo delmonto por incobrables, el cual además es reducido sustancialmente.
Plan del proyecto
Fase Tiempo Recursos Riesgos
Entendimiento del
negocio.1 semana Analistas Económico
Entendimiento de
los datos. 3 semanas
Analistas, datos
contables de laempresa.
Económico
Preparación de los
datos.4 semanas
Analistas,
Departamento de
Contabilidad
Económico,
duración del
proyecto
8/18/2019 Minería de Datos aplicada - Ejemplo
9/19
9
Modelado. 3 semanas AnalistasEconómico,
tecnológico
Evaluación. 2 semanas AnalistasEconómico,
tecnológico
Transferencia. 1 semanaDepartamento de
TI
Económico, perdida
de datos
Fuente: propia
Comprensión de los Datos
En esta sección se muestra de manera cercana los distintos datos disponibles para la
realización del proyecto, permitiéndonos así determinar la calidad de dicha información.
La descripción de cada una de sus fases para nuestro proyecto de predicción de cuentas
incobrables.
Recolección de datos iniciales
Las principales fuentes de datos que se utilizaran en este proyecto son las siguientes:
Base de datos de ventas: en ellas se puede observar en detalle las compras
realizadas por distintos clientes en distintos momentos y bajo distintas
condiciones.
Base de datos de clientes: en la cual podamos encontrar todos los detallesrelacionados con los clientes de la empresa.
Libros mayores de la empresa.
Descripción de los datos
Los datos son tomados de las ventas a crédito realizadas por la empresa, para ello se
toman los montos de dichas ventas para un aproximado de 1000 clientes. Dichos datos
son de tipo numérico. Sumado a ello se toman datos relacionados con los clientes
asociados a dichas ventas, dichos datos son el nombre (cadena de texto), edad (entero),
sexo (representado como “F” o “M”), es una empresa ( si o no), fecha de la primera
compra realizada (fecha), promedio de compras por mes (decimal), monto promedio de
compras por mes (decimal). Este último valor es tomado como el monto total de las
8/18/2019 Minería de Datos aplicada - Ejemplo
10/19
10
compras realizadas entre el número de meses que han pasado desde la primera compra
realizada.
Exploración de los datos
Algunas de las hipótesis formuladas de manera inicial corresponden a la idea de que
entre más tiempo tenga la relación entre el cliente y la empresa, así como entre mayor
sea la cantidad promedio mensual de compras del cliente, mayor confianza existe en
dicho cliente para cederle un crédito. Por ello los atributos que más importancia presentan
para la formulación de criterios de minería de datos serian la fecha de la primera compra
realizada, el promedio de compras realizadas mensualmente y el total de compras
realizadas.
Para un uso posterior podemos usar la totalidad de las ventas a crédito cedidas y estimar
el monto por incobrables como un porcentaje promedio mensual de las ventas a crédito
mensual que no se pagaron.
Verificación de la calidad de los datos
En el proceso de tratamiento de los datos se pueden presentar una serie de problemas
que pueden influir de manera negativa en nuestro proyecto, ellos son:
Perdida de datos: se pueden extraviar datos referentes a ventas realizadas o a
detalles de los clientes de la empresa.
Cambio de administración en una empresa cliente: esto puede llevar a que los
incobrables aumenten considerablemente con respecto a lo estimado.
Error en el registro de la información.
Preparación de los Datos
Esta es una de las fases más importantes de cualquier proyecto de minería de datos,
debido a que comprende las actividades que más tiempo demandan. En este proyecto
dichas actividades son las siguientes:
8/18/2019 Minería de Datos aplicada - Ejemplo
11/19
11
Selección de los datos
Elementos: para el proyecto se toman 1000 ventas a crédito registradas en la base de
datos del sistema utilizado en la empresa, sea empresas o personas físicas.
Atributos: los atributos de dichas ventas serán la fecha de realización, el monto y todoslos datos relacionados con el cliente.
Limpieza de los datos
A los diferentes problemas encontrados en la fase anterior se propone la siguiente
alternativa.
Problema encontrado Solución Posible
Perdida de datos. Fijar un valor predeterminado en caso de que no
se asigne uno a dicho atributo.
Errores en el ingreso de datos. Utilizar validaciones. Excluir ese atributo del
proyecto.
Cambios en el responsable de
una empresa cliente.
Ligar una empresa cliente con una persona física
responsable.
Fuente: propia
Construcción de nuevos datos
Los nuevos datos generados en este proyecto de minería de datos son básicamente de
dos tipos:
Atributos generados: en este proyecto algunos atributos de este tipo son:
Meses siendo cliente = Fecha Actual – Fecha primera compra.
Monto total de compras realizadas = Sumatoria del monto las compras realizadas.
Promedio de compras realizadas por mes = Numero de compras realizadas /
meses siendo cliente.
Monto promedio de compras realizadas por mes = Monto total de compras
realizadas / Meses siendo cliente.
8/18/2019 Minería de Datos aplicada - Ejemplo
12/19
12
Filas generadas: como fusión de los datos de las ventas con los de los clientes asociadas
a ellas, se genera un nuevo registro, el cual contiene los detalles de las ventas a crédito
realizadas, contiene lo siguiente: monto de la venta, identificador del cliente, fecha de
vencimiento y porcentaje estimado como incobrable. Con ello los incobrables no van a
ser un porcentaje fijo para todos los clientes de la empresa, sino que variable de cliente
en cliente.
Integración de los datos
Los datos con distintos orígenes en este proyecto se integran de la siguiente forma:
Adición de los datos de las ventas a crédito con los datos de los clientes: para
completar el registro de una venta a crédito se debe saber de manera preliminar
si dicho cliente tiene la autorización para recibir crédito. Así como cuál es la
cantidad máxima que se le puede asignar y el plazo correspondiente.
Adición de los detalles de las ventas con los detalles de las ventas a crédito: se
debe tener claro antes de autorizar un crédito en un cliente detalles relacionados
con las compras realizadas por él.
Formato de los datos
Los datos deben contar con el siguiente formato:
Clientes
o Identificación: numero de 10 dígitos
o Fecha de primera compra: formato dd/mm/aaaa
o Crédito Habilitado : S = Si y N = No
Ventaso Ordenarlas de mayor a menor monto.
o Monto: en colones y con dos decimales diferenciados con coma.
8/18/2019 Minería de Datos aplicada - Ejemplo
13/19
13
Modelado
En esta sección se detalla la técnica de minería de datos utilizada
Selección de técnica de modelado
Para este proyecto la técnica de minería de datos más apropiada y además más sencillade aplicar son los arboles de decisión. Esto debido a que el problema se fundamenta
en la toma de decisiones sobre la asignación o no de un crédito a un determinado cliente.
Generación de los modelos
Modelo para determinar si un cliente es apto para darle crédito
Ilustración 1 Árbol de decisión Modelo para autorizar cliente a recibir crédito
Modelo para el cálculo del monto por incobrables
8/18/2019 Minería de Datos aplicada - Ejemplo
14/19
14
Ilustración 2 Árbol de decisión Modelo para determinar monto por incobrables
Evaluación
En esta fase se lleva a cabo la evaluación de los modelos, teniendo en cuenta distintos
factores. Las actividades que correspondientes se desarrollan a continuación.
Evaluación de los resultados
El objetivo planteado por la empresa de manera inicial fue poder determinar de manera
más acertada el monto por incobrables para un periodo determinado. Para ello los
resultados obtenidos con el modelo expresan de manera cuantificable cual va a ser dicho
monto. Quizá un punto en contra del modelo es que no realiza un descubrimiento especial
o tremendamente novedoso más que permitirnos observar que se puede obtener dichomonto tomando en cuenta el comportamiento y características de cada cliente por
separado y no como una norma para todos los clientes de la empresa.
El modelo y el proyecto en sí es evaluable fácilmente con la simple comparación del
monto estimado contra el monto real por lo que se adapta muy bien a los objetivos
8/18/2019 Minería de Datos aplicada - Ejemplo
15/19
15
comerciales de cualquier empresa. Ambos modelos son aprobados dada su necesidad
para la obtención del monto esperado, ya que no podemos estimar el monto total sin
antes realizar una sumatoria de cada una de las cantidades.
Revisión del proceso
En este proyecto de minería de datos existen aspectos que se podrían mejorar, los cuales
están principalmente relacionados con la selección de clientes para establecer el monto
correspondiente a la estimación por incobrables. Ya que por ejemplo no existe criterio
para establecer el porcentaje por incobrables que se debe estimar para clientes nuevos,
por lo que se asume que no se le debe brindar crédito a clientes nuevos, que sería
bastante negativo para cualquier negocio.
Es importante contemplar todos esos casos así como realizar las mejoras que sean
necesarias para convertir el modelo en lo más eficiente posibles, de modo que el monto
estimado sea más acertado que cualquiera de los métodos existentes, llámese porcentaje
sobre ventas a crédito o porcentaje sobre la utilidad bruta, etcétera.
Determinar próximos pasos
Antes de continuar con la fase de distribución o implementación es importante iterar sobre
las mejoras y refinar lo más posible hasta encontrar resultados óptimos. Esto puede
reducir costos económicos dado que el modelo aún no ha sido implementado, en el caso
opuesto el estancamiento en las operaciones para resolver un problema puede ser
bastante costoso para la empresa.
Implementación
Esta es la última fase del modelo CRISP –DM, en ella se realizan las actividadesnecesarias para la implementación de las mejoras necesarias en la organización. Dichas
actividades son:
8/18/2019 Minería de Datos aplicada - Ejemplo
16/19
16
Planificación de la implementación
El nuevo método para la estimación de incobrables será implementado como parte de un
esfuerzo conjunto de todos los miembros de la organización, especialmente haciendo
énfasis en el personal de soporte, quienes se encargaran de instruir al personal de
contabilidad acerca del nuevo método. Para ello probablemente existirá una actualización
del software de contabilidad que utiliza la empresa actualmente, la cual incoropore el
nuevo método.
Planificación del control y mantenimiento
Acá también juega un papel importante el personal de soporte, quienes estarán a
disposición del resto de personal para aclarar dudas sobre cualquier aspecto relacionadocon el modelo implementado. Además se realizaran revisiones mensuales al modelo y
entrevistas al personal que lo implementa, sobre su rendimiento y su efectivo
acercamiento a la realidad.
Informe Final
Luego de un periodo de seis meses de implementado el nuevo método de estimación de
incobrables y de haber obtenido la retroalimentación necesaria, se elaborara el informe
final, el cual contiene aspectos como los siguientes:
Problema resuelto con la realización del proyecto.
Mejoras realizadas.
Costo final del proyecto.
Efectividad en los resultados obtenidos luego de su implementación.
8/18/2019 Minería de Datos aplicada - Ejemplo
17/19
17
CONCLUSIONES
Del análisis de los distintos contenidos necesarios para la realización de este proyecto y
de la aplicación de los mismos para el desarrollo del mismo se han obtenido importantesconclusiones las cuales se listan a continuación:
La minería de datos es una herramienta muy importante que podemos utilizar en
una variedad enorme de áreas para solucionar muchos de los problemas que
actualmente existen. Áreas como la estadística o la contabilidad se verían
sumamente beneficiadas y simplificadas si aplicamos modelos de minería de
datos. En nuestro proyecto por ejemplo, un tema complejo para la contabilidad
como el cálculo del monto que no pagaran los clientes de la empresa puede serbastante sencillo si utilizamos la minería de datos.
El uso de un modelo de proceso de minería de datos como es el caso de CRoss
Industry Process for Data Mining (CRISP-DM) facilita en gran manera la labor de
desarrollo de un proyecto de minería de datos, esto ya que te guían acerca de
todas las fases necesarias y las actividades que se deben desarrollar en cada una
de ellas. Además de que dirigen el rumbo del mismo, definiendo los entregables
para cada una de ellas. Por ello, una vez se define el modelo y la temática del
proyecto es solo seguir todas las instrucciones brindadas para cumplir con éxito el
proyecto.
En la fase de evaluación del proyecto se debe ser bastante cuidadoso de no
apresurarse y no continuar con la fase de implementación hasta que
verdaderamente el proyecto esté bien depurado. Aprobar el proyecto cuando no
está listo puede generar gastos económicos muy altos en el momento de la
corrección de dichos errores.
8/18/2019 Minería de Datos aplicada - Ejemplo
18/19
18
RECOMENDACIONES
Este como primer proyecto de minería de datos, provee grandes conocimientos, que de
manera segura podrán ser utilizados en futuros proyectos ya sea en el ámbito formativo
o laboral. Dentro de las principales recomendaciones que podrán ser utilizadas en el
futuro destacan:
Es un hecho que la minería de datos podría simplificar enormemente muchas
actividades realizadas en muchas áreas de trabajo, pero también se deben
contemplar aspectos muy importantes relacionados con los datos. Es
recomendable verificar que los datos que van a ser utilizados como base del
proyecto sean bastante confiables, de modo que permitan obtener resultados
confiables.
Se recomienda utilizar siempre un modelo de proceso como por ejemplo CRISP-
DM ya que aunque posiblemente demore más tiempo el desarrollo del proyecto,
tenemos garantía de que se cumplen todas las etapas, se generan entregables de
calidad y existe más garantía de éxito en nuestro proyecto.
Se deben planificar muy bien cada uno de los recursos necesarios para eldesarrollo del proyecto, de tal forma que haya seguridad de que esos recursos
sean necesarios para una correcta implementación y que no se dé el caso de que
se tenga que abandonar a “medio camino” por motivos de falta de recursos para
continuar.
8/18/2019 Minería de Datos aplicada - Ejemplo
19/19
19
BIBLIOGRAFÍA
Chapman, P., Clinton, J., & Kerber, R. (2000). CRISP-DM 1.0. IBM.
DELL. (s.f.). What is Data Mining (Predictive Analytics, Big Data). Obtenido de DELL
Software: http://www.statsoft.com/Textbook/Data-Mining-Techniques
Gómez Jiménez, E. (2015). Orientaciones Académicas de la Asignatura Bases de Datos
II. San José: EUNED.
Hastie, T., Tibshirani, R., & Friedman, J. (2011). The Elements of Statistical Learning:
Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.
Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004). Introduccióna la Minería de Datos. Madrid: PEARSON Educación.
IBM. (2012). Manual CRISP-DM de IBM SPSS Modeler. Estados Unidos: IBM
Corporation.
Virseda, F., & Román , J. (s.f.). Minería de datos y aplicaciones. Madrid: Universidad
Carlos III.