Análisis de la minería de datos aplicada en empresas del ...

76
Facultad de Ingeniería y Computación Escuela Profesional de Ingeniería Industrial Análisis de la minería de datos aplicada en empresas del sector retail Presentado por: Aldana Fransheska Dongo Pozo Xiomara Pamela Silva Cama Para optar el Grado Académico de Bachiller en: INGENIERÍA INDUSTRIAL Arequipa, enero del 2020

Transcript of Análisis de la minería de datos aplicada en empresas del ...

Page 1: Análisis de la minería de datos aplicada en empresas del ...

Facultad de Ingeniería y Computación

Escuela Profesional de Ingeniería Industrial

Análisis de la minería de datos aplicada en

empresas del sector retail

Presentado por:

Aldana Fransheska Dongo Pozo

Xiomara Pamela Silva Cama

Para optar el Grado Académico de Bachiller en:

INGENIERÍA INDUSTRIAL

Arequipa, enero del 2020

Page 2: Análisis de la minería de datos aplicada en empresas del ...

Dedicatoria de Dongo Pozo, Aldana Fransheska

A mi familia; mi mamá, mi papá, mi hermanito y mi abuelita, por confiar en que lo lograría,

por insistirme en no dejarlo para el último y por ser un gran ejemplo, tanto como profesionales,

pero sobre todo como personas, porque a pesar de todos mis errores siempre confiaron en mí y en

lo que era capaz, incluso cuando yo misma ya no creía en mí. Por levantarme cuando me caí y

creía que ya no podía levantarme. Por ser mi fuerza y el motor que me impulsa a enfrentar la vida.

A mi compañera de tesis, Xiomara, que más allá de ser una compañera de clases, es mi mejor

amiga y la hermana que no tengo. Siempre juntas en las buenas y en las malas, este es solo un

capítulo más de nuestras vidas y espero estar a tu lado cada vez que logres alcanzar tus sueños.

Dedicatoria de Silva Cama, Xiomara Silva

Dedico este trabajo de investigación a mi familia; en especial a mis padres y hermano, por ser

de gran apoyo en todo mí desarrollo académico y personal, por siempre estar ahí para aconsejarme,

por no permitir que me rinda, por ayudarme levantarme después de cada tropiezo.

A Dios sobre todo por impactar mi vida de un modo sobrenatural, por enseñarme a ser mejor

cada día, por ser mi fiel apoyo, en quien encuentro paz y alegría.

A mi mejor amiga, Franshesha, quien además de ser mi compañera en toda esta trayectoria

académica lo fue de modo personal, le agradezco por el apoyo incondicional que siempre

encuentro en su persona, es una persona a la cual admiro mucho y que contará con mi apoyo

siempre.

A mis amigos que siempre estuvieron apoyándome y con los cuales compartí esta gran etapa

de mi vida.

Page 3: Análisis de la minería de datos aplicada en empresas del ...

Agradecimientos

Agradecemos a Dios, a nuestros familiares por el apoyo que recibimos de parte de ellos durante

toda nuestra trayectoria académica, por siempre impulsarnos a cumplir con esta meta tan

significativa tanto para ellos como para nosotras. También agradecemos a nuestros asesores

quienes nos orientaron en el desarrollo de nuestro trabajo, y de quienes aprendimos muchas cosas.

A nuestros profesores y a la Universidad Católica San Pablo.

Page 4: Análisis de la minería de datos aplicada en empresas del ...

Resumen y Palabras clave

Actualmente en empresas pequeñas del Perú no se tiene tanto conocimiento de lo que es la

minería de datos, en comparación con las grandes empresas que buscan estar siempre a la

vanguardia. (Rygielski, 2002) Siendo así, empresas como Tesco, la cual es una gran cadena de

supermercados que pertenecen al sector retail de Reino Unido, han logrado un buen

posicionamiento en el mercado, porque conocen las necesidades de sus clientes y eso ayuda a que

se tomen mejores decisiones orientadas a los mismos. Esto fue logrado gracias a la aplicación de

la minería de datos como herramienta, la cual permitió el tratamiento de las bases de datos con los

que la empresa contaba, los cuales contenían información referente a sus clientes respecto a sus

tendencias de compra, búsquedas frecuentes y necesidades. (Davenport, 2006) Adicionalmente,

hay una gran variedad de empresas que pudiendo usar esta herramienta, inmersa en Big Data

(Requena, 2018), no la utilizan y prefieren el método intuitivo, lo cual limita sus capacidades y

presenta un riesgo en la toma de sus decisiones.

La minería de datos puede ser aplicada a diferentes sectores, como lo son, el sector retail,

telecomunicaciones, banca, educación, bolsa de valores, entre otros, llegando incluso a ser

utilizada en elecciones presidenciales, pues de lo que se encarga la minería de datos es buscar

patrones ocultos en los datos que posee toda empresa, sin importar su rubro o tamaño. (Murcia y

Quintero, 2013) Cabe resaltar que, usualmente para hallar dichos patrones u otros, se pueden

emplear técnicas como los árboles de decisión, redes neuronales, entre otras técnicas (Camana,

2016).

Lo que se pretende con el presente trabajo es identificar y mostrar cómo aplican algunas

empresas del sector retail la minería de datos en sus operaciones. Para ello, es necesario tener como

base preliminar, el conocimiento de qué es la minería de datos, cuáles son sus fases, su arquitectura,

sus modelos, y las diferentes técnicas que se derivan de ella. Posteriormente, se presenta una

descripción del modo en que diversas empresas pertenecientes al sector retail aplicaron la minería

de datos.

Cabe resaltar que para el desarrollo del presente trabajo se realizó una bibliometría, la cual

indica las fuentes que mayor aporte da a la búsqueda de información referente a la minería de datos

en general, así como el país que hizo mayores aportes bibliográficos, la cantidad de citaciones por

artículo empleado en la investigación, su respectivo año de publicación; sin embargo, dicha

Page 5: Análisis de la minería de datos aplicada en empresas del ...

información no se puede ver reflejada con claridad en el trabajo debido a la falta de acceso, por lo

que se recurrió a las siguientes fuentes: Scholar Google, IOP Science, Science Direct y Scielo.

Palabras clave: Minería de datos, Sector retail, Toma de decisiones, Base de datos.

Page 6: Análisis de la minería de datos aplicada en empresas del ...

Abstract & Keywords

Currently in small companies in Peru we do not have so much knowledge of what data mining

is, compared to the large companies that seek to be always at the forefront (Rygielski, 2002). That

being so, companies like Tesco, which is a large supermarket chain belonging to the UK retail

sector, have achieved a good position in the market, because they know the needs of their

customers and that helps to make better decisions oriented to them. This was achieved through the

application of data mining as a tool, which allowed the treatment of the databases that the company

had, which contained information regarding its customers regarding their purchasing trends,

searches frequent and needs (Davenport, 2006). In addition, there is a wide variety of companies

that can use this tool, immersed in Big Data (Requena, 2018), do not use it and prefer the intuitive

method, which limits their capabilities and presents a risk in making their decisions.

Data mining can be applied to different sectors, such as retail, telecommunications, banking,

education, stock exchange, among others, even being used in presidential elections, as it is

responsible for data mining is to look for hidden patterns in the data that every company owns,

regardless of their field or size. (Murcia and Quintero, 2013) It should be noted that, usually to

find such patterns or others, techniques such as decision trees, neural networks, among other

techniques can be used (Camana, 2016).

What it is intended with this work is to identify and show how some companies in the retail

sector apply data mining in their operations. To do this, it is necessary to have as a preliminary

basis, the knowledge of what is data mining, what its phases are, its architecture, its models, and

the different techniques that derive from it. Subsequently, a description is presented on how

various companies in the retail sector applied data mining.

It should be noted that for the development of this work a bibliometry was carried out, which

indicates the sources that contribute to the search for information related to data mining in general,

as well as the country that made the most bibliographic contributions, the number of citations per

article used in the investigation, their respective year of publication; however, this information

cannot be clearly reflected at work due to lack of access, so the following sources were used:

Scholar Google, IOP Science, Science Direct and Scielo.

Keywords: Data mining, retail sector, Making decision, Database.

Page 7: Análisis de la minería de datos aplicada en empresas del ...

ÍNDICE GENERAL

INTRODUCCIÓN ................................................................................................................ 1

CAPÍTULO II ....................................................................................................................... 6

REFERENCIAL TEÓRICO ............................................................................................... 6

1. Marco Teórico-conceptual. ........................................................................................ 6

1.1. Minería de datos ......................................................................................................... 7

1.2. Evolución de la minería de datos .............................................................................. 7

a. Recopilación de datos ............................................................................................. 9

b. Acceso a datos .......................................................................................................... 9

c. Navegación de datos ................................................................................................ 9

d. Minería de datos ...................................................................................................... 9

1.3. Aplicaciones de la minería de datos ........................................................................ 10

a. Descubrimiento ..................................................................................................... 10

b. Modelo predictivo ................................................................................................. 10

c. Análisis forense...................................................................................................... 10

1.4. Fases en el proceso de minería de datos ................................................................. 10

a. Comprensión del negocio ..................................................................................... 11

b. Comprensión de los datos ..................................................................................... 11

c. Preparación de datos ............................................................................................ 11

d. Modelado ............................................................................................................... 11

e. Evaluación ............................................................................................................. 11

f. Implementación ........................................................................................................ 11

1.5. Tipos de información ............................................................................................... 12

a. Asociaciones ........................................................................................................... 12

b. Secuencias .............................................................................................................. 12

Page 8: Análisis de la minería de datos aplicada en empresas del ...

c. Clasificaciones ....................................................................................................... 12

d. Agrupamientos ...................................................................................................... 13

e. Previsiones ............................................................................................................. 13

1.6. Técnicas de Minería de Datos ................................................................................. 13

a. Redes neuronales ................................................................................................... 13

b. Regresión lineal ..................................................................................................... 14

c. Árboles de decisión ............................................................................................... 14

d. Reglas de asociación .............................................................................................. 15

e. Agrupamiento (Clustering) .................................................................................. 16

f. Análisis factorial ....................................................................................................... 16

g. Serie de tiempos..................................................................................................... 17

h. Pronóstico (Forecasting) ....................................................................................... 17

1.7. Herramientas empleadas en la minería de datos .................................................. 17

a. Interfaces de programación de aplicaciones (APIS) .......................................... 17

b. Los Modelos de Analítica Predictiva (PMML) .................................................. 18

1.8. La Minería de Datos y el Sector Retail................................................................... 19

1.9. Empresas Retail que aplican minería de datos...................................................... 21

a. Master Card .......................................................................................................... 21

b. Wal Mart................................................................................................................ 22

c. Burger King ........................................................................................................... 22

d. Tesco ....................................................................................................................... 22

e. Papas “Chips” ....................................................................................................... 23

f. Tienda Online en Indonesia ..................................................................................... 23

CAPÍTULO III ................................................................................................................... 26

MÉTODO DE INVESTIGACIÓN ................................................................................... 26

Page 9: Análisis de la minería de datos aplicada en empresas del ...

1. Descripción del objeto de estudio y unidad de análisis ......................................... 26

2. Descripción del tipo de investigación...................................................................... 26

3. Descripción detallada de los instrumentos de investigación ................................ 26

4. Descripción del paso a paso de cómo la investigación fue realizada ................... 26

5. Análisis de las ventajas, desventajas y limitaciones del método, así como las formas

de superar estas limitaciones. ............................................................................................. 27

CAPÍTULO IV ................................................................................................................... 29

ANÁLISIS BIBLIOMÉTRICO ........................................................................................ 29

1. Scholar Google .......................................................................................................... 30

2. IOP Science ............................................................................................................... 34

3. Science Direct ........................................................................................................... 37

4. Scielo…………………………………… .................................................................. 42

5. Artículos revisados ................................................................................................... 46

6. Citaciones por artículo revisado ............................................................................. 50

7. Artículos revisados por Base de datos .................................................................... 53

8. Año de publicación de los artículos revisados ....................................................... 54

9. Ubicación geográfica de países en los que se publicaron los artículos revisados 56

10. Cantidad de artículos revisados por país ............................................................... 57

CAPÍTULO V ..................................................................................................................... 59

ANÁLISIS DE RESULTADOS ........................................................................................ 59

CAPÍTULO VI ................................................................................................................... 60

CONCLUSIONES Y RECOMENDACIONES ............................................................... 60

REFERENCIAS ................................................................................................................. 62

Page 10: Análisis de la minería de datos aplicada en empresas del ...

ÍNDICE DE ILUSTRACIONES

Ilustración 1: Proceso Estándar de la industria de Minería de Datos ....................................... 12

Ilustración 2: Ejemplo de Regresión Lineal Simple ................................................................ 14

Ilustración 3: Árbol de decisión para la compra de una computadora. .................................... 15

Ilustración 4: Clustering de datos bancarios. ........................................................................... 16

Ilustración 5: Gráfico de participación por filtrado de búsqueda en español de la base de datos

“Scholar Google” .......................................................................................................................... 31

Ilustración 6: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Scholar Google” .......................................................................................................................... 32

Ilustración 7: Gráfico de participación por año de publicación de la base de datos “Scholar

Google” ......................................................................................................................................... 33

Ilustración 8: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“IOP Science” .............................................................................................................................. 34

Ilustración 9: Gráfico de participación por año de publicación de la base de datos “IOP

Science”. ....................................................................................................................................... 35

Ilustración 10: Gráfico de participación por número de publicaciones por autor de la base de

datos “IOP Science” ...................................................................................................................... 37

Ilustración 11: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Science Direct”............................................................................................................................ 38

Ilustración 12: Gráfico de participación por filtrado de búsqueda en español de la base de

datos “Science Direct” .................................................................................................................. 39

Ilustración 13: Gráfico de participación por año de publicación de la base de datos “Science

Direct” .......................................................................................................................................... 41

Page 11: Análisis de la minería de datos aplicada en empresas del ...

Ilustración 14: Gráfico de participación por filtrado de búsqueda en español de la base de

datos “Scielo”................................................................................................................................ 43

Ilustración 15: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Scielo” ........................................................................................................................................ 44

Ilustración 16: Gráfico de participación por año de publicación de la base de datos “Scielo” 45

Ilustración 17: Gráfico de la cantidad de citaciones por cada artículo revisado. ..................... 52

Ilustración 18: Gráfica de cantidad de artículos revisados por Base de Datos. ....................... 53

Ilustración 19: Gráfico de cantidad de artículos revisados por año de publicación ................. 55

Ilustración 20: Ubicación geográfica de los países en los que se publicaron los artículos

revisados. ...................................................................................................................................... 56

Ilustración 21: Gráfico de la cantidad de artículos revisados por país de publicación. ........... 58

Page 12: Análisis de la minería de datos aplicada en empresas del ...

ÍNDICE DE TABLAS

Tabla 1 Etapas de la evolución de la minería de datos .............................................................. 8

Tabla 2 Filtración de la base de datos “Scholar Google” en español ...................................... 30

Tabla 3 Filtración de la base de datos “Scholar Google” en inglés ........................................ 31

Tabla 4 Participación de publicaciones respecto al año de publicación de la base de datos

“Scholar Google” .......................................................................................................................... 32

Tabla 5 Filtración de la base de datos “IOP Science” en inglés .............................................. 34

Tabla 6 Participación de publicaciones respecto al año de publicación de la base de datos

“IOP Science” ............................................................................................................................... 35

Tabla 7 Número de publicaciones por autor de la base de datos “IOP Science” .................... 36

Tabla 8 Filtración de la base de datos Science Direct” en inglés ............................................. 38

Tabla 9 Filtración de la base de datos “Science Direct” en español ........................................ 39

Tabla 10 Participación de publicaciones respecto al año de publicación de la base de datos

“Science Direct”............................................................................................................................ 40

Tabla 11 Filtración de la base de datos “Scielo” en español .................................................... 42

Tabla 12 Filtración de la base de datos “Scielo” en inglés ...................................................... 43

Tabla 13 Participación de publicaciones respecto al año de publicación de la base de datos

“Scielo” ......................................................................................................................................... 45

Tabla 14 Información referente a artículos revisados ............................................................. 47

Tabla 16 Cantidad de citaciones por artículo revisado ........................................................... 50

Tabla 17 Cantidad de artículos revisados por Base de Datos ................................................. 53

Tabla 18 Cantidad de artículos revisados por año de publicación .......................................... 54

Tabla 19 Cantidad de artículos revisados por país de publicación .......................................... 57

Page 13: Análisis de la minería de datos aplicada en empresas del ...

1

CAPÍTULO I

INTRODUCCIÓN

En la actualidad existe un creciente almacenamiento de datos, de los cuales no todos ellos

brindan información significativa para la empresa luego de ser procesados. Es por ello que se

busca implementar herramientas que ayuden procesar dichos datos y así transformarlos en

información.

Con los avances tecnológicos con los que se cuentan actualmente, se utilizan diferentes

herramientas de inteligencia artificial que permiten acelerar el proceso de transformación de

datos en información.

Entre las diferentes herramientas existentes, la que a continuación se ha de desarrollar es

conocida como minería de datos o Data Mining en inglés, la cual con su correcta implementación

ayudará a la empresa a encontrar patrones ocultos que permitirá una mejor toma de decisiones.

Descripción del problema de investigación

El contexto en el cual se encuentran muchas empresas peruanas es que la toma de sus decisiones

se da de manera intuitiva o por conocimientos históricos que posee la empresa, por situaciones que

ha atravesado previamente; sin embargo, los tiempos cambian y con ellos los clientes y sus

necesidades, es por ello que las empresas deben ir de la mano con la tecnología disponible para

satisfacer las necesidades de los clientes y cumplir sus expectativas, pues una mala decisión puede

significar grandes pérdidas para una empresa, no solo económicamente sino también en su

prestigio y en la calidad de servicio.

Hoy en día el conocimiento de lo que es la Minería de datos es mínimo en empresas pequeñas

e incluso medianas, partiendo del hecho de que la mayoría de estas no almacenan sus datos

históricos en base de datos, ni cuentan con sistemas de tecnología de información, por lo que no

cuentan con datos que puedan ser aprovechados por esta herramienta para que los transforme en

información útil, a diferencia de las empresas grandes que si tienen la posibilidad de utilizar la

herramienta, sin embargo, no lo hacen de una manera eficiente por lo que no se pueden apreciar

las grandes mejoras que conlleva la implementación de la minería de datos. Teniendo ello por

Page 14: Análisis de la minería de datos aplicada en empresas del ...

2

precedente, se puede entender el porqué de que muchas organizaciones presentan complicaciones

al querer analizar los grandes volúmenes de datos que poseen, no estratificados y generados

exponencialmente; por lo que el propósito del presente trabajo es analizar la minería de datos aplica

en empresas del sector retail, con lo cual las empresas se ven beneficiadas al mostrar patrones de

compra de sus clientes, generando indicadores, a modo que se pueda llevar un control de la

información y para que sea de utilidad para mejorar la toma de decisiones, basándonos en

información de la empresa, la cual con el correspondiente análisis e interpretación ayudará a que

la empresa tome decisiones acertadas, haciendo uso de una herramienta de Big Data, conocida

como Minería de Datos (Data Mining) la cual es capaz extraer información útil de la base de datos

que poseen las empresas. Todo ello toma base en el hecho de que las empresas poseen una cantidad

de datos no procesados cada vez mayor, y dichos datos, son una fuente valiosa de información

para la empresa si se sabe manejar de una manera adecuada y eficiente.

Planteamiento del problema

La ingeniería industrial busca mejoras en cualquier ámbito industrial, para el presente caso, se

busca que mediante la aplicación de la minería de datos se pueda analizar la información que

proviene de la transformación de datos, los cuales pueden ser proporcionados por la misma

empresa o por terceros, que se refiera a los clientes finales de los productos que las empresas

ofrezcan, de modo que se podrá observar una mejora en lo referente a la toma de decisiones.

Ahora bien, lo que se busca es determinar es:

¿En qué modo se aplica la minería de datos en empresas del sector retail?

1. Objetivos de la investigación

Los objetivos planteados a continuación permitirán delimitar el trabajo a tratar y definir con

mayor cuidado las actividades que se han de ejecutar para llevarlo a cabo. Siendo así, el objetivo

general, permitirá definir el enfoque principal del trabajo a grandes rasgos, mientras que los

objetivos específicos tratarán las actividades más detalladas.

Page 15: Análisis de la minería de datos aplicada en empresas del ...

3

1.1.Objetivo general

Conocer el modo de aplicación de la minería de datos en empresas del sector retail. Analizar la

minería de datos aplicada en empresas del sector retail.

1.2.Objetivos específicos

- Analizar información sobre la minería de datos, como herramienta.

- Conocer las diferentes técnicas de la minería de datos.

- Recopilar y analizar información referente a la aplicación de la minería de datos en

empresas del sector retail.

- Realizar una bibliometría que nos permita identificar las diferentes fuentes de información

documentada para futura consulta.

2. Justificación de la investigación

2.1.Conveniencia

El conocimiento que se busca extender en el presente trabajo, tiene como finalidad recopilar

información referente a la minería de datos, para que futuros investigadores tengan la información

con un enfoque centrado a la aplicación al sector retail, el cual es un sector orientado a la

comercialización minorista y masiva de productos al consumidor final.

2.2.Justificación Práctica

La información que se presenta a continuación es recopilación de un conjunto de

investigaciones previas, por lo que servirá de base para futuras investigaciones, que deseen

continuar con la investigación, enfocándose en empresas que comercien con una gran variedad de

productos a diferentes clientes y en diferentes cantidades.

El motivo por el cual se adquiriría la presente información es debido a que al ser una

recopilación de información, los futuros investigadores no tendrán problema alguno en recurrir al

presente trabajo y encontrar la información sintetizada y orientada al sector retail que es al cual se

dirige el presente trabajo.

Cabe resaltar que el sector retail es un sector que tiene contacto directo con el consumidor final

de cada uno de los productos que ofrece, dichos clientes son sumamente variados y su demanda

Page 16: Análisis de la minería de datos aplicada en empresas del ...

4

varía según cada uno de ellos por sus preferencias y necesidades individuales. Es por ello que este

sector es uno de los cuales presenta mayor cantidad de datos debido a la gran cantidad de clientes

que posee, la variedad de sus productos, entre otros datos recopilados por cada empresa

individualmente.

Siendo así, este sector es uno de los más abundantes en datos, los cuales pueden ser

transformados en información para su aprovechamiento en la toma de decisiones, lo cual mejoraría

no solo los ingresos de la empresa, sino también la percepción que los clientes tienen de la empresa,

otorgándole así una ventaja competitiva sobre las demás empresas. Las decisiones que se pueden

tomar pueden ser sumamente variadas dependiendo de la información de cada empresa, como

ejemplo se muestra a continuación algunas de ellas: agrupación de productos, formas frecuentes

de pago, layout cómodo para el cliente, predicción de la demanda, actividades de promoción d

acuerdo a las necesidades del cliente, entre otras.

3. Delimitación de la investigación

3.1.Temporal

La presente investigación fue iniciada en abril del 2019, con la finalidad de culminar dicha

investigación a mediados de setiembre del 2019. Por lo cual se contó con 7 meses para desarrollar

la presente investigación.

3.2.Temática

Se considera que la presente investigación está enfocada a los temas informáticos, dado que

para aplicar la minería de datos es necesaria la aplicación de un software. Adicionalmente, está

enfocada en el ámbito logístico, pues es dónde se planea ver la aplicación de la minería de datos.

Cabe resaltar que la minería de datos puede ser aplicada a muchos más sectores diferentes al

informático y al logístico; sin embargo, estos son en los que se tendrá mayor repercusión.

4. Resumen de la estructura capitular de la tesis

En el capítulo uno se describió el problema que inspiró la investigación, el cual afecta la toma

de decisiones, pues las empresas al poseer grandes volúmenes de datos no estructurados o semi-

estructurados, generados exponencialmente, poseen un gran obstáculo para el óptimo manejo de

Page 17: Análisis de la minería de datos aplicada en empresas del ...

5

dicha información. Por esta razón se plantea como objetivo general el conocer el modo de

aplicación de la minería de datos por empresas del sector retail, para lograrlo se va a trabajar de la

mano con cuatro objetivos específicos que darán soporte al objetivo general.

La razón por la cual se inició la presente investigación posee una justificación por conveniencia

y práctica.

Se delimitó de modo temporal el inicio y término de la investigación. Además de delimitar la

temática de la investigación en la abstracción de información de fuentes externas a las de la

universidad, pues el tema a investigar aún no fue desarrollado por estudiantes de dicha universidad.

Page 18: Análisis de la minería de datos aplicada en empresas del ...

6

CAPÍTULO II

REFERENCIAL TEÓRICO

Para la investigación bibliográfica que se presenta a continuación se planteó en primera

instancia trabajar con “Big Data”. Dicho tema por poseer un campo de investigación muy

amplio, se debía enfocar en uno más específico, por lo que previa investigación se encontró que

el Big Data envolvía a la Minería de datos, el cual era un tema más puntual y centrado, además

presenta oportunidades de desarrollo para el presente trabajo.

Adicionalmente, se debe mencionar que la minería de datos es aplicada por diferentes

empresas del sector retail, las cuales serán descritas brevemente, previa introducción a la minería

de datos como tal.

1. Marco Teórico-conceptual.

Como punto de partida se ha de tomar el descubrimiento del conocimiento, más

conocido en las fuentes bibliográficas, como KDD. Debido a que este envuelve a la minería

de datos como tal.

Es común encontrar que se usa el término de “Descubrimiento del conocimiento” como

sinónimo de minería de datos; sin embargo, esto no es así, la diferencia radica en la forma

de extracción de datos, mientras que la minería de datos hace la extracción de patrones por

medio de algoritmos específicos, el KDD sigue un proceso de preparación, selección y

limpieza, pero de manera intuitiva, haciendo uso de su interpretación, con ayuda de los

conocimientos adquiridos anteriormente. (Gilbert, et al, 2006).

Los pasos siguientes son los manifestados por Gilbert, respecto al proceso que sigue el

KDD:

1. Comprende el dominio de aplicación

2. Extraer la base de datos objetivo

3. Preparar los datos

4. Minería de datos

5. Interpretación

6. Utilizar el conocimiento descubierto

Page 19: Análisis de la minería de datos aplicada en empresas del ...

7

Como se puede ver en el proceso del KDD, la minería de datos está inmersa en el paso

cuatro y representa la fase fundamental de todo el proceso.

A continuación, se definirán los principales conceptos relacionados con la minería de

datos, los cuales nos proporcionarán un mayor conocimiento sobre el tema a investigar.

1.1. Minería de datos

Para comenzar, es preciso conocer el significado de lo que es minería de datos,

más conocida como Data Mining en la literatura.

La minera de datos es una tecnología computarizada, que posee técnicas útiles

para extraer información de grandes volúmenes de datos, que muchas empresas no

consideran dado que no logran identificarlos con facilidad; minería de datos los

relaciona, agrupa para ayudar de este modo en la toma de decisiones. (Camana,

2016; Shen, et al, 2009)

La minería de datos encuentra patrones de coincidencia entre los datos que posee

la empresa; los datos que se extraerán servirán para realizar predicciones,

previsiones, estimaciones, que serán empleadas en la toma de decisiones; el usar

esta herramienta de manera exitosa le proporcionará a la empresa una ventaja

competitiva.

Por ejemplo, al momento de tener una tienda en línea, la empresa tendrá acceso

a los datos de los consumidores de sus servicios y/o productos, dicha información

le servirá para mejorar sus estrategias, de modo que sus ingresos incrementen y

también le ayudarán a brindarle un servicio más adecuado a sus clientes, pues se

tendrá conocimiento de sus preferencias, tendencias y comportamientos.

1.2. Evolución de la minería de datos

Tiene sus orígenes en los años 60’s (Camana, 2016), el cual comienza cuando

los datos son almacenados en los ordenadores, posteriormente se sigue avanzando

con la mejora en el acceso a dichos datos y se llega finalmente al día de hoy donde

las personas son capaces de navegar en tiempo real a través de los datos

almacenados (Rygielski, 2002)

Page 20: Análisis de la minería de datos aplicada en empresas del ...

8

Tabla 1

Etapas de la evolución de la minería de datos

ETAPAS EVOLUTIVAS DE LA MINERÍA DE DATOS

Escenario Pregunta de

Negocios

Habilitación de

la tecnología

Productos

de los

proveedores

Características

Colección

de Datos

(1960)

¿Cuál fue mi

ingreso total

promedio en los

últimos cinco

años?

Ordenadores,

cintas, discos. IBM, CDC

Retrospectiva,

entrega de datos

estáticos.

Acceso a

los Datos

(1980)

¿Cuáles fueron

las ventas de

unidades en

Nueva Inglaterra

en marzo pasado?

Bases de datos

relacionales

(RDBMS), lenguaje

de consulta

estructurado (SQL),

ODBC

Oracle,

Sybase,

Informix,

IBM,

Microsoft

Retrospectiva,

entrega dinámica

de datos a nivel de

registro

Navegación

de los Datos

(1990)

¿Cuáles fueron

las ventas de

unidades en

Nueva Inglaterra

en marzo pasado?

Perforar hasta

Boston

Procesamiento

analítico en línea

(OLAP), bases de

datos

multidimensionales,

almacenes de datos

Pilot, IRI,

Arbor,

Redbrick,

Evolutionary

Technologies

Retrospectiva,

entrega dinámica

de datos a

múltiples niveles.

Minería de

Datos

¿Qué es

probable que

suceda en las

ventas de Boston

el próximo mes?

¿Por qué?

Algoritmos

avanzados,

computadoras

multiprocesador,

bases de datos

masivos.

Lockheed,

IBM, SGI,

numerosas

empresas

emergentes

Prospectiva,

proactiva entrega

de información.

Fuente: (Rygielski, 2002)

Page 21: Análisis de la minería de datos aplicada en empresas del ...

9

El autor (Rygielski, 2002) define cada una de estas etapas como (Tabla 1):

a. Recopilación de datos

Se recolecta los datos que vayan a ser utilizados, para desarrollar con ellos

cálculos simples, como sumas o promedios.

La información que se obtiene a partir de la recopilación de datos permite

responder preguntas del negocio relacionadas con cifras derivadas de sitios de

recopilación de datos, como ingresos totales o ingresos totales promedio

durante un período de tiempo.

b. Acceso a datos

Lo que se busca es utilizar las bases de datos para almacenar dichos datos

en un formato estructurado.

Dado que cada unidad de negocio tiene requisitos o formatos específicos, se

opta por establecer políticas para recopilar datos y notificar la información.

c. Navegación de datos

Luego de conocer las denominadas cifras individuales, se podían realizar las

preguntas sobre el rendimiento de los sitios agregados.

Ahora las empresas pueden obtener una vista global y profundizar en un

punto específico para realizar las comparaciones que vean por convenientes.

d. Minería de datos

Las herramientas analíticas en línea proporcionan retroalimentación en

tiempo real e intercambio de información con unidades de negocio

colaboradoras.

En 1990, se concluye en que la minería de datos engloba la base de datos, la

información, la extracción y el conocimiento (Camana, 2016).

El término “Knowledge Discovery in Database” (KDD) (…) fue utilizado por

primera vez por Gregory Piatetsky-Shapiro en 1989, dicho término posee una

Page 22: Análisis de la minería de datos aplicada en empresas del ...

10

estrecha relación con la minería de datos, pues el KDD utiliza sus técnicas para la

explotación de datos, mientras que la minería de datos utiliza su metodología para

un desarrollo aplicado. (Camana, 2016)

1.3. Aplicaciones de la minería de datos

La minería de datos puede ser aplicada en 3 categorías, según (Rygielski, 2002)

a. Descubrimiento

Es el proceso que permite buscar patrones ocultos en la base de datos sin

tener una idea o hipótesis previa de lo que podría ser el patrón.

A su vez esta categoría se subdivide en tres:

- Condicional lógico

- Afinidades y asociaciones

- Tendencias y variaciones

b. Modelo predictivo

Es el proceso que hace uso de los patrones hallados para predecir el futuro.

A su vez se subdivide en dos:

- Predicción de resultados

- Pronóstico

c. Análisis forense

Es el proceso de aplicar los patrones extraídos para encontrar elementos

anormales e inusuales.

A su vez se subdivide en dos:

- Detección de desviación

- Análisis de enlace

1.4. Fases en el proceso de minería de datos

Como toda técnica para ser aplicada requiere seguir pasos, los cuales ya han sido

establecidos por (Leventhal, 2010) como siguen a continuación:

Page 23: Análisis de la minería de datos aplicada en empresas del ...

11

a. Comprensión del negocio

Busca enfocarse en comprender lo que quiere lograr la empresa con el

desarrollo del proyecto y los requerimientos que implica este.

b. Comprensión de los datos

En primera instancia se recopilan los datos para poder familiarizarse con

ellos y así lograr la identificación del problema; es decir, se conocen los datos

en general al inicio para luego proceder a dividirlos por subconjuntos y con la

ayuda de ellos formular predicciones de información oculta.

c. Preparación de datos

A partir de los datos iniciales que aún no han sido procesados se crea un

conjunto de datos final.

d. Modelado

De una amplia gama de técnicas de modelado se elige y aplica una para

posteriormente calibrar sus parámetros para conseguir valores ideales.

Es importante mencionar que, dado que hay una gran variedad de técnicas

y cada una de ellas tienen requisitos específicos, se debe elegir bien la técnica

a utilizar, caso contrario se regresará a la fase anterior en repetidas ocasiones.

e. Evaluación

Para estar seguros de que se han logrado los objetivos del negocio, es

necesario evaluar el modelo previamente estructurado y así hacer seguimiento

de los procedimientos ya ejecutados.

f. Implementación

En la mayoría de casos el cliente o consumidor final será quien lleve a cabo

el proceso de implementación en lugar del analista de datos.

Page 24: Análisis de la minería de datos aplicada en empresas del ...

12

Ilustración 1: Proceso Estándar de la industria de Minería de Datos. Fuente: (Leventhal, 2010)

1.5. Tipos de información

Según (Ahmed, 2018) los tipos de información que genera la minería de datos

son los siguientes:

a. Asociaciones

Las asociaciones se presentarán cuando se cuenta con sucesos vinculados a

un evento, esto se presenta por ejemplo cuando un cliente compra un cuaderno

dado que es posible que el mismo cliente adquiera lapiceros.

b. Secuencias

Se refiere a la presentación de las secuencias de sucesos ocurridos en el

tiempo, como las compras ocurridas en temporadas donde se colocaron ofertas

y promociones.

c. Clasificaciones

La clasificación realizada por esta herramienta permite visualizar las

características que posee el cliente, conocer las reacciones ante diferentes

Page 25: Análisis de la minería de datos aplicada en empresas del ...

13

promociones realizadas, la fidelidad del cliente, para poder poner un enfoque

especial en sus diferentes tipos de clientes y retenerlos.

d. Agrupamientos

Se agrupan cuando se halla una similitud en datos, tendencias.

e. Previsiones

Está relaciona todas las predicciones que fueron estimadas en base a los

patrones extraídos de los datos.

1.6. Técnicas de Minería de Datos

Después de la revisión bibliográfica se han encontrado 7 técnicas, las cuales se

exponen a continuación:

a. Redes neuronales

Detectan patrones y similitudes en los datos que se poseen, para poder

realizar previsiones, clasificaciones y segmentaciones. (Estrada, 2012, extraído

de Camana, 2016) Toma información histórica (experiencias del pasado), la

analiza y la aplica a las circunstancias en las que se encuentre la organización

en la actualidad, dicha información hace posible la realización de predicciones.

Como ventajas se puede decir que permite la sencillez, la potente adecuación y

evolución, que es provechosa dada la realidad que es tan vulnerable y nada

estable. Puede ser empleada para detectar ilustraciones, localiza la información

que se requiere en Internet, entre otros. (Camana, 2016)

La fortaleza de esta técnica radica en su habilidad para comprender y

discernir patrones sutiles en un gran número de variables sin suprimir los

detalles. Además, puede llevar a cabo múltiples operaciones de manera

simultánea. No solo puede identificar patrones en una cantidad mínima de

variables, sino que también puede detectar dichas correlaciones en cientos de

variables. (…) Para concluir con esta técnica se puede decir que aprende

patrones en señales complejas (Hajizadeh, et al, 2014)

Page 26: Análisis de la minería de datos aplicada en empresas del ...

14

b. Regresión lineal

Genera una relación con los datos que se tienen, tomando dos variables para

construir una relación entre ellas. Se contará una variable de salida y múltiples

entradas numéricas. Esta técnica modela los datos empleando una línea recta

para expresarlos. (Camana, 2016)

Como ejemplo se tiene la relación entre el porcentaje de azúcar añadida en

una gaseosa y su contenido calórico. La regresión se puede observar en la

siguiente ilustración:

Ilustración 2: Ejemplo de Regresión Lineal Simple. Fuente: (Camana, 2016)

Esta técnica de preferencia no debe ser aplicada con datos diferentes a los

numéricos. (Gilbert, et al, 2006).

c. Árboles de decisión

Es una de las técnicas más poderosa y popular para la clasificación y

predicción (…) puede ser usada para representar clasificadores y modelos de

regresión (Hajizadeh, et al, 2014)

“Muestra relaciones, y posee una forma similar a la de un árbol, en el cual

sus nodos internos vienen a ser las validaciones sobre atributos, las ramas

representan las salidas de las validaciones y los nodos hoja son las clases.”

(Estrada, 2012; Macías, 2008; extraídos de Camana, 2016)

Esta técnica consta de un conjunto de reglas para dividir una gran población

heterogénea en grupos más pequeños y más homogéneos con respecto a una

variable de destino determinada. (Hajizadeh, et al, 2014)

Page 27: Análisis de la minería de datos aplicada en empresas del ...

15

Con el siguiente ejemplo se puede observar la aplicación de dicha técnica

en la predicción de compra de una computadora.

Ilustración 3: Árbol de decisión para la compra de una computadora. Fuente: (Camana, 2016)

d. Reglas de asociación

Encuentran los hechos que tiene en común un conjunto de datos y los asocia,

es decir, se deben cumplir condiciones de manera secuencial. (Camana, 2016)

Además encuentra asociaciones interesantes y/o correlaciones entre un gran

conjunto de datos (Hajizadeh, et al, 2014)

En palabras más sencillas es la técnica encargada de encontrar patrones

donde un evento está conectado con otro evento (…) además las reglas de

asociación pueden ser directas o indirectas, dependiendo del caso. En caso de

ser directas, esta técnica ayudará a diseñar un mejor layout de una tienda

(Bhambri, 2012)

Para concluir con esta técnica, se puede decir que es útil al momento de

poner los precios a sus diferentes productos, en la comercialización y venta de

estos, a desarrollar las diferentes estrategias de marketing para llegar a su

mercado objetivo con éxito, diseña los catálogos de productos, marketing cruz

y estudia el comportamiento de compra de sus clientes, siendo de gran ayuda

para la toma de decisiones. (Bhambri, 2012)

Page 28: Análisis de la minería de datos aplicada en empresas del ...

16

e. Agrupamiento (Clustering)

Agrupa a los datos, en clases o grupos, basándose en las características

similares, esto brinda el conocimiento de las similitudes de sus consumidores.

(Bhambri, 2012; Camana, 2016)

No hay datos preclasificados ni distinción entre variables dependientes e

independientes (Hajizadeh, et al, 2014)

En la siguiente imagen se representa la representación del agrupamiento de

los datos bancarios de sus clientes. Clasifican a los clientes en zonas

geográficas, debido a que poseen un perfil, esto se obtienen por el gran volumen

de datos que se posee de ellos, esto permite conocer los productos y servicios

que prefieren sus clientes. Estas zonas geográficas en las que se los agrupa

pueden determinarse debido a su comportamiento de transacción, esto permite

también identificar a los clientes insatisfechos.

Ilustración 4: Clustering de datos bancarios. Fuente: (Camana, 2016)

f. Análisis factorial

Tiene origen en la psicometría, y es utilizado en las ciencias del

comportamiento, ciencias sociales, marketing, mercado financiero, gestión del

producto, investigación de operaciones, entre otras ciencias aplicadas, que

posean una gran cantidad de datos.

Se deben tomar factores que contengan dos propiedades: la independencia e

importancia; estás vienen a ser condiciones del análisis factorial, y también se

debe de tomar los factores que representen de un modo completo la

Page 29: Análisis de la minería de datos aplicada en empresas del ...

17

información para lograr los objetivos en base a los conocimientos claros que se

extraerán. Independientes de modo que es único y no tiene relación con otros

y es importante al poseer un peso representativo en el ranking.

El análisis factorial puede ser empleado para dar soluciones efectivas en un

menor tiempo. (Shahrabi, 2014)

g. Serie de tiempos

Con esta técnica se trata de comprender las series de tiempo desde su origen

y lo que las provoca, para poder realizar las predicciones en base a los datos

históricos. Se debe delimitar un marco de tiempo para los datos, de los cuales

se puede generar gráficas, esto puede permitir la visualización e identificación

de las tendencias de los datos. Cabe resaltar que la información que se tiene

debe ser complementada con herramientas estadísticas. (Shahrabi, 2014)

Todo pronóstico realizado está basado en el conocimiento de eventos

pasados. (Hajizadeh, et al, 2014)

h. Pronóstico (Forecasting)

Relaciona variables independientes y dependientes para poder realizar

predicciones. Pero también se debe tomar en cuenta que hay muchas

situaciones que no pueden ser solucionadas con una predicción. Partiendo de

esto se puede decir que es posible predecir las ventas, los precios de los

accionistas y el producto de las tasas de fracaso. (Bhambri, 2012)

1.7. Herramientas empleadas en la minería de datos

a. Interfaces de programación de aplicaciones (APIS)

Las APIS, conocidas en su lenguaje de origen como Application

Programming, facilitan el uso e integración de la minería de datos con un

software que vaya a aplicar una empresa, por lo que la minería de datos

desarrolló las siguientes aplicaciones de las interfaces de programación de

aplicaciones: SQL, Java, Microsoft. (Fang, 2008)

Page 30: Análisis de la minería de datos aplicada en empresas del ...

18

La multimedia y aplicaciones de paquetes estándar (SQL/MM)

especifican una interfaz, para poder aplicar la minería de datos. Por lo que

se proporciona una API para poder tener acceso a los datos de SQL/MM, a

sus bases de datos relacionales que sean compatibles. (Chouat, Irawan,

2018)

El Java Specification Request-73 (JSR-73) definió un API que le servirá

para la generación de los modelos de minería de datos y puntuaciones de los

datos, permitirá el almacenamiento, mantenimiento y acceso de los datos

que se contienen en las bases de datos. (Chouat, Irawan, 2018)

El OLE DB que es apoyado por Microsoft para la minería de datos

definió una API para aplicarla de modo le genere beneficios, dado que ellos

desean introducir nuevas capacidades, la taxonomía de sus datos y la

creación de un mecanismo para tratar los datos. (Chouat, Irawan, 2018)

b. Los Modelos de Analítica Predictiva (PMML)

Los Modelos de Analítica Predictiva, conocido en su leguaje original

como Predictive Modelling Markup Language (PMML), es una herramienta

que fue desarrollada por el Data Mining Group (DMG), un consorcio que

se dedica a la creación de estándares de minería de datos.

El PMML tiene la función de describir y representar modelos

estadísticos, minería de datos y conjuntamente realiza operaciones de

limpieza y transforma datos para que estos puedan ser modelados.

(Wettschereck, Muller, 2001)

El objetivo de los Modelos de Analítica Predictiva es brindar una

estructura útil para que se pueda crear un modelo, conocido como PMML

productor, y también crea la aplicación para su consumo, llamado PMML

consumidor, el cual permite la lectura de datos contenidos en el archivo

XML PMML (Lenguaje de marcas Extensible del PMML).

El PMML está compuesto por un diccionario de datos, un esquema de

datos, diccionario de transformación, estadísticas del modelo y los modelos

en sí. (Grossman, et al, 2002)

Page 31: Análisis de la minería de datos aplicada en empresas del ...

19

El diccionario de datos está compuesto por los atributos de entrada de

cada modelo, que vienen a ser diferenciados y específicos por su tipo y

valor. (Wettschereck, Muller, 2001)

Cada modelo debe de contener un Esquema de minería, el cual debe

enumerar los atributos de su esquema y las funciones del modelo, dado que

estos factores vienen a ser los subconjuntos de los atributos del Diccionario

de datos. (Grossman, et al, 2002)

La diferencia entre estos dos componentes es que el esquema de minería

contiene información específica de un modelo en específico pero el

diccionario de datos contiene información que no varía según el modelo,

pues es especifica según el tipo de atributo de uso, pudiendo ser activa,

predijo o suplementaria. (Grossman, et al, 2002)

El diccionario de transformación contiene normalización, que viene a ser

el mapeo de valores continuos y discretos de números; discretización, en

otras palabras, el mapeo de valores continuos a valores discretos; asignación

de valores, el cual es el mapeo de valores discretos a valores discretos; y de

agregación, el resumir o recopilar los grupos de valores como el cálculo de

promedios. (Wettschereck, Muller, 2001)

Las estadísticas del modelo son univariantes que es extraída de los

atributos del modelo.

Los modelos, contienen parámetros especificados por etiquetas, existen

modelos de regresión, de racimo, árboles, redes neuronales, modelos

bayesianos, reglas de asociación y modelos de secuencia. (Wettschereck,

Muller, 2001)

1.8. La Minería de Datos y el Sector Retail

Retail se refiere a la venta al detalle de productos, por lo que se refiere a un sector

empresarial que se enfoca en productos cuya venta se realiza manera masiva, por

lo que este sector tiene una gran cantidad de clientes, dado que es el que tiene

contacto directo con el consumidor final de cada producto que ofrece. Se debe de

tomar en cuenta que a este sector le involucran principalmente las actividades

Page 32: Análisis de la minería de datos aplicada en empresas del ...

20

referidas a la planificación y venta, cabe mencionar que no solo se refiere a ofrecer

productos, sino que también puede involucrar servicios. (Paz, 2016)

El modo en que se relaciona la minería de datos con el sector retail es que dado

que en este sector, dependiendo del tipo y tamaño de la empresa, cuenta con una

variedad de tipos de clientes, desde consumidores hasta familias, también pueden

ser minoristas, supermercados, centros comerciales, bancos, y/o establecimientos

pequeños de venta como tiendas; por lo que esta herramienta sirve para analizar las

bases de datos de cada organización de modo que puedan utilizar la información de

sus clientes, como también les da la posibilidad de segmentarlos, ya sea mediante

la tendencias de compra que tienen estos, como también por sus diferentes

necesidades.

Al momento de que la minería de datos es aplicada en este sector se podrán

obtener resultados como patrones de compra, la inclinación que tienen los clientes

al comprar, los cuales no podrían ser aprovechados mediante la toma de decisiones,

si es que no se aprovecharan los datos que tienen las empresas de sus clientes

mediante la utilización de las técnicas de esta herramienta. (Murcia y Quintero,

2013)

Cabe mencionar que las actividades que se realizan en este sector de manera

continua les permite contar con datos referidos a sus ventas, al historial de compra

de cada uno de sus clientes, también información de las actividades que realizan los

clientes de modo complementario como por ejemplo el modo en que acuden al

establecimiento, por lo que la toma de decisiones que realicen una vez sean

aprovechados estos datos podrán estar referidas al modo en que las organizaciones

ofrezcan sus servicios, pudiendo hallar de este modo oportunidades de mejora para

ofrecer un servicio de calidad, lo cual les permitirá obtener una fidelización de sus

clientes existentes y también la obtención de nuevos. (Polo, 2017)

Esto quiere decir que como resultado de la aplicación de la minería de datos en

el sector retail, mediante el tratamiento y análisis de cada base de datos

organizacional, nos dará como resultado la obtención de información relevante para

cada organización, puesto que mostrará el comportamiento de cada tipo de cliente

Page 33: Análisis de la minería de datos aplicada en empresas del ...

21

que pueda tener cada empresa, mediante la aplicación de las diferentes técnicas y

herramientas mencionadas anteriormente, dependiendo de la conveniencia y

utilidad que representen para cada una de ellas.

1.9. Empresas Retail que aplican minería de datos

Son muchos los sectores en los que la minería de datos es aplicable, como las

finanzas, manufactura, salud bancos, seguros y servicios públicos; pues dichos

sectores poseen grandes volúmenes de datos referidos a sus clientes, proveedores,

sus productos y/o servicios. (Ahmed, 2018).

Las industrias Retail pueden requerir del siguiente tipo de información:

- Datos demográficos, como por ejemplo edad, sexo y estado civil.

- Su estado económico actual, cuánto pagan, carrera profesional e ingresos por

familia.

- Datos geográficos, como continente, país, ciudad en la que viven, direcciones.

A continuación, se presenta el modo de aplicación de algunas empresas del

sector Retail que aplican esta herramienta:

a. Master Card

La aplicación de Master Card minería de datos al momento de extraer

información sobre todas sus transacciones realizadas día a día realizadas por

el titular de la tarjeta. También vende información a bancos y diversas

compañías como por ejemplo Shell Oil, la cual brinda el servicio de crédito.

Actualmente se hace uso de las líneas de acceso DLS o T1 rápidas del

Internet, por lo que se está considerando como un recurso valioso y que

posee un precio no tan elevado de lo que es la minería de datos. (Gutierrez,

2019)

Cuando una empresa brinda servicios virtuales, le es posible tomar

información de sus clientes mediante el uso de FTP (protocolo de

transferencia de archivos), para que posteriormente se realicen las

actividades correspondientes de la minería de datos. En caso la empresa no

Page 34: Análisis de la minería de datos aplicada en empresas del ...

22

brinde un servicio en línea, o si son demasiados datos y a su vez sensibles

se puede usar CDROMs. (Gutierrez, 2019; Ahmed, 2018)

b. Wal Mart

Wal Mart es uno de los pioneros usando el Data Mining y gestionando

sus datos. Toma los datos sobre las transacciones que se realizan en sus 2900

tiendas ubicadas en seis países y los coloca en su base de datos que posee

una capacidad de 1.5 terabytes. La empresa le brinda a sus proveedores

información acerca de los productos para, que ellos puedan identificar los

patrones de compra de los clientes, para lograr así gestionar los inventarios

en el almacén estratégicamente. (Zuluaga, 2011; Ahmed, 2018)

c. Burger King

Burger King posee 11 435 establecimientos en 50 estados y 58 países,

“es el uso de objetos de negocios de Business Intelligence para ayudarles a

alcanzar la excelencia operativa y mantener su liderazgo en una industria

competitiva” (Kellog, 2017, extraído de Ahmed, 2018)

Al emplear Busing Objects la organización podrá comprender y

gestionar su rendimiento, pues utilizaran la información que poseen en

bases de datos corporativas, planificación de recursos empresariales (ERP)

y la relación del cliente con los sistemas de gestión (CRM). (Ahmed, 2018)

d. Tesco

Organización reconocida por las ofertas de la cadena de valor por menor

de alimentos. Es considerado como el supermercado más grande del Reino

Unido, posee alrededor de 2320 tiendas. Tesco posee datos referidos a sus

clientes de consumo y sus perfiles de compra. Posee un historial de

búsquedas, navega por rutas, productos vistos, registro de compras,

información de ubicación, cada cliente posee un código de identificación.

(Davenport, 2006). Tienen registro de los movimientos de los clientes para

lograr así mejoras en los diseños y en la localización de los productos. Hace

Page 35: Análisis de la minería de datos aplicada en empresas del ...

23

uso de la información que provee la información de los celulares

inteligentes de sus clientes. Todo esto se logra a través de ofrecer el Wi-fi

disponible en sus tiendas. (Pervan, 2008, extraído de Agarwal, 2014)

e. Papas “Chips”

Papas “Chips” es una empresa distribuidora de productos como refrescos

y golosinas. Esta empresa hace uso de la minería de datos para lograr tener

a sus clientes satisfechos con el servicio brindado, lo cual también repercute

en los ingresos que tiene la empresa, ya que los clientes al estar satisfechos

con el servicio tanto en tiempo de entrega como calidad, se vuelven clientes

fieles. (Altamiranda, 2013)

La empresa utiliza la minería de datos para tener registro de las ventas

que se hacen sobre sus productos en las diferentes tiendas, logrando conocer

en qué periodos se tienen más ventas sobre un producto en específico, lo

cual permite que la empresa logre abastecer a sus clientes de la mejor

manera teniendo dicho producto en stock de acuerdo a las necesidades del

cliente. (Altamiranda, 2013)

Además, los camiones encargados de la distribución de productos

mantienen una comunicación constante con la empresa, para ir informando

en tiempo real las necesidades y requerimientos de los diferentes clientes.

Es así que se consigue darle un mejor uso al inventario perecedero de la

empresa, para saber cuánto y cuándo se vende cada uno de los diferentes

productos, de acuerdo a la demanda de los clientes. (Altamiranda, 2013)

f. Tienda Online en Indonesia

La empresa al ver el gran impacto que la minería de datos, el

almacenamiento de información y la utilización de diferentes softwares ha

tenido en muchas instituciones decidió aplicarlos porque deseaban obtener

una ventaja competitiva.

Page 36: Análisis de la minería de datos aplicada en empresas del ...

24

Tomando en cuenta que sus clientes tienden a seguir a las diferentes

Modas que varían constantemente, el emplear la minería de datos les

ayudaría brindarles a los clientes recomendaciones de acuerdo a los hábitos

de compra de cada cliente referente a prendas de vestir, dado que poseen

esta información en su base de datos. (Chen, et al, 1996, extraído de Chouat,

Irawan, 2018); también se les fue útil para realizar las recomendaciones la

información sobre la intención por conveniencia y los productos que están

tendiendo a comprar los clientes que están en línea.

La empresa tuvo como predictor significativo a Buiding experiential

marketing, pues se relacionan con la satisfacción del cliente y su

fidelización. (Kanungo, et al., 2002, extraído de Chouat, Irawan, et al, 2018)

La empresa también registra los hábitos de los clientes que utilizan

tarjetas de crédito para realizar los pagos, tales como si el cliente compra

con o sin conexión a transacciones en línea, si suele comprar en

supermercados, etc.Dicha información les será útil para identificar

transacciones no familiares, o sea habituales del propietario de la tarjeta, por

lo que en caso se realice una transacción inusual y de este modo se puede

inferir si el titular está haciendo uso de la tarjeta o no. (Chouat, Irawan,

2018)

A continuación, se nombran algunos de los algoritmos que ayudan a

resolver varios problemas mediante el uso de la minería de datos.

Un algoritmo que utilizan es obtenido de la división entre el número de

transacciones que contengan mercancías entre el total de las transacciones

que realizan. También cuentan con un algoritmo de implementación, el cual

realiza relaciones de los datos para plantear tendencias, utilizando el

porcentaje de transacciones y la combinación de artículos que compran, se

podrá inferir por ejemplo que si el cliente compra de un Samsung Galaxy

Note 3 automáticamente comprará un Advan-Vandroid s3a con una

confianza de 60% pero en caso de que compre un Advan-Vandroid s3a hay

un 33% de certeza de que el cliente vaya a comprar un Samsung Galaxy

Note 3. (Chouat, Irawan, 2018)

Page 37: Análisis de la minería de datos aplicada en empresas del ...

25

La empresa emplea el software llamado Xampp, y su base de datos

cuenta con una estructura que se ajusta al almacén de cada tipo de datos para

que pueda realizar la estructuración de los mismos. (Chouat, Irawan, 2018)

La tienda Online tuvo grandes resultados al aplicar la minería de datos

pues tuvo mejoras en sus estrategias de marketing, en la toma de decisiones,

y pudo clasificar estratégicamente los productos que se le ofrece a los

diferentes tipos de clientes. (Chouat, Irawan, 2018)

Page 38: Análisis de la minería de datos aplicada en empresas del ...

26

CAPÍTULO III

MÉTODO DE INVESTIGACIÓN

1. Descripción del objeto de estudio y unidad de análisis

El objeto de estudio es la búsqueda de información referente a la minería de datos y su

modo de aplicación en empresas del sector retail, las cuales pueden presentar una amplia

variación en cuanto a sus tamaños, productos ofertados, lugares de establecimiento, entre

otros. Es por ello que cada empresa aplica de modo diferente la herramienta mencionada

anteriormente, adaptándola a las necesidades que busca satisfacer. No hay dos aplicaciones

idénticas.

2. Descripción del tipo de investigación

Nuestro tipo de investigación es de tipo cualitativo, dado que el objetivo principal es

conocer la aplicación de la minería de datos en empresas del sector retail, esto significa

que el presente trabajo se basa en una búsqueda de información bibliográfica, la cual no

puede ser cuantificada.

3. Descripción detallada de los instrumentos de investigación

Como instrumento de investigación se realizó una revisión bibliográfica, para luego

proseguir con el fichaje correspondiente e ir recopilando la información que se considera

importante para la investigación de diferentes bases de datos como el Scholar Google,

Science Direct, IOP Science, Redalyc, Scielo y ACM Digital Library.

4. Descripción del paso a paso de cómo la investigación fue realizada

Para la investigación bibliográfica se planteó como primer tema a trabajar el “Big Data”;

dicho tema por poseer un campo de investigación muy amplio, se debía enfocar, llegando

Page 39: Análisis de la minería de datos aplicada en empresas del ...

27

finalmente a lo que se conoce como Minería de datos o Data mining, la cual está inmersa

dentro de lo que es Big Data, pero presenta un enfoque más centrado y específico.

Dado que ya se tenía una noción de lo que era el Big Data, se pudo entender con mayor

facilidad todo lo relacionado a Minería de datos, logrando así clasificar la información y

concluir con información de las aplicaciones de la herramienta como tal en empresas del

sector retail.

La investigación se realizó buscando en diferentes bases de datos con ayuda de palabras

claves que permitieron hacer un filtrado de la información que se requería.

Finalmente se concluyó con el análisis bibliométrico para describir las diferentes fuentes

de información que servirá de ayuda a los futuros investigadores.

5. Análisis de las ventajas, desventajas y limitaciones del método, así como las formas

de superar estas limitaciones.

Las ventajas del método es que nos permite recopilar bastante información de diferentes

fuentes, pudiendo contrastar una con otra para hacer de la investigación un proceso mucho

más rico en cuanto a la complementariedad de la información recopilada, además de que

permite actualizarse sobre un tema en específico, pudiendo consultar información antigua

para visualizar los cambios progresivos que ha sufrido la información con el paso del

tiempo.

La principal desventaja que se encontró es la falta de información relacionada al tema

en específico que se escogió, siendo este la aplicación de la minería de datos en diferentes

empresas del sector retail, lo cual fue una limitante de bastante peso para la investigación;

es decir, la información referente a la aplicación de la herramienta era general y no brindaba

mayores detalles.

La forma en la que se logró superar este limitante fue hacer una mayor búsqueda de

información consultando diferentes fuentes a las revisadas originalmente, además de

buscar información en otros idiomas, no solo en español, sino también en inglés o

portugués, esto permitió ampliar el campo de búsqueda y así encontrar mayor información

relevante a nuestro caso.

Page 40: Análisis de la minería de datos aplicada en empresas del ...

28

Cabe resaltar que a pesar de que la bibliometría muestra a la India como país con mayor

aporte en el tema, esta fuente no pudo ser explotada al máximo dado que no se contaba con

acceso a dicha información, adicionalmente la información que se lograba sacar de dicho

país no era de gran relevancia para el presente trabajo, por lo que no fue utilizada en gran

medida.

Page 41: Análisis de la minería de datos aplicada en empresas del ...

29

CAPÍTULO IV

ANÁLISIS BIBLIOMÉTRICO

Para realizar el siguiente análisis bibliométrico, en primer lugar, se hizo una búsqueda en las

diferentes páginas por palabras claves, las cuales cada vez fueron variando y mostrando resultados

diferentes, lo cual ayudo a una mejor filtración de información, esta búsqueda se realizó tanto en

español como en inglés para conseguir un mayor alcance.

Seguidamente se hizo un filtrado por año, dándole mayor énfasis a los últimos 5 años y también

por periodos de tiempo, lo cual permitió conocer en qué año o periodo fueron publicadas una

mayor cantidad de datos. Así también se pudo apreciar la evolución en cuanto al nivel de

publicaciones.

Estos dos tipos de análisis fueron realizados para cada una de las bases de datos.

Se continuó con el filtrado de las publicaciones por autor, esto solo se pudo realizar en la base

de datos conocida como IOP Science, lo cual permitió conocer a la persona que publicaba mayor

información referente al tema de búsqueda.

Finalmente, con los artículos revisados para el levantamiento de la información perteneciente

al marco teórico se realizó una recopilación de información referente a cada uno para dar a conocer

la cantidad que fue citado cada uno de ellos, la base de datos a la que pertenece, su año de

publicación y su país de origen.

Page 42: Análisis de la minería de datos aplicada en empresas del ...

30

1. Scholar Google

La base de datos de Google Académico, es la base de datos que mayor cantidad de

papers ha brindado a lo largo de la investigación. Siendo así, se decidió dividir esta

búsqueda por idiomas, por lo que se considera la investigación tanto en inglés como en

español.

La búsqueda ha tenido el mismo filtrado, pero en su idioma respectivo, y haciendo uso

de la herramienta de “Búsqueda avanzada”.

Para el caso en español. Se tienen los siguientes resultados

Tabla 2

Filtración de la base de datos “Scholar Google” en español

Palabra de

búsqueda

1900-

1950

1951-

2000

2001-

2014 2015 2016 2017 2018 2019 TOTAL

%

PARTICIPACIÓN

Minería de

datos + retail 0 0 2 0 2 0 0 0 4 0.28%

Minería de

datos + retail +

supermercados

0 0 0 0 0 0 0 0 0 0.00%

Minería de

datos +

supermercados

+ ventas

0 0 0 0 0 0 0 0 0 0.00%

Otros papers

referidos a

minería de

datos

0 19 892 126 118 133 123 20 1431 99.72%

Minería de

datos 0 19 894 126 120 133 123 20 1435 100.00%

Fuente: Elaboración propia

Page 43: Análisis de la minería de datos aplicada en empresas del ...

31

Ilustración 5: Gráfico de participación por filtrado de búsqueda en español de la base de datos

“Scholar Google” Fuente: Elaboración propia

Se realiza el mismo procedimiento, con el idioma inglés:

Tabla 3

Filtración de la base de datos “Scholar Google” en inglés

Palabra de

búsqueda

1900-

1950

1951-

2000

2001-

2014 2015 2016 2017 2018 2019 TOTAL

%

PARTICIPACIÓN

Data mining

+ retail 0 7 108 6 10 3 9 1 144 0.29%

Data mining

+ retail +

supermarkets

0 0 1 1 0 0 0 0 2 0.00%

Data mining

+

supermarket

+ sales

0 2 2 0 0 0 2 0 6 0.01%

Others

papers about

data mining

9 5391 24589 4633 4360 4587 4089 1349 49007 99.69%

Data mining 9 5400 24700 4640 4370 4590 4100 1350 49159 100.00%

Fuente: Elaboración propia

0.28% 0.00%0.00%

99.72%

% PARTICIPACIÓN POR FILTRADO DE BÚSQUEDA EN ESPAÑOL

Minería de datos + retail Minería de datos + retail + supermercados

Minería de datos + supermercados + ventas Otros papers referidos a minería de datos

Page 44: Análisis de la minería de datos aplicada en empresas del ...

32

Ilustración 6: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Scholar Google” Fuente: Elaboración propia

A continuación, se muestra la participación de publicaciones con respecto al año de

publicación tanto en español como en inglés.

Tabla 4

Participación de publicaciones respecto al año de publicación de la base de datos “Scholar

Google”

Año Número de

papers

%

Participación

Año 1900-1950 9 0.02%

Año 1951-2000 5419 10.71%

Año 2001-2014 25594 50.59%

Año 2015 4766 9.42%

0.29%0.00% 0.01%

99.69%

% PARTICIPACIÓN POR FILTRADODE BÚSQUEDA EN INGLES

Data mining + retail Data mining + retail + supermarkets

Data mining + supermarket + sales Others papers about data mining

Page 45: Análisis de la minería de datos aplicada en empresas del ...

33

Año 2016 4490 8.87%

Año 2017 4723 9.34%

Año 2018 4223 8.35%

Año 2019 1370 2.71%

Fuente: Elaboración propia

Ilustración 7: Gráfico de participación por año de publicación de la base de datos “Scholar

Google”. Fuente: Elaboración propia

Como se puede ver en las tablas y gráficos anteriores, la mayor información proviene

de documentos en inglés; sin embargo, no se pudo encontrar en esta fuente mucha

información sobre el sector al cual se hace referencia, lo cual limitó la búsqueda.

Con respecto a la búsqueda por año, se puede ver que en el año 2017 se hicieron más

publicaciones referentes a “minería de datos”, mientras que, en inglés, el año donde se

hicieron más publicaciones referentes a “data mining” fue el año 2015 y en conjunto el año

2017 fue el año con mayor número de publicaciones referente a Minería de datos o Data

mining.

Para la presente base de datos no se realizó un filtrado por autores.

0.02%

10.71%

50.59%9.42%

8.87%

9.34%

8.35%

2.71%

% Participación por año de publicación

Año 1900-1950 Año 1951-2000 Año 2001-2014 Año 2015

Año 2016 Año 2017 Año 2018 Año 2019

Page 46: Análisis de la minería de datos aplicada en empresas del ...

34

2. IOP Science

Para la base de datos de IOP Science se siguió la misma metodología que en la base de

datos anterior, con la diferencia que esta base de datos no cuenta con búsqueda en español,

por lo que se delimitó a realizar una búsqueda netamente en el idioma inglés.

Es así, que se tienen los siguientes datos:

Tabla 5

Filtración de la base de datos “IOP Science” en inglés

Palabras de búsqueda 1950-2014 2014-2017 2018 2019 Todo % PARTCIPACIÓN

Data mining + retail 8 18 7 0 33 5%

Data mining + retail +

supermarkets 1 0 0 0 1 0%

Data mining +

supermarket + sales 0 1 0 0 1 0%

Others papers about data

mining 1 194 440 53 688 95%

Data mining 10 213 447 53 723 100%

Fuente: Elaboración propia

Ilustración 8: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“IOP Science” Fuente: Elaboración propia

5% 0% 0%

95%

% PARTCIPACIÓNPOR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES

Data mining + retail Data mining + retail + supermarkets

Data mining + supermarket + sales Others papers about data mining

Page 47: Análisis de la minería de datos aplicada en empresas del ...

35

Cabe resalta que la presente base de datos contaba con un sistema de filtrado limitado,

por lo que la filtración por años se realiza de manera diferente a la anterior base de datos,

sin embargo, cumple con su función de brindar información al lector.

Tabla 6

Participación de publicaciones respecto al año de publicación de la base de datos “IOP

Science”

Año Número de papers % Participación

Año 1950-2014 10 1.38%

Año 2014-2017 213 29.46%

Año 2018 447 61.83%

Año 2019 53 7.33%

Fuente: Elaboración propia

Ilustración 9: Gráfico de participación por año de publicación de la base de datos “IOP

Science”. Fuente: Elaboración propia

En la base de datos de IOP Science se encontró un mayor número de publicaciones en

el año 2018 a comparación con los otros años, lo cual brinda una cantidad de información

actualizada con respecto a otras bases de datos.

1.38%

29.46%

61.83%

7.33%

% Participación por año de publicación

Año 1950-2014 Año 2014-2017 Año 2018 Año 2019

Page 48: Análisis de la minería de datos aplicada en empresas del ...

36

Adicionalmente la base de datos de IOP Science permite realizar una filtración por

autores que hablan respecto al “Data Mining”, lo cual brinda la siguiente información:

Tabla 7

Número de publicaciones por autor de la base de datos “IOP Science”

Autores Número de

publicaciones

J.J. Beatty 40

M. Ahlers 35

J. G. Gonzalez 34

S. Sarkar 33

S. Westerhoff 33

A. Keivani 32

H. Dembinski 31

S. BenZvi 31

B. J. Whelan 30

S. Yoshida 30

A. Goldschmidt 29

A. Hallgren 29

A. Ishihara 29

A. Kappes 29

A. Karle 29

A. R. Fazely 29

C. Bohm 29

C. De Cleroq 29

Fuente: Elaboración propia

Page 49: Análisis de la minería de datos aplicada en empresas del ...

37

Ilustración 10: Gráfico de participación por número de publicaciones por autor de la

base de datos “IOP Science” Fuente: Elaboración propia

Como se puede apreciar, el número de publicaciones por autores, es similar. Con

excepción de J.J. Beathy, quien es el autor con mayor número de publicaciones referentes

a “Data mining” en la base de datos del IOP Science.

3. Science Direct

Se siguió con la metodología para la búsqueda en las bases de datos.

Dado que esta base de datos trabaja en ambos idiomas, tanto inglés como español, se

hizo en primera instancia el filtrado por palabras de búsqueda en inglés. Es así que se

obtuvo la siguiente información:

40

3534

33

33

32

31313030

29

29

29

29

2929

29

29

Número de artículos por autor

J.J. Beatty

M. Ahlers

J. G. Gonzalez

S. Sarkar

S. Westerhoff

A. Keivani

H. Dembinski

S. BenZvi

Page 50: Análisis de la minería de datos aplicada en empresas del ...

38

Tabla 8

Filtración de la base de datos Science Direct” en inglés

Palabras de

busqueda

1951-

2000

2001-

2014 2015 2016 2017 2018 2019 TOTAL

%

PARTCIPACIÓN

Data mining +

retail 0 8 1 3 1 5 3 21 3.24%

Data mining +

retail +

supermarkets

0 2 0 0 0 1 1 4 0.62%

Data mining +

supermarket +

sales

0 2 0 0 0 0 0 2 0.31%

Others papers

about data

mining

11 306 57 64 63 68 52 621 95.83%

Data mining 11 318 58 67 64 74 56 648 100.00%

Fuente: Elaboración propia

Ilustración 11: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Science Direct” Fuente: Elaboración propia

3.24%0.62%

0.31%

95.83%

% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES

Data mining + retail Data mining + retail + supermarkets

Data mining + supermarket + sales Others papers about data mining

Page 51: Análisis de la minería de datos aplicada en empresas del ...

39

Se continuó con el filtrado en español, para lo cual se obtuvo la siguiente información:

Tabla 9

Filtración de la base de datos “Science Direct” en español

Palabras de

búsqueda

1951-

2000

2001-

2014 2015 2016 2017 2018 2019 TOTAL

%

PARTCIPACIÓN

Minería de

datos + retail 0 0 0 0 0 0 0 0 0.00%

Minería de

datos + retail +

supermercados

0 0 0 0 0 0 0 0 0.00%

Minería de

datos +

supermercados

+ ventas

0 0 0 0 0 0 0 0 0.00%

Otros papers

referidos a

minería de datos

0 0 0 0 0 0 1 1 100.00%

Minería de datos 0 0 0 0 0 0 1 1 100.00%

Fuente: Elaboración propia

Ilustración 12: Gráfico de participación por filtrado de búsqueda en español de la base de

datos “Science Direct” Fuente: Elaboración propia

0.00%0.00% 0.00%

100.00%

% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN ESPAÑOL

Minería de datos + retail Minería de datos + retail + supermercados

Minería de datos + supermercados + ventas Otros papers referidos a mineria de datos

Page 52: Análisis de la minería de datos aplicada en empresas del ...

40

En la base de datos de Science Direct se cuenta con una cantidad de información

importante para la investigación; sin embargo, como se puede apreciar, esta información

está en su mayoría, por no decir es su totalidad en inglés.

Se continuará presentando la información obtenida de la base de datos Science Direct

con respecto al número de publicaciones en los diferentes años, dicha información se

presenta a continuación:

Tabla 10

Participación de publicaciones respecto al año de publicación de la base de datos “Science

Direct”

Año Número

de papers

%

Participación

Año 1951-

2000 11 1.69%

Año 2001-

2014 318 49.00%

Año 2015 58 8.94%

Año 2016 67 10.32%

Año 2017 64 9.86%

Año 2018 74 11.40%

Año 2019 57 8.78%

Fuente: Elaboración propia

Page 53: Análisis de la minería de datos aplicada en empresas del ...

41

Ilustración 13: Gráfico de participación por año de publicación de la base de datos “Science

Direct” Fuente: Elaboración propia

Con la información mostrada se puede visualizar que el año en donde se dieron mayor

número de publicaciones fue el año 2018, por lo que la información obtenida de esta base

de datos, es actualizada.

1.69%

49.00%

8.94%

10.32%

9.86%

11.40%

8.78%

% Participación por año de publicación

Año 1951-2000 Año 2001-2014 Año 2015 Año 2016

Año 2017 Año 2018 Año 2019

Page 54: Análisis de la minería de datos aplicada en empresas del ...

42

4. Scielo

Al igual que las anteriores bases de datos, se ha filtrado en primer lugar por palabras de

búsqueda en español, dando como resultado:

Tabla 11

Filtración de la base de datos “Scielo” en español

Palabra de

búsqueda

1951-

2000

2001-

2014 2015 2016 2017 2018 2019 TOTAL

%

PARTCIPACIÓN

Minería de datos

+ técnicas 0 35 13 6 0 7 2 63 25%

Minería de datos

+ retail 0 0 0 0 0 0 0 0 0%

Minería de datos

+ retail +

supermercados

0 0 0 0 0 0 0 0 0%

Minería de datos

+ supermercados

+ ventas

0 0 0 0 0 0 0 0 0%

Otros papers

referidos a

minería de datos

5 88 16 20 37 14 5 185 75%

Minería de datos 5 123 29 26 37 21 7 248 100%

Fuente: Elaboración propia

Page 55: Análisis de la minería de datos aplicada en empresas del ...

43

Ilustración 14: Gráfico de participación por filtrado de búsqueda en español de la base de

datos “Scielo” Fuente: Elaboración propia

Se continuó con el filtrado de búsqueda en inglés

Tabla 12

Filtración de la base de datos “Scielo” en inglés

Palabra de

búsqueda 1995 2001 2015 2016 2017 2018 2019 TOTAL

%

PARTCIPACIÓN

Data mining +

retail 0 2 0 0 0 1 0 3 0%

Data mining +

retail +

supermarkets

0 0 0 0 0 0 0 0 0%

Data mining +

supermarket +

sales

0 2 0 0 0 1 0 3 0%

Others papers

about data

mining

11 605 90 96 27 89 48 966 99%

Data mining 11 609 90 96 27 91 48 972 100%

Fuente: Elaboración propia

25%

0%

0%

0%

75%

% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN ESPAÑOL

Minería de datos + técnicas Minería de datos + retail

Minería de datos + retail + supermercados Minería de datos + supermercados + ventas

Otros papers referidos a minería de datos

Page 56: Análisis de la minería de datos aplicada en empresas del ...

44

Ilustración 15: Gráfico de participación por filtrado de búsqueda en inglés de la base de datos

“Scielo” Fuente: Elaboración propia

Como se puede apreciar, al igual que en otras ocasiones, la información proviene más

por búsquedas en inglés que en español; sin embargo, es poca la información que se puede

obtener respecto al tema escogido.

Se continuo la filtración por años, para conocer el año en donde se hicieron mayores

publicaciones sobre Minería de datos o Data mining.

0%0% 0%

99%

% PARTCIPACIÓN POR FILTRADO DE PALABRA DE BÚSQUEDA EN INGLES

Data mining + retail Data mining + retail + supermarkets

Data mining + supermarket + sales Others papers about data mining

Page 57: Análisis de la minería de datos aplicada en empresas del ...

45

Tabla 13

Participación de publicaciones respecto al año de publicación de la base de datos “Scielo”

Año Número de papers % Participación

Año 1951-2000 16 1.31%

Año 2001-2014 732 60.00%

Año 2015 119 9.75%

Año 2016 122 10.00%

Año 2017 64 5.25%

Año 2018 112 9.18%

Año 2019 55 4.51%

Fuente: Elaboración propia

Ilustración 16: Gráfico de participación por año de publicación de la base de datos “Scielo”

Fuente: Elaboración propia

1.31%

60.00%9.75%

10.00%

5.25% 9.18%

4.51%

% Participación por año de publicación

Año 1951-2000 Año 2001-2014 Año 2015 Año 2016

Año 2017 Año 2018 Año 2019

Page 58: Análisis de la minería de datos aplicada en empresas del ...

46

Como se puede apreciar entre los últimos 5 años, el 2016 fue el año en donde se

realizaron más publicaciones referentes a Minería de datos o Data mining, se puede decir

que la información obtenida de esta base de datos, se mantiene actualizada con respecto al

tema.

5. Artículos revisados

A continuación, se muestran estadísticas sobre las publicaciones que se usaron para la

presente investigación, es así que en primera instancia se muestra una tabla con datos

referentes a cada una de las publicaciones mostradas como referencia al final del artículo.

Se tomó en cuenta el nombre del artículo, la cantidad de veces que fue citado por otras

personas, la base de datos de donde se sacó, la revista que publicó dicho artículo, su año

de publicación y finalmente el país de origen de la publicación

Page 59: Análisis de la minería de datos aplicada en empresas del ...

47

Tabla 14

Información referente a artículos revisados

Nombre del artículo

Veces

que fue

citado

Base de Datos Revista Año de

publicación

País de

origen

1

Benefits and Issues

Surrounding Data Mining and its

Application in the Retail

Industry

5 Google

Académico

International Journal of

Scientific and Research

Publication

2014 India

2

Minería de datos como

herramienta para el desarrollo de

estrategias de mercadeo B2B en

sectores productivos, afines a los

colombianos: Una revisión de

casos Sotavento MBA

4 Google

Académico Sotavento MBA 2013 Colombia

3 Secure Big Data using QKD

protocols. 0 Science Direct

Procedia Computer

Science 2019 USA

4 Applications of Data Mining

in Retail Business 136

Google

Académico Computer Society 2018 USA

5

Enhanced Decsion Making

using Data Mining: Applications

for Retails.

15 Google

Académico

Journal of Textile and

Apparel, technology and

Management (JTATM)

2002 USA

Page 60: Análisis de la minería de datos aplicada en empresas del ...

48

6

Data mining techniques for

marketing, sales and customer

support

500 Google

Académico

USA: John Wiley and

Sons 1997 India

7

Data mining as a tool to

predict churn behavior of

customers

11 Google

Académico

International Journal of

Computer & Organization

Trends

2012 India

8 Potenciales Aplicaciones de la

Minería de Datos en Ecuador 6

Google

Académico

Revisa Tecnológica

ESPOL-RTE 2016 Ecuador

9

A Study on the Applications

of Data Mining Techniques to

Enhance Customer Lifetime

Value

26 Google

Académico

Information science and

applications 2009 Taiwán

10

Implementation of Data

Mining on Online Shop in

Indonesia.

13 IOP Science

IOP Conference Series:

Materials Science and

Engineering

2018 Indonesia

11

Application of data mining

techniques in stock markets: A

survey

72 Google

Académico

Journal of Economics and

International Finance 2010 Iran

12 Aplicaciones de Minería de

datos en Marketing 6

Google

Académico Revista Publicando 2016 Ecuador

13 Parallel Data Mining on

Graphics Processors 25

Google

Académico Technical Report HKUST 2008 Japón

Page 61: Análisis de la minería de datos aplicada en empresas del ...

49

14 Minería de Datos: Conceptos

y Tendencias 85

Google

Académico

Revista Iberoamericana de

Inteligencia Artificial 2006 España

15 Data Mining Standards

Initiatives 113

ACM Digital

Library

Communications Of The

Acm 2002 India

16

An introduction to data

mining and other techniques for

advanced analytics

29 Google

Académico

Journal of Direct, Data

and Digital Marketing

Practice

2010 Reino

Unido

17

Análisis de técnicas de Big

Data y su aprovechamiento

actual para la trangillsformación

digital de pymes

0 Google

Académico

Universidad de Castilla-

La Mancha 2018 España

18

Data mining techniques for

customer relationship

management

248 Science Direct Technology in Society 2014 Taiwán

19

Data mining y el

Descubrimiento del

conocimiento.

35 Redalyc

Revista de la Facultad de

Ingeniería Industrial de la

Universidad Nacional Mayor

de San Marcos

2014 Perú

20

Exchanging Data Mining

Models with the Predictive

Modelling Markup Language

28 Google

Académico

LIACC-University of

Porto 2001 Alemania

Fuente: Elaboración propia

Page 62: Análisis de la minería de datos aplicada en empresas del ...

50

6. Citaciones por artículo revisado

La tabla que sigue a continuación nuestra solo el número de veces que fue citada cada

uno de los artículos a los cuales se hizo referencia.

Tabla 15

Cantidad de citaciones por artículo revisado

Nombre del artículo

Veces

que fue

citado

1 Benefits and Issues Surrounding Data Mining and its Application in

the Retail Industry 5

2

Minería de datos como herramienta para el desarrollo de estrategias de

mercadeo B2B en sectores productivos, afines a los colombianos: Una

revisión de casos Sotavento MBA

4

3 Secure Big Data using QKD protocols. 0

4 Applications of Data Mining in Retail Business 136

5 Enhanced Decision Making using Data Mining: Applications for

Retails. 15

6 Data mining techniques for marketing, sales and customer support 500

7 Data mining as a tool to predict churn behavior of customers 11

8 Potenciales Aplicaciones de la Minería de Datos en Ecuador 6

9 A Study on the Applications of Data Mining Techniques to Enhance

Customer Lifetime Value 26

10 Implementation of Data Mining on Online Shop in Indonesia. 13

11 Application of data mining techniques in stock markets: A survey 72

12 Aplicaciones de Minería de datos en Marketing 6

13 Parallel Data Mining on Graphics Processors 25

14 Minería de Datos: Conceptos y Tendencias 85

15 Data Mining Standards Initiatives 113

Page 63: Análisis de la minería de datos aplicada en empresas del ...

51

16 An introduction to data mining and other techniques for advanced

analytics 29

17 Análisis de técnicas de Big Data y su aprovechamiento actual para la

transformación digital de pymes 0

18 Data mining techniques for customer relationship management 248

19 Data mining y el Descubrimiento del conocimiento. 35

20 Exchanging Data Mining Models with the Predictive Modelling

Markup Language 28

Fuente: Elaboración propia

Dada la información obtenida, se procede a mostrar la información antes dado de

manera textual, para que sea más sencillo entender y visualizar que artículos obtuvieron

mayor cantidad de citaciones, cuales tuvieron menos y cuales obtuvieron una cantidad de

citaciones considerable.

Page 64: Análisis de la minería de datos aplicada en empresas del ...

52

Ilustración 17: Gráfico de la cantidad de citaciones por cada artículo revisado. Fuente:

Elaboración propia

De este modo se puede apreciar que el artículo citado mayor cantidad de veces es el titulado

“Data mining techniques for marketing, sales and customer support”, el cual tiene 500 citaciones.

Muy por el contrario, la publicación titulada “Análisis de técnicas de Big Data y su

aprovechamiento actual para la transformación digital de pymes”, no cuenta con ninguna citación,

al igual que “Secure Big Data using QKD protocols.

Cabe resaltar que el número de citaciones brindadas por las bases de datos no son 100%

confiables, dado que para que la base de datos cuantifique una citación debe seguir su proceso

respectivo.

0 100 200 300 400 500 600

Benefits and Issues Surrounding Data Mining and its…

Minería de datos como herramienta para el desarrollo…

Secure Big Data using QKD protocols.

Applications of Data Mining in Retail Business

Enhanced Decsion Making using Data Mining:…

Data mining techniques for marketing, sales and…

Data mining as a tool to predict churn behavior of…

Potenciales Aplicaciones de la Minería de Datos en…

A Study on the Applications of Data Mining Techniques…

Implementation of Data Mining on Online Shop in…

Application of data mining techniques in stock markets:…

Aplicaciones de Minería de datos en Marketing

Parallel Data Mining on Graphics Processors

Minería de Datos: Conceptos y Tendencias

Data Mining Standards Initiatives

An introduction to data mining and other techniques…

Análisis de técnicas de Big Data y su aprovechamiento…

Data mining techniques for customer relationship…

Data mining y el Descubrimiento del conocimiento.

Exchanging Data Mining Models with the Predictive…

Número de veces que fue citado

No

mb

re d

el

art

ícu

lo

Veces que fue citado cada artículo

Page 65: Análisis de la minería de datos aplicada en empresas del ...

53

7. Artículos revisados por Base de datos

Para conocer la base de datos que nos ha brindado mayor cantidad de información se ha

agrupado nuestras referencias según su base de datos de origen, lo cual nos ha permitido

conocer, la base de datos que fue de mayor utilidad.

Siendo así se tiene la siguiente información organizada:

Tabla 16

Cantidad de artículos revisados por Base de Datos

Nombre de Base de

Datos

Cantidad de

artículos revisados

Scholar Google 15

IOP Science 1

ACM Digital

Library 1

Science Direct 2

Redalyc 1

Fuente: Elaboración propia

Ilustración 18: Gráfica de cantidad de artículos revisados por Base de Datos. Fuente: Elaboración

propia

15

1

1 2 1

Cantidad de artículos revisados por Base de Datos

Google Académico IOP Science ACM Digital Library

Science Direct Redalyc

Page 66: Análisis de la minería de datos aplicada en empresas del ...

54

La base de datos que colaboró con mayor cantidad de información es el “Scholar

Google”, esto se debe a la cantidad de publicaciones con las que cuenta y que además

permite hacer una filtración avanzada para no leer publicaciones que no sean útiles a la

investigación.

8. Año de publicación de los artículos revisados

Continuando con las clasificaciones, se muestra a continuación todas las referencias

bibliográficas en la investigación, lo cual nos permitirá conocer el año o los años que

representan mayor cantidad de información.

Tabla 17

Cantidad de artículos revisados por año de publicación

Año de publicación

de revista

Cantidad de artículos

revisados

1997 1

2001 1

2002 2

2006 1

2008 1

2009 1

2010 2

2012 1

2013 1

2014 3

2016 2

2018 3

2019 1

Fuente: Elaboración propia

Page 67: Análisis de la minería de datos aplicada en empresas del ...

55

Ilustración 19: Gráfico de cantidad de artículos revisados por año de publicación. Fuente:

Elaboración propia

Como se puede ver tanto en la tabla como en la gráfica, hay un creciente poco constante,

aun así, se puede ver la tendencia positiva de la cantidad de artículos publicados por año,

además con esta información se puede dar a conocer que los años consultados con mayor

frecuencia han sido el año 2014 y el año 2018, por lo que se puede decir que la información

está actualizada al mercado actual.

0

0.5

1

1.5

2

2.5

3

3.5

1997 2001 2002 2006 2008 2009 2010 2012 2013 2014 2016 2018 2019

Ca

nti

da

d d

e a

rtíc

ulo

s

Año de publicación

Cantidad de artículos revisados por año de

pubicación

Page 68: Análisis de la minería de datos aplicada en empresas del ...

56

9. Ubicación geográfica de países en los que se publicaron los artículos revisados

Ilustración 20: Ubicación geográfica de los países en los que se publicaron los artículos

revisados. Fuente: Elaboración propia

En lo mostrado anteriormente, se puede apreciar los países de donde viene la

información consultada, dándonos cuenta que el continente con mayor aporte al tema es el

asiático, mientras que no se ha hallado información relevante en continentes como África

y Oceanía.

Page 69: Análisis de la minería de datos aplicada en empresas del ...

57

10. Cantidad de artículos revisados por país

Tabla 18

Cantidad de artículos revisados por país de publicación

País de origen Cantidad de artículos

revisados

India 4

Colombia 1

USA 3

Ecuador 2

Taiwán 2

Indonesia 1

Irán 1

Japón 1

España 2

Reino Unido 1

Perú 1

Alemania 1

Fuente: Elaboración propia

Page 70: Análisis de la minería de datos aplicada en empresas del ...

58

Ilustración 21: Gráfico de la cantidad de artículos revisados por país de publicación. Fuente:

Elaboración propia

Con la información mostrada previamente se puede notar que la India es el país con

mayor número de artículos publicados, lo cual la hace una fuente de continua búsqueda de

información referente al tema planteado. Mientras que países como Ecuador, Indonesia,

Alemania, Reino Unido, entre otros no presentan el mismo compromiso con lo referente a

minería de datos, a pesar de ser un tema de gran importancia a las empresas.

0

1

2

3

4

5

Cantidad de artículos revisados

Cantidad de árticulos revisados por país de

publicación

India Colombia USA Ecuador

Taiwán Indonesia Iran Japón

España Reino Unido Perú Alemania

Page 71: Análisis de la minería de datos aplicada en empresas del ...

59

CAPÍTULO V

ANÁLISIS DE RESULTADOS

Como resultados de la investigación bibliográfica se obtuvo información sobre la minería de

datos su evolución, sus aplicaciones y métodos de aplicación mediante sus diversas técnicas que

posee entre las que tenemos a las redes neuronales, regresión lineal, árboles de decisión, reglas de

asociación, agrupamiento, análisis factorial, series de tiempo y pronósticos.

Se buscó información acerca del modo de aplicación de las diferentes técnicas de minería de

datos en empresas del sector retail, aun cuando no se pudo obtener la información de la aplicación

de técnicas específicas, se obtuvo la información referente a la aplicación de la minería de datos

en general en empresas del sector retail como: Master Card, Wal Mart, Burger King, Tesco, Papas

“Chips” y una tienda online en Indonesia. Siendo así se logró el objetivo general de conocer cómo

empresas aplican la minería de datos, ahora bien, cabe resaltar que esta aplicación varía según el

tamaño de la empresa, su estructura, sus objetivos propios, entre otros, es así que dos empresas

muy similares entre sí, pueden usar de manera diferente la minería de datos.

Finalmente, en la bibliometría se encontraron resultados cuantificados, a manera de tablas

estadísticas para mostrar a futuros investigadores las bases de datos con mayor información y que

podrían serle de utilidad a la hora de buscar información sobre la Minería de datos y el modo en

que empresas del sector retail la aplican, para lo cual se recomienda en gran medida comenzar por

una búsqueda en inglés, además se encontró que India era el país con mayor cantidad de artículos

publicados, por lo que para futuras investigaciones debe ser considerado como primera fuente de

información, al igual que el software de Scholar Google.

Page 72: Análisis de la minería de datos aplicada en empresas del ...

60

CAPÍTULO VI

CONCLUSIONES Y RECOMENDACIONES

- La minería de datos es una herramienta tecnológica que posee técnicas que le permiten extraer

información útil de la base de datos de la empresa, para poder usarla en la toma de decisiones

de cada organización.

- El concepto de minería de datos está inmerso dentro de lo que se conoce como Big Data, además

muchas veces el término Minería de datos es confundido con el término aplicado a KDD.

- Las técnicas de minería de datos usadas por las diferentes empresas son: redes neuronales,

regresión lineal, árboles de decisión, reglas de asociación, agrupamiento, análisis factorial,

series de tiempo y pronósticos.

- La minería de datos (Data mining) puede ser aplicada a empresas de todo tipo, y brindan grandes

ventajas competitivas a las pertenecientes al sector retail.

- La aplicación de la minería de datos en empresas del sector retail, va más allá de una simple

recopilación de información, ya que no toda la información es útil y hay que saber qué busca la

empresa, para poder definir cómo debe segmentar su información para hacer un uso adecuado

de la misma.

- La minería de datos es una herramienta que ayuda a mejorar la toma de decisiones en empresas

del sector retail, más no es una herramienta generadora de alternativas de solución a un

determinado problema que presente la empresa. Es por ello que es necesario un personal

encargado que analice los datos procesados por la herramienta, vea su proyecciones y los

posibles efectos en la empresa, después del análisis correspondiente, se puede tomar una

decisión que permitirá mejorar la empresa.

- Las decisiones tomadas por la minería de datos pueden tener desde resultados pequeños hasta

resultados significativos para la empresa del sector, tanto económicamente como en la

percepción que tiene el cliente de la empresa.

- Luego de realizada la bibliometría, se puede concluir que existe una mayor cantidad de

información en inglés que en español, por lo que es recomendable comenzar la búsqueda en

inglés para encontrar mayor información y saber filtrarla de acuerdo a lo que se está buscando,

dado que como minería de datos en general abarca muchos campos.

Page 73: Análisis de la minería de datos aplicada en empresas del ...

61

- Realizada la bibliometría se concluye que la base de datos con mayor información con respecto

a la minería de datos es “Scholar Google”, seguido de “Scielo” y finalmente de “IOP Science”,

las cuales se consideran como principales bases de datos para la búsqueda de información.

- Para tener información más actualizada se recomienda recopilar información de documentos

publicados en los últimos cinco años, ya que información pasada puede no ser válida al

momento de realizada la investigación, lo cual haría que se incurran en errores.

- Para empresas que sean nuevas en la aplicación de la minería de datos, se recomienda que

revisen información de empresas similares para conocer las diferentes alternativas que se tienen

a la hora de decidir aplicar la minería de datos.

Page 74: Análisis de la minería de datos aplicada en empresas del ...

62

REFERENCIAS

Agarwal, P. (2014). Benefits and Issues Surrounding Data Mining and its Application in the

Retail Industry. International Journal of Scientific and Research Publication, 2250-3153.

Altamiranda, L, et al. (2013) Minería de datos como herramienta para el desarrollo de estrategias

de mercadeo B2B en sectores productivos, afines a los colombianos: Una revisión de casos

Sotavento MBA, 22, 126-136

Amellal, H., et al (2019) Secure Big Data using QKD protocols. Procedia Computer Science

148, 21–29

Ahmed, S. R. (2018). Applications of Data Mining in Retail Business. Computer Society, 5.

Anderson, J. (2002). Enhanced Decision Making using Data Mining: Applications for Retails.

Journal of Textile and Apparel, technology and Management (JTATM), 14.

Berry, M. J. (1997). Data mining techniques for marketing, sales and customer support. USA:

John Wiley and Sons, 47-50

Bhambri, Vivek (2012). Data mining as a tool to predict churn behavior of customers.

International Journal of Computer & Organization Trends, 2 (3), 29 – 33.

Camana, R. (2016). Potenciales Aplicaciones de la Minería de Datos en Ecuador. ESPOL-RTE,

170-178.

Chia-Cheng Shen, H.-M. C. (2009). A Study on the Applications of Data Mining Techniques to

Enhance Customer Lifetime Value. Information science and applications, 319-328

Chouat O, Irawan AH (2018) Implementation of Data Mining on Online Shop in Indonesia. IOP

Conference Series: Materials Science and Engineering, 1-7

Page 75: Análisis de la minería de datos aplicada en empresas del ...

63

Davari-Ardakani H., Hajizadeh E., Shahrabi J. et al (2010). Application of data mining

techniques in stock markets: A survey. Journal of Economics and International Finance, 2

(7), 109-118

Escobar, et al. (2016). Aplicaciones de Minería de datos en Marketing. Revista Publicando, 3

(8), 503 – 512.

Fang W. et al. (2008). Parallel Data Mining on Graphics Processors. Technical Report HKUST-

CS08-07, 10.

Gilbert, Karina; et al. (2006). Minería de Datos: Conceptos y Tendencias. Revista

Iberoamericana de Inteligencia Artificial, 26, 11-18.

Grossman R., Hornick M, Meyer G. (2002). Data Mining Standards Initiatives. Communications

Of The Acm, 59-61.

Gutiérrez, Moreno, et al (2019). Uso de Sistemas Inteligentes para la detección de fraudes

financieros. Sinergia, 1, 1-25.

Leventhal, Barry (2010). An introduction to data mining and other techniques for advanced

analytics. Journal of Direct, Data and Digital Marketing Practice, 10, 137-153.

Murcia, S. y Quintero, S. (2017). Minería De Datos Aplicada Al Segmento Retail De Los Gases

Industriales (Trabajo para la especialización en gerencia de mercadeo estratégico).

Universidad Piloto, Bogota, Colombia.

Paz J. (2016). Cuadro de Mando Integral desarrollado para una empresa del Sector Retail

(Trabajo de Aplicativo final para Diplomado de Especialización Gerencial). Universidad

Peruana de Ciencias Aplicadas, Lima, Perú.

Page 76: Análisis de la minería de datos aplicada en empresas del ...

64

Polo, A. (2016). Minería de Datos, de Textos y Sentimientos (Trabajo de investigación). Instituto

Tecnológico de Orizaba, Veracruz, Mexico.

Requena Cabot María de Fátima (2018). Análisis de técnicas de Big Data y su aprovechamiento

actual para la trangillsformación digital de pymes. Universidad de Castilla- La Mancha, 13

Rygielski Chris, et al (2002). Data mining techniques for customer relationship management.

Technology in Society, 24, 483-502

Valcárcel, Violeta (2014). Data mining y el Descubrimiento del conocimiento. Revista de la

Facultad de Ingeniería Industrial de la Universidad Nacional Mayor de San Marcos, 7 (2),

83 – 86.

Wettschereck D., Muller S. (2001). Exchanging Data Mining Models with the Predictive

Modelling Markup Language. LIACC-University of Porto, 12.

Zuluaga, A. (2011). Importancia de la minería de datos en la construcción del Kapital Cliente

(Trabajo de grado). Colegio de Estudios Superiores de Administración, Colombia, Bogotá.