Data Mining

La minería de datos

La minería de datos (la etapa de análisis del "Descubrimiento de Conocimiento en Bases de Datos" proceso o KDD), [1] un subcampo interdisciplinario de ciencias de la computación, [2] [3] [4] es el proceso de cálculo de descubrir patrones en grandesconjuntos de datos ("Big Data") que implica métodos en la intersección de la inteligencia artificial, aprendizaje automático,estadística y sistemas de bases de datos. [2] El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. [2] Además de la etapa de análisis en bruto, que implica base de datos y gestión de datos de aspectos, los datos pre-procesamiento, el modelo y la inferencia consideraciones, métricas Intereses, complejidad consideraciones, post-procesamiento de las estructuras descubiertas, la visualización y actualización en línea . [2]

El término es un término equivocado, porque el objetivo es la extracción de patrones y el conocimiento de la gran cantidad de datos, no la extracción de datos en sí. [5] También es una palabra de moda [6] y se aplica con frecuencia a cualquier forma de a gran datos de la escala o procesamiento de la información (recogida, extracción, almacenamiento, análisis y estadísticas), así como cualquier aplicación del sistema de apoyo a la decisión del ordenador, incluyendo la inteligencia artificial, el aprendizaje automático y la inteligencia empresarial. El popular libro "La minería de datos: herramientas de aprendizaje automático prácticas y técnicas con Java"[7] (que abarca principalmente el aprendizaje automático de materiales) fue originalmente para ser llamado simplemente "la máquina de aprendizaje práctico", y el término "minería de datos", sólo se ha añadido para razones de marketing. [8] A menudo los términos más generales "(gran escala) el análisis de datos", o "análisis" - o cuando se refiere a los métodos actuales, la inteligencia artificial yaprendizaje automático - son más apropiados.

La tarea de minería de datos real es el análisis automático o semi-automático de grandes cantidades de datos para extraer, patrones interesantes hasta ahora desconocidas, tales como grupos de registros de datos (análisis de conglomerados), registros inusuales(detección de anomalías) y dependencias (minería de reglas de asociación) . Esto generalmente implica el uso de técnicas de bases de datos como índices espaciales. Estos patrones pueden ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en otros análisis o, por ejemplo, en la máquina de aprendizaje y análisis predictivo. Por ejemplo, el paso de la minería de datos puede identificar varios grupos en los datos, que luego se pueden utilizar para obtener resultados más precisos por predicción de un sistema de soporte de decisión. Ni la recopilación de datos, preparación de datos, ni interpretación de los resultados y presentación de informes son parte de la etapa de extracción de datos, pero que pertenecen al proceso general KDD como pasos adicionales.

El relacionadas términos dragado de datos, la pesca de datos y espionaje datos se refieren a la utilización de métodos de minería de datos para probar las partes de un conjunto de datos de población mayor que (o puede ser) demasiado pequeño para inferencias estadísticas fiables que hacer acerca de la validez de cualquier patrones descubiertos. Estos métodos pueden, sin embargo, ser utilizados en la creación de nuevas hipótesis para probar en contra de las poblaciones más grandes de datos.

Contenidos

1 Etimología 2 Antecedentes

o 2.1 Investigación y evolución 3 Proceso

o 3.1 Pre-procesamientoo 3.2 La minería de datoso Validación 3.3 Resultados

4 Normas 5 usos notables 6 preocupaciones de privacidad y la ética

o 6.1 Situación en Europao 6.2 Situación en los Estados Unidos

Ley 7 Derechos de Autoro 7.1 Situación en Europao 7.2 Situación en los Estados Unidos

8 Softwareo 8.1 Programas gratis de datos de código abierto y aplicaciones de mineríao 8.2 Comercial software de minería de datos y aplicacioneso 8.3 encuestas de mercado

9 Véase también 10 Referencias 11 Lectura adicional 12 Enlaces externos

Etimología

En la década de 1960, los estadísticos utilizan términos como "Pesca de datos" o "datos de dragado" para referirse a lo que ellos consideraban la mala práctica de análisis de datos sin una hipótesis a priori. El término "minería de datos" apareció alrededor de 1990 en la comunidad de base de datos. Por un corto tiempo en la década de 1980, una frase "minería de base de datos" ™, se utilizó, pero desde que fue registrado como marca por HNC, una empresa con sede en San Diego, para lanzar su base de datos Minería de estación de trabajo; [9] investigadores consiguiente recurrieron a "minería de datos ". Otros términos utilizados incluyen datos Arqueología, Información cosecha, información Descubrimiento, extracción de conocimiento, etc. Gregory Piatetsky-Shapiro acuñó el

término "Descubrimiento de Conocimiento en Bases de Datos" para el primer taller sobre el mismo tema (KDD-1989) y este término se hizo más popular en la IA y máquina Comunidad de Aprendizaje. Sin embargo, la minería de datos término se hizo más popular en las comunidades de negocios y de prensa. [10] En la actualidad, la minería de datos y descubrimiento de conocimiento se utilizan indistintamente. Desde aproximadamente 2007, "Análisis Predictivo" y desde 2011, los términos "Ciencia de datos" se utiliza también para describir este campo.

Antecedentes

La extracción manual de los patrones de datos se ha producido durante siglos. Los primeros métodos para identificar patrones en los datos incluyen el teorema de Bayes (1700) y el análisis de regresión (1800). La proliferación, ubicuidad y el aumento del poder de la tecnología informática ha aumentado dramáticamente la recopilación de datos, almacenamiento y capacidad de manipulación. Comolos conjuntos de datos han crecido en tamaño y complejidad, "hands-on" directos análisis de datos ha cada vez más han aumentado con el procesamiento de datos indirectos, automatizado, con la ayuda de otros descubrimientos en ciencias de la computación, tales como las redes neuronales, análisis de conglomerados, los algoritmos genéticos (1950) , árboles de decisión y reglas de decisión(1960), y las máquinas de vectores soporte (1990). La minería de datos es el proceso de la aplicación de estos métodos con la intención de descubrir patrones ocultos [11] en grandes conjuntos de datos. Se cierra la brecha de estadística aplicada y la inteligencia artificial (que por lo general proporciona la base matemática) para la gestión de bases de datos mediante la explotación de los datos de manera que se almacena y indexadas en bases de datos para ejecutar los algoritmos de aprendizaje y descubrimiento reales de manera más eficiente, lo que permite que tales métodos se pueden aplicar a conjuntos de datos cada vez más grandes.

La investigación y la evolución

El cuerpo profesional de primera clase en el campo es la Association for Computing Machinery 's (ACM) Grupo de Interés Especial (SIG) en el Descubrimiento de Conocimiento y Minería de Datos (SIGKDD). [12] [13] Desde 1989 este ACM SIG ha acogido una anual internacional conferencias y publicado sus trabajos, [14] y desde 1999 se ha publicado un bianual revista académica titulada "SIGKDD Exploraciones". [15]

Conferencias ciencias de la computación en la minería de datos incluyen:

Conferencia CIKM - ACM Conferencia de Información y Gestión del Conocimiento DMIN Conferencia - Conferencia Internacional sobre Minería de Datos DMKD Conferencia - Temas de Investigación en Minería de Datos y Descubrimiento

de Conocimiento ECDM Conferencia - Conferencia Europea sobre Data Mining

ECML-PKDD Conferencia - Conferencia Europea sobre el aprendizaje de la máquina y los Principios y Práctica de Descubrimiento de Conocimiento en Bases de Datos

EDM Conferencia - Conferencia Internacional sobre los Datos Educativos Minería Conferencia INFOCOM - IEEE INFOCOM Conferencia ICDM - IEEE Conferencia Internacional sobre Minería de Datos Conferencia KDD - ACM SIGKDD Conferencia de Descubrimiento de Conocimiento y

Minería de Datos MLDM Conferencia - Aprendizaje Automático y Minería de Datos en

reconocimiento del patrón Conferencia PAKDD - El informe anual de la Conferencia Asia-Pacífico sobre el

Descubrimiento de Conocimiento y Minería de Datos PAW Conferencia - Análisis Predictivo Mundial SDM Conferencia - SIAM Conferencia Internacional sobre Minería de Datos (SIAM) SSTD Simposio - Simposio sobre las bases de datos espaciales y temporales Conferencia WSDM - ACM Conferencia sobre búsqueda web y minería de datos

Temas de minería de datos también están presentes en muchas conferencias de gestión de datos / base de datos, como la Conferencia ICDE, Conferencia SIGMOD y Conferencia Internacional sobre Very Large Bases de Datos

Proceso

El descubrimiento de conocimiento en bases de datos de proceso (KDD) se define comúnmente con las etapas:

(1) Selección(2) Pre-procesamiento(3) Transformación(4) Data Mining(5) Interpretación / Evaluación. [1]

Existe, sin embargo, en muchas variaciones sobre este tema, como el proceso estándar de la Cruz de la Industria de la Minería de Datos (CRISP-DM), que define seis fases:

(1) La comprensión de negocios(2) La comprensión de datos(3) Preparación de datos(4) Modelado(5) Evaluación(6) Implementación

o un proceso simplificado tal como (1) pre-procesamiento, (2) la minería de datos, y (3) los resultados de la validación.

Encuestas realizadas en 2002, 2004, 2007 y 2014 muestran que la metodología CRISP-DM es la metodología que conduce utilizado por los mineros de datos. [16] La única otra norma de minería de datos denominado en estas encuestas fue SEMMA. Sin embargo, 3-4 veces más personas reportaron el uso de CRISP-DM. Varios equipos de investigadores han publicado opiniones de los modelos de procesos de minería de datos, [17] [18] y Azevedo y Santos realizó una comparación de CRISP-DM y SEMMA en 2008. [19]

Pre-procesamiento

Antes de algoritmos de minería de datos pueden ser utilizados, un conjunto de datos de destino debe ser montado. Como la minería de datos sólo puede descubrir patrones realmente presentes en los datos, el conjunto de datos de destino debe ser lo suficientemente grande como para contener estos patrones sin dejar de ser lo suficientemente concisa para ser explotado dentro de un límite de tiempo aceptable. Una fuente común de datos es un mercado de datos o Data Warehouse. Pre-procesamiento es esencial analizar las variables múltiples conjuntos de datos antes de la minería de datos. El conjunto blanco se limpia. Limpieza de datos elimina las observaciones que contienen el ruido y los que tienen los datos que faltan.

La minería de datos

La minería de datos consiste en seis clases comunes de las tareas: [1]

La detección de anomalías (Outlier / cambiar / detección de desviación) - La identificación de los registros de datos inusuales, que podría haber errores interesantes o datos que requieren mayor investigación.

Regla Asociación aprendizaje (modelado de Dependencia) - La búsqueda de relaciones entre variables. Por ejemplo, un supermercado podría recopilar datos sobre los hábitos de compra de los clientes. El uso de reglas de asociación, el supermercado puede determinar qué productos se compran con frecuencia juntos y utilizar esta información para fines de marketing. Esto se refiere a veces como análisis de la cesta de mercado.

Clustering - es la tarea de descubrir grupos y estructuras en los datos que son de alguna manera u otra "similar", sin necesidad de utilizar las estructuras conocidas en los datos.

Clasificación - es la tarea de generalizar estructura conocida de aplicar a los nuevos datos. Por ejemplo, un programa de correo electrónico podría intentar clasificar un correo electrónico como "legítimo" o como "spam".

Regresión - intenta encontrar una función que los modelos de los datos con el menor error.

Recapitulación - proporcionar una representación más compacta del conjunto de datos, incluyendo la visualización y la generación de informes.

Validación Resultados

La minería de datos sin querer puede ser mal utilizada, y puede entonces producir resultados que parecen ser importantes; pero que en realidad no predecir el comportamiento futuro y no pueden ser reproducidas en una nueva muestra de datos y dar poco uso. A menudo, esto es resultado de la investigación de demasiadas hipótesis y no realizar correctamente la prueba de hipótesis estadística. Una versión simple de este problema en el aprendizaje automático se conoce como sobreajuste, pero el mismo problema puede surgir en diferentes fases del proceso y por lo tanto una división de tren / prueba - en su caso en absoluto -. Puede no ser suficiente para evitar que esto suceda [ cita

requerida]

En esta sección se encuentra información acerca de las tareas no-clasificación en la minería de datos. Sólo cubre aprendizaje automático. Por favor, expanda la sección para incluir esta información. Pueden existir Más detalles en la página de discusión. (Septiembre de 2011)

El paso final de descubrimiento de conocimiento a partir de datos es verificar que los patrones producidos por los algoritmos de minería de datos se producen en el conjunto de datos más amplio. No todos los patrones encontrados por los algoritmos de minería de datos son necesariamente válidas. Es común que los algoritmos de minería de datos para encontrar patrones en el conjunto de entrenamiento que no están presentes en el conjunto de datos general. Esto se llama overfitting. Para superar esto, la evaluación utiliza una prueba de conjunto de datos en los que no se entrenó el algoritmo de minería de datos. Los patrones aprendidos se aplican a este conjunto de prueba, y la salida resultante se compara con la salida deseada. Por ejemplo, un algoritmo de minería de datos tratando de distinguir el "spam" de correos electrónicos "legítimos" sería entrenado en un conjunto de entrenamiento de la muestra e-mails. Una vez capacitados, los patrones aprendidos se aplicarían a la prueba de conjunto de correos electrónicos en los que no había sido entrenado. La precisión de los modelos se puede medir a partir de la cantidad de e-mails que se clasifican correctamente. Un número de métodos estadísticos se puede usar para evaluar el algoritmo, tales comocurvas ROC.

Si los patrones aprendidos no cumplen con los estándares deseados, posteriormente, es necesario volver a evaluar y modificar los pasos mineras pre-procesamiento y datos. Si los patrones aprendidos hacer cumplir los estándares deseados, el último paso es interpretar los patrones aprendidos y convertirlos en conocimiento.

Normas

Ha habido algunos esfuerzos para definir las normas para el proceso de minería de datos, por ejemplo, el 1999 Europeo Proceso Cruz estándar de la industria para la minería de datos(1,0 CRISP-DM) y la 2004 de datos de Java Minería estándar (JDM 1,0). Desarrollo de sucesores de estos procesos (2.0 y 2.0 JDM CRISP-DM) estuvo activo en 2006, pero se ha estancado desde entonces. JDM 2.0 fue retirada sin llegar a un proyecto final.

Para el intercambio de los modelos extraídos - en particular, para su uso en el análisis predictivo - la norma fundamental es la Predictive Model Markup Language (PMML), que es unXML lenguaje basado desarrollado por el Grupo de Minería de Datos (DMG) y apoyado como formato de intercambio por muchos aplicaciones de minería de datos. Como su nombre lo indica, sólo cubre los modelos de predicción, una tarea de minería de datos en particular de gran importancia para las aplicaciones de negocio. Sin embargo, las extensiones para cubrir (por ejemplo) la agrupación subespacio se han propuesto independientemente de la DMG. [20]

Usos notables

Artículo principal: Ejemplos de minería de datosVer también: Categoría: Se aplica la minería de datos.

La minería de datos se utiliza siempre que haya datos digitales disponibles hoy en día. Notables ejemplos de minería de datos se pueden encontrar en los negocios, la medicina, la ciencia y la vigilancia.

Preocupaciones sobre la privacidad y la ética

Mientras que la "minería de datos" plazo en sí no tiene implicaciones éticas, a menudo asociados con la extracción de información en relación con el comportamiento de los pueblos (ética y de otro tipo). [21]

Las formas en que la minería de datos se puede utilizar puede en algunos casos y contextos plantean cuestiones relativas a la privacidad, la legalidad y la ética. [22] En particular, el gobierno de minería de datos o conjuntos de datos comerciales para fines de seguridad o policiales nacionales, como en el total Information Awareness Program o ADVISE, ha planteado preocupaciones sobre la privacidad. [23] [24]

La minería de datos requiere la preparación de datos que puede descubrir información o patrones que pueden poner en peligro las obligaciones de confidencialidad y privacidad. Una forma común para que esto ocurra es a través de la agregación de datos. La agregación de datos implica la combinación de datos en conjunto (posiblemente de varias fuentes) de una manera que facilite el análisis (pero que también puede hacer que la identificación de los datos privados a nivel individual deducible o no aparente). [25] Esto no es la minería de datosen sí, sino resultado de la preparación de los datos antes - y para los fines de - el análisis. La amenaza a la privacidad de un individuo

entra en juego cuando los datos, una vez recopilados, hacen que el minero de datos, o cualquier persona que tenga acceso al conjunto de datos recién compilado, para poder identificar a los individuos específicos, sobre todo cuando los datos fueron originalmente anónima. [ 26] [27] [28]

Se recomienda que un individuo se hace consciente de lo siguiente antes de que se recolectó la información: [25]

la finalidad de la recogida de datos y cualquier (conocidas) proyectos de minería de datos;

cómo se utilizarán los datos; que será capaz de extraer los datos y el uso de los datos y sus derivados; el estado de seguridad que rodea el acceso a los datos; cómo se pueden actualizar los datos recogidos.

Los datos también pueden ser modificados a fin de convertirse en el anonimato, por lo que los individuos no pueden ser fácilmente identificados. [25] conjuntos Sin embargo, incluso "de identificados" / "anónimos" de datos potencialmente pueden contener suficiente información para permitir la identificación de los individuos, como ocurrió cuando los periodistas pudieron encontrar varios individuos sobre la base de un conjunto de historias de búsqueda que se publicaron de forma inadvertida por AOL. [29]

Situación en Europa

Europa tiene leyes de privacidad más fuertes, y los esfuerzos están en marcha para fortalecer aún más los derechos de los consumidores. Sin embargo, los Principios de Puerto Seguro entre Estados Unidos y la UE actualmente exponga efectivamente usuarios europeos a la explotación privacidad por empresas estadounidenses. Como consecuencia de Edward Snowden 's divulgación de vigilancia global, ha habido una mayor discusión de revocar este acuerdo, ya que, en particular, los datos serán totalmente expuestos a la Agencia de Seguridad Nacional, y los intentos de llegar a un acuerdo han fracasado. [Cita

requerida]

Situación en los Estados Unidos

En Estados Unidos, las preocupaciones de privacidad han sido abordados por el Congreso de Estados Unidos a través de la aprobación de controles reglamentarios, como el Seguro de Salud de Portabilidad y Responsabilidad (HIPAA). La HIPAA requiere que los individuos a dar su "consentimiento informado" con respecto a la información que proporcionan y sus usos actuales y futuros previstos. De acuerdo con un artículo en Biotech Business Week ', "' [e] n la práctica, HIPAA no puede ofrecer cualquier mayor protección que las regulaciones de larga data en el campo de la investigación, dice el AAHC. Más importante aún, el objetivo de la norma de protección a través de consentimiento informado está socavado por la complejidad de los formularios de consentimiento que se requieren de los

pacientes y de los participantes, que se acercan a un nivel de incomprensibilidad a personas promedio. "[30]Esto pone de relieve la necesidad de mantener el anonimato de datos en las prácticas de agregación de datos y minería.

EEUU legislación privacidad de la información, tales como HIPAA y los Derechos Educativos de la Familia y la Ley de Privacidad (FERPA) se aplica sólo a las áreas específicas que cada uno de tales direcciones de abogados. El uso de la minería de datos de la mayoría de los negocios en los EE.UU. no está controlada por ninguna legislación.

Ley de Propiedad Intelectual

Situación en Europa

Debido a la falta de flexibilidad en los derechos de autor Europea y la ley de bases de datos, la minería de obras con derechos de autor, tales como la minería web sin el permiso del propietario del copyright no es legal. Cuando una base de datos son datos puros en Europa no es probable que sea ningún derecho de autor, pero puede existir derechos de base de datos por lo que la minería de datos se convierte en objeto de regulaciones por parte de la Directiva de base de datos. Por recomendación del Hargreaves revisar esto llevó al gobierno del Reino Unido a modificar su ley de derechos de autor en el año 2014 [31] para permitir la minería contenido como una limitación y excepción. Sólo el segundo país del mundo en hacerlo después de Japón, que introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido a la restricción de la Directiva derechos de autor, a excepción del Reino Unido sólo permite la minería contenido para fines no comerciales. La ley de derechos de autor del Reino Unido también no permite que esta disposición a ser anulado por los términos y condiciones contractuales. La Comisión Europea facilitó la discusión de las partes interesadas en el texto y los datos de la minería en 2013, bajo el título de licencias para Europa. [32]El enfoque en la solución a este problema legal siendo licencias y no a las limitaciones y excepciones llevó a representantes de universidades, investigadores, bibliotecas , grupos de la sociedad civil y de acceso abierto a los editores dejan el diálogo de los interesados en mayo de 2013. [33]

Situación en los Estados Unidos

A diferencia de Europa, la naturaleza flexible de la ley de copyright de Estados Unidos, y en particular el uso justo significa que la minería contenido en Estados Unidos, así como otros países de uso justo como Israel, Taiwán y Corea del Sur es visto como siendo legal. Como la minería contenido es transformadora, es decir que no suplanta la obra original, que es visto como legítimo bajo el uso justo. Por ejemplo, como parte del acuerdo de Google libro el presidente del tribunal en el caso dictaminó que el proyecto de digitalización de Google de libros con derechos de autor fue legal, en parte debido a la transformación utiliza que el proyecto de digitalización muestra -. Un texto bienestar y la minería de datos [ 34]

Software

Ver también: Categoría: La minería de datos y el software de aprendizaje automático.

El software libre de código abierto minería de datos y aplicaciones

Carrot2: Texto y resultados marco agrupación. Chemicalize.org: Un minero estructura química y motor de búsqueda web. Elki: Un proyecto de investigación universitaria con un avanzado análisis de

conglomerados y la detección de valores atípicos métodos escritos en Java idioma. GATE: un procesamiento de lenguaje natural de la herramienta y la ingeniería

lingüística. KNIME: El Konstanz Información Minero, un marco fácil de usar y de análisis de

datos completos. Análisis Online Masivo (MOA): un tiempo real minera flujo de datos grande con la

herramienta concepto de deriva en el Java lenguaje de programación. ML-Flex: Un paquete de software que permite a los usuarios integrar con los

paquetes de aprendizaje automático de terceros escritos en cualquier lenguaje de programación, ejecución clasificación analiza en paralelo a través de múltiples nodos de computación, y producir informes HTML de resultados de la clasificación.

Biblioteca MLPACK: una colección de algoritmos de aprendizaje automático listos para su uso escritas en el C ++ lenguaje.

NLTK (Kit de herramientas de lenguaje natural): Un conjunto de bibliotecas y programas para el procesamiento del lenguaje natural simbólico y estadística (PNL) para el Pythonlenguaje.

OpenNN: Open redes neuronales biblioteca. Naranja: Una minería de datos basado en componentes y aprendizaje

automático suite de software escrito en Python lenguaje. R: Un lenguaje de programación medio ambiente y el software para estadística de

computación, minería de datos y gráficos. Es parte del Proyecto GNU. SCaViS: Java multiplataforma marco de análisis de datos desarrollado en

el Laboratorio Nacional de Argonne. API SenticNet: Un recurso semántico y afectiva para la minería de opinión y análisis

de los sentimientos. Tanagra: Un software de minería de datos de visualización orientada, también para

la enseñanza. Antorcha: Un código abierto aprendizaje profundo biblioteca para el Lua lenguaje

de programación y computación científica marco con un amplio apoyo para aprendizaje automático algoritmos.

UIMA: El UIMA (no estructurados Arquitectura Gestión de la Información) es un marco de componentes para el análisis de contenido no estructurado como texto, audio y video - originalmente desarrollado por IBM.

Weka: Una suite de aplicaciones de software de aprendizaje automático escritas en el Java lenguaje de programación.

El software comercial de minería de datos y aplicaciones

Angoss KnowledgeSTUDIO: herramienta de minería de datos proporcionada por Angoss.

Clarabridge: solución de análisis de texto de clase empresarial. Grafema: minería de datos y software de visualización proporcionada por iChrome. HP Vertica Analytics Platform: software de minería de datos proporcionada por HP. IBM SPSS Modeler: software de minería de datos proporcionado por IBM. KXEN Modeler: herramienta de minería de datos proporcionada por KXEN. LIONsolver: una aplicación de software integrado para la minería de datos,

inteligencia de negocios, y el modelado que implementa el aprendizaje y el enfoque de optimización inteligente (LEÓN).

Microsoft Analysis Services: software de minería de datos proporcionada por Microsoft.

Netowl: conjunto de texto y análisis de entidades productos multilingües que permiten la extracción de datos.

OpenText ™ Big Data Analytics: Datos Visuales Minería y Análisis Predictivo por Open Text

Oracle Data Mining: software de minería de datos Oracle. PSeven: plataforma para la automatización de simulación de ingeniería y análisis,

optimización multidisciplinar y la minería de datos proporcionada por DATADVANCE.

Qlucore ómicas Explorer: software de minería de datos proporcionada por Qlucore.

RapidMiner: Un entorno de aprendizaje automático y minería de datos experimentos.

SAS Enterprise Miner: software de minería de datos proporcionada por el Instituto SAS.

STATISTICA Data Miner: software de minería de datos proporcionada por Statsoft.

Encuestas de mercado

Varios investigadores y organizaciones han llevado a cabo exámenes de herramientas de minería de datos y encuestas de la minería de datos. Estos se identifican algunas de las fortalezas y debilidades de los paquetes de software. También proporcionan una visión general de los comportamientos, preferencias y opiniones de los mineros de datos. Algunos de estos informes son:

2011 Wiley Interdisciplinary Comentarios: minería de datos y descubrimiento de conocimiento [35]

Encuestas Rexer Analytics Data Miner (2007-2013) [36]

Forrester Research 2010 Predictive Analytics y Minería de Datos Soluciones informe [37]

Gartner 2008 informe "Cuadrante Mágico" [38]

2006 Tres Series de Robert A. Nisbet Parte de los artículos "Data Mining Herramientas:? Cuál es el mejor para CRM" [39]

Haughton et al. 2003 Paquetes de Revisión de la minería de datos de software en El Estadístico de América [40]

Goebel y Gruenwald 1999 "Una encuesta de minería de datos a Descubrimiento de Conocimiento Software Herramientas" en SIGKDD Exploraciones [41]

Véase también

Métodos

/ Valor atípico / detección de cambios Anomalía Asociación aprendizaje de reglas Clasificación Análisis de conglomerados Árbol de decisión Análisis factorial Algoritmos genéticos Minería Intención Multilineal aprendizaje subespacio Redes neuronales Análisis de regresión Secuencia de la minería Análisis de datos estructurado Máquinas de vectores soporte Extracción de textos

Los dominios de aplicación

Analytics Bioinformática Inteligencia de Negocio Análisis de los datos Almacén de datos Sistema de soporte de decisiones El descubrimiento de fármacos Análisis exploratorio de datos El análisis predictivo La minería Web

Ejemplos de aplicaciónVer también: Categoría: Se aplica la minería de datos.

Análisis de clientes

La minería de datos en la agricultura La minería de datos en meteorología Minería de datos para la Educación Agencia de Seguridad Nacional Policía reforzado ANPR en el Reino Unido Relación cuantitativa estructura-actividad Vigilancia / vigilancia masiva (por ejemplo, Stellar viento)

Temas relacionados

La minería de datos es sobre el análisis de datos; para obtener información sobre la extracción de información de datos, consulte:

La integración de datos Transformación de datos Descubrimiento electrónico Extracción de información Integración de la información Reconocimiento entidad nombrada Profiling (ciencia de la información) Raspado Web

Referencias

1. ^ Un b c Fayyad, Usama; Piatetsky-Shapiro, Gregorio; Smyth, Padhraic (1996). "A partir de minería de datos para Descubrimiento de Conocimiento en Bases de Datos"(PDF). Consultado el 17 de diciembre 2008.

2. ^ Un b c d "Currículo de minería de datos". ACM SIGKDD. 2006-04-30. Consultado el 01/27/2014.

3. ^ Clifton, Christopher (2010). "Enciclopedia Británica: Definición de Minería deDatos". Consultado el 2010-12-09.

4. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "Los elementos de aprendizaje estadístico: Minería de Datos, Inferencia y predicción". Consultado el2012-08-07.

5. ^ Han, Jiawei; Dormitorio, Micheline (2001) Data Mining:. Conceptos y técnicas.Morgan Kaufmann. p. 5. ISBN 9781558604896. Por lo tanto, la minería de datos se debería haber llamado más apropiadamente "la minería del conocimiento a partir de datos", que es por desgracia un tanto larga

6. ^ Véase por ejemplo la Conferencia de Otoño OKAIRP 2005, Arizona State University About.com: Datamining

7. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 enero 2011) Data Mining:. Prácticos Herramientas de Aprendizaje Automático y Técnicas (3 ed.). Elsevier.ISBN 978-0-12-374856-0.

8. ^ Bouckaert, Remco R .; Frank, Eibe; Hall, Mark A .; Holmes, Geoffrey;Pfahringer, Bernhard; Reutemann, Pedro, Witten, Ian H. (2010). "Experiencias WEKA con un proyecto de código abierto de Java" Journal of Machine Learning Investigación 11:.. 2533 a 2541 el título original, "la máquina de aprendizaje práctico", fue cambiado ... La "minería de datos" plazo se [nuestro] principalmente para razones de marketing.

9. ^ Mena, Jesús (2011). Máquinas Forense de Aprendizaje de Aplicación de la Ley, de Seguridad y de Inteligencia. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

10. ^ Piatetsky-Shapiro, Gregorio; Parker, Gary (2011). "Lección: Minería de Datos y Descubrimiento de Conocimiento: Una introducción" Introducción a la Minería de Datos.. KD Nuggets. Consultado el 30 de agosto 2012.

11. ^ Kantardzic, Mehmed (2003) Data Mining:. Conceptos, modelos, métodos y algoritmos. John Wiley & Sons. ISBN 0-471-22852-4. OCLC 50055336.

12. ^ "Microsoft Academic Search: Top Conferencias en la minería de datos".Microsoft Academic Search.

13. ^ "Google Académico: Top publicaciones - Minería de datos y análisis". Google Académico.

14. ^ Proceedings, Conferencias Internacionales sobre el Descubrimiento de Conocimiento y Minería de Datos, ACM, Nueva York.

15. ^ SIGKDD Exploraciones, ACM, Nueva York.16. ^ Gregory Piatetsky-Shapiro (2002) KDnuggets Metodología Encuesta, Gregory

Piatetsky-Shapiro (2004) KDnuggets Metodología Encuesta, Gregory Piatetsky-Shapiro (2007) KDnuggets Metodología Encuesta, Gregory Piatetsky-Shapiro (2014) KDnuggets Metodología Encuesta

17. ^ Óscar Marbán, Gonzalo Mariscal y Javier Segovia (2009); Un Minería de Datos y Descubrimiento de Conocimiento Modelo de proceso. En la minería de datos y descubrimiento de conocimiento en las solicitudes de la vida real, libro editado por: Julio Ponce y Adem Karahoca, ISBN 978-3-902613-53-0., Pp 438-453, febrero de 2009, I-Tech, Viena, Austria.

18. ^ Lukasz Kurgan y Petr Musilek (2006); Un estudio de modelos de procesos de descubrimiento de conocimiento y minería de datos. La Revista de Ingeniería del Conocimiento. Volumen 21 Número 1, marzo de 2006, pp 1-24, Cambridge University Press, Nueva York, NY, EE.UU. doi: 10.1017 / S0269888906000737

19. ^ Azevedo, A. y Santos, MF KDD, SEMMA y CRISP-DM: una visión paralela. En Actas de la Conferencia Europea IADIS en Data Mining 2008, pp 182-185.

20. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "Una extensión del estándar PMML al subespacio modelos de clustering" Actas del taller de 2011 sobre el marcado predictivo Modeling Language -. PMML '11. p. 48. doi: 10.1145 / 2023598.2023605. ISBN 9781450308373.

21. ^. Seltzer, William "La Promesa y Trampas de la Minería de Datos: Cuestiones éticas" (PDF).

22. ^ Pitts, Chip (15 de marzo de 2007). "El fin de la ilegal doméstica Espionaje? No contar con ella". Washington Espectador.

23. ^ Taipale, Kim A. (15 de diciembre de 2003). "Minería de Datos y Seguridad Nacional: Conectando los Puntos de dar sentido a los datos" Columbia Ciencia y Tecnología de la Ley 5 (2).. OCLC 45263753. SSRN 546.782.

24. ^ Resig, John; y Teredesai, Ankur (2004). "Un Marco para la Minería Servicios de mensajería instantánea". Actas de la Conferencia DM SIAM 2004.

25. ^ Un b c Piense antes de cavar: Implicaciones de Privacidad de Data Mining y agregación, Breve NASCIO Investigación, septiembre de 2004

26. ^ Ohm, Paul. "No Construir una base de datos de la ruina". Harvard Business Review.

27. ^ Darwin Bond-Graham, Hierro Cagebook - El final lógico de Patentes de Facebook, Counterpunch.org, 03/12/2013

28. ^ Darwin Bond-Graham, Dentro Conferencia de inicio de la industria de la tecnología, Counterpunch.org, 09/11/2013

29. ^ De datos de búsqueda de AOL individuos identificados, SecurityFocus, agosto de 2006

30. ^ Editores Biotech Business Week (30 de junio de 2008); BIOMEDICINA; Regla de Privacidad HIPAA Impide Investigación Biomédica, Biotech Business Week, recuperado 17 de noviembre 2009 de LexisNexis Academic

31. ^ Los investigadores del Reino Unido Dada Data Mining justo debajo de Nueva UK Leyes de Copyright. Out-Law.com. Consultado el 14 de noviembre 2014

32. ^ "Las licencias para Europa - Diálogo Estructurado Stakeholder 2013" de la Comisión Europea.. Consultado el 14 de noviembre 2014.

33. ^ "Texto y Minería de Datos: Su importancia y la necesidad de cambio en Europa"Asociación de Bibliotecas de Investigación Europeas.. Consultado el 14 de noviembre 2014.

34. ^ "Juez otorga sentencia sumaria a favor de Google Libros - una victoria uso justo"Lexology.com.. Antonelli Ley Ltd. Obtenido 14 de noviembre 2014.

35. ^ Mikut, Ralf; . Reischl, Markus (septiembre-octubre de 2011) "Herramientas de minería de datos". Wiley Interdisciplinary Comentarios: Minería de Datos y Descubrimiento de Conocimiento 1 (5):. Desde 431 hasta 445 doi: 10.1002 /widm.24. Consultado el 21 de octubre 2011.

36. ^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Comprender Mineros de datos,Analytics Magazine, mayo / junio de 2011 (INFORMA: Instituto para la Investigación de Operaciones y las Ciencias de la Administración).

37. ^ Kobielus, James; The Forrester Wave: análisis predictivo y soluciones de minería de datos, Q1 2010, Forrester Research, 01 de julio 2008

38. ^ Herschel, Gareth; Cuadrante Mágico para aplicaciones cliente Data-Mining,Gartner Inc., 01 de julio 2008

39. ^ Nisbet, Robert A. (2006); Herramientas de minería de datos: cuál es el mejor para CRM? Parte 1, Información Informes Especiales de Gestión, enero de 2006

40. ^ Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin;Teebagy, Nicolás; y Topi, Heikki (2003); Una revisión de los paquetes de software de minería de datos, El Estadístico de América, vol. 57, No. 4, pp. 290-309

41. ^ Goebel, Michael; Gruenwald, Le (1999); una encuesta de Minería de Datos y Descubrimiento de Conocimiento Software Herramientas, SIGKDD Exploraciones, vol. 1, No. 1, pp. 20-33

Lecturas adicionales

Cabeña, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; y Zanasi, Alessandro (1997); Descubriendo Minería de datos: del concepto a la implementación, Prentice Hall,ISBN 0-13-743980-6

MS Chen, J. Han, PS Yu (1996) "La minería de datos: una visión general desde la perspectiva de la base de datos". El conocimiento y datos de ingeniería, IEEE Transactions on8 (6), desde 866 hasta 883

Feldman, Ronen; y Sanger, James; El texto Manual Minería, Cambridge University Press, ISBN 978-0-521-83657-9

Guo, Yike; y Grossman, Robert (editores) (1999); High Performance Data Mining: Scaling Algoritmos, aplicaciones y sistemas, Kluwer Academic Publishers

Han, Jiawei, Micheline Dormitorio y Jian Pei Data Mining:. Conceptos y técnicas. Morgan Kaufmann, 2006.

Hastie, Trevor, Tibshirani, Robert y Friedman, Jerome (2001); Los elementos de aprendizaje estadístico: Minería de Datos, Inferencia y predicción, Springer, ISBN 0-387-95284-5

Liu, Bing (2007); Web Minería de Datos: Exploración de hipervínculos, contenido y uso de datos, Springer, ISBN 3-540-37881-2

Murphy, Chris (16 de mayo de 2011). "¿Es la Minería de Datos del discurso libre?". InformationWeek (UMB): 12.

Nisbet, Robert; Elder, John; Miner, Gary (2009); Manual de Análisis Estadístico de Datos y Aplicaciones de minería, Academic Press / Elsevier, ISBN 978-0-12-374765-5

Poncelet, Pascal; Masseglia, Florent; y Teisseire, Maguelonne (editores) (octubre de 2007); "Modelos de minería de datos: Nuevos Métodos y Aplicaciones", Ciencias de la Información de Referencia, ISBN 978-1-59904-162-9

Tan, Pang-Ning; Steinbach, Michael; y Kumar, Vipin (2005); Introducción a la Minería de Datos, ISBN 0-321-32136-7

Theodoridis, Sergios; y Koutroumbas, Konstantinos (2009); Reconocimiento de Patrones, cuarta edición, Academic Press, ISBN 978-1-59749-272-0

Weiss, Sholom M .; y Indurkhya, Nitin (1998); predictivo de minería de datos, Morgan Kaufmann

Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 enero 2011) Data Mining:. Prácticos Herramientas de Aprendizaje Automático y Técnicas (3 ed.). Elsevier. ISBN 978-0-12-374856-0. (Véase también el software gratuito Weka)

Ye, Nong (2003); El Manual de minería de datos, Mahwah, NJ: Lawrence Erlbaum

Enlaces externos

Wikimedia Commons alberga contenido multimedia sobre la minería de datos.

v t e

Almacén de datos Creación del almacén de datos

Conceptos

Base de datos Dimensión Modelado dimensional Hecho OLAP Esquema en estrella Agregada

Variantes

Modelado de anclaje DBMS Columna orientada Modelado Data Vault HOLAP MOLAP ROLAP Almacén de datos operacional

Elementos

Diccionario de datos / metadatos Data mart Forma normal Sexta Clave sustituta

Hecho

Tabla de hechos Early-llegando hecho Medida

Dimensión

Tabla de dimensiones Degenerar Poco a poco el cambio

Llenado Extracción, transformación y carga (ETL) Extracto Transformar

Carga

Utilizando el almacén de datos

Conceptos

Inteligencia de Negocio Tablero La minería de datos Sistema de apoyo a las decisiones (DSS) Cubo OLAP

Idiomas

Extensiones de minería de datos (DMX) Expresiones multidimensionales (MDX) XML for Analysis (XMLA)

Herramientas

Herramientas de inteligencia de negocios

Software de presentación de informes Hoja de cálculo

Relacionada

Gente Bill Inmon Ralph Kimball

Productos

Comparación de los servidores OLAP Productos de almacenamiento de datos y sus

productores

v t e

Principales secciones de la informáticaNota: La informática también se puede dividir en diferentes temas o campos de acuerdo con el Sistema de Clasificación de Informática ACM.Fundamentos matemáticos

La lógica matemática Teoría de conjuntos Teoría de los números La teoría de grafos Teoría Tipo Teoría de la categoría Análisis numérico

Teoría de la información Combinatoria Álgebra de Boole

Teoría de la computación

Teoría de Autómatas Teoría de la computabilidad Teoría de la complejidad computacional Teoría de la computación cuántica

Algoritmos,estructuras de datos

Análisis de algoritmos Diseño de algoritmos Optimización combinatoria Geometría Computacional

Los lenguajes de programación, compiladores

Analizadores Intérpretes Programación de procedimiento Programación orientada a objetos La programación funcional La programación lógica Paradigmas de programación

Concurrente,paralelo, sistemas distribuidos

Multiprocesamiento La computación grid Control de concurrencia

Ingeniería de Software

Análisis de requerimientos Diseño de software Programación Los métodos formales Las pruebas de software Proceso de desarrollo de software

Arquitectura del sistema

Arquitectura de Computadores Organización ordenador Sistemas operativos

Telecomunicaciones,la creación de redes

De audio del ordenador Enrutamiento Topología de la red Criptografía

Bases de datos

Sistemas de gestión de bases de datos Bases de datos relacionales SQL Transacciones Índices de base de datos La minería de datos

La inteligencia artificial, Aprendizaje automático

La computación afectiva Inteligencia artificial Razonamiento automatizado Lingüística Computacional Visión por computador Computación evolutiva Sistemas expertos Representación del conocimiento Aprendizaje automático Procesamiento del lenguaje natural Robótica

Gráficos de computadora

Visualización La animación por computadora Procesamiento de imágenes

La interacción persona-ordenador

Accesibilidad ordenador Las interfaces de usuario La computación usable Computación ubicua Realidad virtual

Computación científica

La vida artificial Bioinformática Ciencia cognitiva Química Computacional Neurociencia computacional Física Computacional Algoritmos numéricos Matemática simbólica

Portal de Informática

v t

e

Sub-disciplinas de la informática Hardware Software Firmware

Sistema de información

Seguridad de información Base de datos multimedia Base de datos inteligente Big Data Los sistemas basados en el conocimiento Sistema de recomendación Sistemas de información geográfica Sistema de soporte de decisiones Ingeniería de datos Ingeniería del Conocimiento Lógica difusa Análisis de los datos Sistema de análisis y diseño Gestión de proyectos Gestión del conocimiento La integración de datos Computación de alto rendimiento Web Semántica

Ciencias de la Computación

Sistema de administración de base de datos Sistema de comunicaciones Geometría Computacional Aprendizaje automático La minería de datos Programación paralela Teoría de la codificación Teoría de la computación Programación con restricciones Biología computacional (Bioinformática) Diseño y análisis de algoritmos Recuperación de información La ciencia computacional La computación simbólica La computación distribuida Computación evolutiva Computación natural

Optimización combinatoria Procesamiento en paralelo

Ingeniería informática

Multimedia La navegación por satélite (GNSS) Sistemas embebidos En tiempo real de computación Arquitectura de Computadores La programación en parejas La programación del sistema Redes neuronales Reconocimiento de voz El análisis de la señal Visión por computador (computación visual) IC Design Voz sobre IP La síntesis de voz La interacción persona-ordenador Microprocesador Procesamiento de imágenes Procesamiento del lenguaje natural Procesamiento del habla Procesamiento de señales digitales

Ingeniería de Software

Mantenimiento de software Los métodos formales La calidad del software La garantía de calidad del software Software Measurement Software tolerante a fallos Las pruebas de software Arquitectura empresarial Arquitectura de software Economía Ingeniería de software Desarrollo ágil de software Patrón de diseño Modelado de software Analizador de sistemas Análisis orientado a objetos y diseño (UML) Análisis de requerimientos Desarrollo de software Gestión de configuración de software Gestión de proyectos de software

Gestión de ingeniería de software Proceso de desarrollo de software (Software vida comunicado de

ciclo) Diseño de software Implementación de software Mejora Software

Red de computadoras

Seguridad de la red Transacción electrónica segura Evaluación del Desempeño de la red (QoS) Computación en la nube Enrutamiento Los sistemas distribuidos (base de datos distribuida) Teoría de la información Red inalambrica Red de próxima generación Red celular Red de transporte óptico (networking óptico) Criptografía Simulación de red Reconocimiento de patrones Los administradores de red Equipo de red Diseño de red Ubicua y computación móvil Centro de datos Las comunicaciones móviles La comunicación digital Comunicaciones por satélite Telecomunicaciones (Red de telecomunicaciones)

Informática negocio

ITIL ITSM Planificación de recursos empresariales Negocio electrónico Inteligencia de Negocio Desarrollo de recursos humanos Gestión de la seguridad Gestión de la configuración Gestión de la tecnología La administración de energía Gestión De Servicios Gestión de proyectos

Gestión de sistemas Administración de redes Gestión de contenido Gestión de relaciones con clientes Gestión de incidencias Gestión de activos La gestión integrada Gestión de las comunicaciones Administrador de sistema

Control de la Autoridad GND: 4428654-5 NDL: 00948240

Obtenido de "https://en.wikipedia.org/w/index.php?title=Data_mining&oldid=682066091"Categorías:

La minería de datos Análisis de los datos Ciencias formales

Categorías ocultas:

Todos los artículos con declaraciones sin fuentes Los artículos con declaraciones sin fuentes de enero 2014 Artículos a expandir desde septiembre de 2011 Los artículos con declaraciones sin fuentes de abril 2014 Categoría de los Comunes con vínculo local mismo que en Wikidata Artículos de Wikipedia con identificadores GND

Menú de Navegación

Herramientas personales

Crear cuenta Iniciar sesión

Los espacios de nombres

Artículo Talk

Variantes

Vistas

Leer Editar Ver historial

Más

Buscar

Navegación

Pagina principal Contenidos Contenido Destacado Eventos actuales Artículo al azar Donar a Wikipedia Tienda de Wikipedia

Interacción

Ayuda Acerca de Wikipedia Portal de la comunidad Cambios recientes Contacto página

Herramientas

Lo que enlaza aquí Cambios en enlazadas Subir archivo Páginas especiales Enlace permanente Información de la página Elemento Wikidata Cite esta página

Imprimir / exportar

Crear un libro

Buscar Ir

Descargar como PDF Versión imprimible

Idiomas

العربية অসমী�য়া� Azərbaycanca বাং��লা� Български Català Čeština Dansk Deutsch Eesti Ελληνικά Español Euskara فارسی Français 한국어 हि�न्दी� Hrvatski bahasa indonesia Italiano עברית ಕನ್ನ�ಡ Latviešu Lietuvių Magiar Македонски മലയാ�ളം� मरा�ठी Nederlands 日本語 Norsk bokmål Polski Português Română Русский Sencillo Inglés Slovenčina Slovenščina

Српски / srpski Srpskohrvatski / српскохрватски Basa Sunda Suomi Svenska தமி�ழ் ไทย Тоҷикӣ Türkçe Українська Tiếng Việt יִידיש 中文

Editar enlaces

Esta página fue modificada por última vez el 21 de septiembre de 2015, a las 09:36. El texto está disponible bajo la Licencia Creative Commons Reconocimiento-

Compartir bajo la misma ; cláusulas adicionales pueden aplicar. Al utilizar este sitio, usted acepta los Términos de Uso y Política de Privacidad. Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin fines de lucro.

Política de privacidad Acerca de Wikipedia Aviso legal Póngase en contacto con Wikipedia Desarrolladores Vista móvil

Data Mining

Documents

Transcript of Data Mining