Desarrollo de técnicas de minería de datos en procesos ... · Hoy en día, una de las...

TESIS DOCTORAL

Desarrollo de técnicas de minería

de datos en procesos industriales

Modelización en líneas

de producción de acero

Ana González Marcos

Universidad de La Rioja Servicio de Publicaciones

TESIS DOCTORAL

Desarrollo de técnicas de minería

de datos en procesos industriales

Modelización en líneas

de producción de acero


2007

Esta tesis doctoral, dirigida por los doctores D. Joaquín B. Ordieres Mere y D. Eliseo P. Vergara González, fue leída el 31 de julio de 2006, y obtuvo la calificación de Sobresaliente Cum Laude Unanimidad

© Ana González Marcos Edita: Universidad de La Rioja Servicio de Publicaciones ISBN 978-84-690-5501-4

UNIVERSIDAD DE LA RIOJADepartamento de Ingeniería Mecánica

Desarrollo de técnicas de minería de

datos en procesos industriales:

modelización en líneas de producción

de acero

Una disertación dirigida por el

Prof. Dr. Joaquín B. Ordieres Meré

y por el

Prof. Dr. Eliseo P. Vergara González

y desarrollada por


a �n de optar al grado de

Doctora por la Universidad de La Rioja

Tesis Doctoral defendida en la ciudad de Logroño

en Julio de 2006

Resumen

La minería de datos puede de�nirse como el proceso de extraer conocimiento

útil y comprensible, previamente desconocido, a partir de grandes volúmenes

de datos. En el ámbito industrial, una de las aplicaciones más interesantes del

proceso de minería de datos es el modelado de sistemas.

El rápido crecimiento en la capacidad para almacenar datos que están ex-

perimentando los procesos industriales actuales, así como el desarrollo de los

procesadores, proporciona nuevas posibilidades para analizar su comportamien-

to. Teniendo en cuenta, además, que en la mayoría de los procesos industriales,

las relaciones entre variables no son lineales y la di�cultad derivada de obtener

modelos explícitos que de�nan su comportamiento, se comprende la importan-

cia de los modelos basados en datos frente a otros modelos analíticos basados

en ecuaciones explícitas.

Hoy en día, una de las herramientas más empleadas en la industria en el

modelado de sistemas, por su e�ciencia y simplicidad, son las redes neuronales,

eje central sobre el que se desarrolla esta tesis. En ella, se propone el uso de

estas técnicas, junto con otras procedentes del campo de la minería de datos,

para el modelado de un proceso industrial real: una línea de acero galvanizado.

En concreto, se proponen mejoras en los sistemas de control actuales mediante

el desarrollo, a partir de los datos procedentes del proceso de fabricación, de

modelos para predecir on-line las propiedades mecánicas de las bobinas de acero

galvanizado, por un lado, y, de un modelo de velocidad de la banda dentro del

horno de proceso, por otro.

ii

Desafortunadamente, por las condiciones existentes en las industrias (in-

terferencias electromagnéticas, picos de corriente en el arranque de motores,

el factor humano, etc.), los datos erróneos son muy probables entre los datos

almacenados. Para minimizar la in�uencia perjudicial del ruido presente en los

datos en el entrenamiento de redes neuronales, se ha desarrollado un nuevo

algoritmo de aprendizaje robusto, basado en el estimador τ no lineal y que em-

plea el algoritmo de aprendizaje de retropropagación del error, el cual supone

una innovación en las denominadas redes neuronales robustas.

Agradecimientos

En primer lugar me gustaría dar las gracias a mis directores de tesis, Joa-

quín B. Ordieres Meré y Eliseo P. Vergara González. A Joaquín por haberme

contagiado el entusiasmo por la investigación, por su guía y sabios consejos y

por su constante apoyo y aliento durante la elaboración de esta tesis. A Eliseo

por su disposición y optimismo, por su inestimable ayuda y por su ánimo y

buenos consejos.

Y, como no, a mis compañeros del Área de Proyectos de Ingeniería, Alpha,

Javi, Fernando y Manolo (quién, además, es un gran compañero de batallas en la

Universidad de León), con quienes siempre se aprende algo nuevo y con quienes

siempre se puede contar; a Antonio Ciampi, por todo lo que de él aprendí

dentro y fuera de la universidad, durante mis estancias en la Universidad de

McGill; a todo el personal de Aceralia por su disponibilidad, accesibilidad y

e�cacia durante todo el proceso de elaboración de esta tesis; y a mis actuales

compañeros en la Universidad de León por hacerme más fácil el estar lejos de

casa.

Por último, pero no en último lugar, quiero agradecerle a mi familia su apoyo

incondicional, su comprensión, su cariño ... Ellos son quienes me soportan día

a día, animándome como nadie.

Esta tesis no habría sido posible sin vuestra ayuda y saber hacer.

A todos,

GRACIAS

Índice general

1. Introducción 1

1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Motivación y objetivos . . . . . . . . . . . . . . . . . . . . . . . 5

1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.2. Unidad temática de la tesis . . . . . . . . . . . . . . . . 7

1.4. Estructura del documento . . . . . . . . . . . . . . . . . . . . . 7

2. Redes neuronales en el modelado de procesos industriales 9

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2. Algoritmo de retropropagación del error . . . . . . . . . . . . . 11

2.2.1. Variantes del algoritmo de retropropagación . . . . . . . 13

2.3. Algoritmo de retropropagación TAO-robust . . . . . . . . . . . 16

2.3.1. Estimador τ no lineal . . . . . . . . . . . . . . . . . . . 16

2.3.2. Implementación del estimador τ no lineal en el algoritmo

de retropropagación del error . . . . . . . . . . . . . . . 20

3. Modelado de una línea de producción de acero galvanizado 23

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2. Factores que in�uyen en las propiedades mecánicas del acero . 24

3.2.1. Composición química . . . . . . . . . . . . . . . . . . . 25

3.2.2. Tratamiento térmico . . . . . . . . . . . . . . . . . . . . 29

3.2.3. Proceso productivo . . . . . . . . . . . . . . . . . . . . . 31

3.3. Modelado de las propiedades mecánicas de las bobinas . . . . . 36

vi ÍNDICE GENERAL

3.4. Modelado de velocidad de la banda en el horno de recocido . . 39

4. Resultados y discusión 43

4.1. Aplicación de técnicas de minería de datos en el modelado de

una línea de acero galvanizado . . . . . . . . . . . . . . . . . . 43

4.2. Desarrollo de un nuevo algoritmo de entrenamiento robusto . . 45

5. Conclusiones 49

5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2. Líneas de trabajo futuras . . . . . . . . . . . . . . . . . . . . . 51

Bibliografía 53

I Publicaciones 57

Índice de �guras

1.1. Fases del modelo de referencia CRISP-DM (Fuente: Chapman

et~al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1. Esquema de un perceptrón multicapa con una capa oculta. . . 10

3.1. Ejemplo de per�l de temperaturas en un ciclo de recocido. . . . 30

3.2. Proceso de fabricación del acero. . . . . . . . . . . . . . . . . . 32

3.3. Esquema general de una línea de acero galvanizado. . . . . . . 34

3.4. Modelo neuronal para la predicción de las propiedades mecánicas. 39

3.5. Modelo neuronal para la velocidad de la banda en el horno de

recocido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1. Evolución del límite elástico en función de la velocidad en las

muestras recogidas para la clase1. . . . . . . . . . . . . . . . . . 45

5.1. Ejemplo de mapa del límite elástico estimado para una bobina. 50

Notación

α velocidad de aprendizaje o tamaño de la actualización de los pesos

f(·) función de activación de las neuronas de la capa oculta

fs(·) función de activación de las neuronas de la capa de salida

h(v) función real

µ número de patrón empleado

n número total de patrones

ψ función de in�uencia

~r vector de residuos

S factor de escala

t número de época

tk valores objetivo de salida de la red

θ′

k umbrales de las neuronas de la capa de salida

θj umbrales de las neuronas de la capa oculta

τn estimador de escala τ

W matriz de pesos (w) y bias (θ)

w′

kj pesos de las neuronas de la capa de salida

wji pesos de las neuronas de la capa ocultaxi entradas de la red (con i= 1,..., p)

yk salidas de la red (con k = 1,..., q)

zj salidas de la capa oculta de la red (con j = 1,..., l),

Capı́tulo 1Introducción

1.1. Antecedentes

Las plantas industriales, más allá de subsistir, buscan ser líderes en un am-

biente competitivo, dinámico, diversi�cado e innovador, siendo precisamente

la innovación tecnológica el instrumento con el que cuentan para lograr este

objetivo. Una característica común de los procesos industriales actuales es el

constante y rápido crecimiento de su capacidad para almacenar datos, es decir,

día a día se dispone de mayores volúmenes de históricos que contienen informa-

ción acerca de dichos procesos productivos. Es cierto que la información reduce

la incertidumbre y, por tanto, permite tomar mejores decisiones. Sin embargo,

al aumentar la cantidad de datos almacenados, la capacidad para asimilarlos

disminuye, por lo que se hace necesario el uso de herramientas que permitan

extraer conocimiento útil a partir de grandes conjuntos de datos. Es aquí donde

tiene cabida la minería de datos (Data Mining), un área de investigación que

pretende dar respuesta a esa necesidad de procesar y analizar 'masas' de datos

con el �n último de encontrar y aprovechar el conocimiento útil contenido en

ellos.

La minería de datos es, esencialmente, un proceso conducido por un proble-

ma: la respuesta a una pregunta o la solución a un problema se busca analizando

los datos disponibles. El análisis de los datos forma el núcleo de la minería de

datos, pero el proceso completo abarca también temas tales como la de�nición

del problema empresarial y el desarrollo de la solución para resolverlo.

2 Introducción

Análisis delproblema

Análisis de losdatos

Preparaciónde los datos

Modelado

Evaluación

DesarrolloDatos

Figura 1.1: Fases del modelo de referencia CRISP-DM (Fuente: Chapman et~al.,2000).

Para facilitar el proceso de minería de datos, ha habido diferentes intentos

por formalizarlo dividiéndolo en un determinado número de fases secuenciales

(Brachman and Anand, 1996; Chapman et~al., 2000; Fayyad et~al., 1996; Pyle,

1999). Aunque los nombres y contenido de estas fases di�eren ligeramente, la

misma idea general está presente en todos los modelos: primero el analista se

familiariza con el problema y los datos; posteriormente, se preparan los datos

y se construyen y evalúan los modelos para, �nalmente, consolidar el nuevo

conocimiento adquirido y utilizarlo para resolver el problema planteado.

Uno de los modelos del proceso de minería de datos más avanzado es el

CRISP-DM (CRoss Industry Standard Process model for Data Mining) (Chap-

man et~al., 2000), ilustrado en la �gura 1.1, desarrollado y respaldado por un

1.1 Antecedentes 3

consorcio de algunas de las mayores compañías en la industria de la minería

de datos1, el cual abarca todo el ciclo de vida de un proyecto de minería de

datos. En la metodología CRISP-DM, el proceso de minería de datos se divide

en seis fases: análisis del problema, análisis de los datos, preparación de los

datos, modelado, evaluación y desarrollo:

Análisis del problema. En primer lugar, el analista debe familiarizarse

con el dominio del problema. Este conocimento es importante en todas

las fases de la minería de datos, ya que es imposible tomar decisiones sin

tener un conocimiento adecuado de lo que es interesante, sorprendente o

relevante con respecto al problema que se está intentando resolver. Sin el

conocimiento necesario, el analista estará buscando a ciegas.

Análisis de los datos. La comprensión de los datos incluye entender su

origen, naturaleza y �abilidad, así como familiarizarse con el contenido de

los mismos a través de un análisis exploratorio. La adecuada preparación

de los datos, selección de las herramientas de modelado y evaluación sólo

es posible si el analista tiene una buena idea global, un modelo mental,

de los datos.

Preparación de los datos. El objetivo fundamental de esta fase es facilitar

la labor de construir modelos precisos y �ables, corrigiendo errores y

extrayendo nuevas características. La preparación de los datos es un tema

difícil y disperso y, es tan dependiente de su aplicación, que sólo pueden

darse algunas líneas generales (Pyle, 1999).

Modelado. Aquí es donde se buscan soluciones al problema. Mientras que

las fases previas básicamente preparaban los datos para el modelado y

las posteriores se preocupan por su desarrollo en la práctica, la solución

se especi�ca en esta fase. Esta solución puede ser un modelo predictivo o

más descriptivo, como una segmentación o clasi�cación de los datos en un

conjunto de grupos, el análisis de ciertas propiedades como dependencias

entre variables, o un estimador de la función de densidad de probabilidad

de los datos. Modelar es, quizá, el tema más ampliamente discutido en

la literatura (veáse, por ejemplo, Bishop, 1995; Cherkassky and Mulier,

1998; Cios et~al., 1998; Ripley, 1996).

1Destacando SPSS, Inc. http://spss.com

4 Introducción

Evaluación. Antes de desarrollar la solución, es necesario evaluarla desde

el punto de vista del problema de negocio original, para determinar si la

solución encontrada es lo su�cientemente buena como para ser desarro-

llada. Cabe señalar que, junto con la solución, el proceso de minería de

datos genera nuevas percepciones, ideas y modelos secundarios, los cuales

también son importantes con respecto al problema a resolver.

Desarrollo. Finalmente, la solución se utiliza para resolver el problema

original.

En la práctica, el proceso de minería de datos es altamente dinámico e ite-

rativo, ya que cualquier fase puede suscitar preguntas o ideas que necesitan ser

investigadas o implementadas en una fase previa, y dependiente del problema

planteado, de la disponibilidad de la fuentes de datos, del conocimiento de las

herramientas necesarias, de la metodología desarrollada y de los requerimientos

y recursos de la empresa (Martínez de Pisón Ascacíbar, 2003).

Una de las aplicaciones más interesantes del proceso de minería de datos en

el ámbito industrial es el modelado de sistemas2. El hecho de que en la mayoría

de los procesos industriales, las relaciones entre variables sean no lineales, y

la di�cultad derivada de obtener modelos explícitos que de�nan su comporta-

miento, hace que se piense en recurrir a modelos basados en datos frente a otros

modelos analíticos basados en ecuaciones explícitas. Hoy en día, el modelado

no lineal cuenta con importantes técnicas que han alcanzado gran aplicabilidad

gracias al creciente desarrollo de los procesadores. Entre estas técnicas se pue-

den mencionar los algoritmos genéticos, la lógica difusa, etc., si bien, una de

las herramientas más empleadas en la industria, por su e�ciencia y simplicidad,

son las redes neuronales, eje central sobre el que se desarrolla esta tesis.

Desafortunadamente, por las condiciones existentes en las industrias (in-

terferencias electromagnéticas, picos de corriente en el arranque de motores, el

factor humano, etc.), los datos erróneos, de�nidos en la literatura como espurios

(outliers), son muy probables entre los datos almacenados. Así, por ejemplo,

Hampel et~al. (1986) a�rman que los datos rutinarios contienen entre el 1 y el

10% de errores graves y que hasta en los registros de mejor calidad no puede

garantizarse la ausencia de errores. La presencia de datos atípicos en el conjun-

2La relevancia de esta actividad radica en la posibilidad que ofrece un buen modelo dediseñar leyes de control, de predecir parámetros del proceso productivo de especial interés,de detectar fallos en algún componente del proceso, etc.

1.2 Motivación y objetivos 5

to de datos causa un peor ajuste, en ocasiones lejano del óptimo, del modelo

obtenido, por lo que es muy importante tratarlos de algún modo para que no

perjudiquen los modelos buscados. Una de las estrategias en este sentido, con-

siste en hacer uso de técnicas de diagnóstico de espurios con las que se detectan

y eliminan los datos erróneos antes de proceder a la construcción del modelo

(Castejón Limas et~al., 2004; Rousseeuw and Leroy, 1987). Pero también, en

un contexto más directo, evitando este tipo de preprocesado de datos, existe

la posibilidad de emplear técnicas de modelado que sean robustas a espurios

(Ahmed and Farag, 2002; Chen and Jain, 1994; Chuang et~al., 2000; Huang

et~al., 1998; Liano, 1996; McDowall and Ham, 1997).

1.2. Motivación y objetivos

El análisis inteligente de los datos, abre un mundo de posibilidades com-

pletamente nuevo para muchas industrias ya que, aunque los ingenieros tienen

cada vez un mayor acceso a los datos de proceso, raramente usan herramientas

de estadística avanzada para resolver problemas de control del mismo. La causa

más probable de esta reticencia, está en que el desarrollo de las herramientas

estadísticas tuvo lugar en una época de riguroso modelado matemático, cálculo

manual y pequeños conjuntos de datos. De esta forma, se crearon herramientas

so�sticadas que requerían destreza teórica y cuyos requisitos, como el prepro-

cesado de los datos, no eran entendidos por los ingenieros. Tanto si los datos no

eran los apropiados para los algoritmos, como si éstos se parametrizaban mal,

la �delidad de los resultados obtenidos era muy baja, lo que pudo conducir a

un rechazo del análisis estadístico en general.

Con esta tesis, en la que se recogen los frutos del trabajo realizado en el

marco de diversos proyectos de investigación, se pretende, por un lado, mostrar

la utilidad de las técnicas y herramientas de análisis de datos, en general, y

de las redes neuronales, en particular, para la extracción de conocimiento útil

a partir de los históricos de un proceso industrial; y, por otro, desarrollar un

nuevo método de entrenamiento de redes neuronales que permita aprender de

los datos de un modo más robusto y e�ciente.

6 Introducción

1.3. Contribuciones

1.3.1. Publicaciones

En Ordieres Meré et~al. (2004), se presenta la aplicación del proceso de

minería de datos en el modelado de un proceso industrial real. En concreto, el

problema que se plantea es la predicción de las propiedades mecánicas de las

bobinas de acero galvanizado, como una mejora de los sistemas de control de

una línea de acero galvanizado. Puesto que, en la actualidad, las características

del producto que se pretende fabricar no se pueden medir directamente, sino

que deben llevarse a cabo ensayos en un laboratorio tras el proceso de fabrica-

ción, no es posible aplicar una estrategia de control clásica, siendo el control

en lazo abierto la estrategia a adoptar. Sin embargo, con un estimador on-line

de dichas propiedades mecánicas a partir de los datos procedentes del proceso

de fabricación, sería posible introducir mejoras en los sistemas de control ac-

tuales. Los resultados obtenidos en el desarrollo de dichos modelos predictivos

se presentan en esta publicación.

En Pernía Espinoza et~al. (2005a), se persigue el mismo objetivo que en

la publicación anterior: tratar de mejorar los sistemas de control de una línea

de acero galvanizado. En este caso, se desarrolla un modelo de velocidad de la

banda de acero dentro de un horno de recocido, a partir de los datos de proceso,

para asegurar, mediante la regulación de velocidad, que la temperatura real

de la banda a la salida de la zona de calentamiento del horno se aproxime

a la deseada. De esta forma, sería posible mejorar el control del tratamiento

térmico al que se someten las bandas de acero antes de su inmersión en el pote

de zinc, ya que áquel es un proceso clave para la obtener las propiedades de

la banda deseadas y una buena adherencia del recubrimiento. Además, en esta

publicación, se muestra la aplicación en el modelado de procesos industriales, y

buen comportamiento frente a espurios, de un algoritmo de aprendizaje robusto.

Por último, en Pernía Espinoza et~al. (2005b), se presenta un nuevo algo-

ritmo de aprendizaje robusto, basado en el estimador τ no lineal y denominado

algoritmo de aprendizaje por retropropagación TAO-robust, desarrollado para

minimizar la in�uencia perjudicial del ruido presente en los datos en el entre-

namiento de redes neuronales. Esta aproximación usa un estimador de escala

variable y dependiente de la función de Huber de los errores obtenidos en cada

época, con lo que se soluciona una de las principales de�ciencias de otros mé-

todos robustos: la selección del factor de escala que determina los límites para

1.4 Estructura del documento 7

reducir los efectos de los espurios. Además, esta aproximación también posee

las importantes propiedades de robustez con un punto de ruptura elevado y

una alta e�ciencia con errores normalmente distribuidos.

1.3.2. Unidad temática de la tesis

Todos los trabajos presentados en esta tesis se enmarcan dentro del ámbito

de la minería de datos:

Las dos primeras publicaciones citadas en el apartado anterior, están en-

focadas en la aplicación industrial de la minería de datos. En concreto,

se proponen dos modelos, basados en redes neuronales, con el �n de in-

troducir mejoras en una línea de producción de acero galvanizado.

La última publicación de la sección anterior, se centra en el desarrollo de

un nuevo algoritmo cuya �nalidad consiste en obtener modelos neuronales

que se ajusten mejor a la información contenida en los datos, al utilizar

en su entrenamiento un criterio de error robusto a espurios.

1.4. Estructura del documento

En este capítulo se han presentado los antecedentes, la motivación y con-

tribuciones aportadas con esta tesis, así como su unidad temática. El resto del

documento está organizado de la siguiente manera. En el Capítulo 2, se intro-

duce el algoritmo de aprendizaje de retropropagación del error (utilizado a lo

largo de toda la tesis), se analiza el criterio de error basado en el estimador τ

no lineal y se muestra el modo de implementar éste en áquel, obteniéndose, de

esta manera, el nuevo algoritmo de aprendizaje robusto, denominado algoritmo

de aprendizaje por retropropagación TAO-robust. En el Capítulo 3 se introduce

la problemática de los sistemas de control actuales en las líneas de fabricación

de acero galvanizado y se presentan los trabajos realizados en este sentido: la

predicción de las propiedades mecánicas de las bobinas de acero galvanizado

y el modelo de velocidad del horno de recocido de la línea. Tras exponer la

metodología utilizada en cada una de las publicaciones de la presente tesis, en

el Capítulo 4, se discuten los resultados obtenidos. Esta tesis �naliza con las

conclusiones del Capítulo 5.

Capı́tulo 2Redes neuronales en el modeladode procesos industriales

2.1. Introducción

Para modelar procesos complejos, como es el caso de la mayoría de los

procesos industriales, una alternativa e�ciente y con�able a los modelos basados

en ecuaciones explícitas, la constituyen las redes neuronales.

Una de las arquitecturas de redes más adecuada para la determinación de

modelos de procesos, empleando datos de entrada y salida del mismo, es la

llamada red perceptrón multicapa (MultiLayer Perceptron, MLP) (�gura 2.1),

por ser considerada un aproximador universal de funciones (Funahashi, 1989;

Hornik et~al., 1989). Más concretamente, una red MLP conteniendo al menos

una capa oculta con su�cientes unidades no lineales, puede aprender cualquier

tipo de función o relación continua entre un grupo de variables de entrada y

salida.

El algoritmo de entrenamiento por excelencia del perceptrón multicapa, es

el algoritmo de retropropagación del error (BackPropagation, BP), que no es

más que la generalización de la regla del Error Cuadrático Medio (Least Mean

Square, LMS) al caso de perceptrones multicapa. Aunque en el entrenamiento

de redes neuronales supervisadas se use, por tradición y sencillo computo, la

media del error cuadrático (Mean Squared Error, MSE) como medida de error1,

1Algunas de las arquitecturas de redes y algoritmos de aprendizaje que emplean el MSE

10 Redes neuronales en el modelado de procesos industriales

xµi

Capa de

entrada

zµj

Capa

oculta

wji w′

kj

θj θ′

k

yµk

Capa de

salida

tµk

Objetivo

Figura 2.1: Esquema de un perceptrón multicapa con una capa oculta.

ésta no es adecuada cuando los patrones de entrenamiento están contamina-

dos, ya que los modelos obtenidos pueden ser muy diferentes de los esperados

(Chuang et~al., 2000; Liano, 1996; Walczak, 1996).

En la literatura se encuentran diferentes tipos de redes neuronales robustas

que pretenden mejorar el aprendizaje cuando los patrones de entrenamien-

to contienen datos erróneos (Ahmed and Farag, 2002; Chen and Jain, 1994;

Chuang et~al., 2000; Huang et~al., 1998; Liano, 1996; McDowall and Ham,

1997). Estas aproximaciones poseen dos propiedades importantes: robustez con

un elevado punto de ruptura y una alta e�ciencia con errores normalmente dis-

tribuidos (Rousseeuw and Leroy, 1987). Sin embargo, en su uso, existen algunas

de�ciencias. Una de ellas se encuentra en la selección del factor de escala que

determina los límites para reducir los efectos de los espurios: si es demasiado

grande, los espurios pueden no ser detectados; por el contrario, si es demasiado

pequeño, una gran cantidad de datos, incluyendo los buenos, serían discrimina-

dos. La selección de este factor no es clara, siendo diversas las propuestas que se

encuentran en la literatura. Por ejemplo, (Connor et~al., 1994; Hawkins, 1980;

Huber, 2003; Rousseeuw and Leroy, 1987) proponen seleccionar el estimador

de escala basándose en un estadístico robusto, como la mediana del error o la

desviación mediana absoluta (Median Absolute Deviation, MAD). Ambos están

son: ADALINE (ADAptive LInear NEuron), perceptrón, retropropagación (Rumelhart et~al.,1986), quickpropagation (Fahlman, 1988), RAN (Resource Alocating Network) (Platt, 1991),RBF (Radial Basis Function) (Moody and Darken, 1989), y la SuperSAB (Tollenaere, 1990).

2.2 Algoritmo de retropropagación del error 11

basados en la medida del error, pero, en la primera fase de entrenamiento, esta

medida no re�eja el error real ya que se desconocen los datos que son espurios

y aquellos que no lo son. En este caso, ambas medidas del error pueden ser, en

realidad, no signi�cativas. Otro modo de seleccionar el factor de escala (Chen

and Jain, 1994) se basa en el conocimiento previo del porcentaje aproximado

de espurios en el conjunto de datos, lo cual también es difícil de saber (Chuang

et~al., 2000).

Con la idea de solucionar este problema, en la publicación (Pernía Espinoza

et~al., 2005b), se presenta un nuevo algoritmo de aprendizaje robusto, deno-

minado algoritmo de aprendizaje por retropropagación TAO-robust, en el cual

se usa un estimador de escala variable y dependiente de la función de Huber de

los errores obtenidos en cada época. Además, esta aproximación también posee

las importantes propiedades de robustez con un punto de ruptura elevado y

una alta e�ciencia con errores normalmente distribuidos.

El resto de este capítulo está organizado de la siguiente manera: en primer

lugar se introduce el algoritmo de retropropagacion del error para, posterior-

mente, analizar el criterio de error basado en el estimador τ no lineal y el modo

de implementarlo en áquel, con el propósito de obtener un nuevo algoritmo de

aprendizaje robusto.

2.2. Algoritmo de retropropagación del error

Básicamente, el algoritmo de aprendizaje por retropropagación del error

consta de dos pasadas a través de las diferentes capas de la red: una hacia

adelante y otra hacia atrás. En la primera, se presenta un patrón de entrada

(xµi ) a la primera capa de la red y se propaga hacia adelante a través de los pesos

(W ), capa por capa, hasta que se alcanzan las neuronas de la capa de salida.

Durante esta fase, los pesos de la red permanecen �jos. Sin embargo, durante

la pasada hacia atrás, estos pesos se ajustan con una regla de corrección del

error. Concretamente, la señal de salida de la red (yµk ) se compara con el patrón

de salida deseado (tµk) y se calcula una señal de error (según un determinado

criterio E), que se propaga hacia atrás, en dirección contraria a las conexiones

de la red (de ahí el nombre de retropropagación del error), haciendo que los

pesos se ajusten de tal forma que la salida de la red se aproxime a la respuesta

deseada, es decir, que se minimice la señal de error.


De forma similar al algoritmo LMS, el algoritmo BP lleva a cabo la mini-

mización del error mediante el descenso del gradiente, donde los pesos de la

capa de salida y de la capa oculta se modi�can aplicando una corrección ∆w,proporcional a la derivada parcial de la señal del error respecto a los pesos:

w′

kj = w′

kj + ∆w′

kj = w′

kj − α∂E(W )∂w

′kj

(2.1)

wji = wji + ∆wji = wji − α∂E(W )∂wji

(2.2)

Para un determinado patrón de entrada, la salida de la neurona j-ésima

de la capa oculta se calcula según la ecuación 2.3, donde f(·) es la función

de activación de las neuronas en dicha capa, y la respuesta de la red para la

neurona k-ésima de la capa de salida se calcula según la ecuación 2.4, donde

fs(·) es la función de activación de las neuronas en la capa de salida2.

zµj = f

(∑i

wji xµi− θi

)= f

(γµ

j

), j = 1, 2, ..., l (2.3)

yµk = fs

∑j

w′

kj zµj− θµ

k

= fs (vµk ) , k = 1, 2, ..., q (2.4)

De esta forma, utilizando la regla de la cadena, las actualizaciones de los

pesos de la capa de salida y oculta, respectivamente, se llevan a cabo según las

siguientes expresiones:

∆w′

kj = αδkzµj con δk = − ∂E

∂yµk

∂fs (vµk )

∂vµk

(2.5)

∆wji = αδjxµi con δj =

∑k

(δkw

′

kj

) ∂f (γµj

)∂γµ

i

(2.6)

En resumen, el algoritmo de retropropagación completo consta de las si-

guientes etapas:

1. Inicializar los pesos a valores pequeños aleatorios.

2Las funciones de activación de las distintas capas de la red pueden ser de tipo lineal

(F (x) = x), sigmoidal (F (x) = 11+e−x ), tangh (F (x) =

ex−e−x

ex+e−x ), etc.


2. Escoger un patrón de entrada, xµ, y presentarlo a la capa de entrada.

3. Propagar la activación hacia delante a través de los pesos hasta que la

activación alcance las neuronas de la capa de salida.

4. Calcular los valores de δ para las capas de salida (δk) usando los valores

objetivo para el patrón de entrada seleccionado.

5. Calcular los valores de δ para la capa oculta (δj).

6. Actualizar los pesos de la capa de salida y de la capa oculta, de acuerdo

con las ecuaciones 2.5 y 2.6, respectivamente.

7. Repetir del paso 2 al 6 para todos los patrones de entrada.

Tomando como medida del error la media del error cuadrático (MSE)3, la

actualización de los pesos queda de la siguiente manera:

∆w′

kj = α (tµk − yµk )∂fs (vµ

k )∂vµ

k

zµj (2.7)

∆wji = α (tµk − yµk )∂fs (vµ

k )∂vµ

k

w′

kj

∂f(γµ

j

)∂γµ

i

xµi (2.8)

2.2.1. Variantes del algoritmo de retropropagación

El algoritmo de retropropagación comentado anteriormente, es el primer

algoritmo e�caz para el aprendizaje de redes MLP, aunque presenta algunos

inconvenientes como su lentitud de convergencia, la posibilidad de incurrir en

el denominado sobreajuste estropeando la capacidad de generalización de la

red, su sensibilidad a espurios, etc. Para resolver algunos de estos inconvenien-

tes continuamente se plantean correcciones o variantes. Buena parte de estas

modi�caciones tratan de resolver el problema de su lenta convergencia, mien-

tras que otras se centran en conseguir una mejor generalización evitando el

sobreajuste, por un lado, y tratando los espurios, por otro.

3El error total será E = 12

P

k(tk − yk)2


En esta sección, se tratarán brevemente algunas de las variantes propues-

tas, indicando aquellas que han sido utilizadas en los trabajos desarrollados y

presentados en esta tesis.

Aceleración del aprendizaje

El algoritmo BP básico no es conocido por su rapidez de convergencia y,

modi�car su velocidad de aprendizaje (α) para acelerar el proceso, no es una

buena idea, ya que el efecto será el de introducir inestabilidad en la regla de

aprendizaje causando oscilaciones violentas en los pesos aprendidos. Así, la

primera variante propuesta para acelerar este método consiste en incluir en el

algoritmo un término (β), denominado momento, al cambio de los pesos (según

la ecuación 2.9), de tal manera que se incremente la actualización de los pesos si

el nuevo cambio coincide con la dirección de los cambios anteriores y se reduzca

en caso contrario (Rumelhart et~al., 1986).

∆tW = −α∂Et

∂W+ β∆t−1W (2.9)

Otros métodos que permiten mejorar la velocidad de aprendizaje consisten

en utilizar funciones de activación antisimétricas (como la tangente hiperbó-

lica), preprocesar las entradas (normalizándolas y haciéndolas independientes

entre si (LeCun, 1993)), seleccionar adecuadamente los pesos iniciales de la red,

asignar un ritmo de aprendizaje diferente a cada peso, ritmos adaptativos, etc.

(Haykin, 1999; LeCun et~al., 1998).

Ya se ha visto que el algoritmo básico del BP ajusta los pesos en la dirección

de máxima pendiente de la super�cie del error, dirección en la que la función

de coste decrece más rápidamente. A pesar de ello, no siempre se garantiza que

éste sea el camino más rápido hacia el mínimo. Para acelerar la convergencia

existen los denominados métodos de segundo orden, que se basan en realizar

el descenso utilizando también la información proporcionada por el ritmo de

cambio de la pendiente, H = ∂2E/∂W 2. Dentro de este grupo se encuentran

los métodos de Newton y cuasi-Newton, los cuales suponen un gran esfuerzo

computacional al tener que calcular, almacenar, e invertir en el método de

Newton, la matriz Hessiana, H. Además, el método de Newton puede divergir

violentamente si el algoritmo no está cerca de un mínimo, y la inversión de H

puede presentar problemas de estabilidad numérica en algunos casos.

Con el propósito de evitar estos problemas y requerimientos computaciona-

les se han desarrollado otros métodos, también de segundo orden, que se pueden


clasi�car en un punto intermedio entre el método de descenso del gradiente y

el de Newton: los algoritmos basados en la técnica del gradiente conjugado. Es-

tos algoritmos pretenden conseguir una buena velocidad de convergencia con

relación al número de operaciones que efectúan utilizando para ello un número

de operaciones y memoria reducidos. Evitan el cálculo de H, utilizando una

combinación lineal del gradiente actual y las direcciones de búsqueda previas

(ecuación 2.10).

Wt+1 = Wt + αtdt con dt = −∂Et

∂W+ βtdt−1 y d0 = −∂E0

∂W(2.10)

donde βt es una función escalar que asegura que dt y dt−1 son conjugados.

En concreto, el algoritmo de gradiente conjugado empleado en (Pernía Espi-

noza et~al., 2005a) se denomina actualización Fletcher-Reeves (Fletcher, 1987),

dondeβt se determina según la relación de la norma cuadrada del gradiente ac-

tual con la norma cuadrada del gradiente previo (ecuación 2.11).

βt =

∥∥∂Et

∂W

∥∥2∥∥∥∂Et−1∂W

∥∥∥2 (2.11)

Capacidad de generalización

Aunque es deseable alcanzar el mejor resultado posible durante el entrena-

miento, uno de los aspectos fundamentales de una red neuronal es su capacidad

de generalizar, es decir, de ofrecer buenos resultados con patrones de test que

no han sido empleados en su entrenamiento. La generalización es importante

no sólo para que la red funcione correctamente ante conjuntos de datos que

no han sido vistos con anterioridad, sino también porque es posible que haya

datos que contengan ruido, que estén distorsionados o sean incompletos.

La capacidad de generalización de una red está determinada por tres fac-

tores: el número de patrones de entrenamiento, la arquitectura de la red y la

complejidad física del problema (Haykin, 1999). Estas tres circunstancias están

muy relacionadas ya que, cuanto más complejo sea el problema a modelar, más

grande deberá ser la red, es decir, se deberán ajustar más parámetros y, por

tanto, se necesitarán más muestras para entrenarla. No teniendo un control

sobre la complejidad del problema y, disponiendo habitualmente de un número

limitado de patrones, en muchas ocasiones se corre el peligro de sobreajustar


la red al conjunto de datos de entrenamiento y obtener malos resultados con

datos de test, si el número de parametros de la red es muy grande. Además, hay

que tener en cuenta el inconveniente de la �maldición de la dimensionalidad�

(curse of dimensionality) (Bellman, 1961), que plantea que el número de datos

necesarios para especi�car una función, en general, crece exponencialmente con

la dimensión del espacio de entrada.

Para evitar el sobreentrenamiento existen diferentes formas de actuar: la

parada temprana, limitar el tamaño de la red, entrenar con ruido, etc.

En el método de parada temprana (utilizado tanto en Ordieres Meré et~al.

(2004) como en Pernía Espinoza et~al. (2005a)), a la vez que se entrena la red,

los resultados se validan con otro conjunto de datos, denominado de validación,

debiendo detener el aprendizaje en el punto óptimo de mínimo error de vali-

dación. De esta forma, se pretende evitar que la red se adapte demasiado a las

particularidades de los patrones empleados en el entrenamiento, aprendiendo

incluso el ruido presente en ellos.

Algunas de las técnicas empleadas para limitar el tamaño de la red consis-

ten en reducir el número de entradas (realizando un análisis de componentes

principales, empleando ratios, etc.), para disminuir el número de parámetros

ajustables; hacer que varias neuronas compartan sus pesos (weight sharing);

podar la red (pruning), es decir, eliminar explícitamente ciertas conexiones;

o asociar a cada peso una tendencia de disminución a cero para que desapa-

rezcan aquellos que no son actualizados perióricamente (weight decay). Esta

última técnica, el decaimiento de pesos, ha sido la utilizada en Ordieres Meré

et~al. (2004) para evitar el sobreajuste de la red, al no disponer de un núme-

ro su�ciente de patrones de entrenamiento en comparación con el número de

variables de entrada.

Por último, el entrenamiento con ruido (jitter), consiste, como su propio

nombre indica, en añadir una pequeña cantidad de ruido blanco a cada uno de

los patrones utilizados. Así, cada vez que se presente el vector entrada-salida

deseada al MLP, se añade un pequeño ruido aleatorio.

2.3. Algoritmo de retropropagación TAO-robust

2.3.1. Estimador τ no lineal

El estimador τ fue introducido por Yohai and Zamar (1988) como una nueva

clase de estimador robusto para modelos de regresión lineales y, posteriormente,

2.3 Algoritmo de retropropagación TAO-robust 17

generalizado por Tabatabai and Argyros (1993), al caso de regresión no lineal.

En ambos casos, el punto de ruptura es de 0.5 y, ambos, poseen una alta

e�ciencia con los errores normalmente distribuidos.

La de�nición que se expone a continuación sigue de cerca la expuesta en

(Tabatabai and Argyros, 1993).

Considérese el modelo de regresión no lineal yi = η (~xi, θ)+εi, donde θ es el

vector de los p parámetros desconocidos y εi es el error o residuo que se consi-

dera, según el modelado clásico, de media cero y varianza constante y conocida.

Se asumirá, además, que la función η (~xi, θ) es continuamente diferenciable dos

veces en algún conjunto convexo C.

Sea ~r (θ) = [r1 (θ) , ..., rn (θ)] el conjunto de residuos de�nidos como ri (θ) =yi − η (~xi, θ) , i = 1, ..., n.

Supuesto 1. Sea h una función real que satisface las siguientes propiedades:

(i) h (0) = 0

(ii) h (−v) = h (v)

(iii) Si 0 ≤ v ≤ γ entonces h (v) ≤ h (γ)

(iv) h es continuo.

(v) Sea a = suph(v); entonces 0 < a <∞

(vi) Si h (v) < suph (v)y 0 ≤ v < γ, entonces h (v) < h (γ).

Huber (1981) de�nió el estimador M (el estimador de escala de un conjunto

~v = (v1, ..., vn)), denotado por S(v), como

n∑i=1

h

(vi

S(v)

)= nEφ [h(v)] (2.12)

donde Eφ es la esperanza en la distribución normal estándar φ.

Rousseeuw and Yohai (1984) de�nieron al estimador S como el que mini-

miza la función de escala de un estimador M de los residuos. Es decir, es el

estimador que minimiza S (~r (θ)). En su trabajo plantean que este estimador

pudiera tener un valor de punto de ruptura alto, pero al coste de tener una ba-

ja e�ciencia en condiciones de normalidad. Para resolver este problema Yohai

and Zamar (1988) de�nieron una clase de estimador de escala más amplio,

el estimador τ , el cual alcanza simultáneamente un punto de ruptura alto y


una alta e�ciencia ante condiciones de normalidad. Posteriormente, Tabatabai

and Argyros (1993) propusieron una generalización de este estimador τ al caso

de regresión no lineal, preservando todas las propiedades del primero, y cuya

de�nición se presenta a continuación.

Sean h1 y h2 dos funciones que cumplen las propiedades (i)-(vi) del Supuesto

1, y sea S el estimado-M de escala basado en h1. Entonces dado un conjunto

~v = (v1, ..., vn), el estimador de escala τn se de�ne como

τn (~v) = S (~v)

[1n

n∑i=1

h2

(vi

S(~v)

)]1/2

(2.13)

La estimación τ de los parámetros de regresión θ se de�ne entonces como

el vector resultante θ̂ que cumpla con

τn

(~r(θ̂))

= Minθ∈C

τn (~r (θ)) (2.14)

τn (~r (θ)) = S (~r (θ))

[1n

n∑i=1

h2

(ri (θ)S(~r (θ))

)]1/2

(2.15)

y S (~r (θ)) satisface

n∑i=1

h1

(ri

S(~r (θ))

)= nEφ (h1) (2.16)

El mínimo de esta función se consigue derivando 2.15 respecto a θ, e igua-

lando luego a cero el resultado

∂τ2n(~r(θ))∂θ = 1

n

n∑i=1

{2S(~r (θ))∂S(~r(θ))

∂θ h2

(ri(θ)

S(~r(θ))

)+

+ ψ2

(ri(θ)

S(~r(θ))

)(−S(~r (θ))∂η( ~xi,θ)

∂θ − ri (θ) ∂S(~r(θ))∂θ

)}= 0

(2.17)

Por otro lado, derivando 2.16 se obtiene

∂S(~r (θ))∂θ

= −

n∑i=1

ψ1

(ri(θ)

S(~r(θ))

)∂η( ~xi,θ)

∂θ

n∑i=1

ψ1

(ri(θ)

S(~r(θ))

)ri(θ)

S(~r(θ))

(2.18)

donde


ψj (v) =d

dvhj (v) , j = 1, 2

Sustituyendo 2.18 en 2.17 se obtiene la ecuación de la estimación τ

n∑i=1

[w (θ)ψ1

(ri (θ)S(~r (θ))

)+ ψ2

(ri (θ)S(~r (θ))

)]∂η (~xi, θ)

∂θ= ~0 (2.19)

donde

w (θ) =

n∑i=1

[2h1

(ri(θ)

S(~r(θ))

)− ψ2

(ri(θ)

S(~r(θ))

)ri(θ)

S(~r(θ))

]n∑

i=1

ψ1

(ri(θ)

S(~r(θ))

)ri(θ)

S(~r(θ))

(2.20)

Supuesto 2. Se asumirá que h2 satisface

2h2 (v)− ψ2 (v) v ≥ 0 (2.21)

Si esto se cumple, w (θ) ≥ 0 y se podría pensar en el estimador τ co-

mo en un estimado M con la función ψ de in�uencia adaptativa: ψn (v) =w (θ)ψ1 (v) + ψ2 (v) , la cual es el promedio ponderado de ψ1 y ψ2. Seleccio-

nando adecuadamente ψ1 (v) y ψ2 (v), el estimador τ resultante tendrá un punto

de ruptura elevado y una alta e�ciencia con errores normalmente distribuidos.

Si se consideran la siguiente familia de funciones ψ

ψ (v) =

v(1− v2

c2

)2

si |v| < c

0 si |v| ≥ c(2.22)

con su correspondiente familia de funciones h (v)

h (v) =

{v22(1− v2

c2 + v4

3c4

)si |v| ≤ c

c2

6 si |v| > c(2.23)

y se selecciona c = c1, entonces h (v) = h1 (v) y ψ (v) = ψ1 (v). Del mismo

modo, si c = c2, entonces h (v) = h2 (v) y ψ (v) = ψ2 (v).


Seleccionando c1 = 1,56 y c2 = 6,08, el estimador τ tiene un punto de

ruptura igual al 50%, una e�ciencia del 95% bajo la hipótesis de normalidad en

los residuos, y se garantiza que su función de in�uencia ψ es acotada (Tabatabai

and Argyros, 1993).

2.3.2. Implementación del estimador τ no lineal en el al-

goritmo de retropropagación del error

En esta sección se presenta la manera de combinar las propiedades de ro-

bustez del estimador estimador τ , basado en la minimización de un criterio

(error τ) que hace que la estimación de parámetros sea insensible a espúreos,

con el algoritmo BP, para desarrollar una red robusta a espúreos.

En este caso, la función de coste a minimizar es

ETAO =n∑

µ=1

τ2 (rµ;S (t)) (2.24)

donde rµ = ~yµ − ~̂yµ es el error del µ-ésimo patrón de entrenamiento, t es el

número de época, S (t) es el estimador de escala que depende de la iteración t,

y τ2 es el criterio de error TAO.

Según se indica en las ecuaciones 2.5 y 2.6, para implementar el error τ en

el algoritmo de retropropagación, lo único que se debe cambiar es el cálculo

de la derivada parcial de la métrica del error (que en este caso es τ2n (~r)) con

respecto a la salida de la red (yµk ), ya que el resto no depende del criterio de

error empleado y, por tanto, se puede dejar intacto

∂E

∂yµk

=∂τ2

n (~r)∂yµ

k

= −n∑

µ=1

1n

{2St

∂St

∂rh2 (v) + ψ2 (v)

(St −

∂St

∂rrµ

)}(2.25)

donde

∂St

∂r=

n∑µ=1

ψ1 (v)

n∑µ=1

[ψ1 (v) vµ]con vµ =

rµSt

(2.26)

y h (v) y ψ (v) se toman según las ecuaciones 2.23 y 2.22.


St (~r) se puede obtener para cada iteración mediante la siguiente ecuación

(Tabatabai and Argyros, 1993):

St+1 (~r) =

n∑

µ=1

S2t h1

(rµ

St

)nEφ

[h1

(rµ

St

)]

1/2

(2.27)

Capı́tulo 3Modelado de una línea deproducción de acero galvanizado

3.1. Introducción

La creciente demanda que están experimentando los aceros recubiertos me-

diante electrocincado y galvanizado, por su propiedades anticorrosión, en secto-

res como la automoción, la fabricación de electrodomésticos y la construcción,

junto con el aumento de las exigencias de los clientes, hace que el sector side-

rúrgico, a pesar de ser una actividad tradicional y madura, realice importantes

esfuerzos en el campo de las nuevas tecnologías de fabricación y de mejora de

la calidad de sus productos.

En la actualidad, las características del producto que se pretende fabricar,

esto es, las propiedades mecánicas de las bobinas de acero galvanizado, no

se pueden medir directamente, sino que deben llevarse a cabo ensayos en un

laboratorio, empleando métodos destructivos, tras el proceso de galvanizado1.

En este caso, el problema que se plantea, es la necesidad de adoptar un control

en lazo abierto, al no ser posible aplicar una estrategia de control clásica. Por

ello, en Ordieres Meré et~al. (2004) se pretende, a través de la aplicación de

técnicas de minería de datos, crear un modelo que permita predecir on-line

dichas propiedades mecánicas, a partir de los datos procedentes del proceso de

1Estos ensayos mecánicos normalmente incluyen el límite elástico (E), la resistencia a larotura (R) y el alargamiento (A).

24 Modelado de una línea de producción de acero galvanizado

fabricación. De esta forma, sería posible una mejora en los sistemas de control

actuales, la cual repercutiría en la calidad del producto �nal, siendo éste uno

de los objetivos básicos de todo proceso industrial.

Un proceso clave para obtener las propiedades de la banda deseadas y una

buena adherencia del recubrimiento de zinc, en el galvanizado por inmersión en

caliente, es el tratamiento térmico al que se someten las bandas de acero antes

de su inmersión en el pote de zinc. Actualmente, la temperatura de la banda

en el horno de proceso se consigue cambiando únicamente la temperatura de

consigna del horno. Sin embargo, con un modelo de velocidad para la banda de

acero dentro del horno, a partir de los datos de proceso, como el propuesto en

Pernía Espinoza et~al. (2005a), se podrían conseguir temperaturas de salida

más adecuadas, mediante la regulación de la velocidad.

En la introducción de esta tesis se comentó, que la primera etapa de todo

proceso de minería de datos consiste en obtener un conocimiento adecuado del

problema que se pretende resolver. Por eso, en la sección 3.2, se exponen los

factores que in�uyen en las propiedades mecánicas de las bobinas de acero gal-

vanizado y se presenta la línea de fabricación de acero galvanizado en la que

se ha trabajado para obtener los modelos de propiedades mecánicas y de velo-

cidad en el horno de recocido. Con este conocimiento previo, en las siguientes

secciones, 3.3 y 3.4, se presenta la metodología empleada en la consecución de

dichos modelos.

3.2. Factores que in�uyen en las propiedades me-

cánicas del acero

La composición química del acero, el tratamiento térmico al que se somete,

así como el proceso de fabricación utilizado, de�nen sus propiedades mecánicas.

Aunque el elemento básico que constituye el acero es el hierro, la adición de pe-

queñas cantidades de otros elementos, puede tener un efecto marcado en el tipo

y propiedades del acero. Además, hay que tener en cuenta que, cuando se apli-

can tratamientos térmicos al material, incluido el enfriamiento a una velocidad

determinada desde un pico de temperatura concreto, estos elementos producen

respuestas diferentes. No hay que olvidar tampoco, que el proceso de produc-

ción utiliza combinaciones de tratamientos térmicos y trabajos mecánicos, las

cuales son de crítica importancia para comprender el posterior comportamien-

3.2 Factores que in�uyen en las propiedades mecánicas del acero 25

to del acero y lo que puede y no puede hacerse de forma satisfactoria con el

material tras el proceso básico de producción.

3.2.1. Composición química

La clave para entender los efectos de la composición química y del trata-

miento térmico en la metalurgia y propiedades de los aceros, es reconocer que

éstas dependen de los siguientes factores (Burdekin, 1992):

1. microestructura

2. tamaño del grano

3. inclusiones no metálicas

4. precipitados entre granos o en sus contornos

5. presencia de gases absorbidos o disueltos

El acero es una aleación compuesta básicamente por hierro al que se añaden

pequeñas cantidades de carbono (hasta un máximo del 2 %) y otros elementos

que le proporcionan determinadas propiedades mecánicas. A medida que au-

menta la cantidad de carbono añadida, se incrementa la resistencia del material,

disminuyendo su ductilidad y haciéndolo más sensible al tratamiento térmico.

El acero así obtenido, aunque barato y útil en algunas aplicaciones (por ejem-

plo, armaduras para hormigón, cables, etc.), presenta problemas cuando el nivel

de carbono es medio-alto y se utiliza en posteriores procesos de fabricación, par-

ticularmente cuando es necesario realizar soldaduras. Sin embargo, es posible

obtener un acero más versátil manteniendo el contenido de carbono a un nivel

relativamente bajo, si se añaden pequeñas cantidades de otros elementos ya

que, combinados con tratamientos térmicos adecuados, pueden producir aceros

resistentes con buena ductilidad, tenacidad y soldabilidad; aceros con mayor

resistencia a la corrosión; aceros con mayor resistencia a altas temperaturas;

etc.


Aditivos

Como ya se ha comentado, la adición de pequeñas cantidades de carbono

al hierro incrementa su resistencia y sensibilidad al tratamiento térmico (o

templabilidad2). Sin embargo, existen otros elementos que también afectan a

la resistencia y templabilidad, aunque en mucha menor medida que aquel. El

manganeso, el cromo, el molibdeno, el niquel y el cobre actúan en la microes-

tructura del acero y permiten obtener la resistencia requerida, manteniendo un

nivel de carbono bajo, si el tratamiento térmico/condiciones de fabricación son

los adecuados:

El manganeso es uno de los elementos fundamentales e indispensables,

apareciendo prácticamente en todas las aleaciones de acero, debido, prin-

cipalmente, a que se añade como elemento de adición para neutralizar la

perniciosa in�uencia del azufre y del oxígeno, que siempre suelen contener

los aceros cuando se encuentran en estado líquido en los hornos durante

los procesos de fabricación. El manganeso actúa también como desoxi-

dante, aumenta la capacidad de endurecimiento y evita, en parte, que en

la solidi�cación del acero se desprendan gases que den lugar a porosidades

perjudiciales en el material.

El cromo aumenta la profundidad del endurecimiento y mejora la tem-

plabilidad. Asimismo, aumenta la resistencia a altas temperaturas y evita

la corrosión.

Es un elemento principal de aleación en aceros inoxidables y, debido a su

capacidad de formar carburos, se utiliza en revestimientos o recubrimien-

tos duros de gran resistencia al desgaste, como émbolos, ejes, etc.

Una de las ventajas más grandes que reporta el empleo de níquel, es evitar

el crecimiento del grano en los tratamientos térmicos, lo que sirve para

producir en ellos gran tenacidad. El níquel, además, hace descencer los

puntos críticos y, por ello, los tratamientos pueden hacerse a temperatu-

ras ligeramente más bajas que la que corresponde a los aceros ordinarios.

Experimentalmente se observa que con los aceros aleados con níquel se

2�Templabilidad� es un término utilizado para describir la aptitud de una aleación paraendurecerse como consecuencia de un tratamiento térmico, es decir, es una medida de laprofundidad a la cual una aleación especí�ca puede endurecerse (Callister, 1996).


obtiene para una misma dureza, un límite de elasticidad ligeramente más

elevado y mayores alargamientos y resistencias que con los aceros al car-

bono o de baja aleación.

El níquel se utiliza mucho en los aceros inoxidables, para aumentar la

resistencia a la corrosión.

El molibdeno también es un elemento habitual, ya que aumenta mucho la

profundidad de endurecimiento del acero, así como su resistencia al im-

pacto. Es el elemento más efectivo para mejorar la resistencia del acero

a bajas temperaturas, reduciendo, además, la pérdida de resistencia por

templado: añadiendo sólo pequeñas cantidades de molibdeno a los ace-

ros cromo-níqueles, se disminuye o elimina casi totalmente el problema

conocido como fragilidad por revenido3.

El cobre aumenta la resistencia a la corrosión de aceros al carbono.

El a�namiento de la estructura del grano de los aceros conduce, al mismo

tiempo, a un incremento en el límite elástico y a una mejora en la tenacidad y

ductilidad, lo que es importante para obtener aceros con mejores propiedades.

Aunque el tratamiento térmico y, en particular, la velocidad de enfriamiento,

son factores clave para obtener el a�namiento del grano, la presencia de uno

o más elementos que lo promueven, añadiendo la nucleación de nuevos granos

durante el enfriamiento, también es extremadamente bene�ciosa. Tales elemen-

tos son el niobio, el vanadio y el aluminio, los cuales pueden ser añadidos en

pequeñas cantidades, hasta un 0,05 % en peso:

El niobio hace posible la mejora de las características mecánicas mediante

el a�no del grano y la precipitación.

El vanadio facilita la formación de grano pequeño y reduce la pérdida

de resistencia durante el templado, aumentando, por tanto, la capacidad

de endurecimiento. Es un elemento desoxidante muy fuerte y tiene una

3La fragilidad por revenido, o fragilidad Krupp, se produce al migrar los elementos a loscontornos del grano si el acero alcanza una temperatura entre 500 y 600 oC. A temperaturanormal, estos aceros tienen muy poca tenacidad y el fallo se produce por fractura intergra-nular.


gran tendencia a formar carburos, por lo que basta con añadir pequeñas

cantidades. Una característica de los aceros con vanadio es su gran resis-

tencia al ablandamiento por revenido. Se emplea principalmente para la

fabricación de aceros de herramientas.

El aluminio se emplea principalmente como desoxidante en la elaboración

de acero, aunque también reduce el crecimiento del grano al formar óxidos

y nitruros.

Existen, además, otros elementos cuya adición puede resultar bene�ciosa en

las propiedades de los aceros:

El silicio, al igual que el manganeso, aparece en todos los aceros porque

se añade intencionadamente durante el proceso de fabricación. Se emplea

como elemento desoxidante complementario del manganeso, con objeto de

evitar que aparezcan en el acero poros y otros defectos internos. Mejora

ligeramente la templabilidad y la resistencia de los aceros y, en ciertos

casos, mejora también su resistencia a la oxidación.

El boro logra aumentar la capacidad de endurecimiento cuando el acero

está totalmente desoxidado. Una pequeña cantidad de Boro (0.001%)

tiene un efecto marcado en el endurecimiento del acero, ya que también

se combina con el carbono para formar los carburos que dan al acero

características de revestimiento duro.

El titanio se suele añadir en pequeñas cantidades a algunos aceros muy

especiales, para desoxidar y a�nar el grano. Este elemento tiene gran

tendencia a formar carburos y a combinarse con el nitrógeno.

En los aceros inoxidables cromo-níquel, actúa como estabilizador de los

carburos y evita la corrosión intercristalina.

El cobalto es un elemento poco habitual en los aceros, ya que disminuye la

capacidad de endurecimiento. Sin embargo, se puede usar en aplicaciones

donde se requiere un revestimiento duro para servicio a alta temperatu-

ra, ya que produce una gran cantidad de solución sólida endurecedora,

cuando es disuelto en ferrita o austenita.


El wolframio (tungsteno), es un elemento muy utilizado para la fabri-

cación de aceros de herramientas, empleándose en especial en los aceros

rápidos, aceros para herramientas de corte y aceros para trabajos en ca-

liente. Sirve para mantener la dureza de los aceros a elevada temperatura

y evitan que se desa�len o ablanden las herramientas, aunque lleguen a

calentarse a 500 ó 600 oC.

El plomo es un ejemplo de elemento casi insoluble en hierro. Se añade

plomo a muchos tipos de acero para mejorar en gran manera su maqui-

nabilidad.

Inclusiones no metálicas

La presencia de inclusiones no metálicas debe ser cuidadosamente controla-

da en aplicaciones particulares. Tales inclusiones se presentan como un residuo

del mineral, de la chatarra o del combustible en el proceso de fabricación del

acero, por lo que se deben seguir ciertos pasos para reducirlas al nivel requerido.

Las impurezas más comunes son el azufre y el fósforo: elevadas cantidades de

estos elementos reducen la resistencia, la ductilidad y pueden producir proble-

mas de grietas en uniones soldadas. Otros elementos que pueden aparecer como

impurezas y pueden tener serios efectos negativos en el acero son el antimonio

y el arsénico, ya que pueden promover la fragilidad por revenido. Es particular-

mente importante asegurar que este grupo de elementos sea eliminado de los

aceros de bajo contenido en carbono.

Los aceros con un alto contenido en gases disueltos, en particular oxígeno

y nitrógeno, pueden comportarse de manera frágil, por lo que su nivel debe ser

controlado. Incluyendo pequeñas cantidades de elementos que tengan una espe-

cial a�nidad con ellos, se consiguen combinaciones que escapan del acero líquido

a altas temperaturas o permanecen como inclusiones no metálicas: el silicio y

el aluminio se usan como desoxidantes, aunque el aluminio también ayuda a

controlar el nivel de nitrógeno libre ya que éste debe mantenerse a niveles ba-

jos en aquellos casos en los que el fenómeno de fragilidad por envejecimiento es

importante.

3.2.2. Tratamiento térmico

Durante la fabricación del acero, la composición química deseada se obtiene


t(s)60 90 120

T(oC)

450

650

850

Figura 3.1: Ejemplo de per�l de temperaturas en un ciclo de recocido.

mientras está en estado líquido a altas temperaturas. A medida que el acero

se enfría, se solidi�ca y se producen cambios sustanciales en su estructura. Sin

embargo, la microestructura y propiedades de un acero pueden modi�carse con

tratamientos térmicos cuidadosamente elegidos tras el proceso de producción

del producto base:

Recocido. Con este nombre se conocen varios tratamientos donde el en-

friamiento del acero, desde una temperatura entre 800 y 950 oC, es lento

y se realiza esencialmente en un horno. Su objetivo principal es �ablan-

dar� el acero para facilitar su mecanizado posterior. También es utilizado

para regenerar el grano o eliminar las tensiones internas. En un ciclo de

recocido se reconocen las siguientes fases (�gura 3.1):

1. Subida de la temperatura hasta la temperatura máxima del per�l

de recocido, para asegurar la recristalización del acero.

2. Mantenimiento a alta temperatura para permitir el crecimiento del

grano.

3. Enfriamiento lento para controlar la textura del metal y obtener

unas propiedades mecánicas y físicas adecuadas.

4. Enfriamiento rápido para preparar el acero al tratamiento de enve-

jecimiento, congelando una cantidad máxima de carbono en sobre-


saturación.

5. Envejecimiento o igualación, garantizando una precipitación del car-

bono, para minimizar los fenómenos de envejecimiento ulterior del

acero.

Normalizado. El acero se enfría, también desde una temperatura entre 800

y 950 oC, al aire. Con este tratamiento se consigue un tamaño del grano

más �no y, por tanto, un mayor límite elástico y una mejor tenacidad,

para una composición dada.

Templado. Es un proceso de calentamiento seguido de un enfriamiento,

generalmente rápido con una velocidad mínima llamada �crítica�. El �n

que se pretende conseguir con el ciclo del temple es aumentar la dureza y

resistencia mecánica. El factor que caracteriza a la fase de enfriamiento

es la velocidad del mismo. La velocidad crítica de los aceros al carbono

es muy elevada, mientras que los elementos de aleación disminuyen en

general la velocidad crítica de temple y en algunos tipos de alta alea-

ción es posible realizar el temple al aire. A estos aceros se les denomina

'autotemplantes'. Los factores que in�uyen en la práctica del temple son

el tamaño de la pieza, la composición química del acero, el tamaño del

grano y el medio de enfriamiento.

Revenido. Es un tratamiento complementario del temple, que general-

mente sigue a éste. Al conjunto de los dos tratamientos también se le

denomina �boni�cado�. El tratamiento de revenido consiste en calentar

al acero después de normalizado o templado, seguido de un enfriamien-

to controlado que puede ser rápido cuando se pretenden resultados altos

en tenacidad, o lento, para reducir al máximo las tensiones térmicas que

pueden generar deformaciones. Cuando se pretenden los dos objetivos, se

recurre al doble revenido, el primero con enfriamiento rápido y el segundo

con enfriamiento lento hasta -300oC.

3.2.3. Proceso productivo

El acero se obtiene a partir de dos materias primas fundamentales: mine-

ral de hierro y chatarra férrea. El proceso de fabricación de acero fundido a


Chatarra

férrea

Mineral

de hierro

Materiasprimas

Horno de

arco

eléctrico

Alto

horno

Metalurgia

secundaria

Colada

continua

Planchones

(planos)

Palanquillas

(largos)

Productossemiacabados

Figura 3.2: Proceso de fabricación del acero.

base de mineral de hierro utiliza un alto horno, mientras que el proceso con

chatarra férrea recurre a un horno de arco eléctrico. Ambos procesos son com-

plementados con Metalurgia Secundaria en hornos de cuchara, donde se re�na

el acero y se ajusta su composición química para producir calidades especí�cas.

Posteriormente, el acero líquido pasa a las máquinas de colada continua para

su solidi�cación, obteniéndose lo que se conoce como productos semiacabados:

desbastes o planchones, si presentan un corte transversal rectangular, para la

fabricación de productos planos (bandas, bobinas, láminas, etc.); o blooms o

palanquillas, si tienen un corte transversal cuadrado, que se destinan para la

fabricación de productos largos (barras, alambrón, etc.) (�gura 3.2).

Una vez ajustada la composición química del acero en las estaciones de

metalurgia secundaria y antes de ser vertido de la cuchara a la artesa de la

colada continua, se toman muestras del mismo para ser analizadas, de tal forma

que los resultados de este análisis representan la composición química de toda

la colada.

La transformación de los planchones y palanquillas en productos acabados

se realiza mediante la �laminación en caliente�. En este proceso, los productos

semiacabados se calientan primero en hornos, donde son llevados a tempera-

turas de laminación. Este tratamiento metalúrgico permite, por medio de la

oxidación generada, remover pequeños defectos super�ciales y ablandar el ace-

ro para facilitar los procesos de tre�lado y conformado. A continuación, el

formato se transforma mecánicamente hasta la forma y tamaño desados al pa-


sar a través de los cilindros de la unidad de laminación, que reducen la sección

transversal del acero mediante la presión ejercida por éstos.

Las chapas �nas laminadas en caliente también pueden ser sometidas a de-

formación a temperatura ambiente (�laminación en frío�) para reducir el espesor

y obtener bobinas laminadas en frío. Estas últimas pueden ser entregadas al

mercado o continuar su procesamiento en los hornos de recocido y en los trenes

de laminación de temple: el recocido es un tratamiento térmico que ablanda y

recupera las características mecánicas del material deformado en frío; mientras

que la laminación del temple permite eliminar las líneas de �uencia, corregir

la forma y dar la terminación super�cial requerida. A su vez, estas bobinas

pueden continuar procesos posteriores de recubrimiento electroquímico.

Fabricación del acero galvanizado

Parte de los trabajos publicados en esta tesis, se centran en una línea de

galvanizado continuo por inmersión en particular, por lo que, en esta sección, se

ha preferido describir esta línea de fabricación de acero galvanizado4. A pesar

de ello, lo aquí descrito, puede aplicarse, con ligeras modi�caciones, a la mayor

parte de las líneas de galvanizado continuo por inmersión instaladas en todo el

mundo, por ser todas ellas muy similares.

La línea puede considerarse dividida en tres secciones (�gura 3.3):

Sección de entrada que comprende las unidades de debobinado, endere-

zado, corte y soldadura.

Sección de proceso que comprende la unidad de tensión, horno de proceso,

unidad de revestimiento, control de revestimiento, equipo de enfriamiento,

unidad de tratamiento químico y unidades de aplanado.

Sección de salida que comprende el equipo de bobinado y de salida de

bobinas, tijera, aplanadora, inspección, apiladora y salida de chapas de

rechazo, apilado y salida de chapas de primera calidad.

4En Vergara González (1999) puede encontrarse una descripción más detallada de estalínea.


Sección de entrada

Debobinado,

enderezado, corte y

soldadura

Horno de

procesoUnidad de

recubrimiento

Unidad de

enfriamiento

Skin-passAplanadoraTratamiento

químico

Sección de salida

Bobinado, tijera,

aplanado, inspección

y apilado

Sección de proceso

Figura 3.3: Esquema general de una línea de acero galvanizado.

La primera operación que tiene lugar en la línea, consiste en la formación de

una banda continua a partir de las bobinas de acero procedentes de laminación,

que ya poseen el espesor requerido. Para transformar las bobinas en una banda

continua, se debobinan, despuntando la cabeza y la cola, y se sueldan a solape.

Las impurezas arrastradas de la laminación se eliminan mediante el calenta-

miento en atmósfera no oxidante. Una vez limpia la banda, ésta se somete a un

ciclo de recocido (véase apartado 3.2.2), para mejorar las características mecá-

nicas de la banda. El horno de proceso en el que se realizan estas operaciones,

se puede dividir en cinco zonas:

Zona de Precalentamiento y Limpieza. La misión de esta sección es lim-

piar la banda, que procede directamente del Tren Tándem, y calentarla

hasta una temperatura de 450-800oC, según espesores y ciclos térmicos.

La limpieza se realiza por volatilización de los aceites de laminación,

arrastre mecánico de partículas de suciedad y reducción del óxido super-

�cial, al pasar la banda entre dos �las de mecheros cuya llama, reductora

y abierta, calienta las zonas hasta una temperatura máxima de 1260oC.

Conseguir una perfecta limpieza de banda es fundamental para lograr

una buena adherencia. Si esta sección no consigue limpiar la banda, o si,

por el contrario, se oxida por una mala composición de la llama (llama

oxidante), será imposible lograr un recubrimiento de calidad.


Zona de Calentamiento. La banda limpia, y a una temperatura de 450-

800oC, es calentada en esta sección hasta una temperatura superior a

780oC. El calentamiento se realiza por radiación, protegiéndose la banda

con atmósfera de HN contra la oxidación, la cual podría producirse co-

mo consecuencia de la entrada de aire por alguna fuga o por rotura de

un tubo radiante. A su paso por esta sección, la banda alcanza su máxi-

ma temperatura en todo el proceso (aproximadamente 800oC), siendo la

temperatura máxima de la zona 980oC.

Zona de Enfriamiento Controlado. La banda, que a su paso por la sección

anterior alcanzó su máxima temperatura, durante el recorrido por esta

zona se enfriará de modo controlado, para conseguir unas características

mecánicas adecuadas. El enfriamiento se realiza mediante un intercam-

bio de calor banda-atmósfera, refrigerándose esta última por medio de

tubos enfriados por aire. En esta sección, una oxidación de la banda se-

ría irreversible por estar el hidrógeno de la atmósfera a una temperatura

excesivamente baja. La temperatura de banda a la salida de esta sección

varía entre 600-800oC según el ciclo térmico.

Zona de enfriamiento Rápido (Jet Cooling). En esta sección se enfría la

banda hasta una temperatura más adecuada para realizar el recubrimien-

to, esto es, ligeramente superior a la del baño. Es imprescindible mantener

esta sección totalmente exenta de fugas debido a que la presencia de oxí-

geno oxidaría la banda de forma irreversible, impidiendo la adherencia.

La temperatura de la banda, a la entrada del baño, debe ser lo más esta-

ble posible, ya que las variaciones de temperatura favorecen la disolución

del acero en el zinc.

Zona del Turn Down. Desvía la banda hacia el pote. El conducto de

bajada cierra estanco con el nivel del metal fundido en el pote.

A continuación, la banda se sumerge en un pote con zinc fundido quedando

revestida de este metal. El control del revestimiento se realiza proyectando aire

a alta presión sobre ambos lados de la banda recubierta. Tras el revestimiento,

la banda se enfría mediante corriente de aire forzado a través de seis conductos,

montados uno vertical y cinco horizontales, y mediante la proyección de agua

pulverizada, sobre ambas caras, en el tanque de enfriamiento.


Si durante el almacenamiento o transporte se produjeran condiciones sua-

ves de oxidación se formarían sobre la super�cie de la banda manchas blancas

correspondientes a la presencia de óxido. Este fenómeno no supone una dismi-

nución de las características anticorrosivas del recubrimiento, pero sí desluce

el aspecto de la banda. Para prevenir la aparición de esta oxidación blanca, se

somete a la banda a un tratamiento super�cial de ácido crómico en la unidad

de tratamiento químico.

En dos de los rodillos de�ectores que conducen la banda por debajo del

pote, están localizados los equipos de la galga para medir el espesor del re-

vestimiento. Cuando el espesor de la banda sea inferior a 2mm el aplanado se

realizará por medio de la C.S.L. (Continuous Stretch Leveling) o aplanadora.

Cuatro juegos de rodillos de tensión producen la tensión su�ciente para obtener

alargamientos de hasta el 2%. A la salida de esta unidad existe un equipo de

rodillos para la medida de la tensión de la banda, indicando la uniformidad de

la medida la planitud de la banda. En algunas ocasiones este aplanado pue-

de venir precedido de un skin-pass, que dote al material de las características

mecánicas, y rugosidad super�cial adecuadas.

Después de este proceso, se obtiene el producto acabado bien en forma de

bobinas o de chapas cortadas. Las chapas, de longitud predeterminada, se ob-

tienen mediante una tijera y se imprimen con la marca de fabricación mediante

un marcador operado mecánicamente, instalado en la mesa de inspección.

3.3. Modelado de las propiedades mecánicas de

las bobinas

En la sección anterior, se ha visto cómo las propiedades mecánicas de las

bobinas de acero galvanizado pueden verse afectadas a lo largo de todo el pro-

ceso de fabricación, desde la obtención del acero (que determina la composición

química de la colada) hasta, prácticamente, el momento en el que se convierte

en producto acabado (bien en forma de bobinas o de chapas galvanizadas). Eso

quiere decir, que podría resultar factible desarrollar un modelo que permitiera

predecir dichas propiedades mecánicas, a partir de los datos de proceso, e intro-

ducir mejoras en los sistemas de control existentes en las líneas de fabricación

de acero galvanizado. A continuación, se expone la metodología seguida en esta

línea de investigación, cuyos resultados han sido publicados en Ordieres Meré

3.3 Modelado de las propiedades mecánicas de las bobinas 37

et~al. (2004).

Una vez analizado el problema y determinados los objetivos que se preten-

dían alcanzar, una fase crucial en el proceso de minería de datos iniciado, fue la

selección de las variables que intervendrían en la generación del modelo. Tras

consultar con los expertos, se decidió incluir en el estudio quince variables de

composición química de la colada y tres variables de proceso procedentes de la

línea de galvanizado, para predecir el límite elástico, la resistencia a la rotura

y el alargamiento de las bobinas (ver cuadro 3.1).

Las fases de análisis y preparación del conjunto de datos, como paso previo

al modelado, fueron llevadas a cabo, principalmente, empleando técnicas de

visualización (histogramas, diagramas de dispersión de variables por pares, etc.)

y técnicas de proyección (proyección Sammon (Sammon, 1969) y Análisis de

Componentes Principales, PCA (Dunteman, 1989)). Estas herramientas fueron

útiles para observar la estructura de los datos (asimetrías, heterogeneidad, etc.),

las relaciones existentes entre las variables, la ocurrencia de datos erróneos, así

como la existencia de diferentes clases de comportamiento.

Tras eliminar los espurios y dividir el conjunto de datos en las clases pre-

viamente detectadas, se procedió al entrenamiento de un conjunto de redes

neuronales en aquellas clases con un número �su�ciente� de patrones, teniendo

en cuenta que la base de datos se dividió en tres subconjuntos (entrenamiento,

validación y test) para mejorar la capacidad de generalización de las redes en-

trenadas. Con los patrones de entrenamiento (63,3% de las muestras) se realizó

el ajuste de los pesos de las neuronas, mientras que los de validación (31,6%

de los datos disponibles) fueron utilizados para comprobar, cada cierto número

de ciclos de entrenamiento (treinta de un total de cien mil), que el error obte-

nido con los patrones de entrenamiento era coherente con el error que vería la

red neuronal frente a nuevos datos que no hubieran participado en el ajuste.

En cada caso entrenado, la red �nal se correspondía con aquella cuyo error

de validación era mínimo. Por último, los patrones de test (5% restante), que

no habían sido vistos nunca por la red entrenada, sirvieron para comprobar la

capacidad de generalización de la misma.

Además de la técnica de parada temprana empleada, para que los resultados

del entrenamiento no dependieran de una determinada selección, que al ser

aleatoria pudiera no ser idónea en el contenido de su información, se generaron

tres conjuntos de �cheros con los que se llevó a cabo el entrenamiento, validación

y test, seleccionando �nalmente la red que mejor se adaptó a la información


Variable Símbolo

Variables de entrada

Temperatura media de la banda a la salida de la zona de

calentamiento (oC)tmp.avg

Velocidad media de la banda dentro del horno (m min−1) vel.avg

Alargamiento en el skin-pass (%) skin.A

Contenido en Carbono (% en peso) C

Contenido en Manganeso (% en peso) Mn

Contenido en Silicio (% en peso) Si

Contenido en Azufre (% en peso) S

Contenido en Fósforo (% en peso) P

Contenido en Aluminio (% en peso) Al

Contenido en Cobre (% en peso) Cu

Contenido en Níquel (% en peso) Ni

Contenido en Cromo (% en peso) Cr

Contenido en Niobio (% en peso) Nb

Contenido en Vanadio (% en peso) V

Contenido en Titanio (% en peso) Ti

Contenido en Boro (% en peso) B

Contenido en Nitrógeno (% en peso) N

Carbono equivalente (% en peso) Ceq

Variables de salida

Límite Elástico (MPa) YIELD

Resistencia a la rotura (MPa) TENSILE

Alargamiento (%) ELONG

Cuadro 3.1: Variables utilizadas en el modelado de las propiedades mecánicas.

3.4 Modelado de velocidad de la banda en el horno de recocido 39

...

Entradas

(17)

Composición

química

Temperatura

de la banda

Velocidad de

la banda

...

...

Capa

oculta

Límite elástico

Resistencia a la

rotura

Alargamiento

Salida

(1)

Figura 3.4: Modelo neuronal para la predicción de las propiedades mecánicas.

contenida en los datos.

En cuanto a la arquitectura de la red, se utilizó un perceptrón multicapa

con diecisiete entradas, un número variable de neuronas en la capa oculta y

una salida (�gura 3.4). El algoritmo de aprendizaje seleccionado fue el de re-

tropopagación del error con decaimiento de pesos, para evitar el sobreajuste de

la red, al no disponer de un número su�ciente de patrones de entrenamiento en

comparación con el número de variables de entrada.

3.4. Modelado de velocidad de la banda en el

horno de recocido

En el apartado 3.2.2, se ha tratado la in�uencia que los tratamientos térmi-

cos tienen en las propiedades �nales del acero. En la línea de acero galvanizado

por inmersión objeto de estudio, las bobinas fabricadas son sometidas a un

tratamiento de recocido antes de proceder a su revestimiento. Este proceso es

clave no sólo para la obtener las propiedades de la banda deseadas, sino tam-

bién para conseguir una buena adherencia del recubrimiento. Actualmente, la

temperatura de la banda de acero se consigue modi�cando las consignas de

temperatura del horno. Ya en Martínez de Pisón Ascacíbar (2003), se propone

un control más e�ciente de la temperatura, para asegurar que la temperatura


Variable Símbolo

Variables de entrada

Espesor de la banda a la entrada del horno (mm) THICKNAnchura de la banda a la entrada del horno (mm) WIDTHConsigna de temperatura de la banda a la salida de la

zona de calentamiento (oC)TMPP2SP

Temperatura real de la banda a la entrada de la zona de

calentamiento (oC)TMPP1

Consigna de temperatura de zona 1 del horno dentro de la

zona de calentamiento (oC)TMPH1SP

Consigna de temperatura de zona 3 del horno dentro de

la zona de calentamiento (oC)TMPH3SP

Consigna de temperatura de zona 5 del horno dentro de

la zona de calentamiento (oC)TMPH5SP

Variable de salida

Velocidad media de la banda dentro del horno (m min−1) VEL

Cuadro 3.2: Variables utilizadas en el modelado de la velocidad de la banda en elhorno de recocido.

real de la banda a la salida de la zona de calentamiento del horno se aproxime

a la deseada, si, además, se regula la velocidad de la banda dentro del horno.

En este sentido, y como una mejora más en el control del ciclo de recocido, se

ha trabajado en el desarrollo de un modelo robusto de la velocidad de la banda

dentro del horno de recocido, publicándose los resultados obtenidos en Pernía

Espinoza et~al. (2005a).

La base de datos con la que se desarrolló el modelo, fue tomada de Martí-

nez de Pisón Ascacíbar (2003), donde se especi�ca cuál ha sido el proceso de

selección de las variables más relevantes (cuadro 3.2), partiendo de un total de

más de 6000. Por eso, una vez delimitados los objetivos a alcanzar, hubo que

decidir el tipo de modelo robusto más conveniente. De nuevo, por su probada

e�ciencia y simplicidad, se pre�rió el modelado mediante redes neuronales.

El conjunto de datos utilizado contenía un pequeño porcentaje de muestras,

un 3%, con valores de velocidad fuera del rango normal de funcionamiento de la

línea. A pesar de que en un principio se pensó en que correspondían a espurios

causados por errores de adquisición, y, por tanto, podían ser eliminados, los

expertos del proceso explicaron que la bajada brusca de velocidad de la banda

3.4 Modelado de velocidad de la banda en el horno de recocido 41

era debida a fenómenos transitorios que pueden darse en la línea, tales como

la soldadura de una bobina o la incorporación de una bobina atípica (con

dimensiones inusuales). Al visualizar la evolución temporal de la velocidad y

temperatura de salida de la banda, se vió que estas transiciones de velocidad

duraban cortos espacios de tiempo y que sus efectos en la temperatura de salida

de la banda no eran signi�cativos, es decir, la calidad del producto no se veía

afectada por esos cambios.

Ante esta situación, en la que no es extraño que disminuya la velocidad de

forma brusca, era conveniente que el modelo neuronal aprendiera la relación

entre la temperatura y la velocidad en estos casos. Sin embargo, para que su

presencia en el entrenamiento no afectara negativamente al modelo, resultaba

adecuado el uso de algoritmos robustos. De los diferentes tipos de redes neu-

ronales robustas que pueden encontrarse en la literatura (Ahmed and Farag,

2002; Chen and Jain, 1994; Chuang et~al., 2000; Huang et~al., 1998; Liano,

1996; McDowall and Ham, 1997), se seleccionó el método propuesto por Liano

(1996), denominado LMLS (Least Mean Log Squares)), por sus importantes

propiedades (robustez con un elevado punto de ruptura y una alta e�ciencia

con errores normalmente distribuidos) y por su facilidad de implementación

en cualquier programa de entrenamiento que emplee la retropropagación. Ade-

más, para veri�car su comportamiento en el modelado de procesos industriales,

que hasta el momento no había tenido lugar, se comparó con el algoritmo de

aprendizaje no robusto, basado en el MSE.

En el entrenamiento se emplearon redes perceptrón multicapa con siete

entradas, quince neuronas en la capa oculta y una salida (�gura 3.5). Para el

aprendizaje, el algoritmo de retropropagación con el método de optimización

del gradiente conjugado de Fletcher-Reeves, fue utilizado. En cuanto al criterio

de error, como ya se ha comentado, se empleó, por un lado, el error medio del

logaritmo de los cuadrados (criterio robusto) y, por otro, el error cuadrático

medio (criterio no robusto).

Por último, para que el modelo de velocidad de la banda dentro del horno

produjera consignas de control adecuadas, únicamente se usaron patrones cuya

diferencia entre la temperatura real y la deseada fuera menor de 20oC (valor

que los expertos consideraron dentro de los límites de tolerancia).


...

Entradas

(7)

Espesor

Ancho

Temperaturas

de la banda y

del horno

...

...

Capa oculta

(15 neuronas)

Velocidad de

la banda

Salida

(1)

Figura 3.5: Modelo neuronal para la velocidad de la banda en el horno de recocido.

Capı́tulo 4Resultados y discusión

En este capítulo se presentan los resultados obtenidos en la elaboración de

esta tesis, los cuales pueden dividirse, principalmente, en dos bloques. El pri-

mero, incluiría la aplicación de las técnicas de minería de datos en el modelado

de una línea de producción de acero galvanizado por inmersión en caliente;

mientras que en el segundo, tendría cabida el desarrollo de un nuevo método

de entrenamiento neuronal robusto.

4.1. Aplicación de técnicas de minería de datos

en el modelado de una línea de acero galva-

nizado

Durante las primeras fases del proceso de mineria de datos aplicadas al

modelo de las propiedades mecánicas de las bobinas, esto es, en el análisis

y preparación del conjunto de datos, se observó que la variable que medía el

alargamiento en el skin-pass, permanecía constante en las muestras disponibles.

Puesto que era una variable que no aportaba ningún tipo de información, y

teniendo presente la �maldición de la dimensionalidad�, se obvió en el resto del

proceso de minería de datos, con lo que el número total de variables de entrada

pasó a ser diecisiete.

Además, se localizaron once bobinas que destacaban del resto por sus altos

44 Resultados y discusión

contenidos en Manganeso, Silicio, Cromo, Carbono equivalente, así como por

poseer una mayor resistencia a la rotura. Al ser un número tan poco signi�cativo

(representaban un 0,63% del total) y no pudiendo incluirse en ninguna otra de

las clases detectadas, se eliminaron del análisis.

Por último, y tal como se acaba de avanzar, en los datos analizados se

encontraron tres clases de comportamiento, lo que quiere decir, que resultaba

conveniente desarrollar un modelo para cada una de ellas.

Tras eliminar los datos atípicos y dividir el conjunto de datos en las tres

clases detectadas, se observó que uno de los grupos en los que se acababa de

dividir la base de datos contenía un número de patrones insu�ciente para el

entrenamiento adecuado de una red neuronal con diecisiete entradas. Por ello,

únicamente se modelaron los dos grupos restantes (los denominados clase1 y

clase2 ). De todas las redes entrenadas para cada caso, las mejores ofrecieron

resultados bastante buenos, siendo los errores medios relativos de los patrones

de test, es decir, de los nunca vistos por la red durante el entrenamiento, no

superiores al 4,5%: los modelos con un mejor ajuste correspondían a la resisten-

cia a la rotura, con un error medio relativo inferior al 2%; en el polo opuesto,

el modelo para el alargamiento de la clase2, poseía un error medio relativo en

torno al 4,3%; y, en un punto �intermedio�, las estimaciones del límite elástico

con los patrones de test, no fueron tan buenas como para la resistencia a la

rotura, pero en algunos casos mejoraban las obtenidas para el alargamiento.

A la vista de las buenas estimaciones ofrecidas por los modelos creados, és-

tos fueron utilizados para cuanti�car el impacto que los parámetros de proceso

(que son los que se pueden controlar para conseguir modi�car las características

del producto �nal) tenían sobre estas propiedades mecánicas. El objeto de este

análisis no era otro que el de obtener un mayor conocimiento del efecto que

el proceso de recocido tiene sobre las propiedades de las bobinas sometidas al

proceso de galvanizado. Para llevarlo a cabo, se seleccionaron varios conjuntos

de patrones de test; se generaron nuevas muestras, incrementando y disminu-

yendo las variables del horno de recocido (temperatura primero y velocidad de

la banda después), y se aplicaron estos nuevos conjuntos de datos a sus corres-

pondientes modelos neuronales para comprobar los cambios producidos o, dicho

de otro modo, para comprobar la sensibilidad de estas propiedades mecánicas

a las variaciones de temperatura y velocidad en el horno de recocido.

Únicamente resultó sorprendente la tendencia del límite elástico al variar la

velocidad en la clase1, ya que por la propia razón de ser del ciclo de recocido,

4.2 Desarrollo de un nuevo algoritmo de entrenamiento robusto 45

Figura 4.1: Evolución del límite elástico en función de la velocidad en las muestrasrecogidas para la clase1.

al aumentar la temperatura (o al reducir la velocidad y pasar más tiempo en

el horno) el acero se reblandece. El motivo de que esto ocurriera, estaba en la

propia distribución de los patrones utilizados para entrenar la red. En efecto, la

red aprendió correctamente la evolución de esta propiedad mecánica en función

de la velocidad (�gura 4.1). Si el número de muestras disponibles en el rango

de velocidades bajas fuera mayor, este hecho no habría tenido lugar.

En cuanto al modelo de velocidad de la banda en el horno de recocido, tal y

como se podía intuir en un principio, una vez entrenadas las redes, se comprobó

el mejor comportamiento del modelo robusto frente al basado en el MSE: con la

red robusta, se obtuvo un 4,43% de error medio relativo con los patrones de test,

frente al 5,66% de la red no robusta. Además, al representar las velocidades

estimadas con ambos modelos y compararlas con la real, la obtenida con el

modelo robusto permanecía muy próxima a ella, haciendo que el error entre las

temperaturas de consigna y real fueran mínimos, mientras que los valores de

la red no robusta estaban claramente desviados (por su tendencia a reducir el

error cuadrático medio global que producen todos los datos, incluidos los datos

contaminados).

4.2. Desarrollo de un nuevo algoritmo de entre-

namiento robusto

Para probar el comportamiento de la nueva red neuronal robusta propuesta

(de aquí en adelante TAOnet), se diseñaron diferentes experimentos y se com-

pararon los resultados obtenidos con los de la red robusta propuesta por Liano

(1996) (denominada LMLSnet) y los de una red no robusta entrenada con el

46 Resultados y discusión

algoritmo basado en el MSE.

Tales experimentos consistian en aproximar, con una red de dos capas y

diez neuronas en la capa oculta, una función (y = |x|2/3) a la que se añadieron

diferentes tipos de ruido: ruido gaussiano; ruido gaussiano con adición de es-

purios aleatorios de gran valor en cantidades del 10 y 49%; y ruido gaussiano

en el 51% de los patrones y ruido de fondo uniformemente distribuido en la

región de interés en el 49% restante.

En el primer caso, con datos de buena calidad y un ruido de fondo pequeño,

las respuestas de las tres tipologías de red entrenadas, se aproximaron bastante

al modelo esperado en estas condiciones (ausencia de espurios). Para poder eva-

luar objetivamente el comportamiento de cada red, se empleó un único criterio

de error: se calculó la raíz del error cuadrático medio (Root Mean Square, RMS)

de cada respuesta con respecto al modelo ideal. En este primer experimento, la

red que presentó un mejor comportamiento fue la LMLSnet con un error �nal

del 0,60%, seguida de la TAOnet, con un error del 0,75%, y de la MSE con un

error �nal del 1,64%. En cuanto a su convergencia, la más rápida fue la MSE,

seguida de la LMLSnet y, por último, la TAOnet.

El siguiente experimento realizado, en el cual se añadía el mismo ruido

gaussiano que en el caso anterior, además de un 10% de espurios aleatorios

de gran valor, se observó la bondad de las redes robustas al ser sus respuestas

muy próximas a la ideal esperada. En contraposición, la red no robustaMSE se

vio severamente afectada por los espurios, ofreciendo un modelo erróneo. Los

errores �nales de entrenamiento fueron muy parecidos para las redes robustas:

un 0,63% para la LMLSnet y un 0,71% para la TAOnet ; mientras que la red

MSE presentó un error del 240%. En cuanto a las velocidades de convergencia,

siendo muy similares entre las redes robustas, la LMLSnet fue más rápida.

Cuando se estudió el comportamiento de las redes robustas en el límite de

su punto de ruptura (50%), es decir, cuado se añadió, además del ruido gaus-

siano, un 49% de espurios aleatorios de gran valor, con las redes robustas se

obtuvieron, nuevamente, modelos muy próximos al ideal, mientras que la red

no robusta, muy sensible a los datos erróneos, estimó un modelo completa-

mente equivocado. En consecuencia, los errores �nales de entrenamiento de las

redes robustas fueron muy inferiores al obtenido con la red MSE, obteniéndo-

se un error ligeramente más pequeño para la TAOnet, un 0,76%, que para la

LMLSnet, un 0,78%. De nuevo, la LMLSnet convergió más rápidamente que

la TAOnet.

4.2 Desarrollo de un nuevo algoritmo de entrenamiento robusto 47

En el último experimento, en el cual el 51% de los patrones presentaban

ruido gaussiano y el 49% restante ruido de fondo uniformemente distribuido,

se comprobó como, a pesar de la existencia del ruido uniformemente distribui-

do en las cercanías de los datos �buenos�, la TAOnet pudo estimar el modelo

que correspondía a esos datos. Las otras redes, LMLSnet y MSE, presentaron

considerables desviaciones del modelo ideal. Aunque la LMLSnet convergió, de

nuevo, más rápidamente que la TAOnet, la única red que ofreció un compor-

tamiento adecuado, fue esta última, con un error del 0,98% frente al 5,2% y

70% de la LMLSnet y MSE, respectivamente.

En resumen, los diferentes experimentos analizados, muestran las principa-

les propiedades del algoritmo de aprendizaje TAO-robust propuesto: robustez

frente a espurios y alto punto de ruptura. En la mayoría de los casos, su com-

portamiento fue muy similar al de la red robusta propuesta por Liano (1996),

la cual convergía más rápidamente en todos los entrenamientos realizados. Sin

embargo, cuando los patrones contenían ruido de fondo no estructurado, el

comportamiento de la red neuronal robusta TAOnet fue superior a las otras,

siendo, por tanto, recomendable su uso en estas condiciones de ruido.

Capı́tulo 5Conclusiones

5.1. Conclusiones

En este trabajo se ha mostrado la utilidad de las redes neuronales, junto

con otras técnicas y herramientas procedentes de la minería de datos, en el

modelado de una línea de producción de acero galvanizado por inmersión, a

partir de los datos del mismo. Los resultados obtenidos han servido para re-

saltar las principales ventajas que aportan las redes neuronales en el modelado

de procesos industriales: versatilidad para adaptarse a diversas funciones, efec-

tividad para modelar procesos no lineales, aplicación intuitiva y facilidad de

implementación. Pero, también, han servido para poner de mani�esto la nece-

sidad de tratar los espurios, los cuales, en mayor o menor medida, siempre se

encuentran presentes en los datos recogidos y almacenados, y, en este sentido,

resaltar la e�cacia de las redes neuronales robustas sobre las no robustas.

En primer lugar, se modelaron las propiedades mecánicas de las bobinas

de acero galvanizado. Aunque cabría esperar mejores modelos con un mayor

número de patrones de entrenamiento, los buenos resultados de predicción ob-

tenidos demuestran la posibilidad de estimar on-line las características de las

bobinas fabricadas. Las ventajas de estos modelos son evidentes, si se tiene

en cuenta que la medición de estas propiedades supone un coste económico y

temporal: se podrían tomar decisiones adecuadas en tiempo real de una forma

más económica.

Otra ventaja derivada de esto modelos proviene de su sencillez de imple-

50 Conclusiones

290 291 292 293 294 295 296 297 298 299 300

Color Key

0 1000 2000 3000 4000 5000

020

040

060

080

0

YIELD STRENGTH

Length

Wid

th (

mm

)

294.

2729

5.26

295.

4129

5.4

295.

2929

5.12

295.

2329

5.37

294.

5929

4.06

294.

0529

4.12

294.

0829

4.34

294.

5729

4.63

294.

5529

4.6

294.

6129

4.59

294.

5729

4.82

294.

829

4.94

294.

7829

4.77

294.

929

4.71

294.

8529

4.79

294.

9129

5.01

295.

0429

5.05

295.

0429

5.05

295.

129

5.24

295.

2329

5.18

295.

0229

5.06

295.

1129

5.11

295.

1429

5.2

295.

2329

5.28

295.

4429

5.46

295.

3129

5.43

295.

3929

5.43

295.

4329

5.27

295.

2929

5.29

Figura 5.1: Ejemplo de mapa del límite elástico estimado para una bobina.

mentación en la línea de producción, ya que el software utilizado para el en-

trenamiento de las redes, SNNS (Stuttgart Neural Network Simulator)1, posee

una herramienta que genera el código C de una red neuronal, el cual puede ser

fácilmente integrable en el sistema informático existente en la empresa.

Por último, teniendo en cuenta que las variables de proceso, en la línea

objeto de estudio, se miden cada 100 metros, con los modelos propuestos se

puede construir un mapa de características de cada bobina (como la de la

�gura 5.1). Una de las ventajas que aporta este mapa, es que permite conocer

qué metros de una bobina cumplen con los requisitos del cliente y cuales no,

con el ahorro económico que supone puesto que en lugar de desechar toda la

bobina, se cortará sólo aquella zona que no cumpla con los requerimientos.

El segundo modelo creado, el de la velocidad de la banda en el horno de

recocido, también ofreció buenos resultados, con lo que su implementación en

la línea de fabricación, serviría para controlar de un modo más e�ciente la

temperatura de la bobina a la salida del horno, consiguiendo, de esta manera,

temperaturas de salida más adecuadas que las obtenidas al cambiar únicamente

la temperatura de consigna del horno.

Además, este modelo podría ser utilizado para establecer estrategias de

funcionamiento de la línea, para establecer el orden en el que procesar las

bobinas, previsualizar las condiciones de velocidad de la línea en condiciones

transitorias, etc.

1http://www-ra.informatik.uni-tuebingen.de/SNNS/

5.2 Líneas de trabajo futuras 51

Aunque las mejoras individuales propuestas pueden considerarse �pequeñas�

en el conjunto de la línea, el global puede resultar en una ventaja competitiva

para la industria que las adopte.

Por otro lado, se han mostrado las importantes propiedades que posee el

nuevo algoritmo robusto de entrenamiento desarrollado: el algoritmo de apren-

dizaje por retropropagación TAO-robust. Asimismo, se ha demostrado su su-

perioridad frente a otros algoritmos robustos (como el LMLS), en el caso de

presentar patrones de entrenamiento con ruido de fondo.

La combinación del estimador τ no lineal con el algoritmo de entrenamiento

de retropropagación del error, supone una innovación en las redes neuronales

robustas, al solucionar el problema, encontrado en otras redes propuestas, de

seleccionar el factor de escala que determina los límites para reducir los efectos

de los espurios.

5.2. Líneas de trabajo futuras

Es importante recordar que ningún modelo o algoritmo puede o debe ser

usado de modo exclusivo, y que no existe el �mejor� modelo o algoritmo para un

problema dado, ya que la propia naturaleza de los datos afectará a la elección de

los modelos. En este sentido, resulta recomendable utilizar otras herramientas y

tecnologías, como las máquinas de vectores soporte (Support Vector Machines,

SVM), con objeto de obtener los mejores modelos posibles.

También resulta interesante aprovechar las nuevas percepciones, ideas, etc.,

que se generan a lo largo del proceso de minería de datos. En concreto, los

modelos de predicción de las propiedades mecánicas de las bobinas, a partir

de los datos de proceso, pueden utilizarse para obtener un clasi�cador de la

calidad de las bobinas fabricadas, en función del mapa de características de

cada bobina y de los requisitos impuestos por el cliente.

Del mismo modo, los buenos resultados obtenidos en la predicción de las

propiedades mecánicas, hacen pensar en la búsqueda de soluciones para otros

problemas relacionados. Tal es el caso, por ejemplo, de la creación de un �cerro-

jo arti�cial�, en el que ya se está trabajando2, con el �n de hallar una solución

2Las primeras aproximaciones se basan en un modelo neuronal, que predice el alargamientode las bobinas en el skin-pass en función de algunas variables del proceso de fabricación y desu composición química. De esta forma, si la diferencia entre el alargamiento que estima elmodelo y el medido realmente es signi�cativa, se hace necesario sacar la bobina de la línea

52 Conclusiones

a un problema que se presenta esporádicamente, pero cuyas consecuencias pue-

den llegar a ser graves: el etiquetado incorrecto del grado de acero de una

bobina. Bajo estas circunstancias, una bobina es tratada como si tuviera una

composición química que en realidad no posee y, dado que, generalmente, es-

tas bobinas de acero galvanizado sufren posteriores transformaciones antes de

convertirse en producto �nal, si, por error, se envía a un cliente una bobina de

un material más duro de lo esperado, se pueden ocasionar daños importantes

en la maquinaria del mismo, tales como rotura de prensas, etc.

Hasta ahora, únicamente se ha tratado la problemática de una línea de

producción de acero galvanizado, pero resultaría muy interesante, también,

ver�car la utilidad de las técnicas de minería de datos en el modelado de otros

procesos industriales.

En cuanto a las redes neuronales, futuros trabajos podrían ir dirigidos a

desarrollar un sistema que permita cuanti�car el grado de robustez de las mis-

mas.

para someterla a análisis más exhaustivos.

Bibliografía

Ahmed, M. and A. Farag: 2002, `A neural approach to zoom-lens camera cali-

bration from data with outliers'. Image and Vision Computing 20, 619�630.

1, 2, 3.2.3

Bellman, R.: 1961, Adaptive Control Processes: A Guided Tour. Princeton

University Press. 2

Bishop, C. M.: 1995, Neural Networks for Pattern Recogition. Oxford University

Press. 1

Brachman, R. J. and T. Anand: 1996, The Process of Knowledge Discovery

in Databases, Chapt. 2: Advances in knowledge discovery and data mining.

AAAI Press/The MIT Press. 1

Burdekin, M.: 1992, Steel Designers' Manual, Chapt. Applied metallurgy of

steel. Cambridge: Blackwell Science. 3

Callister, W.: 1996, Introducción a la ciencia e ingeniería de los materiales.

Barcelona: Reverté. 2

Castejón Limas, M., J. B. Ordieres Meré, F. J. Martínez de Pisón Ascacibar,

and E. P. Vergara González: September, 2004, `Outlier detection and data

cleaning in multivariate non-normal samples. The PAELLA algorithm'. Data

Mining and Knowledge Discovery 9, 171�187. 1

Chapman, P., J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, and

R. Wirth: 2000, `CRISP-DM 1.0: Step-by-step data mining guide'. Technical

54 BIBLIOGRAFÍA

Report CRISPWP-0800, CRISP-DM consortium / SPSS Inc. (document),

1.1, 1, 1

Chen, D. and R. Jain: 1994, À robust backpropagation learning algorithm for

function approximation'. IEEE Transactions on Neural Networks 5, 467�479.

1, 2, 3.2.3

Cherkassky, V. and F. Mulier: 1998, Learning From Data: concepts, theory and

methods. John Wiley & Sons, Inc. 1

Chuang, C., S. Su, and C. Hsiao: 2000, `The annealing robust backpropagation

(ARBP) learning algorithm'. IEEE Transactions on Neural Networks 11(5),

1067�1077. 1, 2, 3.2.3

Cios, K., W. Pedrycz, and R. Swiniarski: 1998, Data Mining Methods for Kno-

wledge Discovery. Kluwer Academic Publishers. 1

Connor, J., R. Martin, and L. Atlas: 1994, `Recurrent neural networks and

robust time series prediction'. IEEE Transactions on Neural Networks 5,

240�254. 2

Dunteman, G.: 1989, Principal components analysis. Sage Publications. 3.2.3

Fahlman, S.: 1988, Àn empirical study of learning speed in backpropagation

networks'. Technical Report CMU-CS-88-162, Carnegie-Mellon University.

1

Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth: 1996, `Knowledge discovery

and data mining: Towards a unifying framework'. Proceeding of The Se-

cond International Conference on Knowledge Discovery and Data Mining

(KDD'96) pp. 82�88. 1

Fletcher, R.: 1987, Practical methods of optimization. Wiley. 2

Funahashi, K.: 1989, Òn the approximate realization of continuous mapping

by neural networks'. Neural Networks 2, 183�192. 2

Hampel, F., E. Ronchetti, P. Rousseeuw, and W. Stahel: 1986, Robust statistics,

the approach based of in�uence functions. Wiley. 1

Hawkins, D.: 1980, Identi�cations of Outliers. New York: Chapman and Hall.

2

BIBLIOGRAFÍA 55

Haykin, S.: 1999, Neural networks. A comprehensive foundation. Prentice Hall.

2, 2

Hornik, K., M. Stinchcombe, and H. White: 1989, `Multilayer feedforward net-

works are universal approximators'. Neural Networks 2(5), 359�366. 2

Huang, B., B. Zhang, and Q. Huang: 1998, `Robust interval regression analysis

using neural network'. Fuzzy Sets Systems pp. 337�347. 1, 2, 3.2.3

Huber, P. J.: 1981, Robust Statistics. New York: John Wiley and Sons. 2

Huber, P. J.: 2003, Robust Statistics. New York: John Wiley and Sons. 2

LeCun, Y.: 1993, E�cient learning and second-order methods. A tutorial at

NIPS 93. Denver. 2

LeCun, Y., L. Bottou, Y. Bengio, and P. Ha�ner: 1998, `Gradient-based learning

applied to document recognition'. Proceedings of the IEEE 86. 2

Liano, K.: 1996, `Robust error measure for supervised neural network learning

with outliers'. IEEE Transactions on Neural Networks 7(1), 246�250. 1, 2,

3.2.3, 4

Martínez de Pisón Ascacíbar, F. J.: 2003, `Optimización mediante técnicas de

minería de datos del ciclo de precocido de una línea de galvanizado'. Ph.D.

thesis, Universidad de La Rioja. 1, 3.2.3

McDowall, T. and F. Ham: 1997, `Robust partial least-squares regression: A

modular neural network approach'. Proceedings: SPIE 3077, 344�355. 1, 2,

3.2.3

Moody, J. and C. Darken: 1989, `Fast learning networks of locally-tuned pro-

cessing units'. Neural Computation 1, 281�294. 1

Ordieres Meré, J. B., A. González Marcos, J. A. González, and V. Lobato

Rubio: 2004, `Estimation of mechanical properties of steel strips in hot dip

galvanizing lines.'. Ironmaking and Steelmaking 31(1), 43�50. 1, 2, 3, 3.2.3

Pernía Espinoza, A. V., M. Castejón Limas, A. González Marcos, and V. Lo-

bato Rubio: 2005a, `Steel annealing furnace robust neural network model.'.

Ironmaking and Steelmaking 32(5), 418�426. 1, 2, 2, 3, 3.2.3

56 BIBLIOGRAFÍA

Pernía Espinoza, A. V., J. B. Ordieres Meré, F. J. Martínez de Pisón, and A.

González Marcos: 2005b, `TAO-robust backpropagation learning algorithm.'.

Neural Networks 18(2), 191�204. 1, 2

Platt, J.: 1991, `A resource-allocating network for function interpolation'. Neu-

ral Computation 3, 213�225. 1

Pyle, D.: 1999, Data Preparation for Data Mining. Morgan Kaufmann Publis-

hers. 1, 1

Ripley, B.: 1996, Pattern Recognition and Neural Networks. Cambridge Uni-

versity Press. 1

Rousseeuw, P. and V. Yohai: 1984, Robust regression by means of S-estimators,

pp. 256�272. Springer. 2

Rousseeuw, P. J. and A. Leroy: 1987, Robust Regression and Outlier Detection:

Diagnostic Regression Analysis. New York: John Wiley and Sons. 1, 2

Rumelhart, D., J. McClelland, and the PDP research group: 1986, Parallel

Distributed Processing. MIT Press. 1, 2

Sammon, J.: 1969, `A nonlinear mapping for data structure analysis'. IEEE

Transactions on Computers 18, 401�409. 3.2.3

Tabatabai, M. and I. Argyros: 1993, `Robust estimation and testing for general

nonlinear regression models'. Applied Mathematics and Computation 57,

85�101. 2, 2, 2, 2

Tollenaere, T.: 1990, `Supersab: Fast adaptive backpropagation with good sca-

ling properties'. Neural Networks 3, 561�573. 1

Vergara González, E. P.: 1999, `Modelo de control inteligente de espesor de

recubrimiento en galvanizado continuo por inmersión'. Ph.D. thesis, Univer-

sidad de Oviedo. 4

Walczak, B.: 1996, `Neural networks with robust backpropagation learning al-

gorithm'. Analytica Chimica Acta 322, 21�29. 2

Yohai, V. and R. Zamar: 1988, `High breakdown-point estimates of regression

by means of the minimization of an e�cient scale'. Journal of the American

Statistical Association 83(402), 406�413. 2, 2

Desarrollo de técnicas de minería de datos en procesos ... · Hoy en día, una de las...

Documents

Transcript of Desarrollo de técnicas de minería de datos en procesos ... · Hoy en día, una de las...