REDES NEURONALES ARTIFICIALES Y PREDICCIÓN · PDF fileredes neuronales artificiales y...

REDES NEURONALES ARTIFICIALES Y PREDICCIÓN DE FALLO EMPRESARIAL: SUPERACIÓN DEL ENFOQUE DE “CAJA NEGRA” CON ALGORITMOS DE PODA Y

ANÁLISIS DE SENSIBILIDAD

Carlos PIÑEIRO SÁNCHEZ *

Manuel RODRÍGUEZ LÓPEZ *

Pablo De LLANO MONELOS *

*Dpto. de Economía Financiera y Contabilidad – Universidade da Coruña

José SANTOS REYES +

+Dpto. de Computación e Inteligencia Artificial – Universidade da Coruña

Área temática: b) Valoración y Finanzas. Nuevas Tecnologías y Contabilidad.

REDES NEURONALES ARTIFICIALES Y PREDICCIÓN DE FALLO EMPRESARIAL: SUPERACIÓN DEL ENFOQUE DE “CAJA NEGRA” CON ALGORITMOS DE PODA Y

ANÁLISIS DE SENSIBILIDAD

Resumen

Las redes de neuronas artificiales (RNA) son herramientas comunes en el tratamiento de

problemas poco estructurados, con información imperfecta. Aplicadas con éxito para

diagnosticar la salud financiera empresarial y, pronosticar eventos de insolvencia y fallo. Las

RNA modelizan relaciones no lineales mediante elementos conectados por pesos

adaptables, por tanto, su capacidad explicativa es limitada. Unido a la falta de principios

universales para el diseño de su arquitectura, hace que las redes deban ser optimizadas

antes de su aplicación práctica. Los procedimientos estándar de optimización son onerosos.

De hecho es un factor inhibidor del uso en empresas no financieras. Proponemos una vía

menos sofisticada para ajustar RNAs destinadas al pronóstico del fracaso financiero,

combinadas con técnicas econométricas y análisis de sensibilidad. La red reducida, frente al

original y a pronósticos proporcionados por técnicas paramétricas, indica que esta estrategia

disminuye sustancialmente su complejidad interna y el requerimiento de datos, sin mermas

relevantes en calidad de pronósticos.

provided by technical parametric, indicates that this strategy minimize substantially its

internal complexity and the data requirement, without relevant losses in quality of forecasts.

1 INTRODUCCIÓN

Diagnosticar desequilibrios financieros, y pronosticar eventos de fracaso empresarial ha

ganado sofisticación teórica durante las últimas décadas. Los primeros trabajos analizaban

la quiebra, como fenómeno puntual, individualizado, dieron paso a estudios estructurados

basados en búsquedas sistemáticas de patrones estadísticos regulares en empresas sanas

y fallidas (Beaver, 1966). Entre estos trabajos seminales, examinantes de perfiles

estadísticos empleando técnicas univariantes y/o, formalizando la opinión de analistas y

expertos, cabe señalar: Beaver (1966), Wall y Dunning (1928), Tamari (1966), el modelo A-

Score de Argenti (1984). Casi inmediatamente se observó el fracaso como un proceso

multimensional o, proceso complejo que se manifiesta en múltiples disfunciones en el

tiempo; abriendo camino a la aplicación de técnicas estadísticas multivariables, como el

análisis discriminante múltiple (Altman, 1968; Altman et al., 1977), regresión logística

condicional (Ohson, 1980) y regresión probit (Zmijewski, 1983).

Independientemente de la metodología empleada, el enfoque estadístico convencional

descansa el diagnóstico casi exclusivamente en ratios y magnitudes financieras. Muy

recientemente se han incorporado regresores complementarios, relativos por ejemplo a la

calidad de la gestión (Rose et al., 1982; Peel et al., 1986; Keasey y Watson, 1987) o

sustitutos de juicios expertos (Parnes, 2010); también modelos que infieren eficazmente

signos de fracaso a partir del contenido informacional de auditoría (Piñeiro et al., 2012).

Obstáculos recurrentes en el desarrollo de modelos estadísticos son la imperfección

informacional del problema, la complejidad y no linealidad de las relaciones existentes entre

variables. Si bien el desarrollo de modelos econométricos sigue siendo una metodología

preeminente, se explora el uso de métodos diseñadas para escenarios de información

incompleta, o en régimen de incertidumbre. Los métodos heurísticos caracterizados por

utilizar la información contenida en casos reales para inferir reglas o algoritmos que

sintetizan criterios de análisis o diagnóstico, y evaluar eficazmente otros casos o

diagnosticar nuevas situaciones (Quinlan, 1987; Frydman et al., 1985; Messier y Hansen,

1988; Bell et al, 1990; Liang, 1992; Rodríguez, 2002; Hansen et al., 1993; Serrano et al.;

1993; Etheridge et al, 1997; González et al., 1999).

Al margen de técnicas estadísticas clásicas, como las redes bayesianas (Sarkar y Sriram,

2001), se han empleado metodologías menos convencionales, como el particionamiento

recursivo (Frydman et al., 1985; Quinlan, 1986 y 1987; Daubie et al., 2002), conjuntos

imprecisos (Pawlak, 1991; Slowinski y Zopoundis, 1995; McKee, 2000), y lógica difusa

(Dubois y Prade, 1992; Slowinski y Zopounidis, 1995; McKee y Lensberg, 2002; McKee,

2003). Sin embargo, el aprendizaje y la problemática de gestión del conocimiento son

también áreas naturales para la aplicación de herramientas basadas en inteligencia artificial.

Este trabajo examina algunos aspectos prácticos de la aplicación de una clase particular de

herramientas de IA, las redes de neuronas artificiales (RNA), al pronóstico del fracaso

financiero. Las redes demostraron una notable capacidad para realizar diagnósticos

financieros, sin embargo su aplicación al caso concreto del pronóstico del fracaso plantea, el

problema de la selección de la arquitectura y los parámetros adecuados. No se ha

sintetizado una teoría integrada que explique en detalle el fenómeno del fracaso. Las

evidencias empíricas disponibles provienen de múltiples enfoques parciales. Incluso si nos

atenemos al paradigma dominante – pronóstico basado en indicadores contables – existe un

riesgo evidente de multiplicar el número de ratios presentadas a la red, alterando su

funcionamiento. La acumulación de variables de entrada requiere estrategias de

conectividad más complejas que no siempre lleva aparejada una mejora correlativa en

calidad de pronósticos. Proponemos un procedimiento pragmático en dos fases para podar y

simplificar las RNA aplicadas al pronóstico del fracaso empresarial. Un planteamiento menos

complejo y sofisticado que los algoritmos convencionales de optimización. Coherente con la

tendencia a desarrollar RNA estrechamente dependientes de sus dominios de trabajo

(Thomaidis et al., 2007).

Organización del trabajo: Primero ofrecemos una descripción general del funcionamiento de

las RNA, con especial referencia a sus aplicaciones en Finanzas. Seguidamente detallamos

las distintas características del estudio empírico, incluyendo variables y metodología.

Finalmente, discutimos los resultados obtenidos, ofreciendo una síntesis de nuestras

contribuciones.

2 EL ENFOQUE HEURÍSTICO Y LAS REDES DE NEURONAS ARTIFICIALES EN FINANZAS

Los principios básicos de las RNA, el perceptrón, fueron esbozados en 1969 por Marvin

Minsky, definiendo la inteligencia artificial como “el arte de construir máquinas capaces de

hacer cosas que requerirían inteligencia, en caso de que fuesen hechas por seres

humanos”. Los sistemas expertos son posiblemente la aplicación característica de la IA-

Simbólica. Analizan problemas conformen a un sistema reglas que sintetiza la estrategia de

trabajo y conocimiento experto preciso para actuar en el dominio correspondiente; solvencia

y fracaso. Actúan naturalmente allí donde los problemas son estructurados, los

procedimientos responden a reglas estables, y existe un volumen de antecedentes

suficientemente amplio y profundo como para reducir el conocimiento relevante a un sistema

estructurado de reglas. Por contra, tienen dificultades en situaciones de información

imperfecta, problemas desestructurados, y estrategias de razonamiento que implican juicios

de valor y habilidades individuales (Liang, 1992).

Limitaciones especialmente relevantes son el caso de la problemática de gestión

empresarial, donde la investigación reciente tiende a emplear aplicaciones de IA-

subsimbólica, como redes de neuronas artificiales (RNA) y máquinas de soporte vectorial

(SVM) (Odom y Sharda, 1990; Tam y Kiang, 1992; Shin et al., 2005; Härdle et al., 2005; Kim

y Sohn, 2010; Xiaosi et al., 2011). El atractivo de estos sistemas reside en su capacidad

para capturar y organizar el conocimiento; les confiere una destacable habilidad para

afrontar problemas poco estructurados, identificando patrones ocultos informacionales. Son

capaces de autogenerarse, incluso sin supervisión, mediante estrategias predeterminadas

de aprendizaje que emulan, con mayor o menor éxito, los sistemas biológicos. Sin embargo,

la complejidad estructural de las reglas, el nivel de poda elegido para los resultados, son

determinantes para la calidad de la herramienta, en particular cuando se trata de

aprendizaje automático.

2.1 APLICACIONES FINANCIERAS DE LAS RNA

Las RNA, por su capacidad para tratar con información imperfecta y combinaciones de

elementos cualitativos y cuantitativos, son herramientas idóneas para una amplia variedad

de problemas y aplicaciones empresariales (Smith y Gupta, 2002). Entre ellas: Planificación

estratégica, Programación y Control de Producción, Decisiones de marketing y, Finanzas.

Respecto del análisis de solvencia, las RNA se utilizan con éxito diagnosticando la salud

financiera empresarial, detectando precozmente signos de disfunciones financieras latentes,

evaluando el riesgo de crédito (Messier y Hansen, 1988; Hansen y Messier, 1991; Serrano y

Martín, 1993; Coats y Fant, 1993; Fanning y Cogger, 1994; Wilson y Sharda, 1994; Altman

et al., 1994; Barniv et al., 1997; Koh y Tan, 1999; Martínez et al., 2007; Kim, 2011). La

evidencia disponible indica que estas herramientas poseen una capacidad predictiva igual,

incluso superior, a modelos multivariables convencionales (Bell et al.; 1990; Brockett et al.,

2006; Piñeiro et al., 2013). La razón estriba en la singular capacidad de las redes para tratar

no linealidades, asimilando cualquier forma de conocimiento, incluso parcialmente

desesestructurado, y/o posee contenido cualitativo. Precisamente, el caso de la

problemática financiera.

Emplear RNA suele requerir un proceso previo de optimización. El objetivo es simplificar la

estructura interna de la herramienta. Reducir el volumen de datos requerido, manteniendo al

mismo tiempo la error en un nivel aceptable. En las aplicaciones financieras, la red suele

enfrentarse a un volumen de datos relativamente elevado – múltiples ratios financieras,

tasas de variación, indicadores de gestión –, que pueden tener poca o ninguna incidencia en

el diagnóstico, y que en cualquier caso padecen altos niveles de redundancia. Las

estrategias de optimización de la red, como la poda o el diseño mediante métodos

constructivistas, son ineludiblemente necesarios, no solo por sus ventajasoperativas, sino

porque ayudan a conocer el funcionamiento interno de la red (apartado 2.5).

2.2 CARACTERÍSTICAS BÁSICAS DE UNA RNA

Una RNA, se diseña para descubrir por sí misma patrones significativos, para estructurar el

conocimiento presente en datos operativos u observaciones empíricas. A diferencia de los

sistemas convencionales, que operan conforme una programación a priori y se sirven de

repositorios estructurados de datos, la red adquiere autónomamente el conocimiento

partiendo de casos semiestructurados y almacenándolo de manera distribuida (malla).

Replica, a menor nivel de complejidad, estructura y funcionamiento de sistemas empleados

por seres vivos para almacenar y aplicar conocimiento. Está formada por un número variable

de unidades elementales de cómputo – neuronas artificiales -, enlazadas por un entramado

de conexiones a lo largo de los cuales se transmiten señales.

Las redes adoptan estructuras multicapa donde las variables/atributos (patrones de entrada,

capa de entrada) se relacionan con los patrones de salida (salud financiera) mediante una o

más capas intermedias. Cada neurona recibe señales que determinan su estado interno,

mediante una función de activación específica1; sin más detalles técnicos, el procedimiento

implica calcular una media ponderada de las señales de entrada, que i) determina el estado

de cada neurona, función de un umbral de activación predeterminado, y ii) puede influir en el

estado de las otras neuronas adyacentes, dependiendo de la conectividad de la red.

La red almacena conocimiento, pesos sinápticos y umbrales, que determinan el estado de

activación de sus distintas neuronas; estos parámetros derivan de un proceso de

entrenamiento, donde las características financieras de la capa de entrada se propagan

hacia adelante iterativamente hasta que los patrones mostrados en la capa de salida no

difieran de la salud financiera real de la empresa en una proporción satisfactoria de casos2.

1 Este trabajo emplea una clase específica de RNA, denominada perceptrón multicapa, cuyas funciones de activación típicas

son la tangente hiperbólica y la sigmoidal.

2 Nos referimos a estrategias de entrenamiento supervisado. Otras RNA se entrenan de forma no supervisada, por tanto los

casos contienen únicamente datos descriptivos pero ninguna referencia al estado real o patrón de salida deseado; el ejemplo

característico de esos últimos sistemas son los mapas auto-organizados, o SOM.

2.3 ANÁLISIS DE SENSIBILIDAD

El patrón de salida mostrado por la RNA no se explica mediante expresión matemática o

sistema explícito de reglas, sino por las características estructurales de la red: número y

composición de las capas, patrón de conectividad, pesos y umbrales de activación. La

ausencia de modelos es consecuencia directa de la naturaleza heurística de la RNA, no

diseñada para diseccionar problemas e, identificar variables y relaciones significativas, sino

para adaptarse a la información disponible. Esta capacidad le permite desenvolverse con

soltura en escenarios de información imperfecta, descubriendo patrones ocultos. Pero, el

funcionamiento como “caja negra” resulta insuficiente para la investigación y praxis

empresarial, porque no profundizar en las relaciones de causalidad subyacentes. Por

ejemplo: en el contexto del pronóstico del fracaso empresarial, un prestamista no podría

utilizar la red identificando las características relevantes evaluadoras del riesgo financiero

del prestatario.

El análisis de sensibilidad es un procedimiento diseñado originalmente para estimar la

importancia relativa de cada variable de la capa de entrada, función de los valores de la

capa de salida; nos permitiría saber cuáles son los atributos que se relacionan más

intensamente con los estados de salud financiera, o eventos de fallo.

El grado de sensibilidad se calcula desagregando la red, analizando pesos sinápticos de

la(s) capa(s) oculta(s) hacia la capa de salida, en relación a las variables que forman la capa

de entrada. Variables con mayor sensibilidad ejercen más influencia sobre las capas ocultas,

condicionando más intensamente el estrato de salida, interpretándose como indicio de que

ese atributo tiene mayor peso en el diagnóstico.

Sean z = (z1 , ... , zi , ... , zI) , y = (y1 , ... , yj , ... , yJ) y o = (o1 , ... , ok , ... , oK) los vectores

que representan, respectivamente, las entradas, la capa oculta y la salida de una red

Perceptrón Multicapa (MLP) como la empleada en este trabajo; definimos el par de

entrenamiento p = (z(p) , t(p)) , siendo t = (t1 , ... , tk , ... , tK) el vector que contiene la salida

deseada de la red. Para un par p, la sensibilidad (ecuación 1) de una salida ok respecto de

una entrada zi se define como:

∑∑==

jjijkjk

ki vywozy

Lo anterior, Ski( p) mide el cambio esperado en los estados de la capa de salida cuando se

modifican las entradas de la red; yj denota la salida de la j-ésima neurona de la capa oculta,

ok’ es la derivada de la función de activación de la neurona k de la capa de salida, e yj’ es la

derivada de la función de activación de la neurona j de la capa oculta. Las funciones de

activación (2) de las neuronas en las capas de entrada y salida vienen dadas por:

jjkjk ywfo

= ∑=

iijij zvfy

donde wkj es el peso entre la neurona de la capa oculta yj y la salida ok,; por su parte, vji es

el peso de la relación entre la entrada zi y la neurona yj de la capa oculta.

La ¡Error! No se encuentra el origen de la referencia. define la sensibilidad de una salida

respecto a una entrada, para un único patrón de entrenamiento. Usualmente estaremos

interesados en estimar la sensibilidad respecto de todo el conjunto de entrenamiento (3), y

para ello emplearemos la siguiente medida (Engelbrecht et al., 1995):

pkiki PSS

)( (3)

La variable Ski expresa la media, en valor absoluto, de las sensibilidades para cada uno de

los patrones de entrenamiento. Existen otros procedimientos e indicadores para estimar la

sensibilidad de las variables, por ejemplo los propuestos por Zurada, et al. (1994), Garson

(1991) o Nath et al. (1997). En cualquier caso, conviene destacar que, dado que la RNA

expresa relaciones no lineales, un cambio unitario en una variable de entrada puede

traducirse en diferentes niveles de variación en las variables de salida; en otras palabras, la

medida de sensibilidad depende del valor adoptado inicialmente por la variable objeto de

estudio, por tanto estos indicadores deben entenderse como estimaciones del peso medio

de cada variable a lo largo de su rango de valores admisibles.

Aunque las RNA no operan con base en reglas, sino en conocimiento distribuido, existen

algoritmos diseñados específicamente para extraer expresiones que sinteticen la estrategia

de razonamiento empleada por la red (por ejemplo, Setiono y Thong, 2004).

2.4 COMPLEJIDAD DEL PROBLEMA, ESTRATEGIA DE APRENDIZAJE, Y CALIDAD DEL PRONÓSTICO

La capacidad de la red para asimilar y generalizar el conocimiento relevante, y su utilidad

como instrumento de análisis y pronóstico, dependen críticamente de, el diseño de la red; y

las características del entrenamiento: tamaño muestral, número de variables, calidad de los

casos, etc. El principio básico es que la muestra de aprendizaje debe aportar un conjunto de

casos que describa adecuadamente su dominio de trabajo y contenga evidencias

suficientes, cantidad y calidad, para realizar inferencias.

El rendimiento de la red puede deteriorarse entrenándola con muestras de baja calidad:

muestras con pocas observaciones, carencias en las variables explicativas, factores

irrelevantes redundantes. Una muestra exhaustiva, compuesta por más observaciones, más

variables de entrada, reduce el riesgo de vacíos de conocimiento, pero aumentan el tiempo

requerido para completar el entrenamiento, ocasionando asociaciones irrelevantes, patrones

de conectividad más complejos, sin que ello redunde en mejorar la calidad pronosticadora.

Problema recurrente en la aplicación de RNA es la elección del patrón de conectividad y

número de neuronas (arquitectura). La complejidad de la red debe ser proporcionada a las

necesidades reales del problema; caso contrario, los algoritmos de aprendizaje hacen que la

herramienta aprenda los casos en lugar de inferir patrones, restando utilidad. Una estrategia

común para paliar el riesgo de sobreentrenamiento es, emplear una muestra adicional de

validación, presentada a la red al término de cada ciclo de entrenamiento: se calcula el error

cometido, ejecutando una iteración adicional solo si dicho error es inferior al observado en el

ciclo anterior. Los errores crecientes se relacionan con disfunciones ocasionadas por

sobreentrenamiento, así que la minimización del error de validación se interpreta como

criterio fiable de optimización de la red.

Existe un sutil equilibrio entre las características del problema, la calidad de la información

presentada a la red, su arquitectura, y la calidad de los pronósticos. La búsqueda de una

solución de compromiso entre costes derivados del desarrollo y explotación de una

herramienta sofisticada, y la utilidad de la red como herramienta fiable de pronóstico

(Azevedo et al., 2002/2003; Thomaidis et al., 2007).

Sin embargo, en un caso típico de aplicación de RNA no suele disponerse de criterios

precisos para identificar estas variables, precisamente porque se trata de herramientas

diseñadas específicamente para problemas desestructurados en escenarios de información

imperfecta. Dependiendo de la naturaleza del dominio y la complejidad del problema, la red

puede llegar a manejar un número relativamente elevado de variables. El caso concreto del

pronóstico del fracaso financiero, las RNA se nutren de información financiera, ratios, las

cuales son altamente redundantes (correlación) y poseen además exuberante diversidad

(mismo proceso reflejado en varias ratios, con múltiples variantes analíticas). Este número

anormalmente elevado de variables puede inducir la emergencia de patrones espurios,

disfunciones en el diagnóstico y, deteriorar el rendimiento general de la red, elevar las

necesidades de procesamiento, coste de adquisición de datos y tiempo requerido para

realizar un diagnóstico. De ahí, procedimientos simplificadores de la red, sin pérdidas

relevantes de capacidad para gestionar conocimiento, es objetivo práctico prioritario.

2.5 OPTIMIZACIÓN DE LA RED

La prevención del sobredimensionamiento es objetivo prioritario en el diseño de RNA. Como

señalamos, la capacidad de generalización depende del sutil equilibrio entre complejidades

respectivas al problema y modelo. Adoptando una heurística amplia, cabe aceptar que una

red tiene una configuración adecuada, cuando los errores de entrenamiento y validación

cruzada sean mínimos (Weigend et al., 1990; Stone, 1974). Disgregando el error cuadrático

medio en sus componentes de sesgo y varianza (Geman et al.. 1992) obtenemos evidencias

que aclaran si el error observado es por sobreentrenamiento, u otras dificultades de

generalización. El análisis de sensibilidad proporciona evidencias de interés reductoras del

número de variables en la capa de entrada, simplificando también las ocultas.

Pero, la simplicidad, parsimonia, es una propiedad deseable para cualquier RNA, que ha

desarrollado cierto número de estrategias para optimizar la red, adaptar la estructura y sus

parámetros modificables a las necesidades reales del problema3, con procedimientos

variados (Azevedo et al., 2002/2003). Un primer enfoque consiste en realizar podas

(reducciones sucesivas) partiendo de una arquitectura inicial, susceptible de simplificación.

Lo más sencillo, es eliminar secuencialmente las conexiones más débiles, reentrenando la

red, hasta que el error de entrenamiento supere el umbral considerado máximo; la

arquitectura puede simplificarse si pueden hallarse nodos con un comportamiento similar, o

si uno o más nodos de las capas ocultas que a priori operan conforme a una función de

activación de tangente hiperbólica, prácticamente tienen un comportamiento lineal. Existen

técnicas notablemente más sofisticadas, como Optimal Brain Surgeon (OBS) y Optimal Cell

Damage (OCD), basadas en Optimal Brain Damage (OBD) de LeCun et al. (1990). OBD

implica un procedimiento iterativo de poda basado en la importancia relativa (saliency) de

cada parámetro configurable (neurona/enlace), y controlado por el cambio estimado en el

error. Parece tener influencia favorable en la capacidad de generalización de redes

aplicadas a finanzas, en concreto al pronóstico del fracaso (Becerra et al., 2002).

Los procedimientos de poda parecen más un arte, experiencia, que un algoritmo

propiamente dicho. Frecuentemente simplificamos la red sobre la base de estrategias de

prueba y error, y relaciones de intercambio (trade-offs), donde la noción de satisfactoriedad

juega un papel importante. En el caso de los procedimientos basados en la relevancia, la

satisfactoriedad se materializa en la determinación del umbral máximo admisible para el

cambio del error en cada iteración.

La principal alternativa es una categoría de métodos, guía dinámica del proceso de

optimización, acelerador del proceso de búsqueda de configuraciones satisfactorias.

Algunos de los procedimientos más relevantes en esta categoría se basan en una

3 Un perceptrón multicapa puede aproximar cualquier problema real con un máximo de dos capas ocultas; no obstante en la

mayoría de los casos, incluso en problemas arbitrariamente complejos, es suficiente con solo una siempre y cuando el número

de neuronas sea el adecuado. Lippmann (1987) sugiere que esta capa oculta debería tener 3 · N unidades, siendo N el número

de neuronas de la capa de entrada; por su parte, Hecht-Nielsen (1990) y Lippmann (1987) han demostrado que la condición

suficiente es de 2 · N + 1 neuronas. Al margen de ello, el cálculo del número de nodos suelen basarse en reglas prácticas como

la de la pirámide geométrica (Blum, 1992).

interpretación diametralmente contraria del proceso de diseño de la red. En lugar de

proponer criterios para de poda una arquitectura ex ante, proponen partir de una

configuración mínima que se va escalando en función del comportamiento del error. Esto

supone construir la red; simple-a-complejo: destacando los métodos constructivos, los

algoritmos de Tower y de la pirámide invertida, de Gallant (1986), el entrenamiento

secuencial de Depenau, 1995, algoritmos híbridos (Yu et al., 2008), máquinas de soporte

vectorial (Cortes y Vapnik, 1995), programación matemática multiobjetivo (Teixeira et al.,

2000).

Tanto los algoritmos de poda como las estrategias constructivas tienen tendencia a caer en

óptimos locales, lo que obliga a introducir controles adicionales en el proceso, restándoles

cierta practicidad. Trabajos recientes de optimización RNA emplean algoritmos evolutivos

que, controlando los parámetros de diseño de la red a través de mutaciones estructurales,

realizan una exploración exhaustiva en el espacio de búsqueda, logrando una relación más

satisfactoria entre complejidad y calidad de pronóstico.

La utilidad práctica de estos procedimientos de optimización está matizada por la ausencia

de principios claros respecto de que técnica proporciona resultados más satisfactorios,

teniendo en cuenta su complejidad relativa y el tiempo requerido para ponerla en práctica.

La conclusión de la investigación en esta área es, que se precisa el concurso de juicios

expertos para definir una combinación de procedimientos de acuerdo con las características

de cada problema en concreto (Azevedo et al., 2002/2003). En aplicaciones en gestión

financiera, particularmente del pronóstico del fracaso financiero, la sofisticación de estos

procedimientos exceden las necesidades reales de optimización de las RNA, de ahí que las

herramientas se desarrollen empleando estrategias híbridas que incluyen la selección

experta de variables a partir de la teoría financiera, la aplicación de principios de arbitraje y

equilibrio de mercado, y el diseño por prueba y error (Tsaih, 1999; Thomaidis et al., 2007).

Seguidamente presentamos un procedimiento pragmático: dos ciclos complementarios de

depuración. Primero aplicar un análisis factorial para reducir la dimensión de los datos de

entrada, simplificando tanto la capa de entrada como la oculta. Seguidamente se practica

una poda basada en los resultados del análisis de sensibilidad, permitiendo descartar las

variables con menor capacidad explicativa. Mostramos los resultados de entrenamiento y

validación de tres redes basadas en lo anterior, discutiendo las ventajas relativas del

procedimiento simplificador propuesto.

3 ESTUDIO EMPÍRICO

3.1 DATOS

Las muestras de entrenamiento, validación cruzada y contraste han sido aleatorian entre las

pymes con sede social gallega. Además exigimos tener una edad mínima (cuatro años),

para atenuar los efectos de confusión, previsiblemente derivados de la tasa de mortalidad

que suele caracterizar las empresas jóvenes.

La muestra de entrenamiento se ha diseñado para proporcionar al estudio protección ex

ante frente a los sesgos derivados de la presencia de variables confundentes, y por tanto

tiene naturaleza equilibrada: incluye 60 empresas sanas y otras tantas fallidas, conforme la

especificación que detallamos a continuación. La muestra de validación contiene 29

insolventes y 284 sanas.

Las variables explicativas comprenden una selección experta de ratios financieras, basada

en la lógica financiera y en los niveles de significación informados por la literatura

precedente4. Hemos seleccionado 59 indicadores (Anexo), agrupados en siete categorías

financieras: Actividad, Apalancamiento, Endeudamiento, Estructura, Liquidez, Rentabilidad y

Rotación.

La variable independiente, dicotómica, se basa en una especificación amplia del concepto

de fracaso financiero, en el que se incluyen:

• Hallarse formalmente en concurso.

• Incursa en procesos judiciales (reclamación de deudas).

• No atender puntualmente efectos de comercio aceptados en cuantía y número

elevados (alta registral de impago).

3.2 METODOLOGÍA

Empleamos un Perceptrón multicapa, una clase de red muy común, simple y de carácter de

aproximador universal – que puede ajustar cualquier función continua en Rn, incluyendo

relaciones no lineales como las que, presumiblemente, definen los escenarios de fracaso

financiero -. Optamos por un diseño convencional y bien establecido para controlar los

efectos de interacción que podrían derivarse de la aplicación de nuevas variantes

metodológicas, o arquitecturas, que, como las redes de base radial o las máquinas de

soporte vectorial, cuentan con evidencias empíricas menos consolidadas, en el campo del

pronóstico del fracaso.

4 Los datos primarios se han obtenido de la base de datos SABI; el cálculo de las ratios es propio.

Como anticipamos, exploramos el efecto de algunos procedimientos simples reductores del

volumen de datos y simplificadores de la estructura de RNAs, concretamente en el

diagnóstico del fracaso financiero. Estos procedimientos incluyen dos estrategias de

reducción ex ante (selección experta de ratios y análisis factorial), y un procedimiento ex

post (análisis de sensibilidad con revisión iterativa de la red). Nuestra intención es

desarrollar un modelo pragmático de optimización adaptado a las necesidades de los

problemas de pronóstico del fallo, siguiendo la tendencia general de trabajo en materia de

RNA, materializada en herramientas aplicadas estrechamente dependientes de sus

respectivos campos de aplicación (Thomaidis et al., 2007).

A tal efecto, entrenamos y validamos tres arquitecturas de RNA.

• 1ª red; un conjunto de 52 ratios5 seleccionados de acuerdo con los antecedentes

relevantes aportados por la literatura.

• 2ª red; un subconjunto de 28 variables, extraídas mediante análisis factorial de los 52

ratios originales, reduciendo redundancias y ruido muestrales6. La preselección de

variables demostró ser un procedimiento útil para hacer más comprensible la red y

mejorar su eficiencia (Yu et al., 2008).

• 3ª red; un subconjunto reducido de variables, las cinco ratios financieras con mayor peso

en un análisis de sensibilidad basado en algoritmo de Engelbrecht et al. (1995). Un

procedimiento de poda similar al OBD, donde se pretende descartar elementos con

menor incidencia en el procesamiento de la red, no implicando la optimización del

entramado interno de enlaces7.

Todas las redes incluyen una sola capa oculta de 5 ó 10 neuronas, según el número de

variables de entrada, y un solo nodo de salida. Las configuraciones empleadas son

52x10x1, 28x5x1 y 5x5x1 (Ilustración 1). Cada una de estas tres arquitecturas se entrena y

valida en cuatro horizontes (uno, dos, tres y cuatro años-antes-del-fallo) para obtener

evidencias parciales del desempeño de las redes en diferentes plazos, profundizando en el

estudio de la dinámica temporal de desequilibrios que conducen al fallo.

5 El análisis preliminar de los datos aconsejó excluir un grupo de siete indicadores, que presentaban valores extremos muy

acusados.

6 Se mantuvieron los factores con un autovalor igual o superior a 0,8.

7 El objetivo no es en modo alguno refutar la utilidad de OBD ni de los restantes algoritmos de optimización, sino verificar la

posibilidad de pronostico satisfactorio del fracaso empresarial, empleando estrategias de poda menos exigentes, técnica y

analíticamente, y por tanto menos costosas.

Todas las redes se entrenaron mediante el algoritmo de retropropagación; variante de

gradiente conjugado (Battiti, 1992). Los nodos de procesado tienen como función de

transferencia una sigmoide centrada en cero; en el eje Y un rango de salida [–1, 1].

ILUSTRACIÓN 1. ESTRUCTURA DEL PERCEPTRÓN MULTICAPA

4 RESULTADOS Y DISCUSIÓN

4.1 ENTRENAMIENTO Y VALIDACIÓN DE LAS REDES: CONTRASTE DE LOS EFECTOS DE LA FACTORIZACIÓN DE LOS DATOS PRIMARIOS

Las redes 52x10x1 y 28x5x1 se adiestraron empleando las mismas muestras de

entrenamiento y validación cruzada. Las diferencias observadas en los resultados de esta

fase son muy pequeñas: en ambos casos la capacidad de pronóstico se deteriora

progresivamente conforme avanzamos hacia horizontes de predicción más largos, pero las

dos redes son capaces de clasificar correctamente a más del 90% de las empresas con

anticipación de cuatro años (Ilustración 2). Respecto del entrenamiento, la red más compleja

(52x10x1) logra tasas de error ligeramente inferiores en cualquier marco temporal, pero esta

ventaja no parece tener la entidad suficiente como para compensar su complejidad

adicional.

Es interesante observar la existencia de lagunas en la información primaria, materializadas

en una pérdida de observaciones con especial incidencia en la submuesta de fallidas

(Ilustración 2). La literatura relaciona esto con estrategias dirigidas a manipular flujos de

información financiera externa, evitando que sean conocidas ciertas evidencias por usuarios

externos de la contabilidad (Nelson, 2005). Verificamos que su presencia en el historial de la

empresa (incumplimientos en depósito de cuentas anuales, requerimientos de contenido) es

signo altamente fiable de disfunciones financieras latentes, y riesgo de crédito acrecentado

(Piñeiro et al., 2012). Dado que las anomalías contables parecen ser consustanciales al

problema objeto de estudio, consideramos inaceptable el descarte de observaciones con

información incompleta.

En fase de validación las redes se enfrentaron a observaciones diferentes de las empleadas

en entrenamiento. Las herramientas logran tasas de acierto satisfactorias en horizontes de

hasta dos años, sin embargo el deterioro de la capacidad predictiva es más acusado en

horizontes largos. La red simplificada (28x5x1) parece tener un comportamiento más

satisfactorio, pues mantiene prácticamente la misma tasa de error a dos y tres años. Ambas

redes fueron entrenadas y validadas con idénticos datos, sometidas a los mismos controles

evitando el sobreentrenamiento, por tanto creemos que esta diferencia no se explica por una

eventual singularidad aleatoria de los datos, representando una deficiencia real imputable a

la complejidad estructural de la arquitectura 52x10x1.

No observamos sesgos sistemáticos en los grupos de empresas sanas y fallidas (Ilustración

3), ni indicios de que el uso combinado de la factorización y la selección experta de variables

implique riesgos de caída en mínimos locales8. Los resultados no sugieren que la aplicación

previa del análisis factorial comprometa la capacidad de la red para anticipar eventos de

fallo, siquiera en plazos de tiempo relativamente prolongados.

RED 52 x 10 x 1

RED 28 x 5 x 1

MUESTRA de ESTIMACIÓN (60 SANAS – 60 FRACASADAS)

SANAS FRAC. TOTAL SANAS FRAC. TOTAL

AÑO 1 ANTES DEL FRACASO 100,0 100,0 100,0 100,0 98,3 99,2

MODELO GLOBAL 93,8 93,8 93,8 95,0 91,7 93,3

ILUSTRACIÓN 2. PORCENTAJES DE ACIERTO EN LA FASE DE ENTRENAMIENTO

RED 52 x 10 x 1

RED 28 x 5 x 1

MUESTRA DE VALIDACIÓN SANAS FRAC. TOTAL SANAS FRAC. TOTAL

AÑO 1 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)

92,5 100,0 93,6 94,1 89,7 93,6

84,9 72,4 83,7 84,1 86,2 84,3

80,9 65,5 79,5 84,2 82,8 84,0

70,8 86,6 71,6 68,3 80,0 70,3

MODELO GLOBAL (102 FRACASADAS – 1.136 SANAS)

80,4 82,3 80,5 83,2 86,3 83,4

ILUSTRACIÓN 3. PORCENTAJES DE ACIERTO EN LA FASE DE VALIDACIÓN

8 Característico de redes excesivamente simples, carentes de poder de representación necesario para distinguir los patrones

en los datos.

Estos resultados corroboran la conveniencia de las ventajas de la factorización y selección

experta de variables, como alternativas a la aplicación directa de algoritmos convencionales

de optimización a RNA en el pronóstico del fracaso empresarial. Estos algoritmos tienen su

campo natural de aplicación en problemas, donde la falta de estructuración y

desconocimiento parcial de estructuras de causalidad, obligan a diseñar redes sobre la base

de procesos iterativos que exploren el campo de variables, ayudando a identificar un

equilibrio satisfactorio: complejidad-eficacia. El pronóstico del fracaso empresarial cuenta

con amplio volumen de antecedentes de investigación proporcionando claros indicios acerca

de qué variables podrían ser potencialmente relevantes. Por otra parte estas variables,

dominantemente ratios y magnitudes financieras, exhiben una acusada correlación,

redundancias, acrecentando el riesgo de someter a la red a una sobrecarga de información.

La reducción dirigida de la capa de entrada, es un procedimiento adecuado optimizador de

las RNA, alimentado de ratios financieras, construido con herramientas menos exigentes en

términos de tiempo, consumo de datos y requerimientos computacionales.

4.2 ANÁLISIS DE SENSIBILIDAD

La reducción previa de datos no garantiza que las variables presentadas a la RNA sean

relevantes para el problema en curso. Aunque la evidencia empírica es muy amplia, la

investigación en materia de insolvencia no ha consolidado una teoría integrada que explique

la forma en que los desequilibrios financieros desembocan en fallo. Respecto las variables,

la literatura incide en la importancia de las ratios, objeto de estudio de nuestro trabajo, y

corrobora la utilidad de otros indicadores: signos derivados de la auditoría, calidad de

gestión, variables macroeconómicas, etc.

El análisis de sensibilidad agrupa un conjunto de algoritmos que comparten el objetivo de

medir el peso relativo de cada variable de la capa de entrada, como su influencia sobre el

estado de la neurona en la capa de salida (Ilustración 4). Nos ayuda a comprender la

estrategia de diagnóstico de patrones en la red. Nuestro caso emplea sus resultados como

criterio para podar la red, eliminando de la capa de entrada las variables menos relevantes.

UN AÑO ANTES FRACASO

DOS AÑOS ANTES FRACASO

TRES AÑOS ANTES FRACASO

CUATRO AÑOS ANTES FRACASO

VARIABLE Punt. VARIABLE Punt. VARIABLE Punt. VARIABLE Punt.

APL04 6,57 APL04 6,91 REN01 7,30 APL04 8,37

APL02 5,63 SOL09 6,01 SOL09 6,21 LIQ07 5,67

ROT01 5,27 ROT02 4,97 REN04 5,18 SOL02 4,99

REN01 4,44 END01 4,20 APL04 4,56 ROT01 4,72

LIQ05 3,82 SOL02 4,19 REN05 4,44 LIQ06 4,05

LIQ06 3,60 ROT01 4,06 TES01 4,02 EST06 3,87

REN05 3,21 TES01 3,76 SOL08 4,00 SOL06 3,20

END03 3,13 ROT04 3,70 EST06 3,47 LIQ03 3,16

END04 2,77 EST07 3,50 SOL06 3,20 END02 2,99

SOL02 2,74 REN01 3,24 LIQ11 3,18 REN05 2,84

SOL06 2,68 EST03 3,23 SOL02 2,94 TES01 2,70

LIQ02 2,63 ACT03 2,79 ROT03 2,77 ROT02 2,62

EST05 2,60 TES02 2,49 LIQ04 2,49 REN03 2,41

ROT02 2,59 REN05 2,47 LIQ12 2,28 ACT01 2,38

ROT04 2,54 LIQ04 2,26 EST05 2,26 SOL05 2,30

LIQ12 2,54 REN03 2,12 LIQ06 2,18 LIQ01 2,28

REN03 2,41 END02 2,07 ROT02 2,16 END03 2,17

SOL03 2,33 EST05 2,06 TES02 2,12 SOL04 2,13

SOL07 2,27 ACT01 2,02 ROT04 2,10 REN02 2,08

REN02 2,24

REN06 2,17

LIQ07 2,17

ROT07 2,13

TES01 2,12

LIQ03 2,10

ILUSTRACIÓN 4. ANÁLISIS DE SENSIBILDAD DE LAS VARIABLES DE ENTRADA DE

LA RED 52X10X1, SOLO VARIABLES CON SENSIBILIDAD SUPERIOR A DOS.

ILUSTRACIÓN 5. IMPORTANCIA RELATIVA DE LAS RATIOS, POR CATEGORÍAS

El pronóstico descansa fundamentalmente sobre las medidas de estabilidad financiera;

apalancamiento/endeudamiento/solvencia 40% de la sensibilidad de la red, la fluidez del

ciclo corto (rotación/liquidez, 31%), y la rentabilidad (11%). Los resultados corroboran que la

sensibilidad de cada variable difiere con el horizonte de pronóstico, no existiendo un

subconjunto de ratios capaz de proporcionar pronósticos fiables en todos los plazos. Los

datos no muestran tampoco ninguna regularidad en cuanto al comportamiento de estas

sensibilidades: ninguna ratio gana relevancia, ni la pierde, sistemáticamente conforme

transcurre el tiempo y se aproxima el fallo. Ciertamente existen paralelismos conceptuales

muy definidos entre los subconjuntos de variables, pero estas similitudes no parecen ser

estables: en horizontes de dos y tres años coindice el 64,3% de las ratios, pero para uno y

dos años esta tasa se reduce al 46,4%. En nuestra opinión, esta inestabilidad es compatible

con la interpretación del fracaso financiero como un proceso internamente complejo, y

confiere aún más valor si cabe a la sugerente capacidad de las RNA para identificar

patrones relevantes sepultados en los datos primarios.

HORIZONTE

DE PRONÓSTICO % COINCIDENCIA

AÑO 1 - AÑO 2 46,4

AÑO 2 – AÑO 3 64,3

AÑO 3 – AÑO 4 57,1

AÑO 1 - 2 – 3 – 4 21,4

ILUSTRACIÓN 6. GRADO DE COINCIDENCIA DE LAS VARIABLES CON SENSIBILIDAD

PARA DIFERENTES HORIZONTES DE PRONÓSTICO

4.3 UNA APLICACIÓN EXPERIMENTAL DE PRUNING

Tras reducir la dimensión de los datos de entrada, análisis factorial, el número remanente de

variables sigue siendo relativamente elevado. Esta circunstancia plantea un riesgo potencial

sobre la capacidad de la red para inferir patrones relevantes, elevando el coste de aplicación

de la herramienta en decisión real. Mostramos los resultados del entrenamiento y validación

de una arquitectura alternativa, obtenida al podar las redes empleadas en los apartados

anteriores conforme los resultados del análisis de sensibilidad. Tratamos de contrastar la

capacidad de las RNA para anticipar eventos de fracaso si entrenamiento y validación se

basan en un pequeño número de ratios, siguiendo los principios de simplicidad y parsimonia,

guía del diseño de modelos paramétricos convencionales.

Realizamos la poda combinando resultados de un análisis de sensibilidad con un criterio

experto, estableciendo el número de neuronas de las capas de entrada y oculta. Los

modelos multivariables logran resultados muy satisfactorios con un pequeño número de

regresores (Altman et al., 1977; Altman, 2000; Ohlson, 1980; Brockett et al., 2006; de Llano

et al, 2011); por tanto hemos seleccionado, en cada horizonte temporal, las variables con

mayor sensibilidad (Ilustración 4), en cada ventana temporal, la capa de entrada incluye las

siguientes9:

9 La reducción de la capa de entrada implica que la red va a manejar un volumen significativamente inferior de información, lo

que permite simplificar también el grado de complejidad de la arquitectura. En este caso, tras realizar algunas simulaciones

previas, hemos optado por incluir cinco neuronas en la capa oculta.

• Año 1 antes-del-fracaso: LIQ05, ROT01, REN01, APL02, APL04.

• Año 2 antes-del-fracaso: END01, SOL02, SOL09, ROT02, APL04.

• Año 3 antes-del-fracaso: SOL09, REN01, REN04, REN05, APL04.

• Año 4 antes-del-fracaso: SOL02, LIQ06, LIQ07, ROT01, APL04.

Procedimiento inspirado en métodos de poda basados en la relevancia (saliency), que

ajustan iterativamente la estructura de la red anticipándose a aquellos cambios que

minimizan la variación estimada del error. Variación obtenida como estimación polinómica

(basada en la aproximación de Taylor) local de la función del error, y su optimización implica

una función de Lagrangre basada en el gradiente y la matriz hessiana del correspondiente

vector de pesos. El lagrangiano es, la relevancia de dicho vector. A pesar de su aparente

simplicidad, este procedimiento es computacionalmente costoso al calcular la inversa de la

matriz hessiana.

La Ilustración 7 muestra los resultados principales del entrenamiento de la red resultante de

la poda, en cada horizonte. En promedio, la red 5x5x1 logra una tasa de acierto del 90,8%

en la fase de entrenamiento, elevándose al 91,3% en el caso de empresas sanas. Los

resultados de la validación son comparables a los logrados por arquitecturas básicas, salvo

a cuatro años (Ilustración 8). La poda, basada en la exclusión de 47 de las 52 ratios

originales, ocasiona una pequeña merma en la tasa de acierto: seis puntos porcentuales en

comparación con la red de mayor dimensión (52x10x1) y poco más de cinco en la red

28x5x1. En nuestra opinión son resultados compatibles con la hipótesis de que la

información aportada por las ratios financieras posee un muy elevado grado de redundancia.

MUESTRA DE ENTRENAMIENTO (60 SANAS – 60 FRACASADAS)

RED 5 x 5 x 1

SANAS FRAC. TOTAL

AÑO 1 ANTES DEL FRACASO 95,0 95,0 95,0

ILUSTRACIÓN 7. RESULTADOS DEL ENTRENAMIENTO DE LA RED, TRAS LA PODA

(5X5X1)

MUESTRA DE VALIDACIÓN

RED 5 x 5 x 1

SANAS FRAC. TOTAL

89,8 96,6 90,4

90,5 79,3 89,5

64,4 82,8 66,1

76,4 41,4 74,6

ILUSTRACIÓN 8. RESULTADOS DE LA VALIDACIÓN DE LA RED, TRAS LA PODA

(5X5X1)

La red 5x5x1 logra tasas de acierto comparables con los estándares de las técnicas

paramétricas convencionales y, lo más destacable, muy equilibradas en las submuestras de

empresas sanas y fallidas. La literatura enfatiza tradicionalmente la capacidad de los

modelos para detectar desequilibrios latentes y anticipar eventos de fallo, relegando el

control de los errores de tipo I; esta es posiblemente una consecuencia natural del marco

metodológico del programa de investigación, definitorio del problema como el pronóstico del

fracaso – no de salud financiera -. Así, el aval principal de los modelos multivariables

convencionales (MDA, Logit) es su capacidad para lograr tasas de error tipo II muy

satisfactorias, a pesar de su tendencia a sobreestimar la verosimilitud de un fallo (Altman,

1968). En nuestro campo, los falsos positivos tienen sin embargo una gran trascendencia

porque pueden causar por sí solos un fallo autocumplido: si la finalidad de los modelos es

proporcionar pronósticos útiles para la toma de decisiones en materia de crédito, un falso

positivo induciría a prestamistas a cortar financiación, o que los proveedores interrumpan

temporalmente el suministro. Naturalmente, tendría consecuencias inmediatas sobre la

estabilidad financiera de la empresa, sobre su capacidad para sobrevivir. De ahí que el

equilibrio en las tasas de error tipo I y tipo II nos parezca una ventaja comparativa crucial.

Los tipo I parecen ser más frecuentes en empresas con peculiaridades respecto a su

negocio, estructura temporal de sus rentas, o patrimonio: compañías en sectores

innovadores, cuya competitividad depende no tanto de inversiones convencionales como de

activos basados en la información y el conocimiento (Itami y Roehl, 1991), u organizaciones

cuyos flujos de caja exhiben ciclos largos como consecuencia de procesos acumulativos de

I+D+i.

5 CONCLUSIONES

Hemos explorado varios procedimientos pragmáticos para optimizar las herramientas de

pronóstico del fracaso empresarial basadas en arquitecturas MLP; este procedimiento no

persigue una optimización rigurosa de la red, sino proporcionar una solución satisfactoria

entre la calidad del pronóstico y, coste técnico y humano asociado a la optimización,

teniendo en cuenta las características del problema en curso.

Las variables de entrada son ratios financieras, seleccionadas por su relevancia teórica y

preeminencia en la literatura sobre fracaso financiero. La hipótesis de que las ratios poseen

contenido informacional relevante para el pronóstico del fracaso cuenta con amplio aval

empírico, pero también se ha evidenciado su carácter redundante. La presencia de

acusadas correlaciones, nos llevan a plantear la aplicación previa de un análisis factorial a

las variables de la capa de entrada, permitiendo reducir la complejidad de la red casi a la

mitad, con una pérdida de calidad (tasa de aciertos) estimada en 1,5 puntos porcentuales.

Las tasas de error tipo I y II son equilibradas, no oscilando significativamente tras la poda;

tampoco observamos alteraciones en la capacidad de pronóstico en horizontes temporales

amplios (hasta cuatro años-antes-del-fallo).

Precisamente, la elección de variables y sus consecuencias en la poda de la RNA es el

segundo objetivo de nuestro trabajo. Formulamos un análisis de sensibilidad para clasificar

las variables de entrada en función de su impacto sobre los estados de la neurona artificial

de la capa de salida. Con base en la complejidad relativa de los modelos paramétricos,

seleccionamos las cinco variables con mayor coeficiente de sensibilidad, aplicado una poda

sobre la red original (52x10x1); la arquitectura resultante posee solo cinco variables en la

capa de entrada y otras cinco neuronas en la capa oculta, logrando aceptables tasas de

acierto: 90% en entrenamiento, 78% en validación cruzada. Resultados comparables a los

obtenidos por modelos paramétricos en este campo. Se observan diferencias en los errores

de tipo I y II, de carácter no sistemático, y un deterioro más acusado en la capacidad

predictiva a largo plazo, que sugiere se ha practicado una poda excesivamente intensa. A

sensu contrario, destacamos que la red mantiene una muy aceptable capacidad

clasificadora incluso en escenarios tan adversos como este.

Opinamos que, estos resultados sugieren que la factorización, unida a un proceso previo de

selección experta de variables, debería considerarse como una alternativa potencialmente

útil al uso de algoritmos formalizados de optimización, en el desarrollo de RNA destinadas a

servir como herramienta de ayuda en el pronóstico del fracaso. Las dos podas aplicadas

sobre la red, la primera basada en dicha factorización y la segunda en un análisis de

sensibilidad de las variables de entrada, permitieron reducir notablemente la complejidad de

la arquitectura; solo la segunda de ellas ha causado mermas apreciables en la calidad de los

pronósticos, pero destacamos que se trata de una arquitectura extraordinariamente simple,

con solo cinco neuronas en las capas de entrada y oculta.

6 BIBLIOGRAFIA

• Altman, E. (1968): “Financial Ratios, Discriminant Analysis and Prediction of Corporate

Bankruptcy”. Journal of Finance: 589 – 609.

• Altman, E. I. (2000): “Predicting Financial Distress of Companies: Revisiting the Z-Score

and ZETA Models”. Working Paper. NYU Salomon Center. Julio.

• Altman, E. I., Haldeman, R. C. y Narayanan, P. (1977). ZETA analysis. A new model to

identify bankruptcy risk corporations.. Journal of Banking and Finance, Junio, 29 - 54.

• Altman, E., Giancarlo, M.; Varetto, F. (1994): “Corporate distress diagnosis: comparisons

using linear discriminant analysis and neural networks (the Italian experience)”. Journal

of Banking and Finance (18), pp. 505 - 529.

• Argenti, J. (1984): “Predicting Corporate Failure”. Londres: Institute of Chartered

Accountants in England and Wales.

• Azevedo, M.; Padua, A.; Rodrigues, B. (2002/2003): Improving neural networks

generalization with new constructive and pruning methods. Journal of Intelligent & Fuzzy

Systems 13, pp. 75 – 83.

• Barniv, R.; Agarwal, A.; Leach, R. (1997): “Predicting the Outcome Following Bankruptcy

Filing: A Three-state Classification Using Neural Networks”. Intelligent Systems in

Accounting, Finance and Management. Vol. 6. Págs. 177-194.

• Battiti, R. (1992). First and second order methods for learning: between steepest descent

and Newton's method. Neural Computation, 4(2), 141-166

• Beaver, W. (1966): Financial Ratios as Predictors of Failure. Empirical Research in

Accounting: Selected Studies. Suplemento de Journal of Accounting Research , 4 (3),

71-111.

• Becerra, V.; Galvao, R.; Abou-Seada, M. (2002): On the utility of input selection and

pruning for financial distress prediction models. Proceedings of the 2002 International

Joint Conference on Neural Networks. Hawaii: 1328 – 1333.

• Bell, T., Ribar, G.; Verchio, J. (1990): “Neural nets versus logistic regression: a

comparison of each model’s ability to predict commercial bank failures”. En R. P.

Srivastava, X Auditing Symposium Deloitte & Touche. Kansas: University of Kansas.

• Blum, A. (1992): Neural networks in C++. Nueva York: Wiley.

• Brockett, P.; Golden, L.; Jang, J. y C. Yang (2006), “A comparison of neural network,

statistical methods, and variable choice for life insurers’ financial distress prediction”,

The Journal of Risk and Insurance, 73 (3): 397 – 419.

• Coats, P.; Fant, F. (1993): “Recognizing financial distress patterns using a neural network

tool”. Financial Management, pp. 142 - 155.

• Cortes, C.; Vapnik, V. (1995): Support vector networks, Machine Learning 20: 273–279.

• Daubie, M., Levecq, P.; Meskens, N. (2002): “A Comparison of the Rough Sets and

Recursive Partitioning Induction Approaches: An Application to Commercial Loans”.

International Transactions in Operational Research, 9(5), pp. 681 - 694.

• de Llano, P.; Piñeiro, C.; Rodríguez, M. (2011): “Contraste de los modelos de pronóstico

del fallo empresarial en las pymes sanas gallegas”. XXV Congreso de la European

Academy of Management and Business Economics. Valencia, Junio.

• Depenau, J. (1995): Automated design of neural network architecture for classification.

Tesis Doctoral. Computer Science Department. University of Aurus.

• Dubois, D. y Prade, H., 1992. Putting rough sets and fuzzy sets together. In Intelligent

Decision Support, en Slowinski, R. (editor) Handbook of Applications and Advances in

Rough Set Theory, Dordrecht: Kluwer Academic, 203–232.

• Engelbrecht, A. P.; Cloete; Zurada, J. M. (1995): “Determining the significance of input

parameters using sensitivity analysis”, From Natural to Artificial Neural Computation,

Lecture Notes in Computer Science, Vol. 930, pp. 382-388.

• Etheridge, H. L.; Sriram, R. S. (1997): “A Comparison of the Relative Costs of Financial

Distress Models: Artificial Neural Networks, Logit and Multivariate Discriminant Analysis”.

Intelligent Systems in Accounting, Finance and Management. Vol. 6. Págs. 235-248.

• Fanning, K. M.; Cogger, K. O. (1994): “A Comparative Analysis of Artificial Neural

Networks Using Financial Distress Prediction”. Intelligent Systems in Accounting, Finance

and Management. Vol. 3. Págs. 241-252.

• Frydman, H., Altman, E.; Kao, D. (1985): “Introducing Recursive Partitioning for Financial

Classification: The Case of Financial Distress”. The Journal of Finance, XL(1), pp. 269-

• Gallant, S. I. (1986): Three constructive algorithms for network learning. Proceedings of

the 8th Annual Conference of Cognitive Science Society, pp. 652 – 660.

• Garson, D. G. (1991): “Interpreting Neural Networks connection weights. AI Expert. Págs.

47-51.

• Geman, S.; Bienenstock, E.; Doursat, R. (1992): Neural networks and the bias/variance

dilemma, Neural Computation 4: 1–58.

• González, A. L.; Correa, A.; Blázquez, J. A. (1999): “Perfil del Fracaso Empresarial para

una Muestra de Pequeñas y Medianas Empresas”. Comunicación X Congreso AECA.

Zaragoza. Septiembre.

• Hansen, J., Koehler, G., Messier, W.; Mutchler, J. (1993): “Developing knowledge

structure: a comparison of a qualitative-response model and two machine-learning

algorithms”. Decision Support Systems, pp. 235 - 243.

• Hansen, J.; Messier, W. (1991): “Artificial neural networks: foundations and application to

a decision problem”. Expert Systems with Applications, 3, pp. 135 - 141.

• Härdle, W.; Moro, R.; Schäfer, D. (2005): Predicting Bankruptcy with Support Vector

Machines. Berlín: Humboldt-Universität zu Berlin. School of Business and Economics.

• Hecht-Nielsen, R. (1990): Neurocomputing. Nueva York: Addison Wesley

• Itami, H.; Roehl, T. (1991): Mobilizing Invisible Assets. Cambridge: Harvard University

Press.

• Keasey, K.; Watson, R. (1987): “Non-Financial Symptoms and the Prediction of Small

Company Failure. A Test of Argenti’s Hypotheses”. Journal of Business Finance and

Accounting, 14(3), 335-354.

• Kim, H.; Sohn, S. (2010): “Support vector machines for default prediction of SMEs based

on technology credit”. European Journal of Operational Research, 201(3), pp. 838 - 846.

• Koh, H.; Tan, S. (1999): “A neural network approach to the prediction of going concern

status”. Accounting and Business Research, 29(3), pp. 211–216.

• LeCun, Y.; Boser, B.; Solla, S. A. (1990): Optimal Brain Damage. En Touretzky, D. S.

(ed.): Advances in Neural Information Processing Systems, Vol. 2. Morgan Kaufmann,

pp. 598 – 605

• Liang, T. (1992): “A composite approach to inducing knowledge for expert systems

design”. Management Science, pp. 1 - 17.

• Lippmann, R. (1987): An introduction to computing with neural nets. IEEE ASSP

Magazine. Abril, pp. 4 – 23

• López, E.; Flórez, R. (2000): "Aplicación de dos Modelos de Redes Neuronales

Artificiales para el Análisis Económico-Financiero Empresarial". Revista Europea de

Dirección y Economía de la Empresa. Vol. 9, Núm. 2. Págs. 141-166,

• Martínez, F. J.; Hervás, C.; Torres, M.; Martínez, A. (2007): Modelo no lineal basado en

redes neuronales de unidades producto para clasificación. Una aplicación a la

determinación del riesgo en tarjetas de crédito. Revista de Métodos Cuantitativos para la

Economía y la Empresa nº 3, Junio, pp. 40 – 62.

• McKee, T.E. (2003): Rough Sets Bankruptcy Prediction Models versus Auditor Signalling

Rates. Journal of Forecasting, 22: 569 – 586

• McKee, T.E. y Lensberg, T. (2002): Genetic programming and rough sets: a hybrid

approach to bankruptcy classification. European Journal of Operational Research, 138:

436–451.

• McKee, T.E. (2000): ‘Developing a bankruptcy prediction model via rough sets theory’,

International Journal of Intelligent Systems in Accounting, Finance and Management, Vol.

9, Nº 3: 159–173.

• Messier, W.; Hansen, J. (1988): “Inducing rules for expert systems development: an

example using default and bankruptcy data”. Management Science, 34(12), pp. 1403 -

• Nath, R.; Rajagopalan, B.; Ryker, R. (1997): “Determining the saliency of input variables

in neural network classifiers. Journal of Computers”. 24 (8). Págs. 767-773.

• Nelson, M. (2005). A Review of Experimental and Archival Conflicts-of-Interest Research

in Auditing, en: Conflicts of Interest: Challenges and Solutions in Business, Law,

Medicine, and Public Policy, Cambridge: Cambridge University Press, 41-69.

• Odom, M.; Sharda, R. (1990): “A neural network bor bankruptcy prediction”. Proceedings

of the International Joint Conference on Neural Networks, II, págs. pp. 163 - 167.

• Ohlson, J. (1980), “Financial Ratios and Probabilistic Prediction of Bankruptcy”, Journal

of Accounting Research, Spring 80, Vol. 18, Issue 1.

• Parnes, D. (2010): “The information content of analysts reports and bankruptcy risk

measures”. Applied Financial Economics 20, pp. 1499 – 1513.

• Pawlak, Z. (1991). Rough Sets: Theoretical Aspects of Reasoning About Data.

Dordrecht: Kluwer Academic Publishing

• Peel, M., Peel, D.; Pope, P. (1986): “Predicting Corporate Failure. Some Results for the

UK Corporate Sector”. Omega: The International Journal of Management Science, 14(1),

pp. 5-12.

• Piñeiro, C.; de Llano, P.; Rodríguez, M. (2012): La evaluación de la probabilidad de

fracaso financiero. Contraste empírico del contenido informacional de la auditoría de

cuentas. Revista Española de Financiación y Contabilidad Vol. XLI, Núm. 156, Octubre-

Diciembre, pp. 565-588.

• Piñeiro, C.; de Llano, P.; Rodríguez, M. (2013): ¿Proporciona la auditoría evidencias

para detectar y evaluar tensiones financieras latentes? Un diagnóstico comparativo

mediante técnicas econométricas e inteligencia artificial. Revista Europea de Dirección y

Economía de la Empresa (en prensa).

• Quinlan, J. (1986): “Induction of decision trees”. Machine Learning(1), pp. 81 - 106.

• Quinlan, J. (1987): “Inductive knowledge acquisition: a case study”. En J. Quinlan,

Applications of Expert Systems (pp. 157 - 173). Nueva York: Addicion - Wesley.

• Rodríguez, M. (2002): “Modelos de Insolvencia en empresas gallegas. Aplicación de

técnicas paramétricas y de inteligencia artificial”. Monografía de AECA: La gestión del

Riesgo de Crédito. Págs. 73-114.

• Rose, P. S., Andrews, W. T. y Giroux, G. A., 1982. Predicting Business Failure: A

Macroeconomic Perspective. Journal of Accounting Auditing and Finance (6): 20-32.

• Sarkar, S.; Sriram, R. (2001): “Bayesian Models for Early Warning of Bank Failures”.

Management Science, 47(11), pp. 1457 - 1475.

• Serrano, C.; Martín del Brío, B. (1993): “Predicción de la Quiebra Bancaria Mediante el

Empleo de Redes Neuronales Artificiales”. Revista Española de Financiación y

Contabilidad, 22(74), pp. 153-176.

• Setiono, R.; Thong, J. (2004): An approach to generate rules from neural networks for

regression problems. European Journal of Operational Research Vol. 155, Nº 1, Mayo:

239–250.

• Shin, K., Lee, T.; Kim, H. (2005): “An application of support vector machines in

bankruptcy prediction model”. Expert Systems with Applications (28), pp. 127 – 135.

• Slowinski, R.; Zopounidis, C. (1995): “Application of the rough set approach to evaluation

of bankruptcy risk”. International Journal of Intelligent Systems In Accounting, Finance &

Management, 4(1), pp. 27–41.

• Smith, K.; Gupta, J. (2002): Neural Networks in Business: Techniques and Applications.

Nueva York: Idea.

• Stone, M. (1974): “Cross-validatory choice and assessment of statistical predictions”.

Journal of the Royal Statistical Society B36: 111–133.

• Tam, K.; Kiang, M. (1992): “Managerial applications of neural networks: the case of bank

failure predictions”. Management Science, pp. 926 - 947.

• Tamari, M. (1966): “Financial Ratios as a Means of Forecasting Bankruptcy”.

Management International Review. Vol. 4. Págs. 189-199.

• Teixeira, R.A.; Braga, A. P.; Takahashi, R. H. C.; Saldanha, R. R. (2000): Improving

generalization of mlps with multi-objective optimization, Neurocomputing 35(1–4): 189–

• Thomaidis, N. S.; Tzastoudis, V. S.; Dounias, G. D. (2007): A comparison of neural

network model selection strategies for the pricing of S&P500 stock index options”.

International Journal on Artificial Intelligence Vol. 16, nº 6: 1093 – 1113.

• Tsaih, R. (1999): Sensitivity analysis, neural networks, and the finance. International Joint

Conference on Neural Networks.

• Wall, A.; Dunning, R. W. (1928): “Ratio Analysis of Financial Statements”. Nueva York:

Harper Brothers.

• Weigend, A. S.; Huberman, B. A.; Rumelhart, D. E. (1990): Predicting the future: a

connectionist approach, International Journal of Neural Systems 1, 193–209.

• Wilson, R.; Sharda, R. (1994): “Bankruptcy prediction using neural networks”. Decision

Support Systems 11(5), pp. 545 – 557.

• Xiaosi, X.; Ying, C.; Haitao, Z. (2011): The comparison of enterprise bankruptcy

forecasting method. Journal of Applied Statistics Vol. 38, nº 2, pp. 301 – 308.

• Yu, Q.; Sorjamaa, A. ; Miche, Y. ; Lendasse, A. ; Severin, E. ; Guillen, A. ; Mateo, F.

(2008): Optimal Pruned K-Nearest Neighbors: OP-KNN Application to Financial

Modeling. Eighth International Conference on Hybrid Intelligent Systems. Barcelona.

• Zmijewski, M. E. (1983): “Predicting Corporate Bankruptcy: An Empirical Comparison of

the Extant Financial Distress Models”. Working Paper. State University of New York at

Buffalo.

• Zurada, J. M.; Malinowski, A.; Cloete, I. (1994): "Sensitivity Analysis for Minimization of

Input Data Dimension for Feedforward Neural Network," Proc. of IEEE International

Symposium on Circuits and Systems. Londres, Mayo – Junio: 447-450.

7 ANEXO: RATIOS FINANCIERAS UTILIZADAS EN EL ANÁLISIS.

ACT01 Gastos Financieros / Valor Añadido

REN01 B.A.I.T. / Activo Total ACT02 Gastos Personal / Activo Fijo REN02 B.A.I.T. / Ventas

ACT03 Gastos Personal + Amortización / Valor Añadido REN03 Resultado Neto / Ventas

ACT04 Ingresos Explotación / Consumos Explotación REN04 Rtdo. Neto - Realizable – Existencias

/ Activo Total ACT05 Valor Añadido / Ventas REN05 Resultado Neto / Activo Total

am. APL01 B.A.I.T. / Gastos Financieros REN06 Resultado Neto / Fondos Propios

APL02 Gastos Financieros / Deuda Total

ROT01 Activo Circulante – Existencias / Ventas

APL03 Resultado Explotación / Gastos Financieros ROT02 Existencias / Ventas

APL04 Resultado Neto / Exigible Total ROT03 Ventas / Realizable Cierto

. END01 Deuda Total / Fondos Propios ROT04 Ventas / Activo Circulante

END02 Fondos Propios – Resultado Neto / Exigible A Corto ROT05 Ventas / Activo Fijo

END03 Fondos Propios / Exigible Total ROT06 Ventas / Activo Total END04 Pasivo A Largo / Exigible Total ROT07 Ventas / Capital Circulante

EST01 Activo Circulante / Activo Total ROT08 Ventas / Disponible

EST02 Dot. Amortización / Inmovilizado Neto

SOL01 Activo Circulante – Existencias / Exigible A Corto

EST03 Capital Circulante / Activo Total SOL02 Activo Circulante / Exigible Total EST04 Capital Circulante / Exigible Total SOL03 Activo Circulante / Pasivo Circulante EST05 Capital Circulante / Ventas SOL04 Activo Fijo / Fondos Propios EST06 Disponible / Activo Total SOL05 Pasivo Exigible / Activo Total EST07 Resultado Neto / Capital Circulante SOL06 Fondos Propios / Activo Total EST08 Medida Descomposición Del Activo SOL07 Fondos Propios / Inmovilizado

LIQ01 Cash Flow Operativo / Activo Total SOL08 Exigible A Corto / Activo Total

LIQ02 Cash Flow Operativo / Exigible Total SOL09 Resultado Antes Impuestos / Exigible A Corto

LIQ03 Cash Flow Operativo / Exigible A Corto

r. TES01 Tesorería / Pasivo Circulante

LIQ04 Cash Flow Operativo / Ventas TES02 Tesorería / Ventas

LIQ05 Cash Flow Recursos Generados / Activo Total

LIQ06 Cash Flow Recursos Generados / Exigible Total

LIQ07 Cash Flow Recursos Generados / Exigible A Corto

LIQ08 Cash Flow Recursos Generados / Ventas LIQ09 Disponible / Pasivo Circulante LIQ10 Existencias / Exigible A Corto

LIQ11 Existencias + Realizable / Exigible A Corto

LIQ12 Intervalo Sin Crédito LIQ13 Realizable / Exigible A Corto

REDES NEURONALES ARTIFICIALES Y PREDICCIÓN · PDF fileredes neuronales artificiales y...

Documents

Transcript of REDES NEURONALES ARTIFICIALES Y PREDICCIÓN · PDF fileredes neuronales artificiales y...

Predicción por redes neuronales artificiales de la calidad

MODELOS DE REDES NEURONALES ARTIFICIALES, COMO …

REDES NEURONALES ARTIFICIALES PARA RESOLVER …

Redes Neuronales Artificiales - INAOE - P

Aprendizaje Automatizado Redes Neuronales Artificiales.

Redes neuronales artificiales

REDES NEURONALES ARTIFICIALES HISTORIA Y TEORIA

Aplicacin de Redes neuronales artificiales para la ...

INTRODUCCIÓN A LAS REDES NEURONALES ARTIFICIALES

Redes Neuronales Artificiales para predicción en series ...arantxa.ii.uam.es/~asuarez/docencia/master/TS2009/seminariosEstudi... · Redes Neuronales Artificiales para predicción

Redes neuronales artificiales supervisadas y no supervisadas

Aplicación de redes neuronales artificiales para ...

REDES NEURONALES ARTIFICIALES (RNA)

Redes neuronales artificiales del aprendizaje no supervisado

IA conexionista-Redes Neuronales Artificiales: introducción

Diseño y Entrenamiento de Redes Neuronales Artificiales

Redes Neuronales Artificiales II

Redes Neuronales Artificiales Original

Redes neuronales artificiales, resumen de artículo

“Aplicación de Redes Neuronales Artificiales para el ...