Post on 30-Jan-2018
REDES NEURONALES ARTIFICIALES Y PREDICCIÓN DE FALLO EMPRESARIAL: SUPERACIÓN DEL ENFOQUE DE “CAJA NEGRA” CON ALGORITMOS DE PODA Y
ANÁLISIS DE SENSIBILIDAD
Carlos PIÑEIRO SÁNCHEZ *
Manuel RODRÍGUEZ LÓPEZ *
Pablo De LLANO MONELOS *
*Dpto. de Economía Financiera y Contabilidad – Universidade da Coruña
José SANTOS REYES +
+Dpto. de Computación e Inteligencia Artificial – Universidade da Coruña
Área temática: b) Valoración y Finanzas. Nuevas Tecnologías y Contabilidad.
141b
REDES NEURONALES ARTIFICIALES Y PREDICCIÓN DE FALLO EMPRESARIAL: SUPERACIÓN DEL ENFOQUE DE “CAJA NEGRA” CON ALGORITMOS DE PODA Y
ANÁLISIS DE SENSIBILIDAD
Resumen
Las redes de neuronas artificiales (RNA) son herramientas comunes en el tratamiento de
problemas poco estructurados, con información imperfecta. Aplicadas con éxito para
diagnosticar la salud financiera empresarial y, pronosticar eventos de insolvencia y fallo. Las
RNA modelizan relaciones no lineales mediante elementos conectados por pesos
adaptables, por tanto, su capacidad explicativa es limitada. Unido a la falta de principios
universales para el diseño de su arquitectura, hace que las redes deban ser optimizadas
antes de su aplicación práctica. Los procedimientos estándar de optimización son onerosos.
De hecho es un factor inhibidor del uso en empresas no financieras. Proponemos una vía
menos sofisticada para ajustar RNAs destinadas al pronóstico del fracaso financiero,
combinadas con técnicas econométricas y análisis de sensibilidad. La red reducida, frente al
original y a pronósticos proporcionados por técnicas paramétricas, indica que esta estrategia
disminuye sustancialmente su complejidad interna y el requerimiento de datos, sin mermas
relevantes en calidad de pronósticos.
provided by technical parametric, indicates that this strategy minimize substantially its
internal complexity and the data requirement, without relevant losses in quality of forecasts.
1 INTRODUCCIÓN
Diagnosticar desequilibrios financieros, y pronosticar eventos de fracaso empresarial ha
ganado sofisticación teórica durante las últimas décadas. Los primeros trabajos analizaban
la quiebra, como fenómeno puntual, individualizado, dieron paso a estudios estructurados
basados en búsquedas sistemáticas de patrones estadísticos regulares en empresas sanas
y fallidas (Beaver, 1966). Entre estos trabajos seminales, examinantes de perfiles
estadísticos empleando técnicas univariantes y/o, formalizando la opinión de analistas y
expertos, cabe señalar: Beaver (1966), Wall y Dunning (1928), Tamari (1966), el modelo A-
Score de Argenti (1984). Casi inmediatamente se observó el fracaso como un proceso
multimensional o, proceso complejo que se manifiesta en múltiples disfunciones en el
tiempo; abriendo camino a la aplicación de técnicas estadísticas multivariables, como el
análisis discriminante múltiple (Altman, 1968; Altman et al., 1977), regresión logística
condicional (Ohson, 1980) y regresión probit (Zmijewski, 1983).
Independientemente de la metodología empleada, el enfoque estadístico convencional
descansa el diagnóstico casi exclusivamente en ratios y magnitudes financieras. Muy
recientemente se han incorporado regresores complementarios, relativos por ejemplo a la
calidad de la gestión (Rose et al., 1982; Peel et al., 1986; Keasey y Watson, 1987) o
sustitutos de juicios expertos (Parnes, 2010); también modelos que infieren eficazmente
signos de fracaso a partir del contenido informacional de auditoría (Piñeiro et al., 2012).
Obstáculos recurrentes en el desarrollo de modelos estadísticos son la imperfección
informacional del problema, la complejidad y no linealidad de las relaciones existentes entre
variables. Si bien el desarrollo de modelos econométricos sigue siendo una metodología
preeminente, se explora el uso de métodos diseñadas para escenarios de información
incompleta, o en régimen de incertidumbre. Los métodos heurísticos caracterizados por
utilizar la información contenida en casos reales para inferir reglas o algoritmos que
sintetizan criterios de análisis o diagnóstico, y evaluar eficazmente otros casos o
diagnosticar nuevas situaciones (Quinlan, 1987; Frydman et al., 1985; Messier y Hansen,
1988; Bell et al, 1990; Liang, 1992; Rodríguez, 2002; Hansen et al., 1993; Serrano et al.;
1993; Etheridge et al, 1997; González et al., 1999).
Al margen de técnicas estadísticas clásicas, como las redes bayesianas (Sarkar y Sriram,
2001), se han empleado metodologías menos convencionales, como el particionamiento
recursivo (Frydman et al., 1985; Quinlan, 1986 y 1987; Daubie et al., 2002), conjuntos
imprecisos (Pawlak, 1991; Slowinski y Zopoundis, 1995; McKee, 2000), y lógica difusa
(Dubois y Prade, 1992; Slowinski y Zopounidis, 1995; McKee y Lensberg, 2002; McKee,
2003). Sin embargo, el aprendizaje y la problemática de gestión del conocimiento son
también áreas naturales para la aplicación de herramientas basadas en inteligencia artificial.
Este trabajo examina algunos aspectos prácticos de la aplicación de una clase particular de
herramientas de IA, las redes de neuronas artificiales (RNA), al pronóstico del fracaso
financiero. Las redes demostraron una notable capacidad para realizar diagnósticos
financieros, sin embargo su aplicación al caso concreto del pronóstico del fracaso plantea, el
problema de la selección de la arquitectura y los parámetros adecuados. No se ha
sintetizado una teoría integrada que explique en detalle el fenómeno del fracaso. Las
evidencias empíricas disponibles provienen de múltiples enfoques parciales. Incluso si nos
atenemos al paradigma dominante – pronóstico basado en indicadores contables – existe un
riesgo evidente de multiplicar el número de ratios presentadas a la red, alterando su
funcionamiento. La acumulación de variables de entrada requiere estrategias de
conectividad más complejas que no siempre lleva aparejada una mejora correlativa en
calidad de pronósticos. Proponemos un procedimiento pragmático en dos fases para podar y
simplificar las RNA aplicadas al pronóstico del fracaso empresarial. Un planteamiento menos
complejo y sofisticado que los algoritmos convencionales de optimización. Coherente con la
tendencia a desarrollar RNA estrechamente dependientes de sus dominios de trabajo
(Thomaidis et al., 2007).
Organización del trabajo: Primero ofrecemos una descripción general del funcionamiento de
las RNA, con especial referencia a sus aplicaciones en Finanzas. Seguidamente detallamos
las distintas características del estudio empírico, incluyendo variables y metodología.
Finalmente, discutimos los resultados obtenidos, ofreciendo una síntesis de nuestras
contribuciones.
2 EL ENFOQUE HEURÍSTICO Y LAS REDES DE NEURONAS ARTIFICIALES EN FINANZAS
Los principios básicos de las RNA, el perceptrón, fueron esbozados en 1969 por Marvin
Minsky, definiendo la inteligencia artificial como “el arte de construir máquinas capaces de
hacer cosas que requerirían inteligencia, en caso de que fuesen hechas por seres
humanos”. Los sistemas expertos son posiblemente la aplicación característica de la IA-
Simbólica. Analizan problemas conformen a un sistema reglas que sintetiza la estrategia de
trabajo y conocimiento experto preciso para actuar en el dominio correspondiente; solvencia
y fracaso. Actúan naturalmente allí donde los problemas son estructurados, los
procedimientos responden a reglas estables, y existe un volumen de antecedentes
suficientemente amplio y profundo como para reducir el conocimiento relevante a un sistema
estructurado de reglas. Por contra, tienen dificultades en situaciones de información
imperfecta, problemas desestructurados, y estrategias de razonamiento que implican juicios
de valor y habilidades individuales (Liang, 1992).
Limitaciones especialmente relevantes son el caso de la problemática de gestión
empresarial, donde la investigación reciente tiende a emplear aplicaciones de IA-
subsimbólica, como redes de neuronas artificiales (RNA) y máquinas de soporte vectorial
(SVM) (Odom y Sharda, 1990; Tam y Kiang, 1992; Shin et al., 2005; Härdle et al., 2005; Kim
y Sohn, 2010; Xiaosi et al., 2011). El atractivo de estos sistemas reside en su capacidad
para capturar y organizar el conocimiento; les confiere una destacable habilidad para
afrontar problemas poco estructurados, identificando patrones ocultos informacionales. Son
capaces de autogenerarse, incluso sin supervisión, mediante estrategias predeterminadas
de aprendizaje que emulan, con mayor o menor éxito, los sistemas biológicos. Sin embargo,
la complejidad estructural de las reglas, el nivel de poda elegido para los resultados, son
determinantes para la calidad de la herramienta, en particular cuando se trata de
aprendizaje automático.
2.1 APLICACIONES FINANCIERAS DE LAS RNA
Las RNA, por su capacidad para tratar con información imperfecta y combinaciones de
elementos cualitativos y cuantitativos, son herramientas idóneas para una amplia variedad
de problemas y aplicaciones empresariales (Smith y Gupta, 2002). Entre ellas: Planificación
estratégica, Programación y Control de Producción, Decisiones de marketing y, Finanzas.
Respecto del análisis de solvencia, las RNA se utilizan con éxito diagnosticando la salud
financiera empresarial, detectando precozmente signos de disfunciones financieras latentes,
evaluando el riesgo de crédito (Messier y Hansen, 1988; Hansen y Messier, 1991; Serrano y
Martín, 1993; Coats y Fant, 1993; Fanning y Cogger, 1994; Wilson y Sharda, 1994; Altman
et al., 1994; Barniv et al., 1997; Koh y Tan, 1999; Martínez et al., 2007; Kim, 2011). La
evidencia disponible indica que estas herramientas poseen una capacidad predictiva igual,
incluso superior, a modelos multivariables convencionales (Bell et al.; 1990; Brockett et al.,
2006; Piñeiro et al., 2013). La razón estriba en la singular capacidad de las redes para tratar
no linealidades, asimilando cualquier forma de conocimiento, incluso parcialmente
desesestructurado, y/o posee contenido cualitativo. Precisamente, el caso de la
problemática financiera.
Emplear RNA suele requerir un proceso previo de optimización. El objetivo es simplificar la
estructura interna de la herramienta. Reducir el volumen de datos requerido, manteniendo al
mismo tiempo la error en un nivel aceptable. En las aplicaciones financieras, la red suele
enfrentarse a un volumen de datos relativamente elevado – múltiples ratios financieras,
tasas de variación, indicadores de gestión –, que pueden tener poca o ninguna incidencia en
el diagnóstico, y que en cualquier caso padecen altos niveles de redundancia. Las
estrategias de optimización de la red, como la poda o el diseño mediante métodos
constructivistas, son ineludiblemente necesarios, no solo por sus ventajasoperativas, sino
porque ayudan a conocer el funcionamiento interno de la red (apartado 2.5).
2.2 CARACTERÍSTICAS BÁSICAS DE UNA RNA
Una RNA, se diseña para descubrir por sí misma patrones significativos, para estructurar el
conocimiento presente en datos operativos u observaciones empíricas. A diferencia de los
sistemas convencionales, que operan conforme una programación a priori y se sirven de
repositorios estructurados de datos, la red adquiere autónomamente el conocimiento
partiendo de casos semiestructurados y almacenándolo de manera distribuida (malla).
Replica, a menor nivel de complejidad, estructura y funcionamiento de sistemas empleados
por seres vivos para almacenar y aplicar conocimiento. Está formada por un número variable
de unidades elementales de cómputo – neuronas artificiales -, enlazadas por un entramado
de conexiones a lo largo de los cuales se transmiten señales.
Las redes adoptan estructuras multicapa donde las variables/atributos (patrones de entrada,
capa de entrada) se relacionan con los patrones de salida (salud financiera) mediante una o
más capas intermedias. Cada neurona recibe señales que determinan su estado interno,
mediante una función de activación específica1; sin más detalles técnicos, el procedimiento
implica calcular una media ponderada de las señales de entrada, que i) determina el estado
de cada neurona, función de un umbral de activación predeterminado, y ii) puede influir en el
estado de las otras neuronas adyacentes, dependiendo de la conectividad de la red.
La red almacena conocimiento, pesos sinápticos y umbrales, que determinan el estado de
activación de sus distintas neuronas; estos parámetros derivan de un proceso de
entrenamiento, donde las características financieras de la capa de entrada se propagan
hacia adelante iterativamente hasta que los patrones mostrados en la capa de salida no
difieran de la salud financiera real de la empresa en una proporción satisfactoria de casos2.
1 Este trabajo emplea una clase específica de RNA, denominada perceptrón multicapa, cuyas funciones de activación típicas
son la tangente hiperbólica y la sigmoidal.
2 Nos referimos a estrategias de entrenamiento supervisado. Otras RNA se entrenan de forma no supervisada, por tanto los
casos contienen únicamente datos descriptivos pero ninguna referencia al estado real o patrón de salida deseado; el ejemplo
característico de esos últimos sistemas son los mapas auto-organizados, o SOM.
2.3 ANÁLISIS DE SENSIBILIDAD
El patrón de salida mostrado por la RNA no se explica mediante expresión matemática o
sistema explícito de reglas, sino por las características estructurales de la red: número y
composición de las capas, patrón de conectividad, pesos y umbrales de activación. La
ausencia de modelos es consecuencia directa de la naturaleza heurística de la RNA, no
diseñada para diseccionar problemas e, identificar variables y relaciones significativas, sino
para adaptarse a la información disponible. Esta capacidad le permite desenvolverse con
soltura en escenarios de información imperfecta, descubriendo patrones ocultos. Pero, el
funcionamiento como “caja negra” resulta insuficiente para la investigación y praxis
empresarial, porque no profundizar en las relaciones de causalidad subyacentes. Por
ejemplo: en el contexto del pronóstico del fracaso empresarial, un prestamista no podría
utilizar la red identificando las características relevantes evaluadoras del riesgo financiero
del prestatario.
El análisis de sensibilidad es un procedimiento diseñado originalmente para estimar la
importancia relativa de cada variable de la capa de entrada, función de los valores de la
capa de salida; nos permitiría saber cuáles son los atributos que se relacionan más
intensamente con los estados de salud financiera, o eventos de fallo.
El grado de sensibilidad se calcula desagregando la red, analizando pesos sinápticos de
la(s) capa(s) oculta(s) hacia la capa de salida, en relación a las variables que forman la capa
de entrada. Variables con mayor sensibilidad ejercen más influencia sobre las capas ocultas,
condicionando más intensamente el estrato de salida, interpretándose como indicio de que
ese atributo tiene mayor peso en el diagnóstico.
Sean z = (z1 , ... , zi , ... , zI) , y = (y1 , ... , yj , ... , yJ) y o = (o1 , ... , ok , ... , oK) los vectores
que representan, respectivamente, las entradas, la capa oculta y la salida de una red
Perceptrón Multicapa (MLP) como la empleada en este trabajo; definimos el par de
entrenamiento p = (z(p) , t(p)) , siendo t = (t1 , ... , tk , ... , tK) el vector que contiene la salida
deseada de la red. Para un par p, la sensibilidad (ecuación 1) de una salida ok respecto de
una entrada zi se define como:
∑∑==
=
==
J
jjijkjk
J
j i
jkjk
i
kp
ki vywozy
wozo
S1
''
1
')(
δδ
δδ
(1)
Lo anterior, Ski( p) mide el cambio esperado en los estados de la capa de salida cuando se
modifican las entradas de la red; yj denota la salida de la j-ésima neurona de la capa oculta,
ok’ es la derivada de la función de activación de la neurona k de la capa de salida, e yj’ es la
derivada de la función de activación de la neurona j de la capa oculta. Las funciones de
activación (2) de las neuronas en las capas de entrada y salida vienen dadas por:
= ∑
=
J
jjkjk ywfo
1
= ∑=
I
iijij zvfy
1 (2)
donde wkj es el peso entre la neurona de la capa oculta yj y la salida ok,; por su parte, vji es
el peso de la relación entre la entrada zi y la neurona yj de la capa oculta.
La ¡Error! No se encuentra el origen de la referencia. define la sensibilidad de una salida
respecto a una entrada, para un único patrón de entrenamiento. Usualmente estaremos
interesados en estimar la sensibilidad respecto de todo el conjunto de entrenamiento (3), y
para ello emplearemos la siguiente medida (Engelbrecht et al., 1995):
∑=
=P
p
pkiki PSS
1
)( (3)
La variable Ski expresa la media, en valor absoluto, de las sensibilidades para cada uno de
los patrones de entrenamiento. Existen otros procedimientos e indicadores para estimar la
sensibilidad de las variables, por ejemplo los propuestos por Zurada, et al. (1994), Garson
(1991) o Nath et al. (1997). En cualquier caso, conviene destacar que, dado que la RNA
expresa relaciones no lineales, un cambio unitario en una variable de entrada puede
traducirse en diferentes niveles de variación en las variables de salida; en otras palabras, la
medida de sensibilidad depende del valor adoptado inicialmente por la variable objeto de
estudio, por tanto estos indicadores deben entenderse como estimaciones del peso medio
de cada variable a lo largo de su rango de valores admisibles.
Aunque las RNA no operan con base en reglas, sino en conocimiento distribuido, existen
algoritmos diseñados específicamente para extraer expresiones que sinteticen la estrategia
de razonamiento empleada por la red (por ejemplo, Setiono y Thong, 2004).
2.4 COMPLEJIDAD DEL PROBLEMA, ESTRATEGIA DE APRENDIZAJE, Y CALIDAD DEL PRONÓSTICO
La capacidad de la red para asimilar y generalizar el conocimiento relevante, y su utilidad
como instrumento de análisis y pronóstico, dependen críticamente de, el diseño de la red; y
las características del entrenamiento: tamaño muestral, número de variables, calidad de los
casos, etc. El principio básico es que la muestra de aprendizaje debe aportar un conjunto de
casos que describa adecuadamente su dominio de trabajo y contenga evidencias
suficientes, cantidad y calidad, para realizar inferencias.
El rendimiento de la red puede deteriorarse entrenándola con muestras de baja calidad:
muestras con pocas observaciones, carencias en las variables explicativas, factores
irrelevantes redundantes. Una muestra exhaustiva, compuesta por más observaciones, más
variables de entrada, reduce el riesgo de vacíos de conocimiento, pero aumentan el tiempo
requerido para completar el entrenamiento, ocasionando asociaciones irrelevantes, patrones
de conectividad más complejos, sin que ello redunde en mejorar la calidad pronosticadora.
Problema recurrente en la aplicación de RNA es la elección del patrón de conectividad y
número de neuronas (arquitectura). La complejidad de la red debe ser proporcionada a las
necesidades reales del problema; caso contrario, los algoritmos de aprendizaje hacen que la
herramienta aprenda los casos en lugar de inferir patrones, restando utilidad. Una estrategia
común para paliar el riesgo de sobreentrenamiento es, emplear una muestra adicional de
validación, presentada a la red al término de cada ciclo de entrenamiento: se calcula el error
cometido, ejecutando una iteración adicional solo si dicho error es inferior al observado en el
ciclo anterior. Los errores crecientes se relacionan con disfunciones ocasionadas por
sobreentrenamiento, así que la minimización del error de validación se interpreta como
criterio fiable de optimización de la red.
Existe un sutil equilibrio entre las características del problema, la calidad de la información
presentada a la red, su arquitectura, y la calidad de los pronósticos. La búsqueda de una
solución de compromiso entre costes derivados del desarrollo y explotación de una
herramienta sofisticada, y la utilidad de la red como herramienta fiable de pronóstico
(Azevedo et al., 2002/2003; Thomaidis et al., 2007).
Sin embargo, en un caso típico de aplicación de RNA no suele disponerse de criterios
precisos para identificar estas variables, precisamente porque se trata de herramientas
diseñadas específicamente para problemas desestructurados en escenarios de información
imperfecta. Dependiendo de la naturaleza del dominio y la complejidad del problema, la red
puede llegar a manejar un número relativamente elevado de variables. El caso concreto del
pronóstico del fracaso financiero, las RNA se nutren de información financiera, ratios, las
cuales son altamente redundantes (correlación) y poseen además exuberante diversidad
(mismo proceso reflejado en varias ratios, con múltiples variantes analíticas). Este número
anormalmente elevado de variables puede inducir la emergencia de patrones espurios,
disfunciones en el diagnóstico y, deteriorar el rendimiento general de la red, elevar las
necesidades de procesamiento, coste de adquisición de datos y tiempo requerido para
realizar un diagnóstico. De ahí, procedimientos simplificadores de la red, sin pérdidas
relevantes de capacidad para gestionar conocimiento, es objetivo práctico prioritario.
2.5 OPTIMIZACIÓN DE LA RED
La prevención del sobredimensionamiento es objetivo prioritario en el diseño de RNA. Como
señalamos, la capacidad de generalización depende del sutil equilibrio entre complejidades
respectivas al problema y modelo. Adoptando una heurística amplia, cabe aceptar que una
red tiene una configuración adecuada, cuando los errores de entrenamiento y validación
cruzada sean mínimos (Weigend et al., 1990; Stone, 1974). Disgregando el error cuadrático
medio en sus componentes de sesgo y varianza (Geman et al.. 1992) obtenemos evidencias
que aclaran si el error observado es por sobreentrenamiento, u otras dificultades de
generalización. El análisis de sensibilidad proporciona evidencias de interés reductoras del
número de variables en la capa de entrada, simplificando también las ocultas.
Pero, la simplicidad, parsimonia, es una propiedad deseable para cualquier RNA, que ha
desarrollado cierto número de estrategias para optimizar la red, adaptar la estructura y sus
parámetros modificables a las necesidades reales del problema3, con procedimientos
variados (Azevedo et al., 2002/2003). Un primer enfoque consiste en realizar podas
(reducciones sucesivas) partiendo de una arquitectura inicial, susceptible de simplificación.
Lo más sencillo, es eliminar secuencialmente las conexiones más débiles, reentrenando la
red, hasta que el error de entrenamiento supere el umbral considerado máximo; la
arquitectura puede simplificarse si pueden hallarse nodos con un comportamiento similar, o
si uno o más nodos de las capas ocultas que a priori operan conforme a una función de
activación de tangente hiperbólica, prácticamente tienen un comportamiento lineal. Existen
técnicas notablemente más sofisticadas, como Optimal Brain Surgeon (OBS) y Optimal Cell
Damage (OCD), basadas en Optimal Brain Damage (OBD) de LeCun et al. (1990). OBD
implica un procedimiento iterativo de poda basado en la importancia relativa (saliency) de
cada parámetro configurable (neurona/enlace), y controlado por el cambio estimado en el
error. Parece tener influencia favorable en la capacidad de generalización de redes
aplicadas a finanzas, en concreto al pronóstico del fracaso (Becerra et al., 2002).
Los procedimientos de poda parecen más un arte, experiencia, que un algoritmo
propiamente dicho. Frecuentemente simplificamos la red sobre la base de estrategias de
prueba y error, y relaciones de intercambio (trade-offs), donde la noción de satisfactoriedad
juega un papel importante. En el caso de los procedimientos basados en la relevancia, la
satisfactoriedad se materializa en la determinación del umbral máximo admisible para el
cambio del error en cada iteración.
La principal alternativa es una categoría de métodos, guía dinámica del proceso de
optimización, acelerador del proceso de búsqueda de configuraciones satisfactorias.
Algunos de los procedimientos más relevantes en esta categoría se basan en una
3 Un perceptrón multicapa puede aproximar cualquier problema real con un máximo de dos capas ocultas; no obstante en la
mayoría de los casos, incluso en problemas arbitrariamente complejos, es suficiente con solo una siempre y cuando el número
de neuronas sea el adecuado. Lippmann (1987) sugiere que esta capa oculta debería tener 3 · N unidades, siendo N el número
de neuronas de la capa de entrada; por su parte, Hecht-Nielsen (1990) y Lippmann (1987) han demostrado que la condición
suficiente es de 2 · N + 1 neuronas. Al margen de ello, el cálculo del número de nodos suelen basarse en reglas prácticas como
la de la pirámide geométrica (Blum, 1992).
interpretación diametralmente contraria del proceso de diseño de la red. En lugar de
proponer criterios para de poda una arquitectura ex ante, proponen partir de una
configuración mínima que se va escalando en función del comportamiento del error. Esto
supone construir la red; simple-a-complejo: destacando los métodos constructivos, los
algoritmos de Tower y de la pirámide invertida, de Gallant (1986), el entrenamiento
secuencial de Depenau, 1995, algoritmos híbridos (Yu et al., 2008), máquinas de soporte
vectorial (Cortes y Vapnik, 1995), programación matemática multiobjetivo (Teixeira et al.,
2000).
Tanto los algoritmos de poda como las estrategias constructivas tienen tendencia a caer en
óptimos locales, lo que obliga a introducir controles adicionales en el proceso, restándoles
cierta practicidad. Trabajos recientes de optimización RNA emplean algoritmos evolutivos
que, controlando los parámetros de diseño de la red a través de mutaciones estructurales,
realizan una exploración exhaustiva en el espacio de búsqueda, logrando una relación más
satisfactoria entre complejidad y calidad de pronóstico.
La utilidad práctica de estos procedimientos de optimización está matizada por la ausencia
de principios claros respecto de que técnica proporciona resultados más satisfactorios,
teniendo en cuenta su complejidad relativa y el tiempo requerido para ponerla en práctica.
La conclusión de la investigación en esta área es, que se precisa el concurso de juicios
expertos para definir una combinación de procedimientos de acuerdo con las características
de cada problema en concreto (Azevedo et al., 2002/2003). En aplicaciones en gestión
financiera, particularmente del pronóstico del fracaso financiero, la sofisticación de estos
procedimientos exceden las necesidades reales de optimización de las RNA, de ahí que las
herramientas se desarrollen empleando estrategias híbridas que incluyen la selección
experta de variables a partir de la teoría financiera, la aplicación de principios de arbitraje y
equilibrio de mercado, y el diseño por prueba y error (Tsaih, 1999; Thomaidis et al., 2007).
Seguidamente presentamos un procedimiento pragmático: dos ciclos complementarios de
depuración. Primero aplicar un análisis factorial para reducir la dimensión de los datos de
entrada, simplificando tanto la capa de entrada como la oculta. Seguidamente se practica
una poda basada en los resultados del análisis de sensibilidad, permitiendo descartar las
variables con menor capacidad explicativa. Mostramos los resultados de entrenamiento y
validación de tres redes basadas en lo anterior, discutiendo las ventajas relativas del
procedimiento simplificador propuesto.
3 ESTUDIO EMPÍRICO
3.1 DATOS
Las muestras de entrenamiento, validación cruzada y contraste han sido aleatorian entre las
pymes con sede social gallega. Además exigimos tener una edad mínima (cuatro años),
para atenuar los efectos de confusión, previsiblemente derivados de la tasa de mortalidad
que suele caracterizar las empresas jóvenes.
La muestra de entrenamiento se ha diseñado para proporcionar al estudio protección ex
ante frente a los sesgos derivados de la presencia de variables confundentes, y por tanto
tiene naturaleza equilibrada: incluye 60 empresas sanas y otras tantas fallidas, conforme la
especificación que detallamos a continuación. La muestra de validación contiene 29
insolventes y 284 sanas.
Las variables explicativas comprenden una selección experta de ratios financieras, basada
en la lógica financiera y en los niveles de significación informados por la literatura
precedente4. Hemos seleccionado 59 indicadores (Anexo), agrupados en siete categorías
financieras: Actividad, Apalancamiento, Endeudamiento, Estructura, Liquidez, Rentabilidad y
Rotación.
La variable independiente, dicotómica, se basa en una especificación amplia del concepto
de fracaso financiero, en el que se incluyen:
• Hallarse formalmente en concurso.
• Incursa en procesos judiciales (reclamación de deudas).
• No atender puntualmente efectos de comercio aceptados en cuantía y número
elevados (alta registral de impago).
3.2 METODOLOGÍA
Empleamos un Perceptrón multicapa, una clase de red muy común, simple y de carácter de
aproximador universal – que puede ajustar cualquier función continua en Rn, incluyendo
relaciones no lineales como las que, presumiblemente, definen los escenarios de fracaso
financiero -. Optamos por un diseño convencional y bien establecido para controlar los
efectos de interacción que podrían derivarse de la aplicación de nuevas variantes
metodológicas, o arquitecturas, que, como las redes de base radial o las máquinas de
soporte vectorial, cuentan con evidencias empíricas menos consolidadas, en el campo del
pronóstico del fracaso.
4 Los datos primarios se han obtenido de la base de datos SABI; el cálculo de las ratios es propio.
Como anticipamos, exploramos el efecto de algunos procedimientos simples reductores del
volumen de datos y simplificadores de la estructura de RNAs, concretamente en el
diagnóstico del fracaso financiero. Estos procedimientos incluyen dos estrategias de
reducción ex ante (selección experta de ratios y análisis factorial), y un procedimiento ex
post (análisis de sensibilidad con revisión iterativa de la red). Nuestra intención es
desarrollar un modelo pragmático de optimización adaptado a las necesidades de los
problemas de pronóstico del fallo, siguiendo la tendencia general de trabajo en materia de
RNA, materializada en herramientas aplicadas estrechamente dependientes de sus
respectivos campos de aplicación (Thomaidis et al., 2007).
A tal efecto, entrenamos y validamos tres arquitecturas de RNA.
• 1ª red; un conjunto de 52 ratios5 seleccionados de acuerdo con los antecedentes
relevantes aportados por la literatura.
• 2ª red; un subconjunto de 28 variables, extraídas mediante análisis factorial de los 52
ratios originales, reduciendo redundancias y ruido muestrales6. La preselección de
variables demostró ser un procedimiento útil para hacer más comprensible la red y
mejorar su eficiencia (Yu et al., 2008).
• 3ª red; un subconjunto reducido de variables, las cinco ratios financieras con mayor peso
en un análisis de sensibilidad basado en algoritmo de Engelbrecht et al. (1995). Un
procedimiento de poda similar al OBD, donde se pretende descartar elementos con
menor incidencia en el procesamiento de la red, no implicando la optimización del
entramado interno de enlaces7.
Todas las redes incluyen una sola capa oculta de 5 ó 10 neuronas, según el número de
variables de entrada, y un solo nodo de salida. Las configuraciones empleadas son
52x10x1, 28x5x1 y 5x5x1 (Ilustración 1). Cada una de estas tres arquitecturas se entrena y
valida en cuatro horizontes (uno, dos, tres y cuatro años-antes-del-fallo) para obtener
evidencias parciales del desempeño de las redes en diferentes plazos, profundizando en el
estudio de la dinámica temporal de desequilibrios que conducen al fallo.
5 El análisis preliminar de los datos aconsejó excluir un grupo de siete indicadores, que presentaban valores extremos muy
acusados.
6 Se mantuvieron los factores con un autovalor igual o superior a 0,8.
7 El objetivo no es en modo alguno refutar la utilidad de OBD ni de los restantes algoritmos de optimización, sino verificar la
posibilidad de pronostico satisfactorio del fracaso empresarial, empleando estrategias de poda menos exigentes, técnica y
analíticamente, y por tanto menos costosas.
Todas las redes se entrenaron mediante el algoritmo de retropropagación; variante de
gradiente conjugado (Battiti, 1992). Los nodos de procesado tienen como función de
transferencia una sigmoide centrada en cero; en el eje Y un rango de salida [–1, 1].
ILUSTRACIÓN 1. ESTRUCTURA DEL PERCEPTRÓN MULTICAPA
4 RESULTADOS Y DISCUSIÓN
4.1 ENTRENAMIENTO Y VALIDACIÓN DE LAS REDES: CONTRASTE DE LOS EFECTOS DE LA FACTORIZACIÓN DE LOS DATOS PRIMARIOS
Las redes 52x10x1 y 28x5x1 se adiestraron empleando las mismas muestras de
entrenamiento y validación cruzada. Las diferencias observadas en los resultados de esta
fase son muy pequeñas: en ambos casos la capacidad de pronóstico se deteriora
progresivamente conforme avanzamos hacia horizontes de predicción más largos, pero las
dos redes son capaces de clasificar correctamente a más del 90% de las empresas con
anticipación de cuatro años (Ilustración 2). Respecto del entrenamiento, la red más compleja
(52x10x1) logra tasas de error ligeramente inferiores en cualquier marco temporal, pero esta
ventaja no parece tener la entidad suficiente como para compensar su complejidad
adicional.
Es interesante observar la existencia de lagunas en la información primaria, materializadas
en una pérdida de observaciones con especial incidencia en la submuesta de fallidas
(Ilustración 2). La literatura relaciona esto con estrategias dirigidas a manipular flujos de
información financiera externa, evitando que sean conocidas ciertas evidencias por usuarios
externos de la contabilidad (Nelson, 2005). Verificamos que su presencia en el historial de la
empresa (incumplimientos en depósito de cuentas anuales, requerimientos de contenido) es
signo altamente fiable de disfunciones financieras latentes, y riesgo de crédito acrecentado
(Piñeiro et al., 2012). Dado que las anomalías contables parecen ser consustanciales al
problema objeto de estudio, consideramos inaceptable el descarte de observaciones con
información incompleta.
En fase de validación las redes se enfrentaron a observaciones diferentes de las empleadas
en entrenamiento. Las herramientas logran tasas de acierto satisfactorias en horizontes de
hasta dos años, sin embargo el deterioro de la capacidad predictiva es más acusado en
horizontes largos. La red simplificada (28x5x1) parece tener un comportamiento más
satisfactorio, pues mantiene prácticamente la misma tasa de error a dos y tres años. Ambas
redes fueron entrenadas y validadas con idénticos datos, sometidas a los mismos controles
evitando el sobreentrenamiento, por tanto creemos que esta diferencia no se explica por una
eventual singularidad aleatoria de los datos, representando una deficiencia real imputable a
la complejidad estructural de la arquitectura 52x10x1.
No observamos sesgos sistemáticos en los grupos de empresas sanas y fallidas (Ilustración
3), ni indicios de que el uso combinado de la factorización y la selección experta de variables
implique riesgos de caída en mínimos locales8. Los resultados no sugieren que la aplicación
previa del análisis factorial comprometa la capacidad de la red para anticipar eventos de
fallo, siquiera en plazos de tiempo relativamente prolongados.
RED 52 x 10 x 1
RED 28 x 5 x 1
MUESTRA de ESTIMACIÓN (60 SANAS – 60 FRACASADAS)
SANAS FRAC. TOTAL SANAS FRAC. TOTAL
AÑO 1 ANTES DEL FRACASO 100,0 100,0 100,0 100,0 98,3 99,2
AÑO 2 ANTES DEL FRACASO 100,0 98,3 99,2 100,0 91,7 95,8
AÑO 3 ANTES DEL FRACASO 98,3 98,3 98,3 96,7 98,3 97,5
AÑO 4 ANTES DEL FRACASO 93,3 91,7 92,4 91,7 91,7 91,7
MODELO GLOBAL 93,8 93,8 93,8 95,0 91,7 93,3
ILUSTRACIÓN 2. PORCENTAJES DE ACIERTO EN LA FASE DE ENTRENAMIENTO
RED 52 x 10 x 1
RED 28 x 5 x 1
MUESTRA DE VALIDACIÓN SANAS FRAC. TOTAL SANAS FRAC. TOTAL
AÑO 1 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
92,5 100,0 93,6 94,1 89,7 93,6
AÑO 2 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
84,9 72,4 83,7 84,1 86,2 84,3
AÑO 3 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
80,9 65,5 79,5 84,2 82,8 84,0
AÑO 4 ANTES DEL FRACASO (15 FRACASADAS – 284 SANAS)
70,8 86,6 71,6 68,3 80,0 70,3
MODELO GLOBAL (102 FRACASADAS – 1.136 SANAS)
80,4 82,3 80,5 83,2 86,3 83,4
ILUSTRACIÓN 3. PORCENTAJES DE ACIERTO EN LA FASE DE VALIDACIÓN
8 Característico de redes excesivamente simples, carentes de poder de representación necesario para distinguir los patrones
en los datos.
Estos resultados corroboran la conveniencia de las ventajas de la factorización y selección
experta de variables, como alternativas a la aplicación directa de algoritmos convencionales
de optimización a RNA en el pronóstico del fracaso empresarial. Estos algoritmos tienen su
campo natural de aplicación en problemas, donde la falta de estructuración y
desconocimiento parcial de estructuras de causalidad, obligan a diseñar redes sobre la base
de procesos iterativos que exploren el campo de variables, ayudando a identificar un
equilibrio satisfactorio: complejidad-eficacia. El pronóstico del fracaso empresarial cuenta
con amplio volumen de antecedentes de investigación proporcionando claros indicios acerca
de qué variables podrían ser potencialmente relevantes. Por otra parte estas variables,
dominantemente ratios y magnitudes financieras, exhiben una acusada correlación,
redundancias, acrecentando el riesgo de someter a la red a una sobrecarga de información.
La reducción dirigida de la capa de entrada, es un procedimiento adecuado optimizador de
las RNA, alimentado de ratios financieras, construido con herramientas menos exigentes en
términos de tiempo, consumo de datos y requerimientos computacionales.
4.2 ANÁLISIS DE SENSIBILIDAD
La reducción previa de datos no garantiza que las variables presentadas a la RNA sean
relevantes para el problema en curso. Aunque la evidencia empírica es muy amplia, la
investigación en materia de insolvencia no ha consolidado una teoría integrada que explique
la forma en que los desequilibrios financieros desembocan en fallo. Respecto las variables,
la literatura incide en la importancia de las ratios, objeto de estudio de nuestro trabajo, y
corrobora la utilidad de otros indicadores: signos derivados de la auditoría, calidad de
gestión, variables macroeconómicas, etc.
El análisis de sensibilidad agrupa un conjunto de algoritmos que comparten el objetivo de
medir el peso relativo de cada variable de la capa de entrada, como su influencia sobre el
estado de la neurona en la capa de salida (Ilustración 4). Nos ayuda a comprender la
estrategia de diagnóstico de patrones en la red. Nuestro caso emplea sus resultados como
criterio para podar la red, eliminando de la capa de entrada las variables menos relevantes.
UN AÑO ANTES FRACASO
DOS AÑOS ANTES FRACASO
TRES AÑOS ANTES FRACASO
CUATRO AÑOS ANTES FRACASO
VARIABLE Punt. VARIABLE Punt. VARIABLE Punt. VARIABLE Punt.
APL04 6,57 APL04 6,91 REN01 7,30 APL04 8,37
APL02 5,63 SOL09 6,01 SOL09 6,21 LIQ07 5,67
ROT01 5,27 ROT02 4,97 REN04 5,18 SOL02 4,99
REN01 4,44 END01 4,20 APL04 4,56 ROT01 4,72
LIQ05 3,82 SOL02 4,19 REN05 4,44 LIQ06 4,05
LIQ06 3,60 ROT01 4,06 TES01 4,02 EST06 3,87
REN05 3,21 TES01 3,76 SOL08 4,00 SOL06 3,20
END03 3,13 ROT04 3,70 EST06 3,47 LIQ03 3,16
END04 2,77 EST07 3,50 SOL06 3,20 END02 2,99
SOL02 2,74 REN01 3,24 LIQ11 3,18 REN05 2,84
SOL06 2,68 EST03 3,23 SOL02 2,94 TES01 2,70
LIQ02 2,63 ACT03 2,79 ROT03 2,77 ROT02 2,62
EST05 2,60 TES02 2,49 LIQ04 2,49 REN03 2,41
ROT02 2,59 REN05 2,47 LIQ12 2,28 ACT01 2,38
ROT04 2,54 LIQ04 2,26 EST05 2,26 SOL05 2,30
LIQ12 2,54 REN03 2,12 LIQ06 2,18 LIQ01 2,28
REN03 2,41 END02 2,07 ROT02 2,16 END03 2,17
SOL03 2,33 EST05 2,06 TES02 2,12 SOL04 2,13
SOL07 2,27 ACT01 2,02 ROT04 2,10 REN02 2,08
REN02 2,24
REN06 2,17
LIQ07 2,17
ROT07 2,13
TES01 2,12
LIQ03 2,10
ILUSTRACIÓN 4. ANÁLISIS DE SENSIBILDAD DE LAS VARIABLES DE ENTRADA DE
LA RED 52X10X1, SOLO VARIABLES CON SENSIBILIDAD SUPERIOR A DOS.
ILUSTRACIÓN 5. IMPORTANCIA RELATIVA DE LAS RATIOS, POR CATEGORÍAS
El pronóstico descansa fundamentalmente sobre las medidas de estabilidad financiera;
apalancamiento/endeudamiento/solvencia 40% de la sensibilidad de la red, la fluidez del
ciclo corto (rotación/liquidez, 31%), y la rentabilidad (11%). Los resultados corroboran que la
sensibilidad de cada variable difiere con el horizonte de pronóstico, no existiendo un
subconjunto de ratios capaz de proporcionar pronósticos fiables en todos los plazos. Los
datos no muestran tampoco ninguna regularidad en cuanto al comportamiento de estas
sensibilidades: ninguna ratio gana relevancia, ni la pierde, sistemáticamente conforme
transcurre el tiempo y se aproxima el fallo. Ciertamente existen paralelismos conceptuales
muy definidos entre los subconjuntos de variables, pero estas similitudes no parecen ser
estables: en horizontes de dos y tres años coindice el 64,3% de las ratios, pero para uno y
dos años esta tasa se reduce al 46,4%. En nuestra opinión, esta inestabilidad es compatible
con la interpretación del fracaso financiero como un proceso internamente complejo, y
confiere aún más valor si cabe a la sugerente capacidad de las RNA para identificar
patrones relevantes sepultados en los datos primarios.
HORIZONTE
DE PRONÓSTICO % COINCIDENCIA
AÑO 1 - AÑO 2 46,4
AÑO 2 – AÑO 3 64,3
AÑO 3 – AÑO 4 57,1
AÑO 1 - 2 – 3 – 4 21,4
ILUSTRACIÓN 6. GRADO DE COINCIDENCIA DE LAS VARIABLES CON SENSIBILIDAD
≥2,
PARA DIFERENTES HORIZONTES DE PRONÓSTICO
4.3 UNA APLICACIÓN EXPERIMENTAL DE PRUNING
Tras reducir la dimensión de los datos de entrada, análisis factorial, el número remanente de
variables sigue siendo relativamente elevado. Esta circunstancia plantea un riesgo potencial
sobre la capacidad de la red para inferir patrones relevantes, elevando el coste de aplicación
de la herramienta en decisión real. Mostramos los resultados del entrenamiento y validación
de una arquitectura alternativa, obtenida al podar las redes empleadas en los apartados
anteriores conforme los resultados del análisis de sensibilidad. Tratamos de contrastar la
capacidad de las RNA para anticipar eventos de fracaso si entrenamiento y validación se
basan en un pequeño número de ratios, siguiendo los principios de simplicidad y parsimonia,
guía del diseño de modelos paramétricos convencionales.
Realizamos la poda combinando resultados de un análisis de sensibilidad con un criterio
experto, estableciendo el número de neuronas de las capas de entrada y oculta. Los
modelos multivariables logran resultados muy satisfactorios con un pequeño número de
regresores (Altman et al., 1977; Altman, 2000; Ohlson, 1980; Brockett et al., 2006; de Llano
et al, 2011); por tanto hemos seleccionado, en cada horizonte temporal, las variables con
mayor sensibilidad (Ilustración 4), en cada ventana temporal, la capa de entrada incluye las
siguientes9:
9 La reducción de la capa de entrada implica que la red va a manejar un volumen significativamente inferior de información, lo
que permite simplificar también el grado de complejidad de la arquitectura. En este caso, tras realizar algunas simulaciones
previas, hemos optado por incluir cinco neuronas en la capa oculta.
• Año 1 antes-del-fracaso: LIQ05, ROT01, REN01, APL02, APL04.
• Año 2 antes-del-fracaso: END01, SOL02, SOL09, ROT02, APL04.
• Año 3 antes-del-fracaso: SOL09, REN01, REN04, REN05, APL04.
• Año 4 antes-del-fracaso: SOL02, LIQ06, LIQ07, ROT01, APL04.
Procedimiento inspirado en métodos de poda basados en la relevancia (saliency), que
ajustan iterativamente la estructura de la red anticipándose a aquellos cambios que
minimizan la variación estimada del error. Variación obtenida como estimación polinómica
(basada en la aproximación de Taylor) local de la función del error, y su optimización implica
una función de Lagrangre basada en el gradiente y la matriz hessiana del correspondiente
vector de pesos. El lagrangiano es, la relevancia de dicho vector. A pesar de su aparente
simplicidad, este procedimiento es computacionalmente costoso al calcular la inversa de la
matriz hessiana.
La Ilustración 7 muestra los resultados principales del entrenamiento de la red resultante de
la poda, en cada horizonte. En promedio, la red 5x5x1 logra una tasa de acierto del 90,8%
en la fase de entrenamiento, elevándose al 91,3% en el caso de empresas sanas. Los
resultados de la validación son comparables a los logrados por arquitecturas básicas, salvo
a cuatro años (Ilustración 8). La poda, basada en la exclusión de 47 de las 52 ratios
originales, ocasiona una pequeña merma en la tasa de acierto: seis puntos porcentuales en
comparación con la red de mayor dimensión (52x10x1) y poco más de cinco en la red
28x5x1. En nuestra opinión son resultados compatibles con la hipótesis de que la
información aportada por las ratios financieras posee un muy elevado grado de redundancia.
MUESTRA DE ENTRENAMIENTO (60 SANAS – 60 FRACASADAS)
RED 5 x 5 x 1
SANAS FRAC. TOTAL
AÑO 1 ANTES DEL FRACASO 95,0 95,0 95,0
AÑO 2 ANTES DEL FRACASO 98,3 93,3 95,8
AÑO 3 ANTES DEL FRACASO 86,7 91,7 89,2
AÑO 4 ANTES DEL FRACASO 85,0 81,7 83,3
ILUSTRACIÓN 7. RESULTADOS DEL ENTRENAMIENTO DE LA RED, TRAS LA PODA
(5X5X1)
MUESTRA DE VALIDACIÓN
RED 5 x 5 x 1
SANAS FRAC. TOTAL
AÑO 1 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
89,8 96,6 90,4
AÑO 2 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
90,5 79,3 89,5
AÑO 3 ANTES DEL FRACASO (29 FRACASADAS – 284 SANAS)
64,4 82,8 66,1
AÑO 4 ANTES DEL FRACASO (15 FRACASADAS – 284 SANAS)
76,4 41,4 74,6
ILUSTRACIÓN 8. RESULTADOS DE LA VALIDACIÓN DE LA RED, TRAS LA PODA
(5X5X1)
La red 5x5x1 logra tasas de acierto comparables con los estándares de las técnicas
paramétricas convencionales y, lo más destacable, muy equilibradas en las submuestras de
empresas sanas y fallidas. La literatura enfatiza tradicionalmente la capacidad de los
modelos para detectar desequilibrios latentes y anticipar eventos de fallo, relegando el
control de los errores de tipo I; esta es posiblemente una consecuencia natural del marco
metodológico del programa de investigación, definitorio del problema como el pronóstico del
fracaso – no de salud financiera -. Así, el aval principal de los modelos multivariables
convencionales (MDA, Logit) es su capacidad para lograr tasas de error tipo II muy
satisfactorias, a pesar de su tendencia a sobreestimar la verosimilitud de un fallo (Altman,
1968). En nuestro campo, los falsos positivos tienen sin embargo una gran trascendencia
porque pueden causar por sí solos un fallo autocumplido: si la finalidad de los modelos es
proporcionar pronósticos útiles para la toma de decisiones en materia de crédito, un falso
positivo induciría a prestamistas a cortar financiación, o que los proveedores interrumpan
temporalmente el suministro. Naturalmente, tendría consecuencias inmediatas sobre la
estabilidad financiera de la empresa, sobre su capacidad para sobrevivir. De ahí que el
equilibrio en las tasas de error tipo I y tipo II nos parezca una ventaja comparativa crucial.
Los tipo I parecen ser más frecuentes en empresas con peculiaridades respecto a su
negocio, estructura temporal de sus rentas, o patrimonio: compañías en sectores
innovadores, cuya competitividad depende no tanto de inversiones convencionales como de
activos basados en la información y el conocimiento (Itami y Roehl, 1991), u organizaciones
cuyos flujos de caja exhiben ciclos largos como consecuencia de procesos acumulativos de
I+D+i.
5 CONCLUSIONES
Hemos explorado varios procedimientos pragmáticos para optimizar las herramientas de
pronóstico del fracaso empresarial basadas en arquitecturas MLP; este procedimiento no
persigue una optimización rigurosa de la red, sino proporcionar una solución satisfactoria
entre la calidad del pronóstico y, coste técnico y humano asociado a la optimización,
teniendo en cuenta las características del problema en curso.
Las variables de entrada son ratios financieras, seleccionadas por su relevancia teórica y
preeminencia en la literatura sobre fracaso financiero. La hipótesis de que las ratios poseen
contenido informacional relevante para el pronóstico del fracaso cuenta con amplio aval
empírico, pero también se ha evidenciado su carácter redundante. La presencia de
acusadas correlaciones, nos llevan a plantear la aplicación previa de un análisis factorial a
las variables de la capa de entrada, permitiendo reducir la complejidad de la red casi a la
mitad, con una pérdida de calidad (tasa de aciertos) estimada en 1,5 puntos porcentuales.
Las tasas de error tipo I y II son equilibradas, no oscilando significativamente tras la poda;
tampoco observamos alteraciones en la capacidad de pronóstico en horizontes temporales
amplios (hasta cuatro años-antes-del-fallo).
Precisamente, la elección de variables y sus consecuencias en la poda de la RNA es el
segundo objetivo de nuestro trabajo. Formulamos un análisis de sensibilidad para clasificar
las variables de entrada en función de su impacto sobre los estados de la neurona artificial
de la capa de salida. Con base en la complejidad relativa de los modelos paramétricos,
seleccionamos las cinco variables con mayor coeficiente de sensibilidad, aplicado una poda
sobre la red original (52x10x1); la arquitectura resultante posee solo cinco variables en la
capa de entrada y otras cinco neuronas en la capa oculta, logrando aceptables tasas de
acierto: 90% en entrenamiento, 78% en validación cruzada. Resultados comparables a los
obtenidos por modelos paramétricos en este campo. Se observan diferencias en los errores
de tipo I y II, de carácter no sistemático, y un deterioro más acusado en la capacidad
predictiva a largo plazo, que sugiere se ha practicado una poda excesivamente intensa. A
sensu contrario, destacamos que la red mantiene una muy aceptable capacidad
clasificadora incluso en escenarios tan adversos como este.
Opinamos que, estos resultados sugieren que la factorización, unida a un proceso previo de
selección experta de variables, debería considerarse como una alternativa potencialmente
útil al uso de algoritmos formalizados de optimización, en el desarrollo de RNA destinadas a
servir como herramienta de ayuda en el pronóstico del fracaso. Las dos podas aplicadas
sobre la red, la primera basada en dicha factorización y la segunda en un análisis de
sensibilidad de las variables de entrada, permitieron reducir notablemente la complejidad de
la arquitectura; solo la segunda de ellas ha causado mermas apreciables en la calidad de los
pronósticos, pero destacamos que se trata de una arquitectura extraordinariamente simple,
con solo cinco neuronas en las capas de entrada y oculta.
6 BIBLIOGRAFIA
• Altman, E. (1968): “Financial Ratios, Discriminant Analysis and Prediction of Corporate
Bankruptcy”. Journal of Finance: 589 – 609.
• Altman, E. I. (2000): “Predicting Financial Distress of Companies: Revisiting the Z-Score
and ZETA Models”. Working Paper. NYU Salomon Center. Julio.
• Altman, E. I., Haldeman, R. C. y Narayanan, P. (1977). ZETA analysis. A new model to
identify bankruptcy risk corporations.. Journal of Banking and Finance, Junio, 29 - 54.
• Altman, E., Giancarlo, M.; Varetto, F. (1994): “Corporate distress diagnosis: comparisons
using linear discriminant analysis and neural networks (the Italian experience)”. Journal
of Banking and Finance (18), pp. 505 - 529.
• Argenti, J. (1984): “Predicting Corporate Failure”. Londres: Institute of Chartered
Accountants in England and Wales.
• Azevedo, M.; Padua, A.; Rodrigues, B. (2002/2003): Improving neural networks
generalization with new constructive and pruning methods. Journal of Intelligent & Fuzzy
Systems 13, pp. 75 – 83.
• Barniv, R.; Agarwal, A.; Leach, R. (1997): “Predicting the Outcome Following Bankruptcy
Filing: A Three-state Classification Using Neural Networks”. Intelligent Systems in
Accounting, Finance and Management. Vol. 6. Págs. 177-194.
• Battiti, R. (1992). First and second order methods for learning: between steepest descent
and Newton's method. Neural Computation, 4(2), 141-166
• Beaver, W. (1966): Financial Ratios as Predictors of Failure. Empirical Research in
Accounting: Selected Studies. Suplemento de Journal of Accounting Research , 4 (3),
71-111.
• Becerra, V.; Galvao, R.; Abou-Seada, M. (2002): On the utility of input selection and
pruning for financial distress prediction models. Proceedings of the 2002 International
Joint Conference on Neural Networks. Hawaii: 1328 – 1333.
• Bell, T., Ribar, G.; Verchio, J. (1990): “Neural nets versus logistic regression: a
comparison of each model’s ability to predict commercial bank failures”. En R. P.
Srivastava, X Auditing Symposium Deloitte & Touche. Kansas: University of Kansas.
• Blum, A. (1992): Neural networks in C++. Nueva York: Wiley.
• Brockett, P.; Golden, L.; Jang, J. y C. Yang (2006), “A comparison of neural network,
statistical methods, and variable choice for life insurers’ financial distress prediction”,
The Journal of Risk and Insurance, 73 (3): 397 – 419.
• Coats, P.; Fant, F. (1993): “Recognizing financial distress patterns using a neural network
tool”. Financial Management, pp. 142 - 155.
• Cortes, C.; Vapnik, V. (1995): Support vector networks, Machine Learning 20: 273–279.
• Daubie, M., Levecq, P.; Meskens, N. (2002): “A Comparison of the Rough Sets and
Recursive Partitioning Induction Approaches: An Application to Commercial Loans”.
International Transactions in Operational Research, 9(5), pp. 681 - 694.
• de Llano, P.; Piñeiro, C.; Rodríguez, M. (2011): “Contraste de los modelos de pronóstico
del fallo empresarial en las pymes sanas gallegas”. XXV Congreso de la European
Academy of Management and Business Economics. Valencia, Junio.
• Depenau, J. (1995): Automated design of neural network architecture for classification.
Tesis Doctoral. Computer Science Department. University of Aurus.
• Dubois, D. y Prade, H., 1992. Putting rough sets and fuzzy sets together. In Intelligent
Decision Support, en Slowinski, R. (editor) Handbook of Applications and Advances in
Rough Set Theory, Dordrecht: Kluwer Academic, 203–232.
• Engelbrecht, A. P.; Cloete; Zurada, J. M. (1995): “Determining the significance of input
parameters using sensitivity analysis”, From Natural to Artificial Neural Computation,
Lecture Notes in Computer Science, Vol. 930, pp. 382-388.
• Etheridge, H. L.; Sriram, R. S. (1997): “A Comparison of the Relative Costs of Financial
Distress Models: Artificial Neural Networks, Logit and Multivariate Discriminant Analysis”.
Intelligent Systems in Accounting, Finance and Management. Vol. 6. Págs. 235-248.
• Fanning, K. M.; Cogger, K. O. (1994): “A Comparative Analysis of Artificial Neural
Networks Using Financial Distress Prediction”. Intelligent Systems in Accounting, Finance
and Management. Vol. 3. Págs. 241-252.
• Frydman, H., Altman, E.; Kao, D. (1985): “Introducing Recursive Partitioning for Financial
Classification: The Case of Financial Distress”. The Journal of Finance, XL(1), pp. 269-
291.
• Gallant, S. I. (1986): Three constructive algorithms for network learning. Proceedings of
the 8th Annual Conference of Cognitive Science Society, pp. 652 – 660.
• Garson, D. G. (1991): “Interpreting Neural Networks connection weights. AI Expert. Págs.
47-51.
• Geman, S.; Bienenstock, E.; Doursat, R. (1992): Neural networks and the bias/variance
dilemma, Neural Computation 4: 1–58.
• González, A. L.; Correa, A.; Blázquez, J. A. (1999): “Perfil del Fracaso Empresarial para
una Muestra de Pequeñas y Medianas Empresas”. Comunicación X Congreso AECA.
Zaragoza. Septiembre.
• Hansen, J., Koehler, G., Messier, W.; Mutchler, J. (1993): “Developing knowledge
structure: a comparison of a qualitative-response model and two machine-learning
algorithms”. Decision Support Systems, pp. 235 - 243.
• Hansen, J.; Messier, W. (1991): “Artificial neural networks: foundations and application to
a decision problem”. Expert Systems with Applications, 3, pp. 135 - 141.
• Härdle, W.; Moro, R.; Schäfer, D. (2005): Predicting Bankruptcy with Support Vector
Machines. Berlín: Humboldt-Universität zu Berlin. School of Business and Economics.
• Hecht-Nielsen, R. (1990): Neurocomputing. Nueva York: Addison Wesley
• Itami, H.; Roehl, T. (1991): Mobilizing Invisible Assets. Cambridge: Harvard University
Press.
• Keasey, K.; Watson, R. (1987): “Non-Financial Symptoms and the Prediction of Small
Company Failure. A Test of Argenti’s Hypotheses”. Journal of Business Finance and
Accounting, 14(3), 335-354.
• Kim, H.; Sohn, S. (2010): “Support vector machines for default prediction of SMEs based
on technology credit”. European Journal of Operational Research, 201(3), pp. 838 - 846.
• Koh, H.; Tan, S. (1999): “A neural network approach to the prediction of going concern
status”. Accounting and Business Research, 29(3), pp. 211–216.
• LeCun, Y.; Boser, B.; Solla, S. A. (1990): Optimal Brain Damage. En Touretzky, D. S.
(ed.): Advances in Neural Information Processing Systems, Vol. 2. Morgan Kaufmann,
pp. 598 – 605
• Liang, T. (1992): “A composite approach to inducing knowledge for expert systems
design”. Management Science, pp. 1 - 17.
• Lippmann, R. (1987): An introduction to computing with neural nets. IEEE ASSP
Magazine. Abril, pp. 4 – 23
• López, E.; Flórez, R. (2000): "Aplicación de dos Modelos de Redes Neuronales
Artificiales para el Análisis Económico-Financiero Empresarial". Revista Europea de
Dirección y Economía de la Empresa. Vol. 9, Núm. 2. Págs. 141-166,
• Martínez, F. J.; Hervás, C.; Torres, M.; Martínez, A. (2007): Modelo no lineal basado en
redes neuronales de unidades producto para clasificación. Una aplicación a la
determinación del riesgo en tarjetas de crédito. Revista de Métodos Cuantitativos para la
Economía y la Empresa nº 3, Junio, pp. 40 – 62.
• McKee, T.E. (2003): Rough Sets Bankruptcy Prediction Models versus Auditor Signalling
Rates. Journal of Forecasting, 22: 569 – 586
• McKee, T.E. y Lensberg, T. (2002): Genetic programming and rough sets: a hybrid
approach to bankruptcy classification. European Journal of Operational Research, 138:
436–451.
• McKee, T.E. (2000): ‘Developing a bankruptcy prediction model via rough sets theory’,
International Journal of Intelligent Systems in Accounting, Finance and Management, Vol.
9, Nº 3: 159–173.
• Messier, W.; Hansen, J. (1988): “Inducing rules for expert systems development: an
example using default and bankruptcy data”. Management Science, 34(12), pp. 1403 -
1415.
• Nath, R.; Rajagopalan, B.; Ryker, R. (1997): “Determining the saliency of input variables
in neural network classifiers. Journal of Computers”. 24 (8). Págs. 767-773.
• Nelson, M. (2005). A Review of Experimental and Archival Conflicts-of-Interest Research
in Auditing, en: Conflicts of Interest: Challenges and Solutions in Business, Law,
Medicine, and Public Policy, Cambridge: Cambridge University Press, 41-69.
• Odom, M.; Sharda, R. (1990): “A neural network bor bankruptcy prediction”. Proceedings
of the International Joint Conference on Neural Networks, II, págs. pp. 163 - 167.
• Ohlson, J. (1980), “Financial Ratios and Probabilistic Prediction of Bankruptcy”, Journal
of Accounting Research, Spring 80, Vol. 18, Issue 1.
• Parnes, D. (2010): “The information content of analysts reports and bankruptcy risk
measures”. Applied Financial Economics 20, pp. 1499 – 1513.
• Pawlak, Z. (1991). Rough Sets: Theoretical Aspects of Reasoning About Data.
Dordrecht: Kluwer Academic Publishing
• Peel, M., Peel, D.; Pope, P. (1986): “Predicting Corporate Failure. Some Results for the
UK Corporate Sector”. Omega: The International Journal of Management Science, 14(1),
pp. 5-12.
• Piñeiro, C.; de Llano, P.; Rodríguez, M. (2012): La evaluación de la probabilidad de
fracaso financiero. Contraste empírico del contenido informacional de la auditoría de
cuentas. Revista Española de Financiación y Contabilidad Vol. XLI, Núm. 156, Octubre-
Diciembre, pp. 565-588.
• Piñeiro, C.; de Llano, P.; Rodríguez, M. (2013): ¿Proporciona la auditoría evidencias
para detectar y evaluar tensiones financieras latentes? Un diagnóstico comparativo
mediante técnicas econométricas e inteligencia artificial. Revista Europea de Dirección y
Economía de la Empresa (en prensa).
• Quinlan, J. (1986): “Induction of decision trees”. Machine Learning(1), pp. 81 - 106.
• Quinlan, J. (1987): “Inductive knowledge acquisition: a case study”. En J. Quinlan,
Applications of Expert Systems (pp. 157 - 173). Nueva York: Addicion - Wesley.
• Rodríguez, M. (2002): “Modelos de Insolvencia en empresas gallegas. Aplicación de
técnicas paramétricas y de inteligencia artificial”. Monografía de AECA: La gestión del
Riesgo de Crédito. Págs. 73-114.
• Rose, P. S., Andrews, W. T. y Giroux, G. A., 1982. Predicting Business Failure: A
Macroeconomic Perspective. Journal of Accounting Auditing and Finance (6): 20-32.
• Sarkar, S.; Sriram, R. (2001): “Bayesian Models for Early Warning of Bank Failures”.
Management Science, 47(11), pp. 1457 - 1475.
• Serrano, C.; Martín del Brío, B. (1993): “Predicción de la Quiebra Bancaria Mediante el
Empleo de Redes Neuronales Artificiales”. Revista Española de Financiación y
Contabilidad, 22(74), pp. 153-176.
• Setiono, R.; Thong, J. (2004): An approach to generate rules from neural networks for
regression problems. European Journal of Operational Research Vol. 155, Nº 1, Mayo:
239–250.
• Shin, K., Lee, T.; Kim, H. (2005): “An application of support vector machines in
bankruptcy prediction model”. Expert Systems with Applications (28), pp. 127 – 135.
• Slowinski, R.; Zopounidis, C. (1995): “Application of the rough set approach to evaluation
of bankruptcy risk”. International Journal of Intelligent Systems In Accounting, Finance &
Management, 4(1), pp. 27–41.
• Smith, K.; Gupta, J. (2002): Neural Networks in Business: Techniques and Applications.
Nueva York: Idea.
• Stone, M. (1974): “Cross-validatory choice and assessment of statistical predictions”.
Journal of the Royal Statistical Society B36: 111–133.
• Tam, K.; Kiang, M. (1992): “Managerial applications of neural networks: the case of bank
failure predictions”. Management Science, pp. 926 - 947.
• Tamari, M. (1966): “Financial Ratios as a Means of Forecasting Bankruptcy”.
Management International Review. Vol. 4. Págs. 189-199.
• Teixeira, R.A.; Braga, A. P.; Takahashi, R. H. C.; Saldanha, R. R. (2000): Improving
generalization of mlps with multi-objective optimization, Neurocomputing 35(1–4): 189–
194.
• Thomaidis, N. S.; Tzastoudis, V. S.; Dounias, G. D. (2007): A comparison of neural
network model selection strategies for the pricing of S&P500 stock index options”.
International Journal on Artificial Intelligence Vol. 16, nº 6: 1093 – 1113.
• Tsaih, R. (1999): Sensitivity analysis, neural networks, and the finance. International Joint
Conference on Neural Networks.
• Wall, A.; Dunning, R. W. (1928): “Ratio Analysis of Financial Statements”. Nueva York:
Harper Brothers.
• Weigend, A. S.; Huberman, B. A.; Rumelhart, D. E. (1990): Predicting the future: a
connectionist approach, International Journal of Neural Systems 1, 193–209.
• Wilson, R.; Sharda, R. (1994): “Bankruptcy prediction using neural networks”. Decision
Support Systems 11(5), pp. 545 – 557.
• Xiaosi, X.; Ying, C.; Haitao, Z. (2011): The comparison of enterprise bankruptcy
forecasting method. Journal of Applied Statistics Vol. 38, nº 2, pp. 301 – 308.
• Yu, Q.; Sorjamaa, A. ; Miche, Y. ; Lendasse, A. ; Severin, E. ; Guillen, A. ; Mateo, F.
(2008): Optimal Pruned K-Nearest Neighbors: OP-KNN Application to Financial
Modeling. Eighth International Conference on Hybrid Intelligent Systems. Barcelona.
• Zmijewski, M. E. (1983): “Predicting Corporate Bankruptcy: An Empirical Comparison of
the Extant Financial Distress Models”. Working Paper. State University of New York at
Buffalo.
• Zurada, J. M.; Malinowski, A.; Cloete, I. (1994): "Sensitivity Analysis for Minimization of
Input Data Dimension for Feedforward Neural Network," Proc. of IEEE International
Symposium on Circuits and Systems. Londres, Mayo – Junio: 447-450.
7 ANEXO: RATIOS FINANCIERAS UTILIZADAS EN EL ANÁLISIS.
Act
ivid
ad
ACT01 Gastos Financieros / Valor Añadido
Ren
tabi
lidad
REN01 B.A.I.T. / Activo Total ACT02 Gastos Personal / Activo Fijo REN02 B.A.I.T. / Ventas
ACT03 Gastos Personal + Amortización / Valor Añadido REN03 Resultado Neto / Ventas
ACT04 Ingresos Explotación / Consumos Explotación REN04 Rtdo. Neto - Realizable – Existencias
/ Activo Total ACT05 Valor Añadido / Ventas REN05 Resultado Neto / Activo Total
Apa
lanc
am. APL01 B.A.I.T. / Gastos Financieros REN06 Resultado Neto / Fondos Propios
APL02 Gastos Financieros / Deuda Total
Rota
ción
ROT01 Activo Circulante – Existencias / Ventas
APL03 Resultado Explotación / Gastos Financieros ROT02 Existencias / Ventas
APL04 Resultado Neto / Exigible Total ROT03 Ventas / Realizable Cierto
Ende
udam
. END01 Deuda Total / Fondos Propios ROT04 Ventas / Activo Circulante
END02 Fondos Propios – Resultado Neto / Exigible A Corto ROT05 Ventas / Activo Fijo
END03 Fondos Propios / Exigible Total ROT06 Ventas / Activo Total END04 Pasivo A Largo / Exigible Total ROT07 Ventas / Capital Circulante
Estr
uctu
ra
EST01 Activo Circulante / Activo Total ROT08 Ventas / Disponible
EST02 Dot. Amortización / Inmovilizado Neto
Solv
enci
a
SOL01 Activo Circulante – Existencias / Exigible A Corto
EST03 Capital Circulante / Activo Total SOL02 Activo Circulante / Exigible Total EST04 Capital Circulante / Exigible Total SOL03 Activo Circulante / Pasivo Circulante EST05 Capital Circulante / Ventas SOL04 Activo Fijo / Fondos Propios EST06 Disponible / Activo Total SOL05 Pasivo Exigible / Activo Total EST07 Resultado Neto / Capital Circulante SOL06 Fondos Propios / Activo Total EST08 Medida Descomposición Del Activo SOL07 Fondos Propios / Inmovilizado
Liqu
idez
LIQ01 Cash Flow Operativo / Activo Total SOL08 Exigible A Corto / Activo Total
LIQ02 Cash Flow Operativo / Exigible Total SOL09 Resultado Antes Impuestos / Exigible A Corto
LIQ03 Cash Flow Operativo / Exigible A Corto
Teso
r. TES01 Tesorería / Pasivo Circulante
LIQ04 Cash Flow Operativo / Ventas TES02 Tesorería / Ventas
LIQ05 Cash Flow Recursos Generados / Activo Total
LIQ06 Cash Flow Recursos Generados / Exigible Total
LIQ07 Cash Flow Recursos Generados / Exigible A Corto
LIQ08 Cash Flow Recursos Generados / Ventas LIQ09 Disponible / Pasivo Circulante LIQ10 Existencias / Exigible A Corto
LIQ11 Existencias + Realizable / Exigible A Corto
LIQ12 Intervalo Sin Crédito LIQ13 Realizable / Exigible A Corto