fialbilidad
-
Upload
paul-guanochanga -
Category
Documents
-
view
216 -
download
0
Transcript of fialbilidad
-
7/26/2019 fialbilidad
1/2
1.2.3 Fiabilidad y tolerancia a fallos La abilidad de un sistema puededenirse como su capacidad para realizar correctamente y en todomomento las funciones para las que se ha diseado. La abilidad seconcreta en dos aspectos: isponibilidad. !s la fracci"n de tiempo que elsistema est# operati$o. !l principal par#metro para medir la disponibilidad
es el tiempo medio entre fallos %&'(F)* pero hay que considerar tambi+n eltiempo de reparaci"n. La disponibilidad se puede incrementar de dosformas: %a) utilizando componentes de mayor calidad* y,o %b) con un diseobasado en la replicaci"n de componentes que permita al sistema se-uiroperando an cuando al-uno%s) de ellos falle%n). /mbas alternati$asincrementan el coste del sistema0 sin embar-o* en el estado tecnol"-icoactual* la replicaci"n resulta* en -eneral* menos costosa. Los sistemasdistribuidos proporcionan inherentemente la replicaci"n de al-unos recursos%por eemplo* unidades de proceso)* mientras que otros normalmentecompartidos %por eemplo* un ser$idor de cheros) pueden replicarse paraaumentar la disponibilidad. or otra parte* la ausencia de fallos en los
componentes de un sistema* tanto hardare como softare* nunca puede-arantizarse* de modo que* m#s all# de unos l4mites* la replicaci"n esnecesaria para se-uir incrementando la disponibilidad* ya que laprobabilidad de fallo disminuye como una funci"n e5ponencial de lareplicaci"n. or eemplo* dada una probabilidad de fallo de un 16 en uncomponente %en un periodo de tiempo dado)* si montamos un sistema 7 8ereere tanto a la estructura del sistema como a la de los al-oritmos.9ntroducci"n a los 8istemas istribuidos 1.11 /lberto Lafuente*epartamento de /rquitectura y 'ecnolo-4a de omputadores* ;*>>>>>16? .
'olerancia a fallos. /n con una alta disponibilidad* un fallo en un momentodeterminado puede tener consecuencias desastrosas. i+nsese en sistemasde tiempo real cr4ticos que controlan dispositi$os $itales %por eemplo enmedicina* centrales nucleares...). !s decir* aunque la replicaci"n aumenta ladisponibilidad* no -arantiza por s4 sola la continuidad del ser$icio de formatransparente. La tolerancia a fallos e5presa la capacidad del sistema parase-uir operando correctamente ante el fallo de al-uno de sus componentes*enmascarando el fallo al usuario o a la aplicaci"n. or lo tanto* la toleranciaa fallos implica %1) detectar el fallo* y %2) continuar el ser$icio* todo ello deforma transparente para la aplicaci"n %transparencia de fallos). 8obrenuestro eemplo cabe decir que* al carecer de replicaci"n del ser$icio* @F8no proporciona tolerancia a fallos. !n cambio* se han propuesto otrossistemas de chero que s4 tienen la tolerancia a fallos como obeti$o dediseo* como es el caso de /F8 A8/'B>C.
Fiabilidad y tolerancia a fallosLa fiabilidad de un sistema puede definirse como su capacidad para realizar correctamente y entodo momento las funciones para las que se ha diseado. Lafiabilidad se concreta en dos aspectos:
Disponibilidad. !s la fracci"n de tiempo que el sistema est# operati$o. El
principal parmetro para medir la disponibilidad es el tiempo medio entre fallos (MTB!" perohay que considerar tambi#n el tiempo de reparaci$n. La disponibilidad se puede incrementar de
-
7/26/2019 fialbilidad
2/2
dos formas: (a! utilizando componentes de mayor calidad" y%o (b! con un diseo basado en la
replicaci$n de componentes que permita al sistema se&uir operando a'n cuando al&uno(s! de
ellos falle(n!. mbas alternati)as incrementan el coste del sistema* sin embar&o" en el estado
tecnol$&ico actual" la replicaci$n resulta" en &eneral" menos costosa. Los sistemas distribuidos
proporcionan inherentemente la replicaci$n de al&unos recursos (por e+emplo" unidades de
proceso!" mientras que otros normalmente compartidos (por e+emplo" un ser)idor de ficheros!
pueden replicarse para aumentar la disponibilidad. ,or otra parte" la ausencia de fallos en los
componentes de un sistema" tanto hard-are como soft-are" nunca puede &arantizarse" de
modo que" ms all de unos lmites" la replicaci$n es necesaria para se&uir incrementando la
disponibilidad" ya que la probabilidad de fallo disminuye como una funci$n e/ponencial de la
replicaci$n. ,or e+emplo" dada una probabilidad de fallo de un 01 en un componente (en un
periodo de tiempo dado!" si montamos un sistema replicado con cuatro componentes id#nticos"
la probabilidad de que fallen en ese periodo los cuatro componentes disminuira a 2"2222201.
Este clculo" sin embar&o" debe matizarse: por una parte" la probabilidad de fallo de los
componentes indi)iduales suele estar correlacionada debido a )arias causas" como errores de
diseo o catstrofes naturales* por otra parte" la intercone/i$n de los componentes es una
fuente de fallos adicional.
Tolerancia a fallos. /n con una alta disponibilidad* un fallo en un momento
determinado puede tener consecuencias desastrosas. ,i#nsese en sistemas de tiempo real
crticos que controlan dispositi)os )itales (por e+emplo en medicina" centrales nucleares...!. Es
decir" aunque la replicaci$n aumenta la disponibilidad" no &arantiza por s sola la continuidad
del ser)icio de forma transparente. La tolerancia a fallos e/presa la capacidad del sistema para
se&uir operando correctamente ante el fallo de al&uno de sus componentes" enmascarando el
fallo al usuario o a la aplicaci$n. ,or lo tanto" la tolerancia a fallos implica (0!detectar el fallo" y
(3! continuar el ser)icio" todo ello de forma transparente para la aplicaci$n (transparencia
de fallos).