fialbilidad

download fialbilidad

of 2

Transcript of fialbilidad

  • 7/26/2019 fialbilidad

    1/2

    1.2.3 Fiabilidad y tolerancia a fallos La abilidad de un sistema puededenirse como su capacidad para realizar correctamente y en todomomento las funciones para las que se ha diseado. La abilidad seconcreta en dos aspectos: isponibilidad. !s la fracci"n de tiempo que elsistema est# operati$o. !l principal par#metro para medir la disponibilidad

    es el tiempo medio entre fallos %&'(F)* pero hay que considerar tambi+n eltiempo de reparaci"n. La disponibilidad se puede incrementar de dosformas: %a) utilizando componentes de mayor calidad* y,o %b) con un diseobasado en la replicaci"n de componentes que permita al sistema se-uiroperando an cuando al-uno%s) de ellos falle%n). /mbas alternati$asincrementan el coste del sistema0 sin embar-o* en el estado tecnol"-icoactual* la replicaci"n resulta* en -eneral* menos costosa. Los sistemasdistribuidos proporcionan inherentemente la replicaci"n de al-unos recursos%por eemplo* unidades de proceso)* mientras que otros normalmentecompartidos %por eemplo* un ser$idor de cheros) pueden replicarse paraaumentar la disponibilidad. or otra parte* la ausencia de fallos en los

    componentes de un sistema* tanto hardare como softare* nunca puede-arantizarse* de modo que* m#s all# de unos l4mites* la replicaci"n esnecesaria para se-uir incrementando la disponibilidad* ya que laprobabilidad de fallo disminuye como una funci"n e5ponencial de lareplicaci"n. or eemplo* dada una probabilidad de fallo de un 16 en uncomponente %en un periodo de tiempo dado)* si montamos un sistema 7 8ereere tanto a la estructura del sistema como a la de los al-oritmos.9ntroducci"n a los 8istemas istribuidos 1.11 /lberto Lafuente*epartamento de /rquitectura y 'ecnolo-4a de omputadores* ;*>>>>>16? .

    'olerancia a fallos. /n con una alta disponibilidad* un fallo en un momentodeterminado puede tener consecuencias desastrosas. i+nsese en sistemasde tiempo real cr4ticos que controlan dispositi$os $itales %por eemplo enmedicina* centrales nucleares...). !s decir* aunque la replicaci"n aumenta ladisponibilidad* no -arantiza por s4 sola la continuidad del ser$icio de formatransparente. La tolerancia a fallos e5presa la capacidad del sistema parase-uir operando correctamente ante el fallo de al-uno de sus componentes*enmascarando el fallo al usuario o a la aplicaci"n. or lo tanto* la toleranciaa fallos implica %1) detectar el fallo* y %2) continuar el ser$icio* todo ello deforma transparente para la aplicaci"n %transparencia de fallos). 8obrenuestro eemplo cabe decir que* al carecer de replicaci"n del ser$icio* @F8no proporciona tolerancia a fallos. !n cambio* se han propuesto otrossistemas de chero que s4 tienen la tolerancia a fallos como obeti$o dediseo* como es el caso de /F8 A8/'B>C.

    Fiabilidad y tolerancia a fallosLa fiabilidad de un sistema puede definirse como su capacidad para realizar correctamente y entodo momento las funciones para las que se ha diseado. Lafiabilidad se concreta en dos aspectos:

    Disponibilidad. !s la fracci"n de tiempo que el sistema est# operati$o. El

    principal parmetro para medir la disponibilidad es el tiempo medio entre fallos (MTB!" perohay que considerar tambi#n el tiempo de reparaci$n. La disponibilidad se puede incrementar de

  • 7/26/2019 fialbilidad

    2/2

    dos formas: (a! utilizando componentes de mayor calidad" y%o (b! con un diseo basado en la

    replicaci$n de componentes que permita al sistema se&uir operando a'n cuando al&uno(s! de

    ellos falle(n!. mbas alternati)as incrementan el coste del sistema* sin embar&o" en el estado

    tecnol$&ico actual" la replicaci$n resulta" en &eneral" menos costosa. Los sistemas distribuidos

    proporcionan inherentemente la replicaci$n de al&unos recursos (por e+emplo" unidades de

    proceso!" mientras que otros normalmente compartidos (por e+emplo" un ser)idor de ficheros!

    pueden replicarse para aumentar la disponibilidad. ,or otra parte" la ausencia de fallos en los

    componentes de un sistema" tanto hard-are como soft-are" nunca puede &arantizarse" de

    modo que" ms all de unos lmites" la replicaci$n es necesaria para se&uir incrementando la

    disponibilidad" ya que la probabilidad de fallo disminuye como una funci$n e/ponencial de la

    replicaci$n. ,or e+emplo" dada una probabilidad de fallo de un 01 en un componente (en un

    periodo de tiempo dado!" si montamos un sistema replicado con cuatro componentes id#nticos"

    la probabilidad de que fallen en ese periodo los cuatro componentes disminuira a 2"2222201.

    Este clculo" sin embar&o" debe matizarse: por una parte" la probabilidad de fallo de los

    componentes indi)iduales suele estar correlacionada debido a )arias causas" como errores de

    diseo o catstrofes naturales* por otra parte" la intercone/i$n de los componentes es una

    fuente de fallos adicional.

    Tolerancia a fallos. /n con una alta disponibilidad* un fallo en un momento

    determinado puede tener consecuencias desastrosas. ,i#nsese en sistemas de tiempo real

    crticos que controlan dispositi)os )itales (por e+emplo en medicina" centrales nucleares...!. Es

    decir" aunque la replicaci$n aumenta la disponibilidad" no &arantiza por s sola la continuidad

    del ser)icio de forma transparente. La tolerancia a fallos e/presa la capacidad del sistema para

    se&uir operando correctamente ante el fallo de al&uno de sus componentes" enmascarando el

    fallo al usuario o a la aplicaci$n. ,or lo tanto" la tolerancia a fallos implica (0!detectar el fallo" y

    (3! continuar el ser)icio" todo ello de forma transparente para la aplicaci$n (transparencia

    de fallos).