JAUTI 2012I JORNADAS DE DIFUSIÓN DE APLICACIONES Y USABILIDAD DE LA TELEVISIÓN DIGITAL INTERACTIVA
La Plata | Argentina – 23/10/2012Josemar Rodrigues de Souza, Ph.D
Tolerancia a fallos y la TV Digital
UNEB
EL GRUPO
UNEB – Universidade do Estado da BahiaSalvador, Bahia, Brasil
ACSO – Núcleo de Arquitetura de Computadores e Sistemas Operacionais (http://www.acso.uneb.br) - Josemar
Linhas de investigação• Computação de Alto Desempenho (CYTED Grid)• Robótica Autonoma• TV Digital (Alexandre Rafael Lenz) – nova linha
Grupo de Pesquisa Comunidades Virtuais - LynnLinhas de investigação• Jogos digitais e Aprendizagem (conteúdo)
Publica25 campi40.000 alunos1500 professores
LA CIUDADSalvador, Bahia, Brasil
Salvador
OBJETIVOS DE LA PRESENTACIÓN
Presentar algunos aspectos de Tolerancia a Fallos (TF), para investigadores de TV Digital.
PROBLEMA
Sistemas de TV Digital, cada vez mas grandes y complejos.
Tiempos de cómputo ininterrumpido más largos.
Componentes trabajando cerca de los límites tecnológicos.
Importante: Fiabilidad / Disponibilidad del sistema.
La probabilidad de fallos es
mucho mayor
Es crítico mantenerlos funcionando
Es necesario considerar técnicas de Tolerancia a Fallos
NECESIDADENecesitamos sistemas fiables que permiten la ejecución de aplicaciones de TV Digital.
A pesar de que existan fallos en una parte del sistema (nodos o red) el sistema debe continuar operando de un modo aceptable, dando el servicio adecuado, aún en presencia de fallos.
Precisamos de arquitecturas Tolerante a fallos que permita recuperarse automáticamente de fallos de una parte del sistema, sin afectar seriamente al rendimiento total.
PRESENCIA DE FALLO
7
¿Qué hacer en presencia de fallo?
Re-ejecución de la aplicación
Acabar correctamente la aplicación
No siempre es posible o aceptable
Requiere: • Redundancia• Detección• Recuperación
Requiere: • Redundancia• Detección• Recuperación
Introduce:• Overhead• Coste
Introduce:• Overhead• Coste
Tolerancia a fallos
OBJETIVO DEL TF - 1
Garantizar al máximo que el trabajo total sea realizado correctamente cuando falle una parte del sistema (red o host), aun cuando las prestaciones disminuya, tentando que se pierda el mínimo de trabajo posible de los elementos que quedaron desconectados por fallo.
OBJETIVO DEL TF - 2
No si trata de restart de máquinas, lo que queremos es que el trabajo termine, aun cuando con menores prestaciones
Cuando utilisamos sistemas de bajo coste, no debemos utilizar redundancia física - lo que estamos interesados es en redundancia funcional: otras máquinas asumen las funciones; programas y datos.
OBJETIVO DEL TF - 3
Incluyendo Tolerancia a Fallos (TF) en los algoritmos, el tiempo total de ejecución será menor que si el procesamiento fuese reiniciado desde el principio.
CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
El vocablo Tolerancia a Fallos (TF) como designación de área sufre varias críticas. La mayor crítica es la posibilidad de comprender el término como una propiedad absoluta:
• En esa visión distorsionada, un sistema tolerante a fallos toleraría toda y cualquier fallo en cualquier situación, lo que realmente es una promesa irrealizable y puede conducir a falsas expectativas entre usuarios.
CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
O que é TF?
TF de un sistema de computación es la habilidad de entregar un servicio confiable. El servicio suministrado por un sistema es su comportamiento como es percibido por suyo(s) usuario(s); un usuario es otro sistema (físico, humano) que interactua con el anterior a través de la interfaz de servicio. La función de un sistema es lo que es pretendido que el sistema haga, y es descrito por la especificación funcional del sistema.
CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Defecto, error y fallo:
Un defecto (failure) en el sistema ocurre cuando el servicio suministrado se desvía de su especificación, o porque la especificación no describe adecuadamente la función del sistema. Un error (error) es parte del estado del sistema que puede causar un defecto, el sistema ésta en estado erróneo y el procesamiento posterior desde ese estado pueden llevar a un defecto, el defecto solo ocurre cuando un error alcanza a interfaz del servicio y altera el servicio. Un fallo (fault) es lo que determina o hipotéticamente causa un error (AVIZIENIS)
universo del usuario
universo de la información
error defecto
universo físico fallo
procesamiento posterior puede llevar a defecto
desvío de la especificación
Modelo de 3 universos: fallo, error y defecto (WEBER)
CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Resumén:
De forma resumida, sistemas TF son sistemas que pueden enmascarar la presencia de fallos, entonces el objetivo del TF, es evitar defectos, mismo en la presencia de fallos (faults), que son inevitables (JALOTE)
CONCEPTOS Y VOCABLOS DE TOLERANCIA A FALLOS
Los factores que interviene en un sistema de TV Digital son de las más diversa índoles y complejos, por tanto la selección de arquitecturas TF es bastante bienvenida.
Josemar Rodrigues de Souza, [email protected]
UNEB
Top Related