Fundamentos de la Tolerancia a Fallas y Modelos de Error en Sistemas Distribuidos

Clasificado en Electrónica

Escrito el en español con un tamaño de 3,4 KB

Tolerancia a Fallas

Las fallas arbitrarias están relacionadas con las fallas de congelación. Las fallas de congelación (o fallas de detención) son la forma más benigna de detener un servidor.

Conceptos Básicos de Resiliencia

  1. Disponibilidad

    Propiedad de que un sistema esté listo para ser utilizado de forma inmediata y esté operando correctamente en cualquier momento dado, y se encuentre disponible para realizar sus funciones a nombre de sus usuarios.

  2. Confiabilidad

    Propiedad de que un sistema sea capaz de funcionar de manera continua sin fallar. Contrariamente a la disponibilidad, la confiabilidad se define en función de un intervalo de tiempo en lugar de un instante de tiempo. Un sistema altamente confiable continuará funcionando sin interrupción durante un lapso de tiempo relativamente largo. Si un sistema se viene abajo durante un milisegundo por hora, su disponibilidad es de más del 99,99%, pero no es confiable.

  3. Seguridad

    Situación en que no acontece nada catastrófico cuando un sistema deja de funcionar correctamente durante un tiempo.

  4. Mantenibilidad

    Cuán fácil puede ser reparado un sistema que falló. Un sistema altamente mantenible debe ser también altamente disponible, especialmente si las fallas pueden ser detectadas y reparadas en forma automática.


Error, Falla y Clasificación

Un error es una parte del estado de un sistema que puede conducir a una falla. La causa del error se llama falla.

Clasificación de las Fallas

  • Fallas Transitorias

    Ocurren una vez y luego desaparecen. Si la operación se repite, la falla desaparece.

  • Fallas Intermitentes

    Ocurren, luego por sí solas desaparecen, después reaparecen y así sucesivamente. Son difíciles de diagnosticar.

  • Fallas Permanentes

    Es una falla que continúa existiendo hasta que el componente defectuoso es reemplazado.

Modelos de Falla en Sistemas Distribuidos (SD)

Si se considera un Sistema Distribuido (SD) como un conjunto de servidores que se comunican entre sí y con sus clientes, no proporcionar adecuadamente los servicios significa que hay alguna falla.

Tipos de Fallas de Servidor

  • Falla de Congelación (Crash Failure): Un servidor se detiene, pero estaba trabajando correctamente hasta que se detuvo.
  • Falla de Omisión: Un servidor no responde a las peticiones entrantes.
    • Omisión de Recepción: Un servidor no recibe los mensajes entrantes.
    • Omisión de Envío: Un servidor no envía mensajes.
  • Falla de Tiempo (Timing Failure): La respuesta de un servidor queda fuera del intervalo de tiempo especificado.
  • Falla de Respuesta: La respuesta de un servidor es incorrecta.
    • Falla de Valor: El valor de la respuesta está equivocado.
    • Falla de Transmisión de Estado: El servidor se desvía del flujo de control correcto.
  • Falla Arbitraria (Byzantine Failure): Un servidor puede producir respuestas arbitrarias en tiempos arbitrarios.

Entradas relacionadas: