Cómo Netflix combatió la interrupción con caos

La importancia de construir servicios en la nube resistentes a fallas quedó demostrada el domingo cuando Amazon Web Services (AWS) sufrió una gran interrupción.

Índice de Contenido
  1. Las mayores páginas y aplicaciones de Internet se vieron afectadas
    1. Cómo Netflix combatió la interrupción con el caos

Las mayores páginas y aplicaciones de Internet se vieron afectadas

Algunos de los sitios y aplicaciones más importantes de Internet estuvieron intermitentemente inaccesibles después de que más de 20 servicios en la plataforma de AWS comenzaron a fallar.

Las interrupciones afectaron a los servicios de AWS ejecutados en los centros de datos de North Virginia, que la compañía se refiere como la región US-EAST-1.

AWS es utilizado por muchas empresas importantes para respaldar sus operaciones en línea. Como resultado, los usuarios de Netflix, Tinder, Airbnb y IMDb informaron problemas para acceder al contenido durante el período de seis a ocho horas en que los servicios en la nube de Amazon se vieron afectados. Los problemas también dificultaron el uso de los productos de Amazon, como Echo, el altavoz inteligente que utiliza un sistema de reconocimiento de voz basado en la nube llamado Alexa.

Los problemas parecen haber aparecido por primera vez a las 3am PDT del domingo, cuando los usuarios comenzaron a experimentar un aumento en las tasas de error en la base de datos NoSQL de DynamoDB.

Cómo buscar archivos en Google Drive: nuevas funciones de búsqueda para usuarios avanzados

Sin embargo, los problemas con los errores y la latencia aumentados comenzaron a aparecer en aproximadamente otros 22 servicios de AWS, incluyendo ofertas importantes como AWS Elastic Compute Cloud (EC2), el servicio de escritorio virtual AWS WorkSpaces y el servicio de cómputo basado en eventos AWS Lambda.

Cómo Netflix combatió la interrupción con el caos

Uno de los clientes de AWS que logró evitar cualquier "impacto significativo" de las interrupciones, según un portavoz, fue el sitio de transmisión de videos Netflix.

El gigante de los medios en línea depende de Amazon Web Services para transmitir películas y programas de televisión a más de 50 millones de hogares en todo el mundo y pudo "restaurar rápidamente" el servicio a pleno funcionamiento, según el portavoz.

Ayudando al servicio a resistir la interrupción del servicio estuvo su práctica de lo que llama "ingeniería del caos".

Este enfoque de ingeniería hace que Netflix implemente su "Simian Army", un software que intenta deliberadamente causar estragos en sus sistemas. Simian Army ataca la infraestructura de Netflix de muchas maneras: Chaos Monkey deshabilita aleatoriamente las instancias de producción, Latency Monkey induce retrasos en las comunicaciones cliente-servidor y el gran problema, Chaos Gorilla, simula el apagado de toda una zona de disponibilidad de Amazon.

Al inducir constantemente fallas en sus sistemas, la empresa puede fortalecerse contra problemas como los que afectaron a AWS el domingo.

Cómo sincronizar carpetas entre dispositivos móviles y de escritorio con Syncthing

En ese caso, Netflix pudo redirigir rápidamente el tráfico de la región de AWS afectada a los centros de datos de una área no afectada.

Netflix pudo hacer esto porque practica lo que llama replicación activa-activa entre múltiples regiones, donde todos los datos necesarios para sus servicios se replican entre diferentes regiones de AWS de manera que permite una rápida recuperación de fallas.

"Es extremadamente improbable que se produzca un apagón completo de la infraestructura regional, pero nuestro ritmo de cambio a veces afecta los servicios críticos en una región y queríamos asegurar que Netflix fuera resistente a cualquier dependencia subyacente", dijo Netflix en una publicación de blog que describe la práctica.

Adrian Cockcroft, ex arquitecto principal de cómputo técnico de alto rendimiento en Netflix, dijo en Twitter que la replicación activa-activa aumenta aproximadamente un "25 por ciento" los costos y describió el enfoque como una "póliza de seguro".

"La mayor parte del costo adicional es la duplicación del nivel de almacenamiento al 100% en ambos lados todo el tiempo", añadió.

Netflix utiliza Apache Cassandra, una base de datos distribuida NoSQL de código abierto. Para mantener la disponibilidad, el servicio debe mantener "unas pocas miles" de nodos de Cassandra en "todas las regiones", según Cockcroft.

Las mejores herramientas en la nube para diseño 3D y CAD

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Nube, allí encontraras muchos artículos similares a Cómo Netflix combatió la interrupción con caos , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.