AWS admite que un error de escalamiento causó la interrupción del servicio

El 7 de diciembre, la interrupción de AWS que afectó las operaciones de Amazon y dejó sin conexión a una amplia gama de sus clientes ahora tiene una explicación oficial, aunque vaga: Fue nuestra culpa.

Más específicamente, fue el propio software interno de AWS el que causó el problema, que básicamente se reduce a un error de escalamiento automatizado en la red principal de AWS que causó un "comportamiento inesperado" de un gran número de clientes en su red interna, que utiliza para operar servicios fundamentales como la monitorización, DNS interno y servicios de autorización.

"Debido a la importancia de estos servicios en esta red interna, conectamos esta red con múltiples dispositivos de red geográficamente aislados y escalamos significativamente la capacidad de esta red para garantizar una alta disponibilidad de esta conexión de red", dijo AWS. Desafortunadamente, uno de esos servicios de escalado, que según AWS había estado en producción durante muchos años sin problemas, provocó un aumento masivo en la actividad de conexión que abrumó a los dispositivos que gestionan la comunicación entre las redes interna y externa de AWS a las 7:30 a.m. PST.

Para empeorar las cosas, el aumento de tráfico causó un aumento masivo en la latencia que afectó a los paneles de monitorización internos de AWS, lo que hizo imposible utilizar los sistemas diseñados para encontrar la fuente de la congestión. Para encontrarla, los ingenieros de AWS tuvieron que recurrir a archivos de registro, que mostraban un aumento en los errores de DNS internos. Su solución fue desviar el tráfico de DNS de las rutas de red congestionadas, lo que solucionó los errores de DNS y mejoró parte de la disponibilidad, pero no toda.

Además, las estrategias adicionales para aislar aún más las partes problemáticas de la red, poner en línea nueva capacidad y similares también avanzaron lentamente, según AWS. La latencia del software de monitorización dificultaba el seguimiento de los cambios, y sus propios sistemas internos de implementación también se vieron afectados, lo que dificultó la aplicación de los cambios. Para empeorar las cosas, no todos los clientes de AWS se vieron afectados por la interrupción, por lo que el equipo se movió "extremadamente deliberadamente al realizar cambios para evitar afectar las cargas de trabajo en funcionamiento", dijo AWS. Costó tiempo, pero a las 2:22 p.m. PST, AWS dijo que todos sus dispositivos de red se habían recuperado por completo.

AWS ha desactivado las actividades de escalado que provocaron el evento y ha dicho que no las volverá a poner en línea hasta que se hayan implementado todas las soluciones, lo cual espera que ocurra en las próximas dos semanas.

Cómo funciona el protocolo FTP y cómo resolver problemas relacionados con él

Información importante de la declaración de AWS sobre su interrupción

Como ocurre a menudo con este tipo de declaraciones, hay mucho que analizar, especialmente cuando AWS ha sido tan vago, según el analista senior de Forrester, Brent Ellis. "El problema que veo es que la descripción no es lo suficientemente específica como para dar a los clientes la capacidad de planificar en torno a este fallo en particular. No todos los alojados en AWS fallaron, sería útil entender qué estaban haciendo de manera diferente esos negocios para que otros puedan seguir su ejemplo. En este momento, los clientes tienen que confiar en que AWS rectificará la situación", dijo Ellis.

Ellis también dijo que la declaración de Amazon en sí misma provoca preocupación por razones más allá de cómo ocurrió la interrupción: indica que la interacción entre las redes externa e interna de AWS puede ser problemática si puede causar problemas tan extendidos.

Eso no significa que la nube sea una apuesta mala, dijo Ellis: sigue manteniendo el optimismo de que es "un muy buen lugar para trasladar la tecnología empresarial". Dicho esto, Ellis vuelve una vez más a un reflejo similar que ha surgido desde que las interrupciones en la nube han estado en nuestras mentes nuevamente: el riesgo.

"En general, [los proveedores de nube] siguen siendo más redundantes, seguros y confiables que la infraestructura interna de la mayoría de las empresas, pero no está libre de riesgos", dijo Ellis. Su consejo personal para cualquiera que se preocupe por la nube es diversificar, mitigar e investigar. "Si puedes escalas un servicio para que se ejecute en más de una nube, o en la nube + local; entonces hazlo. Si no puedes, negocia un riesgo empresarial compartido, consulta sobre las prácticas de [proveedor de la nube] y negocia para que esas prácticas se alineen con tus necesidades internas de resiliencia", dijo Ellis.

Ellis describe la planificación de la resiliencia de la nube de manera similar a cómo las empresas diseñarían un centro de datos secundario fuera del radio de un desastre para garantizar la continuidad. La nube se encarga de todo ese problema para ti, dijo Ellis, pero a su vez un solo error humano o de automatización se magnifica en partes mucho más grandes de la infraestructura de esa empresa.

Si la nube quiere seguir teniendo éxito, Ellis dijo que los proveedores de la nube necesitan estandarizarse de alguna manera para que los datos sean más fáciles de mover, las cargas de trabajo sean más fáciles de duplicar y la redundancia sea más sencilla. El objetivo, dijo, sería tener una situación muy parecida a la de viajar internacionalmente: necesitas un adaptador para ajustarlo a un tipo de enchufe diferente, pero los principios de funcionamiento subyacentes son compartidos, por lo que solo necesitarás un adaptador virtual para pasar de la Nube A a la Nube B.

Microsoft lanza servicio gratuito de almacenamiento en la nube para usuarios de Windows

Sid Nag, VP de servicios y tecnologías de la nube de Gartner, está de acuerdo con un ideal de interoperabilidad, especialmente en el mundo actual, donde afirmó que los proveedores de hiperescala están siendo "demasiado grandes como para fallar".

"Cada vez más, nuestras vidas cotidianas dependen de la industria de la nube; los proveedores de la nube deberían llegar a un acuerdo para respaldarse mutuamente", dijo Nag. Como la recomendación de Ellis, el objetivo final parece ser un mercado de la nube que se dé cuenta de su utilidad esencial para la sociedad moderna y trabaje en volverse menos competitivo y propenso a fallas.

"Eso es lo que debería llegar a ser la computación de utilidad en la nube. Una vez que lo logre, construir servicios para mover una carga de trabajo cuando haya un problema en un proveedor de la nube será más fácil", dijo Ellis.

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Nube, allí encontraras muchos artículos similares a AWS admite que un error de escalamiento causó la interrupción del servicio , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.