Cómo optimizar la recuperación ante desastres en la nube

En apariencia, parecería que la computación en la nube fue creada para la recuperación de desastres, un concepto de "configúralo y olvídate" debido a la amplitud y las robustas características de los recursos en la nube.

Sin embargo, el concepto no es tan simple. Si bien la redundancia y la protección de datos son elementos clave para mantener la disponibilidad y recuperarse de los desastres, es importante enfocarse en los detalles para obtener los mejores resultados operativos en la nube.

Amitabh Sinha, co-fundador y CEO de Workspot; Ofer Maor, co-fundador y director de tecnología en Mitiga; y Or Aspir, líder del equipo de investigación en seguridad en la nube de Mitiga, compartieron consejos sobre las mejores prácticas de recuperación de desastres en la nube con Newsmatic.

Índice de Contenido

Desafío No. 1: Mantener la disponibilidad en entornos en la nube
Aliviar los desafíos de la nube
La importancia de la recuperación de desastres
Comparación de la recuperación de desastres en la nube y en las instalaciones locales
Recomendaciones para enfrentar eventos climáticos y consideraciones relacionadas
La importancia de tener más información sobre el usuario final
Otras recomendaciones para profesionales de TI

Desafío No. 1: Mantener la disponibilidad en entornos en la nube

Cómo optimizar la recuperación ante desastres en la nube - Nube | Imagen 1 Newsmatic

Amitabh Sinha: El desafío número uno es el nivel de disponibilidad que proporciona la nube. Actualmente, los principales proveedores de nube pública - AWS, Google y Azure - ofrecen una disponibilidad del 99.9%, lo que significa más de ocho horas de tiempo de inactividad al año, un número que afecta significativamente las operaciones de la mayoría de las cargas de trabajo críticas y puede costar a las organizaciones millones de dólares en productividad perdida.

El segundo desafío importante se refiere a la capacidad en la nube. Una organización puede intentar optimizar los costos de la nube apagando algunas de sus máquinas virtuales cuando no se utilizan, pero ¿qué sucede cuando se necesitan reactivar? Incluso si la nube está disponible, puede que no haya capacidad en esa región o nube en particular para acomodar la reactivación de esas máquinas, lo cual tiene un efecto negativo en la productividad.

En un escenario de recuperación de desastres, las limitaciones de capacidad representan un riesgo aún mayor si no se puede obtener la capacidad necesaria para que el negocio vuelva a funcionar.

Cómo funciona el protocolo FTP y cómo resolver problemas relacionados con él

Aliviar los desafíos de la nube

Amitabh Sinha: Es especialmente importante adoptar un enfoque multi-nube y multi-región para la informática de usuario final (EUC, por sus siglas en inglés). Ejecutar cargas de trabajo de EUC en diferentes regiones de la nube y en las principales nubes puede reducir drásticamente el tiempo de inactividad de las empresas.

Los líderes de tecnología de la información deben esperar capacidades que permitan la conmutación por error automática, por ejemplo, de un escritorio virtual primario a un escritorio secundario, ya sea que el escritorio secundario esté en otra región de la nube o en una nube alternativa, de manera completamente transparente para el usuario final. Este escritorio virtual disponible siempre es ahora una realidad. La implementación de escritorios virtuales debe distribuirse en varias regiones y nubes para garantizar la disponibilidad.

La importancia de la recuperación de desastres

Amitabh Sinha: El tiempo de recuperación objetivo (RTO) es la métrica que todos consideran en el contexto de la recuperación de desastres. ¿Cuánto tiempo tomará poner en marcha nuevamente el negocio después de una interrupción? En el mundo de los centros de datos locales, el RTO solía medirse en días, con consecuencias potencialmente catastróficas para el negocio.

Las dos dimensiones de las que hablamos anteriormente: la disponibilidad de la nube y la capacidad de la nube. En el contexto de la recuperación de desastres, al igual que en el contexto operativo del día a día, la organización debe tener la agilidad para recuperarse de una interrupción del negocio, ya sea un corte en la nube, un evento climático o un ataque de ransomware, en cuestión de minutos. Un RTO de días ya no es aceptable. En cambio, el enfoque multi-nube anticipa las limitaciones de disponibilidad y capacidad de la nube y las resuelve de manera proactiva.

Ofer Maor: La recuperación de desastres es un aspecto crucial en esta situación. Mientras que algunos problemas de tiempo de actividad pueden ser resultado de un evento programado, como un corte en la región de un proveedor de servicios en la nube (en cuyo caso, no se necesita mucha recuperación de desastres, ya que se reestablecerá por sí misma), otros casos pueden incluir la destrucción de entornos en la nube e incluso, en los casos más extremos, la destrucción de los propios datos, lo que requiere medidas de recuperación de desastres.

Naturalmente, las copias de seguridad son una pieza crucial del rompecabezas que deben realizar los clientes de la nube (y del software como servicio) ya que no pueden confiar en que el proveedor de la nube las realice (al menos en la mayoría de los modelos de responsabilidad compartida). Una de las áreas en las que la mayoría de las organizaciones aún están rezagadas es en la copia de seguridad y recuperación del software como servicio, pero si una organización sufre un ataque y un atacante secuestra todo su Sharepoint o GDrive, el proveedor puede no poder ayudar.

Microsoft lanza servicio gratuito de almacenamiento en la nube para usuarios de Windows

Comparación de la recuperación de desastres en la nube y en las instalaciones locales

Amitabh Sinha: Con las instalaciones locales, puede tomar días o semanas volver a estar en funcionamiento; es un esfuerzo costoso y que consume mucho tiempo para los equipos. En un escenario de recuperación de desastres en la nube, las empresas pueden volver a estar operativas en cuestión de minutos si han elegido las soluciones adecuadas.

Recomendaciones para enfrentar eventos climáticos y consideraciones relacionadas

Or Aspir: Condiciones climáticas severas como huracanes, inundaciones o tormentas pueden interrumpir los centros de datos dentro de una zona de disponibilidad específica en la nube. Estas interrupciones pueden causar cortes de energía, interrupciones de la red o daños físicos, lo que afecta la disponibilidad de los recursos en la nube en esa zona. Un ejemplo de este tipo de caso es el corte de varios servicios de Google Cloud en Europa el 25 de abril de 2023. Este corte ocurrió debido a una combinación de inundación y un incidente de incendio.

Nuestras recomendaciones son verificar la redundancia de las zonas de disponibilidad de los servicios en la nube para garantizar la resiliencia frente a condiciones climáticas severas.

La importancia de tener más información sobre el usuario final

Amitabh Sinha: Tener visibilidad en tiempo real del usuario final es crucial para mitigar cualquier tiempo de inactividad. La observabilidad del usuario final permite a los equipos de tecnología de la información comprender los problemas que tienen los usuarios. Al aprovechar esos datos, los equipos pueden entender el nivel del problema, desde problemas para acceder a un solo escritorio o aplicación hasta el rendimiento de esos recursos.

Pueden identificar si hay un problema más generalizado, como una tendencia en una ubicación específica, si solo afecta a un subconjunto de usuarios finales o si tiene el potencial de convertirse en un problema generalizado. Pueden determinar si es un problema de red o si está surgiendo un patrón en términos de disponibilidad y acceso a la nube que podría afectar la productividad, y luego pueden tomar medidas en tiempo real para resolver el problema.

En entornos de centros de datos, los equipos de TI solo tienen control y visibilidad dentro de ese centro de datos en sí. Estos sistemas heredados no tienen los niveles de visibilidad del usuario final que tienen los entornos en la nube. Al ejecutar herramientas de observación del usuario final en la nube, los equipos de TI pueden tomar medidas en tiempo real para identificar y resolver rápidamente cualquier problema existente.

Cómo evitar que el archivo de registro de transacciones en SQL Server crezca demasiado grande

Otras recomendaciones para profesionales de TI

Amitabh Sinha: Crear mecanismos directos de retroalimentación del usuario final en las aplicaciones para usuarios finales (por ejemplo, encuestas al final de una sesión de Teams o Zoom).

Aprovechar herramientas de observabilidad nativas de la nube específicas para cargas de trabajo, como DataDog para cargas de trabajo de servidor, y Workspot y ControlUp para cargas de trabajo de informática de usuario final.

Definir personas y procesos para actuar con base en información derivada de las herramientas de observabilidad, para que los problemas se resuelvan de manera rápida.

Or Aspir: Es importante ampliar el enfoque más allá de los desastres naturales o las fallas técnicas para abordar el impacto potencial de incidentes de seguridad en la recuperación de desastres. Es importante comprender que, bajo el modelo de responsabilidad compartida, los clientes son responsables de la seguridad al utilizar su propia instancia de la nube o de software como servicio, y cualquier violación resultante de una mala configuración o un usuario comprometido es su responsabilidad, por lo que serán responsables de enfrentar las consecuencias de dicho evento.

Esto incluye escenarios en los que las identidades comprometidas poseen permisos no solo en los sistemas de producción, sino también en los sistemas de respaldo. Al reconocer y prepararse para estos desastres relacionados con la seguridad, las organizaciones pueden mejorar sus estrategias de recuperación de desastres en general y mitigar los riesgos asociados con el acceso no autorizado y las identidades comprometidas.

Tener un plan robusto de respuesta a incidentes, que puede incluir la colaboración con entidades externas, puede ayudar significativamente a abordar la recuperación de desastres en caso de incidentes de seguridad.

Debería su organización migrar a Google Apps desde Microsoft Exchange

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Nube, allí encontraras muchos artículos similares a Cómo optimizar la recuperación ante desastres en la nube , tenemos lo ultimo en tecnología 2023.