Shoreline.io lanza una biblioteca de soluciones de automatización para incidentes en entornos cloud

La compañía de automatización de incidentes Shoreline.io ha presentado su biblioteca de soluciones de código abierto, una colección de paquetes de operaciones diseñados para facilitar el diagnóstico y la reparación de los incidentes más comunes en entornos de producción en la nube.

La biblioteca de soluciones se centra en abordar problemas como fugas de memoria en JVM, llenado de discos, procesos no deseados y pods atascados en Kubernetes. Se lanza con más de 35 paquetes de operaciones que están disponibles de forma gratuita para la comunidad de Shoreline.

"Si el problema es un disco lleno, por ejemplo, la solución podría implicar la eliminación de archivos temporales, el archivo de archivos antiguos y posiblemente también la asignación de recursos adicionales, dependiendo de la combinación más apropiada para el disco identificado como problema", dijo Anurag Gupta, co-fundador y CEO de Shoreline.

VER: Kit de contratación: Desarrollador de back-end (Newsmatic Premium)

Si hay una fuga de memoria en JVM, el paquete de operaciones captura automáticamente los volcados de montón, los volcados de hilos, las estadísticas de recolección de basura y otros datos de depuración para que los ingenieros puedan identificar y eliminar la causa raíz, dijo Gupta. Los clientes pueden optar por enviar estos datos a Amazon S3, Google Storage u otro almacenamiento de objetos antes de reiniciar opcionalmente el JVM.

Los paquetes de operaciones de Shoreline están diseñados para trabajar con infraestructuras alojadas por AWS, Azure y Google Cloud.

Cómo crear y gestionar paquetes de trabajo en OpenProject

Índice de Contenido

Automatizaciones y cuadernos de diagnóstico pre-construidos
Las soluciones gratuitas de Shoreline

Automatizaciones y cuadernos de diagnóstico pre-construidos

Los equipos de guardia comprenden que una infraestructura de auto-reparación brinda una mayor disponibilidad, menos tickets y una mejor satisfacción del cliente, dijo la empresa. Hasta ahora, el camino hacia la automatización de incidentes era desafiante. Los desarrolladores ahora pueden crear y compartir paquetes de operaciones de código abierto construidos en horas, en lugar de meses, con Shoreline. Las automatizaciones y cuadernos de diagnóstico pre-construidos están diseñados para ahorrar tiempo y acelerar el camino hacia una mayor confiabilidad.

Cada paquete de operaciones se publica y proporciona como módulos de Terraform de código abierto y contiene todo lo necesario para resolver un problema específico, incluyendo métricas predefinidas, alarmas, acciones, bots, scripts y pruebas. Con la biblioteca de paquetes de operaciones de Shoreline, la comunidad identifica qué monitorear, qué alarmas establecer y qué scripts ejecutar para completar la reparación.

Todos los paquetes de operaciones son completamente configurables y permiten a los equipos de operaciones en la nube decidir si utilizar la automatización completa o un cuaderno interactivo para la reparación con intervención humana, según Shoreline. Fueron co-desarrollados con clientes de Shoreline y se basan en la experiencia de guardia en el mundo real en grandes empresas, unicornios en rápido crecimiento y los entornos de producción hiperescala más grandes, según la empresa.

"Las empresas ya no pueden permitirse escribir sus propios libros de ejecución o automatizaciones de código personalizado desde cero", dijo Gupta. "Con Shoreline, cada vez que alguien en nuestra comunidad soluciona un problema, todos los demás se benefician".

Las soluciones gratuitas de Shoreline

Las siguientes soluciones de paquetes de operaciones están disponibles ahora y son gratuitas para los clientes de Shoreline:

Optimización de las operaciones de Kubernetes

Retiro de nodos de Kubernetes: Terminar de manera segura los nodos cuando estén marcados para su retiro por el proveedor de la nube.
Pods de Kubernetes sin memoria (OOM): Generar información de diagnóstico y reiniciar los pods que se quedaron sin memoria.
Pods de Kubernetes atascados en terminación: Identificar, drenar de manera segura y reiniciar los pods atascados.
Pods de Kubernetes reiniciándose con demasiada frecuencia: Detectar bucles de reinicio de pods y capturar diagnósticos para identificar la causa raíz.
Agotamiento de direcciones IP: Eliminar trabajos o pods fallidos que están consumiendo demasiadas direcciones IP.
Flujos de trabajo de Argo atascados: Argo facilita la administración declarativa de flujos de trabajo, pero puede dejar muchos pods obsoletos después de la ejecución del flujo de trabajo que deben eliminarse.

Reducción del trabajo en VMs o Kubernetes

Redimensionamiento de disco/limpieza de disco: Los incidentes de disco lleno pueden provocar interrupciones generalizadas y pérdida de datos que pueden dañar la experiencia del cliente y perder ingresos.
Problemas de redes: Los problemas relacionados con la red a menudo son difíciles de diagnosticar y pueden generar una experiencia muy negativa para los clientes.
Problemas intermitentes de JVM: Capturar información de diagnóstico de problemas intermitentes que son difíciles de reproducir y depurar.
Desviación del servidor: Restaurar la uniformidad cuando los archivos de configuración, bases de datos y fuentes de datos en sus VMs y contenedores son diferentes.
Desviación de la configuración: Asegurarse de que el estado observado coincida con el estado deseado en la configuración del sistema.
Agotamiento de memoria: Quedarse sin memoria degradará rápidamente la experiencia del cliente y debe ser prevenido.
Fallos de disco en kern.log: Detectar cuando un disco tiene errores o ha fallado por completo al inspeccionar el kern.log del sistema operativo. Capturar automáticamente estos eventos e iniciar soluciones como el reinicio de la VM.
Fallos de red en kern.log: Detectar cuando una interfaz de red tiene errores o ha fallado por completo al inspeccionar el kern.log del sistema operativo. Capturar automáticamente estos eventos e iniciar soluciones como el reinicio de la VM.
Endpoints inaccesibles: Determinar cuando no hay endpoints detrás de su servicio de Kubernetes o cuando estos endpoints se han vuelto inaccesibles.
Gestión de réplicas en shard de fragmentación elástica: Determinar cuando sus clústeres de ElasticSearch tienen muy pocas réplicas por fragmento y automáticamente iniciar el proceso de recuperación.
Procesamiento de registros en el borde: Analizar archivos de registro en el dispositivo para identificar problemas que causan incidentes de producción y eliminar los costos de los registros centralizados.
Lag de procesamiento de datos de Kafka: Reiniciar consumidores lentos o rotos cuando los sistemas se retrasan en el procesamiento de mensajes a través de una cola.
Gestión de temas de Kafka: Cuando la longitud de su tema de Kafka es demasiado larga, las aplicaciones pueden empezar a fallar.
Procesos que consumen demasiados recursos: Determinar si el sistema está utilizando demasiada memoria o CPU a nivel de proceso.
Reinicio del servicio de CoreDNS: CoreDNS, el servicio DNS predeterminado de Kubernetes, puede degradarse en rendimiento con demasiadas llamadas, lo que causa una latencia masiva.

Optimización de costos en la nube

Ajuste adecuado de la asignación de CPU y memoria de los pods: Reducir automáticamente los límites de CPU y/o memoria de los pods que están establecidos demasiado altos.
Recuperación de hosts inactivos: Marcar las instancias de máquinas virtuales de baja utilización como inactivas y luego terminarlas.
Eliminar volúmenes / instantáneas de EBS no utilizados: Eliminar los costos de los recursos no utilizados.
Gestión de los costos de transferencia de datos: Detectar volúmenes de transferencia de datos aumentados y determinar las razones.
Uso excesivo de hosts bajo demanda: Determinar si convertir las máquinas virtuales bajo demanda en instancias reservadas generaría ahorros sustanciales.

Aumento de la seguridad

Verificación de contenedores privilegiados: Detectar cualquier contenedor o pod que se esté ejecutando en modo privilegiado.
Verificación de usuarios con acceso root: Detectar cualquier VM o contenedor que tenga procesos de servidor en ejecución como usuario con permisos de root.
Verificación de puertos abiertos: Los puertos pueden abrirse fácilmente involuntariamente en un entorno de desarrollo, especialmente el puerto 22 para SSH y el puerto 3389 para inicio de sesión remoto.
Conexiones desde puertos inesperados: Detectar conexiones de red en puertos que no se encuentran en una lista aprobada.
Verificación de lista de procesos: Asegurarse de que los procesos de servidor correctos estén en ejecución, ya que a veces los procesos mueren silenciosamente o se quedan ejecutando versiones antiguas.
Detección de operaciones de minería de criptomonedas: Detener a los mineros de criptomonedas no autorizados que abusan de los niveles gratuitos de los proveedores de servicios en la nube.

Evitar grandes interrupciones

Rotación de certificados: Tarde o temprano, todas las empresas se ven afectadas por certificados caducados, y cuando esto ocurre, puede causar una interrupción catastrófica.
Ralentización de DNS: Reiniciar de forma escalonada los servidores DNS cuando responden lentamente y causan problemas generalizados del sistema.

Cómo crear y administrar comparticiones de archivos Samba utilizando Cockpit

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Software, allí encontraras muchos artículos similares a Shoreline.io lanza una biblioteca de soluciones de automatización para incidentes en entornos cloud , tenemos lo ultimo en tecnología 2023.