Explorando las vanguardias de seguridad: Desafío de Hacking Generativo en DEF CON revela vulnerabilidades

OpenAI, Google, Meta y otras empresas pusieron a prueba sus grandes modelos de lenguaje durante el fin de semana del 12 de agosto en la conferencia de hackers DEF CON en Las Vegas. El resultado es un nuevo corpus de información compartido con la Oficina de Política de Ciencia y Tecnología de la Casa Blanca y la Asociación de IA del Congreso. El Desafío del Equipo Rojo Generativo, organizado por AI Village, SeedAI e Humane Intelligence, ofrece una imagen más clara que nunca sobre cómo se puede usar y asegurar adecuadamente la IA generativa.

Índice de Contenido
  1. ¿Qué es el Desafío del Equipo Rojo Generativo?
    1. Haciendo que la IA generativa beneficie a todos
  2. El impacto del Desafío del Equipo Rojo Generativo en las políticas de seguridad de la IA
  3. Posibles vulnerabilidades de los modelos de lenguaje grandes
  4. Cómo prevenir vulnerabilidades en los modelos de lenguaje grandes

¿Qué es el Desafío del Equipo Rojo Generativo?

Explorando las vanguardias de seguridad: Desafío de Hacking Generativo en DEF CON revela vulnerabilidades - Inteligencia artificial | Imagen 1 Newsmatic

El Desafío del Equipo Rojo Generativo desafió a los hackers a hacer que la IA generativa haga exactamente lo que no se supone que debe hacer: proporcionar información personal o peligrosa. Los desafíos incluyeron encontrar información de tarjetas de crédito y aprender a acechar a alguien.

Un grupo de 2.244 hackers participaron, cada uno teniendo un tiempo de 50 minutos para intentar hackear un modelo de lenguaje grande elegido al azar de una selección preestablecida. Los modelos de lenguaje grandes sometidos a prueba fueron construidos por Anthropic, Cohere, Google, Hugging Face, Meta, NVIDIA, OpenAI y Stability. Scale AI desarrolló el sistema de prueba y evaluación.

Los participantes enviaron 164.208 mensajes en 17.469 conversaciones durante el evento en 21 tipos de pruebas; trabajaron en Chromebooks de Google seguros. Los 21 desafíos incluyeron hacer que los modelos de lenguaje generen declaraciones discriminatorias, fracasen en problemas de matemáticas, inventen puntos de referencia falsos o creen información falsa sobre un evento político o una figura política.

"Los diversos problemas de estos modelos no se resolverán hasta que más personas sepan cómo evaluarlos", dijo Sven Cattell, el fundador de AI Village, en un comunicado de prensa. "Los programas de recompensas por errores, los eventos en vivo de hacking y otros compromisos comunitarios estándar en seguridad pueden modificarse para sistemas basados en modelos de aprendizaje automático".

Haciendo que la IA generativa beneficie a todos

"Black Tech Street lideró a más de 60 residentes negros y morenos de Greenwood, Tulsa, Oklahoma, a DEF CON como el primer paso para establecer el plan para una IA equitativa, responsable y accesible para todos los seres humanos", dijo Tyrance Billingsley II, fundador y director ejecutivo de la organización de desarrollo de la economía de la innovación Black Tech Street. "La IA será la tecnología más impactante que los seres humanos hayan creado, y Black Tech Street se enfoca en garantizar que esta tecnología sea una herramienta para remediar las desigualdades sistémicas sociales, políticas y económicas en lugar de exacerbarlas".

Google presenta servicios generativos impulsados por IA en su conferencia Google Cloud Next 2023

"La IA tiene un increíble potencial, pero todos los estadounidenses, independientemente de su edad y antecedentes, deben tener voz en lo que significa para los derechos, el éxito y la seguridad de sus comunidades", dijo Austin Carson, fundador de SeedAI y coorganizador del Desafío del Equipo Rojo Generativo, en el mismo comunicado de prensa.

El impacto del Desafío del Equipo Rojo Generativo en las políticas de seguridad de la IA

Este desafío podría tener un impacto directo en la Oficina de Política de Ciencia y Tecnología de la Casa Blanca, con la directora de la oficina, Arati Prabhakar, trabajando en llevar una orden ejecutiva a la mesa basada en los resultados del evento.

El equipo de AI Village utilizará los resultados del desafío para hacer una presentación a las Naciones Unidas en septiembre, según lo reveló Rumman Chowdhury, cofundador de Humane Intelligence, una empresa consultora y de políticas de IA, y uno de los organizadores de AI Village.

Dicha presentación formará parte de la tendencia de una cooperación continua entre la industria y el gobierno en materia de seguridad de la IA, como el proyecto AI Cyber Challenge de DARPA, que se anunció durante la conferencia Black Hat 2023. Este proyecto invita a los participantes a crear herramientas basadas en IA para resolver problemas de seguridad de la IA.

Posibles vulnerabilidades de los modelos de lenguaje grandes

Antes de que comenzara DEF CON, el consultor de AI Village, Gavin Klondike, adelantó siete vulnerabilidades que alguien que intentara crear una brecha de seguridad a través de un modelo de lenguaje grande probablemente encontraría:

  • Inyección de instrucciones.
  • Modificación de los parámetros del modelo de lenguaje.
  • Inserción de información sensible en un sitio de terceros.
  • El modelo de lenguaje incapaz de filtrar información sensible.
  • Generación de código no intencionado como resultado.
  • El resultado devuelto desde el servidor alimenta directamente al modelo de lenguaje.
  • El modelo de lenguaje carece de protecciones en torno a información sensible.

"Los modelos de lenguaje grandes son únicos en el sentido de que no solo debemos considerar la entrada de los usuarios como no confiable, sino también la salida de los modelos de lenguaje grandes como no confiable", señaló Klondike en una publicación de blog. Las empresas pueden utilizar esta lista de vulnerabilidades para identificar posibles problemas.

ChatGPT Enterprise: Privacidad mejorada para negocios

Además, Klondike señaló que ha habido cierto debate sobre qué se considera una vulnerabilidad y qué se considera una característica de cómo operan los modelos de lenguaje grandes. Estas características podrían parecer errores si un investigador de seguridad evaluara un tipo de sistema diferente. Por ejemplo, el punto final externo podría ser un vector de ataque desde cualquier dirección, donde un usuario podría ingresar comandos maliciosos o un modelo de lenguaje podría devolver código que se ejecuta de manera no segura. Las conversaciones deben almacenarse para que la IA pueda referirse a entradas anteriores, lo que podría poner en peligro la privacidad del usuario.

Klondike señaló que las alucinaciones o falsedades generadas por la IA no se consideran una vulnerabilidad. No representan un peligro para el sistema, aunque las alucinaciones de la IA sean incorrectas desde el punto de vista factual.

Cómo prevenir vulnerabilidades en los modelos de lenguaje grandes

Aunque aún se están explorando los modelos de lenguaje grandes, los organismos de investigación y los reguladores se están moviendo rápidamente para crear pautas de seguridad a su alrededor.

Daniel Rohrer, vicepresidente de seguridad de software de NVIDIA, estuvo presente en DEF CON y señaló que los hackers participantes hablaban de los modelos de lenguaje grandes como si cada marca tuviera una personalidad distinta. Aunque hay que dejar de lado la antropomorfización, el modelo que elija una organización sí importa, afirmó en una entrevista con TechRepublic.

"Elegir el modelo adecuado para la tarea correcta es extremadamente importante", dijo. Por ejemplo, ChatGPT potencialmente trae consigo algunos de los contenidos más cuestionables que se encuentran en Internet; sin embargo, si estás trabajando en un proyecto de ciencia de datos que implica analizar contenido cuestionable, un sistema de modelos de lenguaje grande que pueda buscarlo podría ser una herramienta valiosa.

Es probable que las empresas quieran un sistema más personalizado que utilice solo información relevante. "Tienes que diseñar según el objetivo del sistema y la aplicación que estás tratando de lograr", explicó Rohrer.

Automatiza tareas en Google Sheets con SheetGPT: ¡Ahorra tiempo y esfuerzo!

Otras sugerencias comunes sobre cómo asegurar un sistema de modelo de lenguaje grande para uso empresarial incluyen:

  • Limitar el acceso del modelo de lenguaje grande a datos sensibles.
  • Educar a los usuarios sobre qué datos recopila el modelo de lenguaje grande y dónde se almacenan, incluido si se utilizan para entrenamiento.
  • Tratar el modelo de lenguaje grande como si fuera un usuario, con sus propios controles de autenticación/autorización para acceder a información propietaria.
  • Utilizar el software disponible para mantener la IA enfocada en la tarea, como el Guardian de NeMo de NVIDIA o Colang, el lenguaje utilizado para construir Guardian de NeMo.

Por último, no debemos pasar por alto los conceptos básicos, dijo Rohrer. "Para muchos que están implementando sistemas de modelos de lenguaje grande, existen muchas prácticas de seguridad que ya se aplican en la nube y la seguridad basada en la nube que se pueden aplicar de inmediato a los modelos de lenguaje grande, y que en algunos casos se han omitido en la carrera por implementar estos modelos. No te saltes esos pasos. Todos sabemos cómo se hace en la nube. Toma estas precauciones fundamentales para proteger tus sistemas de modelos de lenguaje grande y estarás mucho más preparado para enfrentarte a los desafíos habituales."

Nota: Este artículo se actualizó para reflejar los ganadores del desafío DEF CON y el número de participantes.

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Inteligencia artificial, allí encontraras muchos artículos similares a Explorando las vanguardias de seguridad: Desafío de Hacking Generativo en DEF CON revela vulnerabilidades , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.