Perplexity AI abre el código fuente de BrowseSafe para combatir la inyección de mensajes en la navegación con IA

MPOST2025/12/05 05:15

Por:MPOST

En Resumen Perplexity lanzó BrowseSafe de código abierto, una herramienta de seguridad diseñada para proteger a los asistentes de navegación de inteligencia artificial de instrucciones maliciosas ocultas en páginas web.

Perplejidad IA , la compañía detrás del motor de búsqueda Perplexity impulsado por IA, anunció el lanzamiento de BrowseSafe, un modelo de detección de contenido y referencia de investigación abierta diseñado para mejorar la seguridad del usuario a medida que los agentes de IA comienzan a operar directamente dentro del entorno del navegador.

A medida que los asistentes de IA van más allá de lo tradicional Buscar A medida que se implementan las interfaces y se comienzan a realizar tareas dentro de los navegadores web, se espera que la estructura de internet cambie de páginas estáticas a interacciones impulsadas por agentes. En este modelo, el navegador se convierte en un espacio de trabajo donde un asistente puede actuar en lugar de simplemente proporcionar respuestas, lo que crea la necesidad de sistemas que garanticen que el asistente actúe siempre en beneficio del usuario.

BrowseSafe es un modelo de detección especializado, entrenado para evaluar una pregunta clave: si el HTML de una página web contiene instrucciones dañinas diseñadas para manipular un agente de IA. Si bien los modelos grandes y de propósito general pueden evaluar estos riesgos con precisión, suelen consumir demasiados recursos para un análisis continuo en tiempo real. BrowseSafe está diseñado para analizar páginas web completas rápidamente sin afectar el rendimiento del navegador. Junto con el modelo, la compañía lanza BrowseSafe-Bench, una suite de pruebas diseñada para respaldar la evaluación y mejora continuas de los mecanismos de defensa.

El auge de Navegación basada en IA También presenta nuevos desafíos de ciberseguridad que requieren estrategias de protección actualizadas. La compañía explicó anteriormente cómo su sistema Comet aplica múltiples capas de defensa para mantener a los agentes alineados con la intención del usuario, incluso en casos en que los sitios web intentan alterar el comportamiento del agente mediante la inyección de información. La explicación más reciente se centra en cómo se manifiestan estas amenazas. defiDesarrollado, probado utilizando escenarios de ataque del mundo real e incorporado en modelos entrenados para identificar y bloquear instrucciones dañinas con la suficiente rapidez para una implementación segura dentro del navegador.

La inyección de instrucciones se refiere a lenguaje malicioso insertado en el texto que procesa un sistema de IA con el objetivo de redirigir el comportamiento del sistema. En un navegador, los agentes leen páginas enteras, lo que permite que estos ataques se incrusten en áreas como comentarios, plantillas o pies de página extendidos. Estas instrucciones ocultas pueden influir en las acciones del agente si no se detectan correctamente. También pueden estar escritas en formatos sutiles o multilingües, o estar ocultas en elementos HTML que no aparecen visualmente en la página, como atributos de datos o campos de formulario sin procesar, que los usuarios no ven, pero que los sistemas de IA interpretan.

BrowseSafe-Bench: Mejora de la seguridad de los agentes en entornos web reales

Para analizar las amenazas de inyección rápida en un entorno similar al de la navegación real, la empresa desarrolló BrowseSafe, un modelo de detección entrenado y publicado como código abierto, junto con BrowseSafe-Bench, un benchmark público que contiene 14,719 ejemplos modelados a partir de páginas web en producción. El conjunto de datos incorpora estructuras HTML complejas, contenido de calidad mixta y una amplia gama de muestras, tanto maliciosas como benignas, que difieren en la intención del atacante, la ubicación de la instrucción inyectada dentro de la página y el estilo lingüístico. Abarca 11 categorías de ataque, nueve métodos de inyección, desde elementos ocultos hasta bloques de texto visibles, y tres estilos de lenguaje, desde comandos directos hasta frases indirectas más sutiles.

En la defiEn el modelo de amenazas Ned, el asistente opera en un entorno de confianza, mientras que todo el contenido web externo se considera no confiable. Agentes maliciosos pueden controlar sitios web completos o insertar texto dañino (como descripciones, comentarios o publicaciones) en páginas legítimas a las que accede el agente. Para mitigar estos riesgos, cualquier herramienta capaz de devolver datos no confiables, como páginas web, correos electrónicos o archivos, se marca, y BrowseSafe procesa su salida sin procesar antes de que el agente pueda interpretarla o actuar en consecuencia. BrowseSafe funciona como un componente de una estrategia de seguridad más amplia que incluye el análisis del contenido entrante, la limitación predeterminada de los permisos de las herramientas y la solicitud de aprobación del usuario para ciertas operaciones sensibles, complementada con las protecciones estándar del navegador. Este enfoque por capas está diseñado para facilitar el uso de asistentes compatibles con el navegador sin comprometer la seguridad.

Los resultados de las pruebas en BrowseSafe-Bench revelan varias tendencias. Las formas directas de ataque, como los intentos de extraer indicaciones del sistema o redirigir información mediante rutas URL, se encuentran entre las más fáciles de detectar para los modelos. Los ataques multilingües, junto con las versiones escritas con frases indirectas o hipotéticas, tienden a ser más difíciles porque evitan las claves léxicas de las que dependen muchos sistemas de detección. La ubicación del texto inyectado también influye. Las instancias ocultas en comentarios HTML se detectan con relativa eficacia, mientras que las ubicadas en secciones visibles, como pies de página, celdas de tabla o párrafos, son más complejas, lo que revela una debilidad estructural en el manejo de inyecciones no ocultas. Un entrenamiento mejorado con ejemplos bien diseñados puede aumentar el rendimiento de la detección en estos casos.

BrowseSafe y BrowseSafe-Bench están disponibles como recursos de código abierto. Los desarrolladores que trabajan con agentes autónomos pueden usarlos para reforzar las defensas contra la inyección inmediata sin necesidad de crear sistemas de protección independientes. El modelo de detección puede ejecutarse localmente y detectar instrucciones dañinas antes de que lleguen a la capa central de toma de decisiones del agente, con un rendimiento optimizado para escanear páginas completas en tiempo real. El amplio conjunto de escenarios de ataque realistas de BrowseSafe-Bench ofrece una forma de someter a prueba los modelos a pruebas de estrés contra los complejos patrones HTML que suelen comprometer los modelos de lenguaje estándar, mientras que las técnicas de fragmentación y escaneo paralelo ayudan a los agentes a procesar páginas grandes y no confiables de forma eficiente sin exponer a los usuarios a un riesgo elevado.

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!