El entorno de entrenamiento de desajuste puede ayudar a los agentes de IA a funcionar mejor en condiciones inciertas

hace 4 meses

El entorno de entrenamiento de desajuste puede ayudar a los agentes de IA a funcionar mejor en condiciones inciertas


Los investigadores del MIT capacitaron a los agentes de IA para jugar juegos del ático, que fueron revisados ​​para incluir algo de inesperación. Crédito: José-Luis Olivaras, MIT

Una sincronización de robot caseras capacitado para realizar funciones domésticas en una fábrica puede no frotar o desgarrar efectivamente para extraer basura cuando se publica en la cocina del usuario, ya que este nuevo entorno varía de su lugar de entrenamiento.

Para evitar esto, los ingenieros a menudo intentan que coincidan con el entorno de entrenamiento simulado como el mundo real posible donde se implementará el agente.

Sin embargo, los investigadores en el MIT y otros lugares ahora han encontrado que, a pesar de este conocimiento tradicional, a veces la capacitación en un entorno completamente diferente produce un mejor rendimiento de la inteligencia artificial.

Sus resultados indican que, en algunas situaciones, entrena a un agente de IA falso en un mundo con menos incertidumbre, o "ruido", le permite funcionar mejor que un agente de IA competidor, solía usar ambos agentes en el mundo del ruido.

Los investigadores llaman a este inesperado evento de entrenamiento en interiores.

"Si aprendemos a jugar al tenis en un entorno interior, donde no hay ruido, podemos dominar los disparos más fácilmente diferentes. Como una cancha de tenis de aire, podemos ser una alta probabilidad. Serena Bono explica.

Los investigadores entrenaron el incidente entrenando a los agentes de IA para jugar juegos del ático, que enmendaron agregando algo de inesperación. Se sorprendió al saber que los efectos de entrenamiento en interiores ocurrieron en los juegos del ático y las variaciones deportivas. Hay conclusiones Publicado Pero arxiv Servidor de preimpresión.

Esperan que estos resultados alimenten la investigación adicional para desarrollar mejores métodos de capacitación para los agentes de IA.

"Este es un eje completamente nuevo, para pensarlo. En lugar de tratar de igualar el entorno de entrenamiento y prueba, podemos crear un entorno simulado, donde un agente de IA aprende aún mejor.", Es el coautor Spandon Madan , dice un estudiante graduado. Universidad de Harvard.

Bono y Madan están incluidos en papel por un estudiante graduado del MIT Ishaan Grover; Mao Yasuda, un estudiante graduado en la Universidad de Yale; Synthia Breesial, profesora de artes y ciencias de los medios y líderes del grupo de robótica personal en MIT Media Lab; Hanpetar Pfister, profesor de informática de Wang en Harvard; Y Gabriel Kreman, profesor de la Facultad de Medicina de Harvard. La investigación se presentará en la Asociación para el Avance de la Conferencia de Inteligencia Artificial.

Problemas de entrenamiento

Los investigadores pidieron averiguar por qué los agentes que aprenden refuerzo tienen actuaciones tan decepcionantes cuando se analizan en la atmósfera que difieren de su espacio de entrenamiento.

El refuerzo de aprendizaje es un método de prueba y tronco en el que el agente examina un espacio de capacitación y aprende a maximizar su recompensa.

El equipo desarrolló una técnica para agregar claramente una cierta cantidad de ruido a un elemento del problema del refuerzo llamado función de transición. La función de infección define la posibilidad de que un agente se mueva de un estado a otro, dependiendo de cuál elija.

Si el agente está jugando Pac-Man, una función de infección puede definir la posibilidad de que los fantasmas en el tablero de juego se muevan hacia arriba, hacia abajo, hacia la izquierda o la derecha. En el aprendizaje de refuerzo estándar, la IA será entrenada y probada utilizando la misma función de transición.

Los investigadores agregaron ruido a la ceremonia de transición con este enfoque tradicional y, según sea necesario, perjudicaron el rendimiento del Pac-Man del agente.

Pero cuando los investigadores entrenaron al agente con un ruidoso juego de Pac-Man, lo probaron en un entorno donde inyectan el ruido en la ceremonia de transición, se desempeñó mejor que el agente entrenado en el juego de ruido.

"La ley del pulgar es que debe tratar de captar la función de transición de la situación de despliegue y al mismo tiempo que puede hacer durante el entrenamiento para obtener la mayor cantidad de golpes para sus ciervos. Realmente matamos esta visión probada porque no pudimos Considéralo nosotros mismos ", dice Madan.

Los investigadores probaron muchos entornos inyectando diferentes cantidades de ruido en la función de transición, pero no creó juegos realistas. Cuanto más ruido inyecte en Pac-Man, más probabilidades se teletransportan al azar los fantasmas en diferentes clases.

Para ver si el efecto de entrenamiento interior ocurrió en los Juegos Generales de Pac-Man, ajustaron las posibilidades subyacentes, por lo que los fantasmas fueron normalmente, pero más probabilidades de subir y bajar en lugar de izquierda y derecha. Los agentes de IA entrenados en un entorno libre de ruido aún funcionaban mejor en estos juegos realistas.

Bono dice: "No fue solo en la forma en que agregamos ruido para crear un entorno ad hoc. Este refuerzo parece ser una propiedad del problema de aprendizaje. Y fue aún más sorprendente ver", dice Bono.

Explicación explicación

Cuando los investigadores cavaron profundamente en busca de una explicación, vieron algunas correlaciones cómo los agentes de IA detectan el espacio de entrenamiento.

Cuando ambos agentes de IA detectan principalmente las mismas áreas, el agente entrenado en un entorno no nariz funciona mejor, tal vez porque es fácil para el agente aprender las reglas de los deportes sin intervención de ruido.

Si sus patrones de exploración son diferentes, el agente entrenado funciona mejor en el entorno de ruido. Esto puede suceder porque no puede aprender al agente en un entorno sin ruido.

"Si solo aprendo a jugar al tenis con mi derecha en un entorno no nariz, pero en el ruido también quiero jugar con mi revés, no jugaré incluso en un entorno no manejado", dice Bono.

En el futuro, los investigadores esperan descubrir cómo pueden ocurrir los efectos de capacitación en interiores en un entorno de aprendizaje de refuerzo más complejo o con otras técnicas como la visión por computadora y el procesamiento del lenguaje natural. Quieren crear un entorno de capacitación diseñado para aprovechar los efectos de entrenamiento en interiores, lo que puede ayudar a los agentes de IA a funcionar mejor en un entorno incierto.

Más información:
Serena Bono et al, efecto de entrenamiento en interiores: beneficios inesperados del cambio de distribución en la función de transición, arxiv (2024). Doi: 10.48550/arxiv.2401.15856

Información en el diario:
arxiv


Massachusetts proporcionado por el Instituto de Tecnología


Esta historia ha sido restablecida por cortesía de MIT News (web.mit.edu/newsoffice/), Un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Citación: El entorno de capacitación de desajuste puede ayudar a los agentes de IA a desempeñarse mejor en condiciones inciertas (2025, 29 de enero) el 29 de enero de 2025 https://techxplore.com/news/2025-01-01-mismatced-nrniments-i Agents-spectml

Este documento está sujeto a derechos de autor. Además de cualquier comportamiento imparcial para el propósito de estudios o investigaciones privadas, no se puede volver a interrogarlo sin permiso por escrito. El contenido se proporciona solo para fines de información.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir