
Los auriculares operados con AI proporcionan traducciones grupales con clonación de voz y audio espacial 3D
hace 3 semanas

Crédito: Universidad de Washington
Un médico de la Universidad de Washington, una universidad de Tucho Chen, visitó recientemente un museo en México. La cadena no habla español, por lo que dirigió una aplicación de traducción en su teléfono e indicó el micrófono en el guía turístico. Pero incluso en un pariente de un museo, el ruido circundante fue mucho. El texto resultante era inútil.
Varias técnicas han prometido recientemente traducciones fluidas, pero ninguna de ellas ha resuelto el problema de la cadena en lugares públicos. Por ejemplo, nuevas gafas de meta trabajan solo con un altavoz diferente; Ellos Reproducir una traducción automática de voz Después de que termina el altavoz.
Ahora, un equipo de cadenas e investigadores de UW ha diseñado Un sistema de auriculares que traduce muchos altavoces Una vez, preservar la dirección y las cualidades de las voces de las personas. El equipo construyó el sistema, llamado traducciones espaciales del habla, en las que el más apagado está en forma con un ruidoso micrófono de auriculares. Los algoritmos del equipo se separan y siguen diferentes altavoces en un espacio porque caminan, traducen su discurso y lo reproducen con un retraso de 2 a 4 segundos.
El equipo presentó su investigación Yokohama el 30 de abril en la conferencia ACM CHEV sobre factores humanos en el sistema informático en Japón. El código para dispositivos de prueba de concepto está disponible para la fabricación de otros. "Otras técnicas de traducción se realizan sobre el supuesto de que solo una persona está hablando", dijo el escritor senior Shyam Golcota, la Escuela de Informática e Ingeniería de Paul G Allen es profesor de la UW en la Escuela de Informática e Ingeniería. "Pero en el mundo real, es posible que no tengas solo una voz de robot para hablar para muchas personas en una habitación. Primero, hemos preservado la voz de cada persona y la dirección de la que proviene".
El sistema crea tres innovaciones. Primero, cuando se enciende, inmediatamente descubre cuántos altavoces hay en una ubicación interior o exterior.
"Nuestros algoritmos hacen poco trabajo como Radar", dijo Chen, el autor principal del Doctorado de la UW en Allen School. "Por lo tanto, están escaneando espacio a 360 grados y determinando continuamente si hay una persona o seis o siete".
Luego, el sistema traduce el habla y mantiene las propiedades expresivas y el volumen de la voz de cada altavoz mientras se camina sobre el dispositivo, como dispositivos móviles como el chip Apple M2, como las computadoras portátiles y Apple Vision Pro. (El equipo evitó el uso de la computación en la nube debido a las preocupaciones de privacidad con la clonación de voz). Finalmente, cuando los altavoces movieron sus cabezas, el sistema continúa rastreando sus voces y las cualidades de sus voces continúan rastreando a medida que cambian.
El sistema funciona cuando se prueba en 10 configuraciones interiores y exteriores. Y en una prueba de 29 contestantes, los usuarios prefieren el sistema en modelos que no rastrearon el altavoz a través del espacio.
En una prueba de usuario separada, la mayoría de los participantes prefirieron un retraso de 3-4 segundos, ya que el sistema cometió más errores al traducir con un retraso de 1-2 segundos. El equipo está trabajando para reducir la velocidad de traducción en repeticiones futuras. El sistema actualmente trabaja solo en discurso general, no en jergas técnicas como un lenguaje especial. Para esta carta, el equipo trabajó con español, alemán y francés, pero el trabajo anterior en el modelo de traducción ha demostrado que pueden ser entrenados para traducir alrededor de 100 idiomas.
"Este es un paso para romper los obstáculos del lenguaje entre las culturas", dijo la cadena. "Entonces, si estoy caminando por el camino en México, incluso si no hablo español, puedo traducir las voces de todas las personas y saber quién dijo qué".
Un pasante de investigación en Hydrox AI y un estudiante universitario de UW en la Escuela Allen, completando esta investigación, un aprendiz de investigación de un estudiante de Doctorado de la UW en Ellen School, un aprendiz de investigación de Allen School también es coguionista en este documento.
Más información:
Tuicho Chain et al, Traducción del habla espacial: traducir al espacio con verdes repletos, 2025 Actas de la conferencia china sobre factores humanos en los sistemas informáticos (2025). Doi: 10.1145/3706598.3713745
Citación: Los auriculares en funcionamiento de IA proporcionan traducciones grupales con clonación de voz y audio espacial 3D (2025, 10 de mayo).
Este documento está sujeto a derechos de autor. Además de cualquier comportamiento imparcial para el propósito de estudios o investigaciones privadas, no se puede volver a interrogarlo sin permiso por escrito. El contenido se proporciona solo para fines de información.
Deja una respuesta