Resumen: Dataocean AI ha participado en la creación del conjunto de datos de código abierto llamado GigaSpeech 2: un corpus ASR a gran escala y multidominio para idiomas con pocos recursos

Resumen: Dataocean AI ha participado en la creación del conjunto de datos de código abierto llamado GigaSpeech 2: un corpus ASR a gran escala y multidominio para idiomas con pocos recursos

  • Business Wire | 25-09-2024.12:07 pm.

IRVINE, California--(BUSINESS WIRE)--Dataocean AI ha colaborado con la Universidad Jiao Tong de Shanghai, la Universidad China de Hong Kong, la Universidad Tsinghua, Pengcheng Lab, AISpeech, Birch AI y Seasalt AI para desarrollar con éxito GigaSpeech 2. Los conjuntos de prueba y desarrollo de GigaSpeech 2 están etiquetados por un equipo profesional de Dataocean AI.




Perspectiva general de GigaSpeech 2

GigaSpeech 2 es un corpus de reconocimiento del habla multilingüe, multidominio, a gran escala y en constante expansión, diseñado para fomentar la investigación y el desarrollo en el reconocimiento del habla en lenguas con pocos recursos. GigaSpeech 2 contiene 30 000 horas de audio transcrito automáticamente en tailandés, indonesio y vietnamita.

El comunicado en el idioma original es la versión oficial y autorizada del mismo. Esta traducción es solamente un medio de ayuda y deberá ser comparada con el texto en idioma original, que es la única versión del texto que tendrá validez legal.

Contacts

contact@dataoceanai.com