Visitas: 9
Eñe’e es un proyecto que apunta a crear el primer reconocedor de voz en Guaraní, desarrollado en la Facultad Politécnica de la Universidad Nacional de Asunción. El diseño del sistema está basado en la librería de código abierto CMU Sphinx, desarrollada y mantenida por la universidad Carnegie Mellon University. Actualmente, el proyecto y las investigaciones correspondientes están siendo llevados a cabo por los alumnos Rodrigo Villalba y Diego Maldonado, bajo la tutoría del Dr. Diego Pinto Roa.
Las aplicaciones potenciales de un sistema ASR (Automatic Speech Recognition/Reconocedor Automático de Voz) nos permitirá extender la tecnología actual a los hablantes en guaraní. Permitirá, por ejemplo, integrar el reconocedor a traductores, realizar búsquedas por voz, comandar por voz sistemas inteligentes y desarrollar tecnologías educativas para personas monolingües en guaraní.
Antes de leer esta entrevista, puedes dedicar 30 segundos de tu tiempo para hacer una donación de voz entrando a https://www.eñee.xyz
1. Qué fue lo que les motivó a realizar este proyecto?
En principio el proyecto consistía en diseñar un robot con la posibilidad de ser comandado por voz en español, sin embargo, conforme llevábamos a cabo las investigaciones correspondientes con el Dr. Diego Pinto Roa, y al hacer implementaciones del reconocedor bastante prometedoras nos propusimos a desarrollar el sistema de reconocimiento de voz en el idioma guaraní para hacer una mayor contribución a la comunidad paraguaya.
2. Cuánto tiempo han dedicado en el desarrollo de este proyecto?
Aproximadamente once meses en total, ya que comenzamos el proyecto como pasantía el año pasado en mayo. No obstante, el sistema de reconocimiento de voz en guaraní lo propusimos a finales del año pasado, realizando la mayor parte de los trabajos durante las vacaciones de verano.
3. Podrían explicar con sus palabras en qué consiste este proyecto?
Consiste básicamente en construir un sistema de reconocimiento de voz usando un método matemático denominado Cadenas Ocultas de Markóv, el cual es acompañado por el desarrollo de un modelo de lenguaje basado en n-gramas. Este sistema, una vez finalizado, podrá ser utilizado para diversas aplicaciones tales como traductores del idioma guaraní, asistentes por voz, entre otros.
4. Podrían explicar el algoritmo que utilizaron para desarrollar este proyecto?
La implementación está dividida en tres partes principales: El sistema de recolección de donaciones de voz (actualmente en línea: https://www.eñee.xyz), el sistema de automatización del diseño de la base de datos de entrenamiento una vez obtenidas las donaciones de voz, y el sistema de entrenamiento del reconocedor una vez terminadas las partes anteriores.
Tanto el sistema de recolección como el generador de la base de datos los diseñamos en Python junto con el framework Django y otras librerías de código abierto que complementan el diseño, mientras que sistema de entrenamiento se basa en la librería de código abierto CMU Sphinx, junto con otros scripts desarrollados por nosotros en Python para facilitar el proceso de entrenamiento, así como la optimización de los parámetros del entrenador.
5. Cómo podríamos hacer para contactar con ustedes para tener mayor información?
Para contactarnos pueden hacerlo a través de nuestros correos:
– Rodrigo Villalba: rodrigovb[a]yahoo.com
– Diego Maldonado: dmnunez1993[a]gmail.com
Una vez obtenidas suficientes donaciones, vamos a estar subiendo a la página una sección de demostración para mostrar al público el avance del proyecto. Pedimos a la gente que por favor done su voz (mientras mas donaciones obtenemos, mejor será el rendimiento del reconocedor) en lo posible y que comparta en sus redes sociales el enlace de la página https://www.xn--eee-7ma.xyz/ y nuestra página de facebook: http://facebook.com/eneepy para que una mayor cantidad de gente se sume a la iniciativa !!