>>52591
Me has entendido mal, no me estoy quejando de Zonos, me estoy quejando de RVC, este proyecto de generación de textos
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Paśe varios días peleándome con versiones de Python y errores de dependencias para hacerlo correr, decidí indagar en su Discord a ver si alguien me podía dar una mano y descubrí que el proyecto estaba turbo abandonado y le habían sacado múltiples forks. Decidí probar un fork que parecía superficialmente más activo y era recomendado por uno de los devs, pero resultó ser más de lo mismo: Dependency hell.
Luego de preguntar bastante di con este proyecto
https://github.com/IAHispano/Applio
Que aparte de tener que bajar el Numpy a 1.23 y hacer una modificación al archivo app.py para conectarme a mi servidor no tuve ningún problema. Estoy probando ahora mismo su TTS con este modelo de Hilda
https://voice-models.com/model/1BdmAeKIpxL
Y el resultado me parece pésimo. La generación le agregó un acento estadounidense bien marcado y por defecto no suena como Hilda, tuve que subirle el pitch a la generación para que se parezca
un poco pero sigue sin sonar parecido a como ella suena en la serie. Además de que el tono es completamente monótono. Lo interesante de de Zonos además de usar data mínima para clonar la voz es que captura las emociones y se pueden ponderar en la generación, en el vidéo del OP le subí la marca a "enojo" y Hilda comenzó a sonar enojada.
Pero al final de cuentas estoy aquí no el TTS, sino por la herramienta de generación de voces, así que probaré con eso y luego les cuento como salió.