/ac/ - Hilo de Text to Speech

Opciones
Título
Mensaje	Máximo de caracteres: 12000
archivos	Arrastra archivos aquí para subirlos o click aquí para seleccionarlos 0.00 / 50.00 MB Tamaño máximo de archivo: 32.00 MB Tamaño máximo de archivo en total: 50.00 MB Numero máximo de archivos: 5 Supported file types: GIF, JPG, PNG, WebM, OGG, and more

Correo
Clave	(usado para eliminar archivos y mensajes)
Misc

Hilo de Text to Speech Anónimo 22/02/2025 (Sab) 06:03:15 № 52340

¿Se acuerdan de Loquendo? pues esto es básicamente lo mismo solo que con la magia del aprendizaje máquina™ ahora es posible copiar las voces de nuestros personajes de dibujos favoritos. También se vale discutir acerca de TortoiseTTS y 11labs pero este hilo en concreto lo quiero para hablar de Zonos https://github.com/Zyphra/Zonos Pues tiene una herramienta de clonación de voz bastante sencilla que funciona con data mínima y que produce resultados bastante buenos. Hice vidrels usando una pista de audio de 55 y 12 segundos respectivamente. Así que denme ideas para memes, personajes y pastas que les gustaría que sus waifus les lean y yo les cumplo, soy su negro. También si tienen una gráfica de más de 6GB les puedo enseñar como correr el software localmente.

Anónimo 25/02/2025 (Mar) 03:20:28 № 52462

He estado tratando de instalar RVC y francamente es una porquería, su repo está muy mal documentada, un montón de reportes de errores no son levantados sino meses después de haber sido registrados (si es que son levantados); además de que aparentemente en todo internet cada persona trabaja con una UI diferente. Se ve que la herramienta es potente, pero la experiencia con ella es simplemente una cagada.

Anónimo 28/02/2025 (Vie) 06:53:36 № 52591

>>52462 No soy Op pero calmate negro, zonos salio hace una semana. Ademas que no cuesta ni un peso lel. Also aca un espacio en hugging face de zonos. https://huggingface.co/spaces/Steveeeeeeen/Zonos

Anónimo 08/03/2025 (Sab) 03:58:25 № 52827

>>52591 Me has entendido mal, no me estoy quejando de Zonos, me estoy quejando de RVC, este proyecto de generación de textos https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Paśe varios días peleándome con versiones de Python y errores de dependencias para hacerlo correr, decidí indagar en su Discord a ver si alguien me podía dar una mano y descubrí que el proyecto estaba turbo abandonado y le habían sacado múltiples forks. Decidí probar un fork que parecía superficialmente más activo y era recomendado por uno de los devs, pero resultó ser más de lo mismo: Dependency hell. Luego de preguntar bastante di con este proyecto https://github.com/IAHispano/Applio Que aparte de tener que bajar el Numpy a 1.23 y hacer una modificación al archivo app.py para conectarme a mi servidor no tuve ningún problema. Estoy probando ahora mismo su TTS con este modelo de Hilda https://voice-models.com/model/1BdmAeKIpxL Y el resultado me parece pésimo. La generación le agregó un acento estadounidense bien marcado y por defecto no suena como Hilda, tuve que subirle el pitch a la generación para que se parezca un poco pero sigue sin sonar parecido a como ella suena en la serie. Además de que el tono es completamente monótono. Lo interesante de de Zonos además de usar data mínima para clonar la voz es que captura las emociones y se pueden ponderar en la generación, en el vidéo del OP le subí la marca a "enojo" y Hilda comenzó a sonar enojada. Pero al final de cuentas estoy aquí no el TTS, sino por la herramienta de generación de voces, así que probaré con eso y luego les cuento como salió.

Anónimo 08/03/2025 (Sab) 05:27:26 № 52836

>>52827 Lamento el retraso pero sigo sin entender kek. Also si de algo sirve aca hice un post sobre IAs de audio. >>>/hisparefugio/293027

Anónimo 08/03/2025 (Sab) 19:08:52 № 52845

>>52836 Tengo un servidor local donde despliego mi software de inferencia. Funciona con una AMD de 6 nucleos, una tarjeta Nvidia 3060 de 12GB y 16GB de memoria. Cuando instalas un software este también necesita instalar más software secundario llamado dependencia. a veces una dependencia es modificada, así que el desarrollador del software tiene que darle seguimiento para que el producto final siga funcionando, lo que sucede es que a veces eso no sucede o si lo hace lo acaba haciendo de manera mediocre, así que uno mismo tiene que manualmente averiguando por qué X dependencia rompe el software y eso es un dolor de culo tremendo. Estuve probando con las voces de Hilda y otros personajes que logré que me compartieran hace tiempo y; sorprendentemente, it just works. Lo puse en la pestaña de "descargar voces" y funciona perfectamente. También me di cuenta que en el TTS puedes configurar qué voz usar como base, así que estuve probando con varias voces con acento británico y encontré una que suena más parecido a como suena la Hilda de verdad. También estuve jugando con voces en español con resultados mixtos. >Also si de algo sirve aca hice un post sobre IAs de audio. >>>/hisparefugio/293027 Gracias, pero todo el software que has mencionado ahí es de TTS, lo que estoy buscando son generador de voces; o sea, al programa le doy un audio de una persona hablando y me deuvelve el audio de un personaje diciendo lo mismo con el mismo tono para hacer covers IA y un modulador de voz, o sea, yo hablo en vivo al micrófono y las personas que me escuchan les suena con otra voz; digamos, la de Batman o de Bob Esponja. El TTS es entretenido pero luego de 2 décadas de Loquendo como que ya acabé quemado con eso, además de que la mayoría tiene tonos neutrales bastante aburridos, lo divertido de Zonos es que pondera emociones.

Anónimo 08/03/2025 (Sab) 19:35:47 № 52847

Adjunto un voice cover que hice. Applio no separa audio de instrumental por defecto, así que tuve que usar este programa para hacerlo https://ultimatevocalremover.com/ Programa por el cuál también pasé por dependency hell para correrlo y que no pude correrlo en mi servidor; aunque en mi cliente funciona sin problemas, estoy seguro que podría modificarse para que la UI sea una webapp y correrlo remotamente, pero no seré yo la persona que averigüe como. Otra cosa importante, luego de exportarlo solamente tenía el vocal solo, tuve que importarlo a Audacity, eliminar los artefactos manualmente y combinarlo con el instrumental (que UVR también generó); dejé algunos donde sonaba como que Hilda estaba tarareando porque me parecieron tiernos. Así que no es un trabajo de "le doy click a un botón y listo" como algunos pendejitos tratan de hacer lucir. Me gustó el resultado final. Para comparar agrego otro cover IA que hice con Kits AI (un servicio online) hace tiempo, ambos con el mismo modelo. Creo que es bastante parecido, hasta indistinguible, y el hecho de estar haciendo selfhosting me da más versatilidad para modificar cosas menores, estoy seguro que alguien con conocimiento real de Audacity podría generar algo más cercano a la voz de Hilda.

Anónimo 08/03/2025 (Sab) 21:10:16 № 52849

>>52845 Oh ok anon, ya entendi kek, Gracias por la explicacion lel. Te refieres a modelos de Audio a Audio. Estuve buscando y lo unico que encontre fue este espacio para clonar voces con RVC V2, Es antiguo (2023) asi que no se que tal sirva. https://huggingface.co/spaces/Clebersla/RVC_V2_Huggingface_Version >>52847 Pura calidad esos covers, tienes talento anon. Also me encontre otro espacio para los covers AI ~~ni idea si sirve kek~~ Se llama AICoverGen https://huggingface.co/spaces/adamnusic/nusic-voice-cover-cpu

Anónimo 09/03/2025 (Dom) 21:34:14 № 53273

>>52849 Me pasaron esta guía en el Discord de RVC (Como para que te hagas una idea que inclusive en su Discord oficial están podridos con el terrible desarrollo del software) donde sugieren varios software para las tareas en las que estoy tratando de completar: https://unknown.spam/forkvoicechangerguide por ahora Applio funciona de maravilla pero veré si los que compartiste puedo subirlos a mi servidor. >tienes talento anon En realidad no; no es complicado. Solamente es jugar con los valores y preguntar bastante, no sé casi nada de Audacity, pero si creo que alguien que sepa usarlo podría sacarle más provecho. Adjunto dos covers que hice de Мелькает огонёк во тьме (una luz resplandece en la oscuridad), siendo que es ruso no esperaba buenos resultados, pero me gustó mucho el resultado final, especialmente en el tercer coro cuando comienza a cantar acerca de extrañar su hogar más allá del cáucaso sonó bastante orgánico y similar a como suena Bella Ramsey. Noté que UVR tiene un modelo para eliminar eco, así que lo usé para generar otra versión de la canción en la que traté de quitarle los ecos.

Anónimo 10/03/2025 (Lun) 03:14:49 № 53295

Hice uno donde Hilda canta To Server Russia y me quedó bastante genial. Usé esta canción como referencia https://youtu.be/9zQczndNn0A

Anónimo 10/03/2025 (Lun) 05:28:20 № 53300

>>53273 >>53295 Increibles canciones, estan mejor que el 90% de las cosas para normies kek. Also encontre un espacio reciente para TTS. Supuesta es el mejor clonador de voces actualmente, Que puede y te interese. https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS

Anónimo 12/03/2025 (Mie) 04:13:30 № 53335

Hice este de Hilda cantando "No le digas a mamá que estoy en Ucrania" y me quedó bastante bien. El software que separa letra de instrumental es bastante bueno en canciones con guitarra acústica. Estoy seguro que debe de existir en alguna parte un dibujo de Hilda vestida como integrante del Batallón Tormenta-Z pero ni idea de donde encontrarlo, así que picrel es lo más parecido que pude encontrar.

Respuesta rápida


Sage Revisión de Bypass