- 66
- 7
Добрый день! Мне бы хотелось рассказать вам, господа, мою историю:
Многие знают, что канал Glitch резко стал популярным. Эта новость не прошла мимо меня, поэтому я посмотрел сериал "Дроны-убийцы". Мне показалось хорошей идеей сделать модель голоса N, потому что, во-первых, он у него очень приятный и драйвовый, во-вторых, я уже давно желал сделать хотя бы какую-нибудь качественную модель. "Качественную" - ключевое слово.
Так я собрал датасет, который состоит из 36 аудио-файлов с первого выпуска, начал машинное обучение на основе RVC v2. 500 эпох тренировок спустя я решил проверить, всё ли получилось. И понял, что ничего не получилось: голос совсем не похож на голос самого персонажа.
Теперь я сижу и думаю, что могло пойти не так: вроде бы, всё обрезал, отделил от тихой музыки. Есть ли здесь те, кто как бы "шарит" в этой теме? Вам вопросы:
1) Могло ли на ИИ повлиять то, что N очень часто менял свою интонацию (то он говорил шёпотом, то взволновано и т.д.)? Т.е. стоит ли мне оставить лишь те аудио, где N говорит более-менее обычно? Или вообще создать новый датасет, основываясь на другие серии?
2) Правильно я ли сделал, что каждую речь героя обрезал на несколько частей, состоящих из 3-5 секунд?
3) Мне кажется, что 36 файлов как-то многовато. Какое количество аудио было бы вполне достаточно для тренировки нейросети?
Жду не дождусь услышать вашего мнения, эксперты.
Ниже сама модель и датасет (можете проверить, если интересно).
.pth
.index
Многие знают, что канал Glitch резко стал популярным. Эта новость не прошла мимо меня, поэтому я посмотрел сериал "Дроны-убийцы". Мне показалось хорошей идеей сделать модель голоса N, потому что, во-первых, он у него очень приятный и драйвовый, во-вторых, я уже давно желал сделать хотя бы какую-нибудь качественную модель. "Качественную" - ключевое слово.
Так я собрал датасет, который состоит из 36 аудио-файлов с первого выпуска, начал машинное обучение на основе RVC v2. 500 эпох тренировок спустя я решил проверить, всё ли получилось. И понял, что ничего не получилось: голос совсем не похож на голос самого персонажа.
Теперь я сижу и думаю, что могло пойти не так: вроде бы, всё обрезал, отделил от тихой музыки. Есть ли здесь те, кто как бы "шарит" в этой теме? Вам вопросы:
1) Могло ли на ИИ повлиять то, что N очень часто менял свою интонацию (то он говорил шёпотом, то взволновано и т.д.)? Т.е. стоит ли мне оставить лишь те аудио, где N говорит более-менее обычно? Или вообще создать новый датасет, основываясь на другие серии?
2) Правильно я ли сделал, что каждую речь героя обрезал на несколько частей, состоящих из 3-5 секунд?
3) Мне кажется, что 36 файлов как-то многовато. Какое количество аудио было бы вполне достаточно для тренировки нейросети?
Жду не дождусь услышать вашего мнения, эксперты.
Ниже сама модель и датасет (можете проверить, если интересно).
.pth
.index
Вложения
Последнее редактирование: