ИИ в «VK Видео» стал точнее распознавать речь и создавать субтитры

Сервис «VK Видео» запустил новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в шоу, клипах, профессиональных и любительских роликах, а также в другом контенте. Эти инновации позволили повысить точность анализа и расшифровки на 25 %.

Качество субтитров также улучшилось благодаря тому, что нейросети быстро осваивают лексику. ИИ уже знаком с тысячами новых слов, включая профессиональные термины, имена собственные, акронимы и мемы. В ближайшем будущем нейросети смогут разделять на отдельные фразы речь различных спикеров, что сделает субтитры ещё более точными и удобными для чтения.

Процесс создания автоматических субтитров включает несколько этапов работы ML-моделей, которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Аудиопоток проходит через несколько стадий обработки. На первом этапе нейросеть устраняет посторонние шумы, распознает речь и преобразует её в текст. Далее модели пунктуации и денормализации превращают распознанные слова в легко читаемый текст. В финале ИИ синхронизирует текст с аудиодорожкой.

Популярность субтитров увеличивается, поскольку они удобны для просмотра видео без звука и помогают людям с нарушениями слуха. По данным сервиса, 11 % аудитории «VK Видео» активно использует субтитры, и их доля увеличилась на 28 % за последний месяц.

Источник: CNews

ИИ в «VK Видео» стал точнее распознавать речь и создавать субтитры

Поделиться новостью