Сервис «VK Видео» запустил новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в шоу, клипах, профессиональных и любительских роликах, а также в другом контенте. Эти инновации позволили повысить точность анализа и расшифровки на 25 %.
Качество субтитров также улучшилось благодаря тому, что нейросети быстро осваивают лексику. ИИ уже знаком с тысячами новых слов, включая профессиональные термины, имена собственные, акронимы и мемы. В ближайшем будущем нейросети смогут разделять на отдельные фразы речь различных спикеров, что сделает субтитры ещё более точными и удобными для чтения.
Процесс создания автоматических субтитров включает несколько этапов работы ML-моделей, которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Аудиопоток проходит через несколько стадий обработки. На первом этапе нейросеть устраняет посторонние шумы, распознает речь и преобразует её в текст. Далее модели пунктуации и денормализации превращают распознанные слова в легко читаемый текст. В финале ИИ синхронизирует текст с аудиодорожкой.
Популярность субтитров увеличивается, поскольку они удобны для просмотра видео без звука и помогают людям с нарушениями слуха. По данным сервиса, 11 % аудитории «VK Видео» активно использует субтитры, и их доля увеличилась на 28 % за последний месяц.
Источник: CNews