«VK Видео» обновил ИИ-технологию распознавания речи: точность возросла на 25%
Новые алгоритмы искусственного интеллекта взяты на вооружение сервисом «VK Видео» для автоматического распознавания речи и синтеза субтитров в шоу, клипах, профессиональных и любительских роликах, другом контенте. Благодаря работе ИИ точность анализа и расшифровки стала выше на 25 %.
Улучшению качества субтитров способствует и быстрое освоение лексики нейросетями. ИИ уже знает тысяч новых слов, в том числе профессиональные термины, имена собственные, акронимы и мемы. В ближайшей перспективе нейросети овладеют способностью разделять речь разных спикеров на отдельные фразы, что также поможет сделать субтитры более правильными и удобными для чтения.
ИИ-технология создания автоматических субтитров представляет собой поэтапную работу ML-моделей, формирующих текст, расставляющих знаки препинания и синхронизирующих полученный результат с видео. Таким образом, аудиопоток проходит несколько стадий обработки.
На первой стадии нейросеть удаляет посторонние шумы, распознает речь и компонует текст. Затем к работе приступают модели пунктуации и денормализации, превращая распознанные слова в грамотный текст, который удобно читать. В заключение ИИ полученный текст синхронизирует с аудиодорожкой.
Популярность субтитров, которая последовательно растет, объясняется тем, что они удобны при просмотре видео с выключенным звуком. Кроме того, технология помогает людям с нарушениями слуха. Сервис приводит следующие цифры: среди всей аудитории «VK Видео» субтитрами пользуется 11 % людей. При этом их доля увеличилась на 28 % только за последний месяц.
Источник: CNews