Об этом сообщает «Politexpert» со ссылкой на TC
Новый проект под названием NotebookLlama использует собственные языковые модели Meta, что позволяет загружать текстовые файлы, из которых система создает имитацию подкастов.
NotebookLlama сначала конвертирует загруженные файлы, например, статьи или блог-посты, в текст, а затем добавляет элементы драматизации и прерывания для создания более живого диалога. Получившаяся расшифровка проходит через открытые модели синтеза речи, позволяя системе воспроизводить подкасты на основе текста.
Однако, в сравнении с Google NotebookLM, аудиозаписи Meta оставляют ощущение некоторой искусственности. Голоса могут накладываться друг на друга и звучат роботизированно. Исследователи Meta признают, что улучшение качества возможно с применением более мощных моделей синтеза речи.
Они также отметили, что будущее развитие проекта может включать написание сценариев для подкастов с участием двух агентов, которые могли бы обсуждать или дебатировать тему, а не полагаться на единый подход.
NotebookLlama — лишь одна из многих попыток конкурировать с Google в сегменте генерации аудио. Все подобные проекты, включая сам NotebookLM, сталкиваются с проблемой «галлюцинаций» — непреднамеренного добавления в аудиофайлы вымышленных данных, что остается значительной трудностью для любых ИИ-решений, нацеленных на создание контента.
Напомним, ранее мы писали о том, что автономные автомобили становятся все более реальной частью транспортной системы.
Комментировать