Искусственный интеллект для извлечения и редактирования отдельных инструментов в песне

Новейший AI от MIT умеет работать с музыкой беспрецедентным образом.

Когда песню публикуют, она представляет собой свою финальную форму. Это один аудио файл, который практически невозможно разделить на отдельные инструменты и голоса.

Многие компании работают над созданием искусственных интеллектов, которые могут делать различные процессы более эффективными, включая музыку. Так же существуют более сложные способы идентификации отдельных компонентов для лицензионных целей. Представьте себе Shazam с более глубокой идентификацией.

И вот произошел очередной прорыв

Массачусетский технологический институт (MIT) анонсировали создание нового AI, который умеет изолировать отдельные инструменты внутри музыкального произведения. Что еще лучше, он дает возможность редактировать эти элементы, удалять их или делать ремиксы любым угодным способом.

«Прошедшая подготовку на более чем 60 часах музыкальных видео, система «PixelPlayer» демонстрирует невиданный прежде уровень производительности, идентифицирование отдельных инструментов на пиксельном уровне и извлечение звуков, принадлежащих этим инструментам»,- заявили в MIT.

Например, возьмем видео с заглавной темой «Super Mario Brothers» с трубой и тубой и разделим звуковые волны каждого инструмента.

Возможности нового искусственного интеллекта могут серьезно изменить редактирование аудио.

Например, функция разделения может сделать возможным безупречное восстановление звука старой музыки. Также учителя музыки могут изолировать инструменты в видео с оркестром для прослушивания учениками. Возможностей множество.

Хан Джао, ведущий автор проекта, представил для рассмотрения наилучший сценарий, в котором исследователи смогут различать каким инструментам принадлежит конкретный звук.

«Мы с удивлением обнаружили, что действительно можем определить точную позицию инструментов на пиксельном уровне»,- заявил Джао. «Эта возможность открывает нам множество других, например, редактирование аудио отдельных инструментов с помощью одного клика на видео».

Что это означает? Технология глубокого обучения значит, что искусственный интеллект может отличать разнообразные паттерны независимо от их сложности, используя нейросети, примененные в предыдущих видео.

В PixelPlayer используется отдельная нейросеть для визуальной составляющей, отдельная для аудио и еще одна для конкретных пикселей с определенными звуковыми волнами, что позволяет делить различные звуки.

Более того, PixelPlayer саморегулируется на глубинном уровне, что означает невозможность MIT и их инженеров всегда точно узнать, как AI учится определять какой звук производит конкретный инструмент.

ИСТОЧНИК: Digital Music News

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.