OpenAI buduje narzędzie do generowania muzyki. Jak to wpłynie na rynek audio?

Według raportu opublikowanego w The Information, firma OpenAI pracuje nad nowym narzędziem, które miałoby generować muzykę na podstawie promptów tekstowych i dźwiękowych. W raporcie tym wykazano między innymi, że OpenAI współpracuje ze studentami nowojorskiej szkoły muzycznej Juilliard School, którzy mają oznaczać partytury muzyczne, by OpenAI mogło stworzyć bazę danych do trenowania przyszłej aplikacji.

W ostatnim czasie OpenAI skupiało się raczej na modelach dźwiękowych do zamiany tekstu na mowę i mowy na tekst. Inne firmy jednak nie próżnują. Na początku tego miesiąca Spotify ogłosiło współpracę z głównymi amerykańskimi wytwórniami muzycznymi: Sony, Universal i Warner, w celu opracowania "odpowiedzialnych produktów AI". Spotify już teraz wykorzystuje sztuczną inteligencję do tworzenia spersonalizowanych playlist oraz funkcję AI DJ, która personalizuje sesję odsłuchową, proponując użytkownikom utwory podobne do tych, których już słuchali. Platforma udostępnia też muzykę generowaną przez AI. Google, Suno oraz inne firmy technologiczne – na przykład ElevenLabs – również mają platformy muzyczne oparte na AI i pracują z muzyką generowaną przez sztuczną inteligencję.

OpenAI też już wcześniej tworzyło modele generatywne do tworzenia muzyki. Powstawały one nawet jeszcze przed premierą ChatGPT. W 2019 roku, kilka lat przed eksplozją popularności ChatGPT, firma uruchomiła MuseNet – sieć neuronową, która potrafiła tworzyć czterominutowe kompozycje z wykorzystaniem dziesięciu różnych instrumentów. O możliwościach MuseNet niech świadczy udostępniany przez firmę przykład, który pokazywał jak aplikacja potrafi przekomponować "Rondo Alla Turca" Wolfganga Amadeusza Mozarta na styl Fryderyka Chopina. W kolejnym roku OpenAI opracowało Jukebox – sieć neuronową do generowania muzyki i śpiewu w różnych gatunkach, na podstawie danych o stylu, artyście i tekście.

Nie wiadomo kiedy OpenAI planuje wprowadzić nowe narzędzie, ani czy będzie ono dostępne jako samodzielny produkt, czy też zostanie zintegrowane z ChatGPT lub aplikacją wideo Sora. Niemniej jednak prace trwają, więc zapewne wkrótce należy spodziewać się aplikacji, która ma ambicje zmienić zasady gry w zakresie tworzenia i odbioru muzyki.

Z kolei rynek muzyczny wyraża obawy dotyczące praw autorskich. Europejskie organizacje branży muzycznej, w tym Europejska Federacja Kompozytorów i Autorów Piosenek (ECSA) oraz Europejska Grupa Towarzystw Autorów i Kompozytorów (GESAC) alarmują, że aktualne prawo nie chroni twórców, których dzieła są wykorzystywane do trenowania generatywnych modeli AI. W Stanach Zjednoczonych Suno i Unido zostały oskarżone przez Recording Industry Association of America (RIAA) o nielegalne pobieranie utworów z YouTube’a, by wykorzystać je do trenowania swoich modeli AI. Universal Music Group również prowadzi proces o naruszenie praw autorskich przeciwko firmie AI Anthropic. Trudno jednak sobie wyobrazić, by pozwy i obawy powstrzymały największego gracza w AI przed kontynuacją prac nad aplikacją. Dlatego warto zastanowić się nad tym, jaki to może mieć wpływ na kształt rynku audio. Jak to może wyglądać zarówno z perspektywy producentów, jak i klientów tego rynku?

Co to może oznaczać dla producentów sprzętu audio?

Rozwój narzędzi AI do generowania muzyki może być zarówno ogromną szansą, jak i poważnym wyzwaniem. Mogą pojawić się nowe rynki i zastosowania sprzętu audio. Jeśli generatywna muzyka stanie się powszechna, popyt na wysokiej jakości odsłuch domowy i studyjny może wzrosnąć – ludzie będą chcieli słuchać "perfekcyjnie wygenerowanego" dźwięku w pełnej jakości. Firmy mogą tworzyć sprzęt zoptymalizowany do muzyki generatywnej, na przykład kolumny lub elektronikę, dostosowujące charakter brzmienia do "AI-sound signatures".

Muzyka generowana przez AI może mieć wpływ na projektowanie i testowanie sprzętu – pomagać producentom symulować warunki akustyczne, projektować obudowy, analizować odpowiedź częstotliwościową i optymalizować komponenty. Modele muzyczne dostarczą realistycznych, zróżnicowanych próbek testowych, lepszych niż tradycyjne, co może poprawić proces strojenia sprzętu. Możliwe będą inteligentne systemy autokalibracji, które dostosują się nie tylko do pomieszczenia, ale i do rodzaju generowanej muzyki.

Natomiast jeśli generatywna muzyka stanie się wszechobecna i odtwarzana głównie przez smartfony, głośniki Bluetooth i platformy streamingowe, może też spłaszczyć oczekiwania słuchaczy wobec jakości dźwięku. W efekcie rynek hi-endowego sprzętu może się skurczyć. Jeśli ludzie przestaną doceniać różnice między "wystarczająco dobrym" a "wybitnym" brzmieniem. Z drugiej strony, dla wąskiej grupy pasjonatów może to wzmocnić kult jakości dźwięku – tak jak winyle stały się luksusową kontrkulturą wobec streamingu.

Być może producenci będą mogli oferować sprzęt reagujący na generatywną muzykę w czasie rzeczywistym, na przykład wzmacniacze, które analizują sygnał AI i dostosowują charakterystykę do preferencji słuchacza. Zaawansowana personalizacja i integracja z AI może stać się znaczącym kierunkiem rozwoju na rynku audio. Możliwe jest powstanie urządzeń, które łączą odtwarzacz muzyki i generator AI – użytkownik wpisuje opis ("jazzowy wieczór w stylu lat 60."), a system tworzy i odtwarza muzykę w jednym ekosystemie. To szansa na sprzęt z wbudowaną inteligencją audio, na przykład AI-DAC, który uczy się gustu użytkownika.

Wraz z muzyką generatywną rola sprzętu może się przesunąć z "odtwarzania" na "uczestnictwo w tworzeniu". Urządzenia staną się częścią procesu kompozycji, miksu i odsłuchu. Firmy będą musiały nawiązywać partnerstwa z dostawcami AI i oprogramowania, aby ich produkty pozostawały kompatybilne z nowymi formatami i systemami generatywnymi. Wartość sprzętu może być coraz bardziej zależna od integracji z ekosystemem AI, a nie tylko od jakości komponentów analogowych.

Nie bez znaczenia jest też wpływ kulturowy i marketingowy nowych narzędzi AI. Marki audio będą musiały zredefiniować pojęcie "naturalnego dźwięku", skoro muzyka sama w sobie nie będzie naturalna, lecz syntetyczna. Marki zaczną mówić o nowych benefitach swojego sprzętu: "sprzęt stworzony, by wydobyć emocje nawet z muzyki AI". Marki premium mogą też wręcz promować się jako obrońcy "prawdziwego brzmienia", stawiając się w opozycji do algorytmicznej perfekcji.

Możliwe, że pojawią się nowe standardy techniczne, nowe formaty plików audio generatywnych, zawierające dane o strukturze muzyki zamiast samego zapisu falowego. Sprzęt audio będzie musiał je obsługiwać, czyli na przykład dekodować muzykę z modelu AI. To może oznaczać konieczność implementacji procesorów AI w urządzeniach audio (np. w streamerach, amplitunerach, słuchawkach).

A co z perspektywy melomanów?

Melomanom narzędzia AI mogą dostarczać nowych źródeł muzyki i nowych możliwości odsłuchu. Mogą tworzyć muzykę o perfekcyjnej jakości technicznej – bez szumów, błędów miksu czy niedoskonałości nagrań. Audiofile będą mogli eksperymentować z generowaniem muzyki dokładnie pod swoje preferencje: określony balans tonalny, przestrzeń, dynamika, instrumentarium. Możliwe stanie się tworzenie muzyki dostrojonej do konkretnych systemów audio – na przykład generowanej specjalnie pod dany zestaw kolumn czy słuchawek.

Skutkiem rozwoju muzyki generatywnej może być jednak utrata "ludzkiego pierwiastka" w muzyce. Dla wielu audiofilów istotna jest emocjonalna autentyczność wykonania – drobne niedoskonałości, niuanse gry muzyków, naturalne brzmienie instrumentów akustycznych. Muzyka generowana przez AI, nawet jeśli technicznie doskonała, może być pozbawiona charakteru i duszy. Istnieje zatem ryzyko, że rynek zostanie zalany sterylnymi, "idealnymi" nagraniami, które nie oferują prawdziwego przeżycia muzycznego. No, chyba że AI będzie konfigurowane na generowanie "niedoskonałej" muzyki, nie do odróżnienia od muzyki wykonywanej przez człowieka.

Muzyka generatywna może spowodować zmianę w sposobie kolekcjonowania i oceniania nagrań. Jeśli muzyka będzie generowana w sposób nieskończenie zmienny (np. każda wersja inna), zaniknie idea "jednego kanonicznego nagrania". Audiofile mogą mieć trudność z oceną jakości nagrania – skoro każdy utwór może być renderowany w innej wersji lub jakości, referencyjne wydania i masteringi stracą znaczenie. Z drugiej strony, AI może generować muzykę w formacie hi-res audio lub z emulacją konkretnych technik studyjnych (np. analogowego masteringu), co też może być atrakcyjne.

Audiofil mógłby zatem przyjąć nową rolę: kuratora i selekcjonera dźwięków. W świecie zalanym muzyką generatywną, wartość może przesunąć się z "słuchania wszystkiego" na umiejętność wyboru – znajdowania utworów, które naprawdę brzmią wyjątkowo. Audiofile mogą stać się nowymi kuratorami jakości dźwięku AI, oceniając, które modele i parametry generacji tworzą najbardziej naturalne lub też najbardziej atrakcyjne brzmienie.

Możliwe będzie też generowanie spersonalizowanych remiksów i wersji utworów zoptymalizowanych pod konkretne pomieszczenie odsłuchowe. AI może pomóc w automatycznej korekcji akustyki pokoju lub generowaniu testowych ścieżek audio do kalibracji sprzętu.

Czy zrekompensuje to jednak potencjalne ryzyko utraty wartości kulturowej muzyki? Wartość audiofilska nagrań muzycznych opiera się nie tylko na jakości dźwięku, ale też na kontekście i historii nagrania – kto grał, w jaki sposób, w jakim miejscu. Jeśli muzyka stanie się "produktem algorytmu", może zaniknąć emocjonalna więź z artystą i zjawisko "słuchania albumu jako dzieła".