Digital mess: Hudba z dílny umělé inteligence VAIBE

Na tyto otázky odpovídají šikovní lidé po celém světě. Česká republika nezaostává a já jsem velice rád že se nám v rámci projektu obscurefreaks.cz podařilo ulovit Daniela Kvaka, jež je autorem projektu VAIBE. Užijte si toto velice obohacující interview.

Na úvod bych se tě rád zeptal, jestli bys mohl čtenářům projekt VAIBE představit?

Jasně. Jádrem programu VAIBE je hluboká neuronová síť, která slouží k automatickému učení žánrů z jakéhokoli hudebního datasetu. Cílem projektu je nalézt praktické využití umělé inteligence v rámci algoritmické kompozice.

Jak VAIBE funguje v praxi?

VAIBE využívá metod hlubokého učení k napodobování svých vstupů. Ačkoliv to může znít zvláštně, hudba se v mnohém podobá formálním jazykům. Představ si Antonína Dvořáka, který by pro kompozici místo notové sazby používal prediktivní zadávání textu. To je VAIBE.

Jak jste začínali a co pro vás bylo v začátcích nejtěžší?

Musím přiznat, že v začátcích jsem disponoval asi jen nadšením dělat něco jiného. Umělá inteligence je často nepochopený obor, který bývá zneužíván jako moderní buzzword. Pro laiky pak představuje AI obtížně uchopitelné téma, jež si nejčastěji spojí s filmovým hrdinou Terminátorem, robotem Sophií nebo tančícím psem z dílny Boston Dynamics.

Tato představa je ale veskrze mylná, přesto je živena nejen médii, ale paradoxně i komerčními startupy, jejichž cílem je přesvědčit investory, proč právě jejich model představuje tu opravdovou, nefalšovanou umělou inteligenci. Ani já na tom nebyl moc jinak. Ještě několik měsíců před založením VAIBE jsem vůbec netušil, co znamená backprop, k čemu se používá softmax, ani co je to LSTM síť. Naštěstí mám už teď vedle sebe parťáka, díky kterému se můžu soustředit jen na samostatný vývoj projektu.

Ty sám produkuješ hudbu?

Popravdě od střední školy nedělám nic jiného. Vytvářím sample packy, komponuji hudbu do reklam, vytvářím instrumentální skladby pro zpěvačky, přednáším o hudební produkci v rámci workshop a v posledním roce se konečně věnuji i vlastnímu Drum & Bass projektu, Decades. Vždy jsem se ale považoval za producenta spíše než za performera, mám rád komfort a klid studia.

Co děláš ve volném čase, když se zrovna nevěnuješ hudbě?

Na hudbě pracuji většinu každého dne. Pokud zrovna sám neprodukuji, pak trénuji modely, popřípadě píšu odborné články, kde se věnuji – jak jinak – hudbě. Přesto si nemyslím, že bych byl hudbou úplně pohlcen, jen mi přijde, že je vždy co objevovat, co vyzkoušet.

Jak ses k tomu dostal a máš nějaký oblíbený počin v rámci AI music, který tě k tomu dovedl?

V průběhu psaní bakalářské práce na téma payola jsem narazil na několik zdrojů, jež zmiňovaly využití generativní umělé inteligence k vytváření jednoduchých podkresových skladeb. Firma Spotify se takovému nařčení brání, přesto mě téma zaujalo natolik, abychom se mu začal věnovat blíže. S krátkým časovým odstupem jsem narazil na akademický projekt folk-rnn, který konečně nepodporoval kulturní fetiš, jež se k AI v posledních letech váže, nýbrž opravdu popisoval jednotlivé vědecké i populární fenomény, které se ke generativnímu umění vážou.

V čem se od nich VAIBE liší?

Hlavní výhodou, kterou VAIBE oproti obdobným projektům přináší, je možnost generovat vícehlasé skladby. Většina dřívějších prací se rozhodla obejít tuto překážku určitými způsoby, tak, aby byl problém snadněji řešitelný. Zatímco populární model folk-rnn dokáže generovat pouze jednostopou monofonní transkripci, jiné modely tyto jednoduché melodie doprovázejí akordy v souladu s pravidly kompozice.

VAIBE může být taktéž natrénován na libovolném hudebním datasetu. Díky tomu v současnosti připravujeme nejen modely pro generování klasické hudby, ale taktéž pracujeme s vlastními korpusy, jež obsahují i transkripce moderních Trap a Hip-Hop skladeb.

Můžeš povědět něco o skladbách, které jste již vyprodukovali, a kde můžeme vaši tvorbu najít?

Prvním modelem, který jsem stvořil, byl natrénován na melodiích, které jsem v průběhu posledních let zkomponoval. To byl samozřejmě fantastický pocit, slyšet výstup neuronové sítě dává totiž umělci zdánlivý dojem vlastní nesmrtelnosti. Něco takového musí člověk přijmout s rezervou a pokorou, přeci jen hovoříme o notaci. Na druhou stranu, právě notace je díky symbolickému zápisu nositelem znalostní reprezentace.

Nedávno jsem získal obsáhlou knihovnu s hudebními partiturami některých úžasných skladatelů, takže poslední měsíce jsem trávil především kategorizací jednotlivých dat. Navzdory tomu jsem našel chvíli, abych model natrénoval na pouhých 15 skladbách Antonína Dvořáka:

VAIBE Neural Network: #1 A. Dvořák stands for Artificial Dvořák! Musím zmínit, že to, co slyšíte, je čistý, neupravený výstup neuronové sítě. Jasně, i my bychom mohli zaplatit profesionálním muzikantům, kteří by skladby zhudebnily, nemyslíme si ale, že by z takového opíjení rohlíkem profitoval. V tomto případě sdílím názor etnomuzikologa Matěje Kratochvíla z AV ČR, jež ve svém textu kritizuje hudbu jako pouhou dekoraci byznysu.

Jaká je tvá vize do budoucna?

Našim záměrem samozřejmě není nahrazení muzikantů, přesto si myslím, že podstatná část hudebního průmyslu projde v budoucnu určitou transformací. Už i Pythagoras totiž věděl, že muzikologická struktura je veskrze matematická, třebaže se stále nedaří vyjádřit estetickou hodnotu děl pomocí matematický rovnic. Domnívám se, že než budeme schopni verifikovat, či snad pouze definovat téma komputační kreativity, čeká nás ještě náročná cesta. Přístupy založené na strojovém učení sice dokázaly přesvědčivě napodobovat výstup na kratších hudebních úsecích, žádná ze současných modelů ovšem nedokáže vytvořit delší koherentní skladby. To je určitě jeden z fenoménů, na který bych se rád během své disertace zaměřil.

Na závěr, našlo by se u tebe něco, o co by ses mohl se čtenáři webu podělit?

Ačkoliv, nebo právě proto, že je dnes umělá inteligence hojně rozšířeným buzzwordem, zájemce o toto téma by neměl důvěřovat zběžnému pohledu. Přestože velká část z nás zainteresovaných spadá do skupiny, jež vyrostla na úžasných sci-fi snímcích, které nás dokážou uchvátit i vyděsit, vše, co tento zdánlivě záhadný, futuristický obor potřebuje, je kritický pohled. Právě nutnost vědecké, kulturní a v neposlední řadě i mediální verifikace je mazivem v soukolí technologického vývoje.

Danovi vřele děkujeme za interview, a ať se daří. Na závěr se podívejte na nejnovější kousek z dílny VAIBE:

VAIBE Neural Network: #2 What happens when an AI meets a real pianist?

Digital mess: Hudba z dílny umělé inteligence VAIBE

Cyber sex: Deepfakes v pornografii část 2.

Cyber sex: Deepfakes v pornografii část 1.