Mali poljski start up, ki je spremenil industrijo računalniških glasov

Ljudje Forbes 20. decembra, 2025 15.17
featured image

Računalniški glasovi podjetja ElevenLabs so tako prepričljivi, da bi lahko pretentali vsakogar. To je hkrati blagoslov – njegova ustanovitelja, ki sta bila uvrščena na Forbesov seznam 30 pod 30 Evropa, sta zdaj milijarderja – in prekletstvo za štiri leta staro podjetje.

20. decembra, 2025 15.17

Sinhronizirani filmi na Poljskem so naravnost grozni. Vse dialoge brez energije in z monotonostjo izgovarja en bralec. Ni igralske zasedbe. Ni razlik med igranimi liki v filmu. Mladi gledalci to sovražijo.

“Vprašajte kateregakoli Poljaka in vam bo povedal, da je to grozljivo,” pravi Mateusz (Mati) Staniszewski, soustanovitelj podjetja ElevenLabs, ki se ukvarja z govornimi modeli na osnovi umetne inteligence. “Mislim, da gre za sistem iz časa komunizma, ki se je obdržal kot poceni način za produkcijo vsebin.”

V času, ko je delal v podjetju Palantir, se je Staniszewski povezal s prijateljem iz srednje šole in Googlovim inženirjem Piotrom Dabkowskim, s katerim sta eksperimentirala z umetno inteligenco. Ugotovila sta, da bi eden od projektov, še posebej obetavni trener javnega nastopanja na osnovi umetne inteligence, lahko odpravil to poljsko grozo in preprečil, da bi se Leonardo DiCaprio ali Scarlett Johansson utopila v glasu “zvezde branja”, kot je Maciej Gudowski.

Dvojec je združil svoje prihranke in maja 2022 zapustil službo, da se je lahko v celoti posvetil delu v podjetju ElevenLabs. Njun novi generator na osnovi umetne inteligence za pretvorbo besedila v govor je bil že od vsega začetka veliko boljši od robotskih glasov Applove Siri in Amazonove Alexe. Glasovi ElevenLabsa so bili sposobni izražati veselje, navdušenje in celo smeh.

Vzbudila takojšnje zanimanje

Januarja 2023 je ElevenLabs predstavil svoj prvi model. Ta je lahko katerokoli besedilo s pomočjo umetne inteligence prebral na glas s kakršnimkoli glasom – vključno s klonom vašega lastnega glasu – ali, kar je zaskrbljujoče, glasom nekoga drugega. Povpraševanje je bilo takojšnje. Avtorji besedil so lahko s programsko opremo takoj ustvarili avdio knjige. Cene uporabe opreme za profesionalce se zdaj začnejo pri 99 dolarjih na mesec za višjo kakovost in daljše obdobje. Ustvarjalci vsebin na YouTubu so ElevenLabs uporabili za prevajanje svojih videov v druge jezike, njegovi modeli zdaj govorijo v 29 jezikih.

Zagonsko podjetje s sedežem v Varšavi in Londonu je sklenilo pogodbe z aplikacijami za učenje jezikov in meditacijo. Nato so model začela uporabljati tudi medijska podjetja, kot sta HarperCollins in nemški Bertelsmann. “Bilo je očitno, da je to najboljši model in vsi so ga začeli uporabljati,” pravi vlagateljica Jennifer Li iz družbe Andreessen Horowitz, ki je maja 2023 sovodila krog financiranja ElevenLabsa v višini 19 milijonov dolarjev. Leto pozneje sta se soustanovitelja uvrstila na Forbesov evropski seznam 30 pod 30.

Našli so se tudi taki, ki so model uporabili za bolj skrb vzbujajoče namene. Kloni javnih osebnosti, kot so ameriški predsednik Donald Trump, ki na butast način komentira dvoboje v videoigrah, igralka Emma Watson, ki bere Mein Kampf, in ustvarjalec podkastov Joe Rogan, ki oglašuje prevare, so hitro postali viralni. Še huje, goljufi so začeli uporabljati orodja, da so se izdajali za glasove bližnjih svojih žrtev prevare in ukradli milijone v sofisticiranih “deepfake” prevarah.

Kdo so njihove stranke

A nič od tega ni ustavilo vlagateljev tveganega kapitala, da ne bi še naprej vlagali denarja v ElevenLabs, ki je zbral več kot 300 milijonov dolarjev in oktobra dosegel vrednost 6,6 milijarde dolarjev. S tem je postal eden najvišje ovrednotenih zagonskih podjetij v Evropi. Staniszewski, ki je glavni izvršni direktor podjetja, in vodja raziskav Dabkowski sta po ocenah Forbesa zdaj oba milijarderja.

ElevenLabs, Mati Staniszewski, Piotr Dabkowski
Soustanovitelja podjetja ElevenLabs Mati Staniszewski (levo) in Piotr Dabkowski sta po ocenah Forbesa zdaj oba milijarderja (Foto: Cody Pickens/FORBES)

Približno polovica od 193 milijonov dolarjev prihodkov ElevenLabsa v zadnjih 12 mesecih je prišla od podjetij, kot so Cisco, Twilio in švicarska agencija za zaposlovanje Adecco, ki uporablja njegovo tehnologijo za odgovarjanje na klice strank ali intervjuje z iskalci zaposlitve. Epic Games jo uporablja za ustvarjanje glasov likov v video igri Fortnite, vključno s pogovorom z Darthom Vaderjem (s soglasjem sklada Jamesa Earla Jonesa).

Druga polovica prihodkov prihaja od ustvarjalcev vsebin na YouTubu, avtorjev podkastov in besedil, ki so bili med prvimi uporabniki. “Ko se pogovarjaš s temi liki, je neverjetno, kako dobri so,” pravi analitik svetovalne družbe Gartner Tom Coshow. V nasprotju z večino podjetij za umetno inteligenco je ElevenLabs dobičkonosen. Forbes ocenjuje, da je v zadnjih 12 mesecih ustvaril 116 milijonov dolarjev čistega dobička (60-odstotna marža).

V tekmi z velikani

Zdaj tekmuje z velikani, kot so Google, Microsoft, Amazon in OpenAI, da bi postal dejanski glas umetne inteligence. To ni novo področje. Tehnološka podjetja so začela razvijati izdelke za poslušanje, prepisovanje in generiranje govora pred približno desetimi leti. Čeprav je to za Microsoft na nek način postranska dejavnost, je bil njegov predsednik in glavni izvršni direktor Satya Nadella marca 2022 pripravljen odšteti 20 milijard dolarjev za nakup storitve za prepisovanje govora družbe Nuance, ki kotira na borzi Nasdaq. OpenAI je oktobra 2024 na trg poslal svoje glasovno orodje, ki lahko človeške pogovore vnese v ChatGPT.

Toda pri 300-članski ekipi ElevenLabsa ne gre za dohitevanje velikih. Njeni modeli so tako dobri, da lahko zanje zaračuna do trikrat več kot ameriški konkurenti. Njena knjižnica 10.000 neverjetno človeško zvenečih glasov je daleč največja in zdaj vključuje tudi glasova filmskih zvezdnikov Michaela Caina in Matthewa McConaugheyja. Je tudi bolj zanesljiva. Zagonsko podjetje za pripravljanje podatkov Labelbox je šest najboljših glasovnih modelov testiralo z branjem kviza in ugotovilo, da je ElevenLabs naredil polovico manj napak kot njegov najbližji konkurent OpenAI.

“Smo eno redkih podjetij, ki so pred OpenAI, ne samo na področju govora, ampak tudi pretvorbe govora v besedilo in glasbo. Tega ni lahko doseči,” pravi Staniszewski. Recept ElevenLabsa je preprost. Tesno povezana skupina raziskovalcev na področju strojnega učenja, ki se v določenem trenutku obsesivno osredotoča na ozko problematiko, in omejen proračun (prvih 100.000 dolarjev za usposabljanje sta zagotovila soustanovitelja) sta omogočila preboje na področju razvoja modelov. “Imeti na voljo ogromno računske moči je lahko prekletstvo, ker ne razmišljaš, kako problem rešiti na najbolj bister način,” pravi Dabkowski.

Imeti na voljo ogromno računske moči je lahko prekletstvo, ker ne razmišljaš, kako problem rešiti na najbolj bister način.

– Piotr Dabkowski, soustanovitelj ElevenLabsa

Vse več poudarka na preprečevanju zlorab

Toda tožba dveh bralcev avdio knjig celotni zgodbi dodaja še en vidik. Karissa Vacker in Mark Boyett trdita, da je ElevenLabs za usposabljanje svojih modelov uporabil tisoče avdio knjig, zaščitenih z avtorskimi pravicami. Trdita, da je bilo uporabljenih toliko njunih knjig, da sta klona njunih glasov končala kot privzete možnosti v produktih ElevenLabsa. Primer, v katerem je ElevenLabs zanikal vsako krivdo, so novembra rešili z zunajsodno poravnavo. (Vacker in Boyett nista odgovorila na prošnjo za komentar, ElevenLabs je zavrnil nadaljnje komentarje.)

A se že kaže zrelost, ki je prinesla svoje. Podjetje je končno sestavilo seznam glasov, ki so prepovedani, večinoma politiki in znane osebnosti. To se je zgodilo po tem, ko je bil klon glasu Joeja Bidna, ustvarjen z orodji ElevenLabsa, uporabljen v avtomatizirani telefonski kampanji za odvračanje od glasovanja na primarnih volitvah demokratov leta 2024.

ElevenLabs ima zdaj sedem polno zaposlenih moderatorjev (poleg umetne inteligence, seveda), ki pregledujejo posnetke glede morebitnih zlorab. Novo kloniranih glasov ne uporabijo brez pridobitve soglasja, podjetje ponuja tudi brezplačen detektor ponaredkov.

Drzni načrti, ki presegajo glasove

Staniszewski in Dabkowski imata velike načrte, ki presegajo področje glasovnih modelov. Tako ustvarjalci z omejenimi finančnimi sredstvi kot medijske družbe, ki pazijo na proračun, izražajo zanimanje za glasbo brez avtorskih pravic, ki bi jo uporabili za podlago ali ozadje. Zato sta avgusta predstavila generator glasbe na osnovi umetne inteligence. Nimate časa za snemanje videa? ElevenLabs bo prihodnje leto ponudil avatarje, ustvarjene z umetno inteligenco, ki bodo nastopali v videih, podobnih tistim, ki jih lahko ustvarite z modelom Sora družbe OpenAI.

Njun najbolj drzen načrt je, da bi ekipa ElevenLabsa s svojim strokovnim znanjem vzpostavila enotno središče, kjer bi stranke lahko upravljale vsa svoja orodja na osnovi umetne inteligence. “Gradimo platformo, ki omogoča ustvarjanje glasovnih agentov in njihovo preprosto uporabo,” pravi Staniszewski.

Seveda to ElevenLabs vodi v neposredno tekmo z vrsto drugih zagonskih podjetij, ki imajo enake načrte. Sicer mu v prid govori dejstvo, da je podjetje že od samega začetka dobičkonosno, vendar so njegovi konkurenti bogato financirani, tehnološki velikani pa imajo praktično neomejene vire. Zato mora biti inovativen. Glasovni modeli bodo kmalu postali splošno dostopno blago. Ko bodo drugi modeli dohiteli modele ElevenLabsa, bodo nestanovitne stranke, ki se že zdaj pritožujejo nad njegovimi cenami, verjetno prešle k drugim ponudnikom.

Vlaganja v infrastrukturo bodo ključna

Ker ElevenLabs širi svoje delovanje z glasovnih modelov na področje generiranja glasbe in videoposnetkov, ki zahtevajo še več računske moči, mora razširiti svoje farme grafičnih procesorjev (GPU), če želi ostati v tekmi. Za projekt podatkovnega centra v Oregonu je tako že namenil 50 milijonov dolarjev. “Če želimo postati eno najpomembnejših podjetij na področju umetne inteligence, moramo imeti temu primerno veliko lastno infrastrukturo in prav to gradimo,” pravi Staniszewski.

Avtor izvirnega članka je Ian Martin, novinar Forbesa.