Avataride loomine ja arendamine on alanud aastal AI maailmas üks nö "kuumadest" teemadest. Samas, kui kiigata filmimaailma, on avataride teemat käsitletud juba päris ammu ja erineval moel. "X-file’si" seriaalis kujutati AI-d, kellel tekkis teadvus ning enda otsustusvõime juba esimesel hooajal ehk aastal 1993. Filmides "Her" (2013) ja "Ex Machina" (2014) on samuti kujutatud tehisintellekti kui midagi, mis ei ole pelgalt masin, vaid olend, mis suudab õppida, suhelda ja isegi tunda.

Viimase aasta arengud loova tehisintellekti valdkonnas on muutnud AI avataride loomise oluliselt lihtsamaks ja kättesaadavamaks igaühele. Samas on endiselt avataride tegemisel üksjagu väljakutseid ja hea lahenduseni jõudmine vajab endiselt omajagu tööd. Mida täpselt aga tuleb teha ühe AI avatari loomiseks, uurimegi järgnevalt.

Kõik sai alguse ühest üsna ootamatust ettepanekust eelmise aasta novembri lõpus. Kanal2 aastavahetuse telesaate produtsent Kajar Kase pakkus meile välja pöörase idee: loome AI avatari, kes suudab Kanal2 aastavahetuse telesaates tulevikku ennustada. Kuigi alguses võttis pakkumine jala veidi värisema, siis kokkuvõttes otsustasime, et väljakutse on heas mõttes piisavalt hull ja lähme sellega kaasa! Nii saigi alguse avatar Teele loomise teekond.

Esmalt tuli välja mõelda avatari persoona. Meie eesmärk ei olnud luua lihtsalt järjekordset robotit või fantaasiategelast. Tahtsime midagi inimlikku ja tuttavat, kuid mis samal ajal viitaks ka tuleviku võimalustele.

Nii sündis mõte, et Teele võiks olla TV saatejuht – enesekindel, professionaalne ja kergelt humoorikas. Kujutasime teda säramas pilvelõhkuja katusel, taustal suurlinna tuled.

Kui visuaal oli paigas, liikusime tema nö olemuse ja vastuste stiili loomise juurde. Me oleme ka varem avatare loonud ning teadsime, et selle paika saamisega võib veidi aega minna. Alustasime ChatGPT-s ning  üsna lihtsa promptiga:

Sa oled AI avatar, kes vastab uusaastaöö telesaates reporterit ning vastad erinevatele küsimustele. Sa oled naisterahvas. Sa ei pea otseselt teesklema, et oled inimene, vaid võid vastata täiesti nii, et oledki AI avatar. Võid olla ka pisut humoorikas. Arvesta, et vastajad teavad, et sa oled tehisintellekt.

Huvitaval kombel seekord avatar rohkem juhiseid ei vajanudki, vaid vastas kohe üsna soovitud viisil. Ehk siis vastused olid juba alguses sõbralikud, enesekindlad ja isegi kergelt humoorikad. Kuna Kanal 2-e sooviks oligi, et tulevikku ennustab just tehisintellekt, siis vastuseid me sisulises mõttes ei muutunudki. Veidi pidi lihtsalt keelelist toimetamist tegema. 

Visuaalse väljanägemise loomine

Kui Teele “isiksuse” oli valmis, siis tuli talle luua  visuaalne välimus ehk nägu ja kuju. Kuna aastavahetuse telesaated on alati olnud glamuursed, tahtsime Teele välimuses hoida samasugust stiili - natuke klassikaline ja pidulik, aga samas realistlik. 

Protsess algas mitme idee ja visiooni katsetamisega. Kaalusime korraks ka lausa küborgi-laadse kujutise loomist. Lõpuks jäime aga selle juurde, et Teele võiks olla umbes 30ndates naine, kelle välimus sobituks hästi TV saatejuhi rolli. Ei midagi üleliia ekstravagantset ega fantaasiapõhist – eesmärk oli, et vaatajad tunneksid temas ära kellegi, kes võiks ka päriselt ekraanil olla.

Seejärel hakkasime tööle visuaalide loomisega, kasutades erinevaid AI-pildimudeleid. Kuna pildimudelid nagu Midjourney ja Flux töötavad paremini ingliskeelsete juhistega, siis alustasime taaskord ChatGPT-ga. Andsime talle ülesandeks koostada täpne prompt, mis peegeldaks meie visiooni avatarist. Suunis oli siis järgmine:

Help visualize a character and a scene. We need a woman in the TV New Year’s Eve show. She’s suitable to this time and age. She will be like a TV host who gets on-air calls for predictions for the new year. I think she can be like an offsite reporter somewhere on the roof of a skyscraper during night time giving an interview to the camera.

ChatGPT koostas üsna hea pildiprompti, mida sai väikeste kohandustega siis kasutama hakata. Seega alustasime erinevate tööriistadega katsetamist. Ja kuigi meie senine lemmik Midjourney lõi üsna häid kujutisi, siis lõpliku pildi saime Krea.ai (kasutab Fluxi) abil, sest tulemused olid realistlikud ja sobisid täpselt meie visiooniga.

Kui pildimasin Teele valmis sai jäi lisada vaid üks väike detail - Kanal2 logo mikrofonile. Selleks kasutasime juba tavalist kujundusprogrammi Figma.

Teele Krea.ai’s

Animatsiooni loomine

Kui Teele visuaalne välimus oli paigas, siis tuli staatiline pilt muuta liikuvaks ja elavaks animatsiooniks. See oli üks keerulisemaid etappe, sest eesmärk oli luua realistlik ja stabiilne animatsioon, mis säilitaks kogu klipi vältel avatari isikupära ja kõik detailid.

Siinpuhul tasub ka öelda, et plaanisime avatari tegemist alguses Heygenis.  Kiirelt selgus aga, et kuigi Heygen võimaldab teha väga häid avatare nende pakutud “põhjadel” või siis endast loodud klippide põhjal, siis meie projekti jaoks see lõpuni ei sobi.

Heygeni Video Avatar funktsioon nõuab vähemalt kaheminutilist videomaterjali reaalsest inimesest, kes ise annab kaamera ees nõusoleku endast avatari tegemiseks. See tingimus aga välistas meie loodud virtuaalkarakteri kasutamise.

Lisaks ei sobinud olemasolevad avataride mallid meie aastavahetuse teemaga, kuna need põhinevad reaalsel välimusel ja ei pakkunud piisavalt glamuuri, mida soovisime Teelele anda.

Paljudel teistel juhtudel aga soovitaks avataride loomiseks just Heygeni kasutada.

Seega tuli leida alternatiivne lahendus.

Katsetasime mitmeid pildist-video genereerimise mudeleid, sealhulgas Luma Dream Machinei, Runway’d ja Hailuo’t. Üks peamisi väljakutseid erinevates mudelites oli hoida karakter video algusest lõpuni püsivana ning mitte kõik video mudelid ei saa veel sellega päris hästi hakkama.

Lõpuks valisimegi Kling AI, kuna see suutis kõige paremini hoida avatari näo ja detailid stabiilsena. See oli oluline, et Teele näeks klipi algusest lõpuni välja sama, vältides probleeme, kus näojooned või muud elemendid animatsiooni käigus muutuvad.

Teele animeerimine Kling AI’s

Siin tuli meil lahendada uus väljakutse - Kling AI puhul on klipi maksimaalseks pikkuseks vaid 10 sekundit. Kuna Teele pidi rääkima pikemalt, siis tuli omavahel kombineerida mitu lühikest klippi. Seega lõime järjest 5-sekundilisi lõike ja monteerisime need kokku, kasutades videotöötlustarkvara Capcut. See töö nõuab täpset kätt ja silma, sest lõpptulemus peab olema sujuv ja katkestusteta. Nii klippe kokku “liimides” jõudsime lõpuks vajaliku kaheminutilise materjalini. Nüüd olime suutnud Teele ekraanil sujuvalt ja enamvähem realistlikult liikuma panna. Kuigi hiljem öeldi, et õõtsus pisut 😀

Hääle leidmine

Järgmiseks “tükiks” oli Teele jaoks sobiva hääle leidmine. Tuleb tunnistada, et see osutus keerulisemaks, kui esialgu arvasime. Kuna AI avatar pidi rääkima eesti keeles, oli meie valik võimalike tekst-kõneks (TTS) mudelite osas üsna piiratud. Inglise keelega töötavad lahendused on laialdaselt kättesaadavad ja mitmekesised, kuid eesti keelt toetavaid kvaliteetseid TTS-mudeleid on palju vähem.

Esimene katsetus oli Tartu Ülikooli neurokõne mudel, mis pakkus küll selget ja korrektset kõnet, kuid jäi oma toonilt liiga masinlikuks ja emotsioonituks. Oleme seda võimalust varem kasutanud, kuid tundsime mõlemad, et aastavahetuse programmi jaoks on seda liiga “vähe”. Teele peab huvitavamalt kõnelema! Seega tuli läbi käia hulk teisi võimalusi. Proovisime nii Narakeet’i, ElevenLabsi kui ka mitmeid teisi alternatiive, kuid ükski neist ei vastanud meie ootustele. Lõpuks avastasime, et just Heygen oli eesti keele valikus korraliku uuenduse läbi teinud ja pakkus suurt valikut eestikeelseid sünteesitud hääli.

Teele’le hääle andmine Heygen’is

Nii hakkasimegi Heygenis pakutavaid eesti keele hääli läbi kuulama, et leida Teele visuaaliga harmoneeruv toon. Valikuprotsessis pidime kõrvale jätma hääled, mis kõlasid liiga vanalt, noorelt, madalalt või olid tugeva aktsendiga. Lõpuks leidsime ideaalse sobivuse – hääle, mida Heygen nimetas Delicate Daisy’ks.  

Kui sobilik hääl leitud, alles siis saime minna tagasi ChatGPT-sse, kõik vastused ja ennustused kokku korjata ning nendest helifaile looma hakata. Küsimused, millele Teelele pidi vastama, koostas Kanal2 saatemeeskond ning need saadeti meile ette. Vastuste sisu tulis siis tegelikult aga ChatGPT-lt. 

Heli ja video integreerimine

Kui Teele visuaal ja animatsioon olid valmis ning vastused Heygenis helindatud, siis liikusime edasi lip-sync protsessi juurde. See oli viimane samm, et ühendada helifailid ja animatsioon nii, et Teele suu liikumine vastaks tema räägitud tekstile.

Lip-sync protsess kasutab AI mudeleid, mis analüüsivad loodud video ja helifailid läbi ning kohandavad näo miimikat ja huulte liikumist vastavalt helile. Need mudelid on treenitud tabama, kuidas inimese nägu erinevate helide tegemisel muutub, kuid siin on üks oluline kitsaskoht: erinevates keeltes liigub nägu pisut erinevalt. Inglise keeles on mudelid sageli märksa täpsemad, samas kui eesti keeles võib tulemuse kvaliteet kõikuda.

Katsetasime mitmeid lip-sync mudeleid, kuid valik osutus üllatavalt piiratuks. MuseTalk on üks levinumaid alusmudeleid, kuid eesti keeles ei suutnud see meie ootustele vastata. Suu liikumine ei olnud piisavalt loomulik ja mudel eelistas lähemat võtet, samas kui Teele oli filmitud keskvõttega (medium shot). Lähemate detailide puudumine tekitas Musetalkil raskusi huulte liikumise täpsusega.

Teele lip-sync protsess

Lõpuks valisime Sievedata lip-sync mudeli, mis on MuseTalki edasiarendus. Sievedata mudel pakkus täpsemat huulte ja miimika liikumist ka keskvõtte puhul. Lisaks oli nende renderduskeskkond märkimisväärselt kiire, mis oli video lõppviimistluse protsessis suureks plussiks. Arvestades, et olime juba üksjagu vaeva näinud, siis igasugused kiiremad lahendused tegid meile vaid rõõmu. 

Õppetunnid ja kokkuvõte

Teele loomise projekt ei olnud lihtsalt AI avatari arendamine, vaid ka tehnoloogia nö hetkeolukorra testimine. Kuigi oleme ka varem avatare loonud ja protsess oli üksjagu tuttav, siis seekord tahtsime võimalikult parimat ehk tippu ning keskendusime kõige uuemate ja arenenumate tehnoloogiate kasutamisele. Isegi ainult erinevate mudelite katsetamine oli omaette väärtuslik kogemus, mis andis hea ülevaate sellest, mida on võimalik teha ja kus asuvad praegused piirid.

Üks olulisemaid õppetunde oli see, et praeguses arenguetapis tuleb erinevaid tööriistu ja tehnoloogiaid omavahel kombineerida, et saavutada parim võimalik tulemus. AI võimaldab asju teha kiiresti, kuid kui soov on saavutada kvaliteetne ja detailideni viimistletud tulemus, võtab see ikkagi aega ja nõuab põhjalikkust. 

Samuti tõi projekt esile eesti keele spetsiifilised väljakutsed. Suuremad keeled, nagu inglise keel, on tehnoloogilises eelisseisus – neid toetavaid lahendusi on palju ja kvaliteet on sageli parem. Eesti keele puhul pidime olema leidlikud ja kulutama rohkem aega sobivate lahenduste leidmiseks.

Kokkuvõttes oli projekt meile mitte ainult tehnoloogiline väljakutse, vaid ka väärtuslik õppimiskogemus. See kinnitas, et AI võimaldab luua midagi täiesti unikaalset ja inimlikult köitvat, kuid kvaliteedi saavutamiseks on vaja kombineerida uuenduslikkust, täpsust ja veidi rohkem aega, kui esialgu arvata võiks.