AI tööriistade areng on jõudnud nii kaugele, et üsna lihtsate vahenditega saab luua virtuaalse avatari, kes näeb välja nagu inimene, räägib nagu inimene ja natuke nagu liigutab ka nagu inimene. Kuidas?

Mõni aeg tagasi tegi Eesti Teadusagentuur (ETAG) meile ettepaneku luua teaduskonverentsi jaoks AI avatar ja jättis meile ülejäänu osas üsna vabad käed. Leppisime ETAGiga kokku, et meie poolt loodud AI avatar on üllatuskülaliseks ning võtab seminari lõpus päeva kokku. Nii hästi või halvasti kui tehnoloogia seda parjasagu võimaldab. Oli väga põnev teekond ning allpool on väike kokkuvõte, et kuidas me „seda kõike“ tegime.

Persoona loomine

Kuna pilt on parem kui tuhat sõna, siis alustasime sellest, et lõime kõigepealt tehisintellektiga avataride pildid. Selleks kasutasime Midjourney pildiloome AI’d. Midjourney abiga lõime kõigepealt 4 erineva teadlase pildid.  Ühe neist hülgasime kohe, sest ei tundunud üldse eestlase moodi, kuid teistega jätkasime tööd.

Järgmiseks oli vaja piltidele juurde nime ja lugu.  Söötsime ChatGPT’le sõelale jäänud pildid ette ja palusime piltide põhjal persoona kirjeldust. ChatGPT on persoonade välja mõtlemises üsna tubli ja nii tekkisidki 3 võimalikku karakterit oma näo, nime ja elulooga. Nende hulgast valisimegi koos ETAGiga lõpuks välja IT teadlase ja ettevõtja Eva Talviku.

Kõne „kirjutamine“

Järgmiseks saatis ETAG saatis meile seminari päevakava, esinejate nimed ning mõne teema puhul väikese kokkuvõtte kui see oli ette teada. Mõne teema puhul oli aga teada ainult ettekande pealkiri. Selle põhjal tegime Evale valmis kõne mustandi. Sisuliselt palusime ChatGPTl läbi lugeda päevakava ja saadetud materjalid, seejärel Evaks kehastuda ning päeva kokkuvõte valmis kirjutada.

Siin ehk kaks nippi, mis ehk tulevikus ka teisi katsetajaid aitavad:

a)     Kirjuta kõne persoonana. St palu tal alguses kellekski kehastuda (nt kogemusega teadlaseks) ja alusta siis kirjutamist. Miks see hea on? Kirjutamisäpid püsivad nii paremini teemas ja ei kirjuta liiga üldiselt.

b)     Kirjuta kõne lõikude või päevakorrapunktide kaupa. Jällegi, püsib paremini teemas ja ei teki „mäluprobleemi“.

ChatGPT (4 ehk tasulise) poolt kirjutatud kõne tuli enamvähem, aga mõned lõigud olid ikkagi kas liiga keerulised või toreduslikud. Seega viimase toimetamise tegime Microsoft Copilotiga Wordis. See tööriist on lausete lihtsamaks sõnastamisel üsna tõhus abimees ja teiseks meeldib mulle, et ta pakub muudatust, mitte ei kirjuta teksti kohe ümber. Mul on valida kas vajutada „accept“ või paluda tal uus pakkumine teha.

Mustandiga saime testima hakata, et kuidas meil õnnestub tekst usutavaks ja loomulikuks hääleks muundada.

Heli ja video

Esimene ülesanne oli leida Evale sobilik hääletüüpi. Elevenlabsis käisime läbi mitu erinevat kõnemudelit. Paljude britilike häälte (mille kohta Kristiina pidevalt kurtis, et need kõlavad nagu Peppa perekond) hulgas leidsime lõpuks ühe, mis tundus esialgu sobivat. Sellega lõime siis kõne mustandist helifaili.

Nii jõudsimegi selle momendini, kui saime hakata tegelema videoga. Pildi videoks tegemiseks valisime Heygeni äpi. Miks? Esiteks suudab see äpp panna hästi jäljendama rääkiva inimese näomiimikat ning teiseks lubab teksti sisestada ja läbi kuulata lõikude kaupa. Nii on laivis toimuval üritusel avatari palju lihtsam juhtida/hallata.

Arvates, et oleme ettevalmistustega lõpusirgel laadisime pildi ja heli Heygeni üles ning lasime tehisajul need kokku panna. Meie kurvastuseks selgus, et meie algselt valitud Elevenlabsi hääl ja Eva pilt ei sobinud absoluutselt kokku. Kristiina oli valmis juba ka Peppa perekonnale võimaluse andma, aga igaks juhuks kuulasime ka läbi Heygeni enda valikud ning lõpuks leidsime Evale sobiva. Lasime pildi ja heli uuesti kokku ning uuel ringil klappis kõik kenasti. Lisaks võiks ettevalmistused lõppenuks lugeda.

Siin on ehk paslik öelda, et kui keegi tahab väga lihtsate vahenditega eesti keeles kõnelevat kuid staatilise pildiga  panelisti teha, siis seda võib teha nii:

a)     Tee mõne pilditööriistaga foto. Näiteks saad kasutada ChatGPT Dall-Et; Midjourneyt või Adobe Firefly’d.

b)     Kirjuta mõne juturobotiga tekst. Lisaks ChatGPT’le on meil olemas ka Gemini ja Microsofti Copilot.

c)     Ja lõpuks tuleb siis luua heli. Eesti keelsed kõnesüntesaatorid on saadaval siin: https://eki.ee/heli/

Tegevused seminari toimumise ajal

Me oleme ka varem üritustel mõnda AI trikki või avatari teinud ja taolistel kordadel valmistame materjalid alati põhjalikult ette. On plaanid A, B ja C. Miks? Erinevad tööriistad ja tehnoloogilised lahendused on juba väga head, aga tihti saavad määravaks koha peal olevad võimalused. Alates wifi kiirusest lõpetades projektori taga oleva arvutini välja. Lisaks võib juhtuda, et üleöö on mõni tööriist kinni pandud (on päriselt juhtunud) jne jne. Ka koolitustele läheme tihti kahe interneti ja mitme võimalusega slaide näidata, sest elu on näidanud, et koha peal võib juhtuda praktiliselt kõike.

Seega oli meil enne üritust olemas pilt Evast, valitud hääl ja korra läbitestitud ning kõne ka salvestatud. Näitasime seda igaks juhuks ka koostööpartnerile ETAGis, kes tõdes, et ühe veel toimumata konverentsi kohta on see üks väga hea kõne. Ja oli ka.

Samas, kui teha kokkuvõtet mitme erineva esinejaga seminarist, siis tuleb teksti teha muudatusi. Esinejad räägivad koha peal huvitavaid asju juurde, teevad nalja jne jne.  Seega tuli päeva jooksul ka esinejaid kuulata ning koha peal tekkiv teema/nali kiirelt AI poolt loetavasse teksti sisse kirjutada. Üks video oli muidugi kodus ka valmis tehtud juhuks kui mingi tehnoloogiline lahendus alt veab, aga õnneks seda plaani B ei pidanudki kasutama.

Kui jooksvad muudatused ja päeva parimad naljad sai teksti sisse viidud, siis tuli leida veel võimalus video renderdamiseks (pea liikuma panemiseks). 8 minuti kõne renderdamiseks kulub u 20 minutit ja lihtsalt niisama ei taha ju keegi AI video järel oodata. Meie õnneks oli ETAGi poolt päevakavasse planeeritud paus oli piisavalt pikk, et renderdus ära teha. Viimast suuremat teemat ma ei saanud koha peal toimetada, nii et sellest jäi siis eelmisel päeval ette valmistatud osa.

Koha peal läks nii teksti toimetamise kui ka uue video loomisega kõik väga kenasti ja varasemalt valmis tehtud plaani B (ehk videot) me ei pidanudki kasutama. Ja olgu ka öeldud, et mõne esineja kohta teksti ei pidanud samuti muutma, Eva suutis päev enne juba teema kenasti kokku võtta ja ka esinemise eest tänada.


Kokku sai siis allpool olev lõpukõne, mille kohta öeldi pärast seminari palju naljakaid asju. Parim kommentaar oli vist see, et alguses jäi mulje justkui Eva on mingi Brüsseli eurobürokraat kes tuli üle Zoomi Eesti teadusmaastikule tagasisidet andma, aga poole pealt selgus, et ikkagi lihtsalt tehisintellekt 

Kui keegi tahab veel teada, et kas see ongi hetkel tehnoloogia tipp, siis ei ole. Tegelikult on võimalik ka selline lahendus, et ei tee midagi ette, vaid koha peal salvestad kõike, transkribeerid selle ning palud siis AI-l kokkuvõtte teha. Lihtsalt siin on need tehnoloogia mitte töötamise riskid veel nii suured ja me nii olulisel üritusel ei tahtnud neid veel endale lubada. Seekord…Julge hundi rind on haavleid täis, nagu öeldakse ja kui keegi tahab katsetada, siis kutsuge meid aga kohale!

Või katsetage ise 😊 Kui meie hakkama saime, siis saate teie ka!

Vähemalt sama tasemega kindlasti: