Esimesed tuleristsed arutlevate mudelitega: DeepSeek’ist o1 Pro’ni

Mida teevad arutlevad mudelid (reasoning models)? Kas o1 Pro on 200 eurot kuus väärt? Mis ilmaimet siis need suured mõtlevad mudelid meile pakuvad? Need ja paljud teisedki küsimused on praegusel ajal igati asjakohased, sest eesliini mudelite (frontier models) maailmas on toimumas ülikiired arengud ja pakkumises on nii täiesti tasuta kasutatavaid mõtlevaid mudeleid (nt OpenAI o3-mini või DeepSeek R1) kui ka ülikalleid mudeleid nagu o1 Pro.

Olles nüüd juba natuke aega OpenAI o1 Pro mode’i kasutanud, siis on aeg teha esimesed vahekokkuvõtted nii Pro’st kui ka laiemalt arutlevatest mudelitest. Aga alustame sellest, et selgitame kiirelt, mis on see arutlev mudel?

Arutlev mudel, nagu OpenAI o1 või o3-mini, on tehisintellekti mudel, mis on spetsiaalselt loodud keerukate probleemide lahendamiseks ja loogiliste järelduste tegemiseks. Need mudelid on optimeeritud, et “mõelda” sügavamalt ja põhjalikumalt, pakkudes täpsemaid lahendusi keerulistele ülesannetele.

OpenAI o1 ja o3-mini mudelid erinevad tavalisest GPT-4o mudelist selle poolest, et nad suudavad iseseisvalt läbi viia mitmeetapilist arutlemist ilma, et neid peaks spetsiaalselt juhendama. Näiteks o3-mini on optimeeritud STEM (teadus, tehnoloogia, inseneriteadus ja matemaatika) valdkondade jaoks, pakkudes kiireid ja täpseid vastuseid.

Kui GPT-4o mudelite “mõtlemine” toimus nutikamate ja kasulikemate seoste avastamisel erinevate sõnade vahel treenimise ajal, siis arutlevate mudelite “mõtlemine” toimub lisaks ka sel ajal kui nad meile vastuseid loovad. Ehk siis lähtuvalt meie promptist või küsimusest kulutavad nad lisa aega, et leida kasulikke seoseid. Mida kauem mudelile selliseks peale prompti sisestamist mõtlemiseks aega antakse, seda kasulikuma ja põhjalikuma vastuse need mudelid ka annavad.

Subjektiivsed kogemused arutlevate mudelitega

Arutlevad mudelid käituvad teisiti kui meile juba tuttavad GPT4x seeria mudelid või ka näiteks Anthropicu Sonnet 3.5. Promptimise osas tuleb teha veidi kohendusi. Esiteks nö mõttelõnga promptid (chain-of-thought) ei tundu eriti hästi töötavat ja samuti on märgata, et ka selline juhendav promptimine (ehk siis annad lahendustee sammud ette) ei tööta nii nagu varem.

Veel, mis jääb silma - kirjatööde kirjutamises ja teksti voolavuses ja loomulikkused jäävad arutlevad mudelid kohati alla oma eellastele GPT-4o’le või Sonnet’le. On rohkem märgata eesti keele grammatika vigu ja sõnalõppudes eksimusi.

Enamasti on need mudelid “aeglasemad”. Kui on lühikesed ülesanded, a’la “tõlgi ära”, “muuda tekst lihtsamaks”, “tee siit tekstist kokkuvõte” - siis tundub, et GPT-4o ja Sonnet lahendavad asju kiiremini. Tõsi - o3 on kiirem kui o1, aga nad mõlemad võtavad alguses aega “mõtlemiseks”. O1 Pro mudel mõtleb alguses kohe eraldi pikalt, isegi kui ülesanne erilist mõttetegevust ei nõua.

Samas, arutlevate mudelite loodud vastused tunduvad kindlasti paremini läbimõeldud. Vähem on ka “tühja vahtu” või hallutsineerimist.

Ehk siis kokkuvõtvalt, igapäeva kiirete ja lihtsate ülesannete jaoks kasutan ChatGPTs ikka GPT4o mudelit. Samuti kasutan seda siis, kui vaja näiteks abi sõnaseadmisel ja kirjutamisel. Kui aga vaja lahendada keerulisemaid probleeme või asju põhjalikumalt kaaluda, siis võtan o1 mudeli. Ja kui vaja matemaatikat või füüsikat lahendada, siis o3-mini.

Paneme mudelid päriselt proovile!

Arutlevate mudelite peamine lubadus on, et nad suudavad lahendada keerukamaid ülesandeid, kui varasemad mudelid. Siit tekkiski idee, et paneme erinevad mudelid arutlema ühe sellise magistritaseme teema üle ja vaatame, kuidas nad hakkama saavad.

Teema, mille ma valisin, oli mind nii ehk naa juba mõnda aega huvitanud. Mul tekkis nimelt mingi aimdus või kõhutunne, et AI-põhiste automatiseerimislahenduste valikul tuleb arvestada konkreetse äriprotsessi determinismiga (kui täpselt on protsessi kulgemine ennustatav) ja sellega kui komplekssed andmed liiguvad protsessis (kui masina-sõbralikud need on). Mida mitte-ennustatavam on protsess ja keerulisem andmestik, seda rohkem vaja AI agent-süsteeme ja vastupidi minnes, mida kindlam on protsess ja mida lihtsamad on andmed, seda paremini sobib klassikaline RPA (robotic process automation).

Uurimisülesandeks sai:

“
Sinu ülesandeks on arendada välja maailma tipptasemel analüütiline raamistik hindamaks erinevate tehisintellekti (AI) põhiste automatiseerimislahenduste sobivust võttes arvesse äriprotsesside erinevat determinismi astet ja äriprotsessis kaasatud andmete komplekssust.

“

Ja uurima asusid viis “tudengit”: OpenAI GPT4o, OpenAI o3-mini, OpenAI o1, OpenAI o1 Pro, ja DeepSeek R1.

Lisaks palusin o1 Pro’l luua tööde hindamismetoodika ning olla valmis hindama iga tudengi “tööd”. Sealjuures ma ei maininud, et tööde autoriteks on teised AI mudelid.

Milliseks siis kujunesid tulemused?

Niisiis, pärast seda, kui “tudengid” olid oma analüütilised raamistikud valmis saanud, palusin o1 Pro’l neid hinnata. Hindamine käis viie valdkonna lõikes (äriprotsessi determinism, andmekompleksus, raamistik ja metoodika, realistlikkus/rakendatavus, innovaatilisus/sügavus) ning seejärel liideti tulemused ühte üldskoori. Maksimaalselt oli võimalik saada 25 punkti (iga alajaotuse eest 5 punkti)

Lõpptulemustest joonistuvad välja kaks põhirühma – tugevad “A” taseme tööd ja veidi madalama, ent siiski “B” taseme tööd.

GPT4o - usin kirjutaja, aga pinnapealne

GPT 4o sai küll pea igas kategoorias head hinded, ent jäi alati mõnedes pisiasjades jänni. Lõppskoori (19 punkti) kohaselt sai see hindeks B, mis tähendab “head taset”. Ehkki o1 Pro tõi esile GPT 4o metoodika terviklikkuse, soovitati lisada rohkem konkreetseid numbrilisi skaalasid ja akadeemilisi viiteid.

O perekond - tugevad arutlejad, lihtsalt erinevate kiirustega

O3-mini paistis seevastu silma nii praktilisuse kui struktuuri poolest, jõudes 23 punktini. Seega sai hindeks kokku A – “suurepärane”. Töö tugevuseks toodi välja, et see on lihtsasti rakendatav ja selgete sammudega, mis aitavad hindamise tulemust tegelikult ka projektides kasutada.

O1 lähenemine ületas o1 Pro hinnangul samuti “suurepärase” künnise. 24-punktine skoor tagab kõrgeima hinde, ning eriliselt toodi välja multidistsiplinaarset lähenemist, mis hõlmab nii ärilisi kui ka tehnilisi vaatenurki. Täiendav akadeemiliste standardite sidumine võiks antud raamistikku veelgi enam tugevamaks muuta.

Ka O1 Pro ise – ehk “neljas tudeng” – kogus 24 punkti. Samad tugevused, mis O1-l, kordusid ka siin: metoodika, rakendatavuse ja realistlikkuse kiitused. Veidi enam sügavust viitamise või teoreetilise tausta osas võiks tööd veelgi täiustada, ent üldine pilt on samavõrd tipptasemel.

DeepSeek - matemaatiliste kalduvustega arutleja

DeepSeek R1 teenis 20 punkti ning sai o1 Pro lõppotsuses B. Torkas silma oma matemaatilise lähenemise eelistamisel. Kiiresti pakkus välja võimalikud hindamismeetodid ja valemid, mille alusel raamistik võiks toimida. Kuigi raamistikku on lihtne rakendada, jäi selles akadeemilise põhjalikkuse ja detailsemate riskijuhtimise või andmekaitseaspektide osas veidi vajaka. Samas on see hinnanguga B endiselt “hea tase” ning töö tugevus peitub just konkreetse ja kiiresti rakendatava punktisüsteemi pakkumises.

Kokkuvõte

Nii esitatud “töödega”, kui põhjalike hindamistulemustega saate soovi korral tutvuda siin:

-> Google Docs fail AI mudelite võrdlustega (avaneb eraldi aknas)

Kokkuvõtvalt, ehkki kõik mudelid lõid raamistiku nagu ülesandes kirjas oli, siis oli näha, et vastuste sügavustes tekkisid erisused. Samas - vaatamata sellele, et o1 Pro nö “mõtlemisaeg” oli pikim, ei olnud selle vastus üldse mitte kõige detailsem ja põhjalikum. Hoopis nö tavalise o1 vastus oli kõige sügavam/detailsem.

DeepSeeki kohta ütleks, et mul on tunne, et see on peenhäälestatud testides hästi toimima (nö test cherry picking) ja igapäevastes või juhuslikes stsenaariumites ei pruugi üldse olla nii hea kui testide tulemuste järgi arvaks. Vaid napp edu GPT4o ees oli veidi üllatav. Tõsi - GPT4o ei oleks kunagi tulnud välja matemaatilise mudeliga.

Ja veel OpenAI o1 Pro mode vähemalt selle ülesande puhul märkimisväärsemalt paremat sooritust ei teinud. Ja seega tekib küsimus, et kas ca 200 dollarine kuutasu on ikka õigustatud?

Ütleks selle peale nii - 200 dollari eest kuus ei osta sa mitte niivõrd paremat mudelit kuivõrd rohkem aega arvutusmasina juures. Ja lisaks veel paar nutikat tööriista. Ehk siis võrreldes ChatGPT Plus või Team paketiga saad o1 mudelit käitada piiramatult ehk siis lahendada keerulisi ülesandeid nii palju kui süda soovib ja lisaks pääsed ligi sellisele tööriistale nagu “Põhjalik uuring / Deep research”. Selle tööriista näol on tegemist AI agendiga, kes on suuteline erinevatel teemadel avalike materjalide põhjal doktorikraadi väärilisi raporteid looma. Aga sellest peaks juba eraldi artikli kirjutama.

Kes siis võiks seda Pro’d osta?

Neid kindlasti on, kellel on palju keerulisi ülesandeid lahendada ning kellele on suur boonus hoida “palgal” tipptasemel raporti valmistajat. Kas ka mina jätkan 200 eurost kuutasu maksmist peale esimese kuu möödumist? See on kindlasti ahvatlev mõte - aga ma pean selleks ajaks ikkagi tagama endale piisava ja püsiva probleemide voo, mida selle o1 Pro ja Deep researchi abil siis lahendada :D

Esimesed tuleristsed arutlevate mudelitega: DeepSeek’ist o1 Pro’ni

Subjektiivsed kogemused arutlevate mudelitega

Paneme mudelid päriselt proovile!

GPT4o - usin kirjutaja, aga pinnapealne

O perekond - tugevad arutlejad, lihtsalt erinevate kiirustega

DeepSeek - matemaatiliste kalduvustega arutleja

Kokkuvõte

Contents

Sisukord

Seotud tööriistad

Teemad

Read more about AI in

Share this

Jaga seda