Viimased nädal aega on kõik AI’ga veidike sügavamalt kokkupuutuvad tegelased olnud üsna elevil uue Hiina päritolu mudeli DeepSeek’i pärast. Miks?

Peamiselt selle pärast, et mudel DeepSeek R1 on benchmarkides näidanud OpenAI o1 sarnast kvaliteeti, aga selle saavutamiseks kulutati 10-15 korda vähem raha. Lisaks API-teenusena kasutades on ta kordades odavam kui OpenAI o1 kasutamine. Ehk siis hiinlased tegid sama hea asja kui ameeriklased, aga müüvad seda 10x odavamalt.

DeepSeek on tõusnud Artificial Analysis tabelis teiseks.

Talupojamõistus ütleb, et kuskil on konks, eks? Ja üks koht, kuhu konks võib olla peidetud on muidugi andmete kahmamine aga võibolla isegi midagi veelgi koledamat. 

Aga enne kui sinna jõuame - kiire ülevaade, et millest me DeepSeeki puhul räägime.

DeepSeek R1 mudel - on süsteem ja kondensaat treeningandmetest. See on see, mis siis tegi Open AI o1 taseme soorituse. Mudelit saab iga soovija paigaldada korraliku riistvara pakkuvasse andmekeskusesse, et seda seal “jooksutada”. Avatud lähtekood, korralik avalik teadustöö. Vast ainult Hiina KP tsensuuri kergelt läbinud treeningu käigus.

DeepSeek veebiäpp - veebis kättesaadav tsätiäpp, millega lihtne inimene saab selle R1’ga tasuta lobiseda

DeepSeek mobiili äpid -  programmid, mida paigaldad oma iPhone’i või siis Androidi.

DeepSeek R1 abil finetune’tud mini-mudelid - need on koduarvutites ja telefonides töötavad (väiksemad) mudelid, mida on DeepSeeki abil treenitud (destilleeritud versioonid näiteks pisikesest Llamast)

R1 mudel on kogu DeepSeeki süsteemis peibutuspardi rollis. See on avatud lähtekoodiga ja tundub igati usaldusväärne, et kasutusele võtta. Samas tavaline inimene või ettevõte ei rendi kunagi nii kallist tarkvara, et seda enda jaoks püsti panna. Suurem ettevõtte - ei saa välistada. 

R1 tegelikult peibutab miljonid kasutama veebiäppi ja mobiiliäppe, sest enamus ei oska enda arvutisse käima panna neid niinimetatud minimudeleid. Mis pealegi on olulisemalt “lollimad” kui päris R1. 

Ja veebi- ja mobiiliäpis, mis on otseselt DeepSeek’i kui ettevõtte kontrolli all vaatavad meile vastu mõtlemapanevad privaatsustingimused, mis on sõnastatud selliselt:

  • Profile information. We collect information that you provide when you set up an account, such as your date of birth (where applicable), username, email address and/or telephone number, and password.
  • User Input. When you use our Services, we may collect your text or audio input, prompt, uploaded files, feedback, chat history, or other content that you provide to our model and Services.


Ja lisaks veelgi enam muret tekitavalt:

We collect certain device and network connection information when you access the Service. This information includes your device model, operating system, keystroke patterns or rhythms, IP address, and system language.  


Ehk siis ausalt ja otsekoheselt öeldakse, et me jätame endale õiguse võta endale su andmed ja lisaks nuhkida.

Seega - palun enne kasutama hakkamist korra mõelda, et kui te seda teate - kas ikka tahate kasutada? Või teisiti sõnastades - kui sellised tingimused oleks näiteks Meta Messengeri äpis või siis ChatGPT’s - kuidas end tunneksite?

Aga - DeepSeek R1 kui mudel ja LLMi arhitektuur tundub olevat edasiminek ja kindlasti annab tõuke liikuda edasi suunas, mis vähendab treenimistsüklite ja mudelite jooksutamise kulusid. Päris kindlasti peavad ka nüüd mitmed teised mudelit “võidurelvastumisega” kaasa minema.