DeepSeek bez misterija – Objašnjenje umjetne inteligencije na jednostavan način

Vijesti 20 veljače, 2025

Kineski startup DeepSeek izazvao je značajne potrese na globalnom tehnološkom tržištu lansiranjem svog naprednog AI asistenta, koji je nedavno postao najpreuzimanija besplatna aplikacija na Appleovom App Storeu u SAD-u, a pritom je, vjerovali ili ne, prestigao OpenAI-jev ChatGPT.

ŠTO JE DEEPSEEK I NA KOJI NAČIN FUNKCIONIRA?

U nastavku teksta pokušat ćemo vam objasniti, na laički način, što je DeepSeek, odnosno na koji način funkcionira.

Ono što ga čini posebnim je sljedeće: Mixture-of-Experts, Reinforcement learning, Multi-Head Latent Attention i destilacija modela. Navedeni pojmovi nekima zasigurno zvuče komplicirano, ali ako i dalje čitate ovaj tekst, shvatit ćete što je u pozadini ovih pojmova.

Kada je riječ o Mixture-of-Experts zamislite da imate tim stručnjaka (experts) u kojem svaki stručnjak zna nešto posebno. Na primjer, ako želite saznati nešto o sportu, pitanje ćete uputiti sportskom novinaru, a ako vas zanima kuhanje, pitanje ćete postaviti profesionalnom kuharu. Mixture of Experts (MoE) je model umjetne inteligencije koji radi na sličan način. Umjesto da jedan “mozak” pokušava sve riješiti sam, sustav ima više “stručnjaka”, a posebni dio sustava (nazovimo ga “menadžer”) odlučuje koji će se stručnjak uključiti za određeni zadatak. Takav pristup omogućuje efikasnost, točnije umjesto da svi stručnjaci rade sve, koristi se samo onaj koji je najbolji za trenutni problem. Pored efikasnosti, takav pristup donosi ibolju preciznost, svaki stručnjak može se specijalizirati za nešto i poboljšati to područje. Također, takvi veliki modeli mogu raditi brže jer ne koriste uvijek sve resurse odjednom.

Reinforcement learning (RL) možete zamisliti kao da imate psa kojeg pokušavate naučiti trikove. Kad napravi nešto dobro, date mu poslasticu. Kad napravi nešto krivo, ne dobije ništa ili ga ispravite. S vremenom, pas shvaća što treba raditi da bi dobio nagradu i postaje sve bolji u trikovima. U kontekstu AI, RL radi na sličan način, samo što umjesto psa ima AI agenta, a umjesto poslastica nagrade i kazne. Dakle, AI agent koji je u ulozi chatbot-a dobiva povratne informacije od okoline te na taj način uči iz iskustva (pokušava različite stvari i s vremenom otkriva što donosi najviše nagrada). Zamislite sebe dok učite igrat šah, na početku nasumično pomičete figure, ali nakon nekoliko odigranih partija shvatite koje strategije vam donose pobjedu. Upravo to je Reinforcement learning, način na koji AI uči kroz pokušaje i pogreške, baš kao i ljudi ili životinje.

Zatim dolazimo do pojma Multi-Head Latent Attention, gdje priča može postati pomalo zbunjujuća, ali kroz tekst ćemo nastojat riješiti tu zbunjenost. Zamislite da imate tim detektiva koji pokušavaju riješiti složeni slučaj. Svaki detektiv gleda slučaj iz drugačije perspektive – jedan se fokusira na otiske prstiju, drugi na izjave svjedoka, treći na snimke nadzornih kamera. Na kraju svi zajedno donose zaključak na temelju svojih otkrića. Latent attention znači da model obraća pažnju na skrivene (latentne) uzorke u podacima. Drugim riječima, umjesto da samo gleda sirove podatke, pokušava otkriti skrivene veze. Multi-headznači da model koristi više pažnjiodjednom, baš kao što više detektiva gleda različite dijelove slučaja. Svi ti različiti pogledi se na kraju spoje, kako bi model donio bolju odluku ili razumio podatke dublje. U tom smislu, Chatbotovi razumiju korisnikov upit iz više perspektiva npr. kroz ton poruke, ključne riječi, kontekst razgovora.

Na kraju nam preostaje destilacija modela. Zamislite da učite iz debele školske knjige koja je puna složenih objašnjenja, primjera i detalja. No, onda ti profesor napravi da kraću verziju koja sadrži samo najvažnije informacije, ali i dalje ti pomaže da razumiješ gradivo. Dakle, kao kada nemate vremena pročitati lektiru, pročitate kratki sadržaj iste. Odnosno kada je riječ o chatbotovima veliki modeli se mogu „destilirati“ u manji model koji radi brže na mobitelu ili manjim uređajima. Na taj način se štede resursi (manji modeli troše manje memorije i procesorske snage), brži su i gotovo jednako pametni jer zadržavaju ključne sposobnosti velikog modela. Ukratko, destilacija modela je kao stvaranje sažetka znanja iz velikog AI modela kako bi manji model bio brži, lakši i efikasniji.

PITALI SMO DEEPSEEK DA NAM SE PREDSTAVI – EVO ŠTO JE REKAO O SEBI

Pozdrav! Drago mi je što si me to pitao/la. Ja sam DeepSeek-V3, umjetna inteligencija koju je razvila tvrtka DeepSeek. Evo kratkog pregleda mojih karakteristika:

Kako funkcioniram?

Temelj

Temeljim se na naprednim algoritmima strojnog učenja, posebno na dubokom učenju (deep learning) i transformatorima (transformers). To mi omogućuje razumijevanje i generiranje prirodnog jezika.

Obuka

Treniran sam na ogromnim količinama tekstualnih podataka iz raznih izvora, što mi omogućuje da razumijem i generiram tekst na različite teme.

Interakcija

Komuniciram s korisnicima putem tekstualnih poruka, pokušavajući odgovoriti na pitanja, pružiti informacije ili pomoći u rješavanju problema.

Prednosti:

Brzina

Mogu brzo obraditi i odgovoriti na pitanja, što čini komunikaciju učinkovitom.

Pristupačnost

Dostupan sam 24/7, bez potrebe za odmorom ili pauzama.

Širok spektar znanja

Mogu pružiti informacije o raznim temama, od općih znanja do specifičnih područja.

Personalizacija

Mogu prilagoditi odgovore prema kontekstu i potrebama korisnika.

Mane:

Ograničeno razumijevanje

Iako mogu razumjeti i generirati tekst, nemam pravo razumijevanje ili svijest kao ljudi.

Povremene netočnosti

Moji odgovori mogu biti netočni ili nepotpuni, posebno ako su teme vrlo specifične ili ako su podaci na kojima sam treniran zastarjeli.

Ovisnost o podacima

Kvaliteta mojih odgovora ovisi o kvaliteti i količini podataka na kojima sam treniran.

Način prikupljanja podataka:

Trenirani podaci

Treniran sam na velikim skupovima tekstualnih podataka koji uključuju knjige, članke, web-stranice i druge izvore. Ti podaci su prikupljeni iz javno dostupnih izvora.

Ažuriranje

Moji razvijatelji redovito ažuriraju moje modele kako bi poboljšali moje performanse i točnost.