To je Googleov pokušaj da povrati vodstvo koje je ispustio nakon što su upravo njihovi istraživači napravili proboj 2017. u AI koji je omogućio postojanje ChatGPT-a. Google je rekao da je Gemini ispred svih ostalih AI modela u 30 od 32 standardna mjerila, od kojih je većinu predvodio GPT-4, najnapredniji model koji je razvio OpenAI.

Da bi izgradio Gemini, Googleova jedinica Alphabet okupila je resurse i talente iz dalekih krajeva kompanije sa 190.000 zaposlenih, koristeći DeepMind, startup koji je Google kupio 2014. za razvoj umjetne opće inteligencije, kao i timove zadužene za pomicanje granica računarstva u oblaku i infrastrukturu.

“Ova nova era modela predstavlja jedan od najvećih naučnih i inženjerskih napora koje smo poduzeli kao kompanija”, rekao je izvršni direktor Alphabeta i Googlea Sundar Pichai u izjavi.

Potrošači mogu testirati ograničenu verziju Geminija počevši od srijede, kada se ona ugradi u Bard, chatbot kompanije. Najnaprednija verzija Geminija još uvijek prolazi kroz testove kako bi se osiguralo da je sigurna za kupce, saopštila je kompanija.

Na kraju, Gemini će naći svoj put u većinu Google proizvoda, uključujući generativnu, eksperimentalnu tražilicu kompanije koja bi mogla biti budućnost poslovanja kompanije.

Kompanija je u trci sa Microsoftom da proširi svoj paket proizvoda, od dokumenata preko tabela do e-pošte, novom tehnologijom, koja će na kraju omogućiti ljudima da “razgovaraju” sa svojim računarima.

Najuočljivija razlika između Geminija i njegovih konkurenata je u tome što je "multimodalan", što znači da je obučen za miks teksta, zvuka i videa. Drugi veliki jezički modeli takođe imaju multimodalne mogućnosti, ali to čine kombinovanjem više modela, svaki sa jednim modalitetom.

Google je rekao da "nativni" multimodalni pristup daje Geminiju bolje vještine rasuđivanja u analizi slike.

U jednom primjeru koji je podijeljen s novinarima, Google je pokazao Gemini kako posmatra ruke osobe dok izvodi magični trik s novčićem. Model prvo pokušava da pogodi u kojoj je ruci novčić, a onda kada nije u stanju da precizno odgovori, shvati da je prevaren.

U drugom, prikazano je nekoliko dizajna papirnatih aviona koje je izradila slavna ličnost YouTubea i bivši NASA-in inženjer Mark Rober, koji od njega traži da odredi koji će letjeti najefikasnije. Gemini ispravno određuju najbolji dizajn.

Takođe je bio u mogućnosti da pogleda snimak normalno obučene osobe koja oponaša pokrete tjela Keanua Reevesa u Matrixu dok njegov lik, Neo, izbjegava metke. Gemini tačno pogađa da ta osoba ponovo igra scenu iz filma. Eli Collins, potpredsjednik proizvoda za DeepMind, rekao je da je model naučio tu scenu iz "podataka zaštićenih autorskim pravima" pronađenih na otvorenom webu.

Googleovi istraživači su rekli da postoje pitanja o tome da li će multimodalni pristup biti u stanju da bude jednako dobar ili bolji od modela koji se fokusiraju samo na jedan specifičan modalitet - neku vrstu debate specijalista protiv generalista.

Ali rekli su da su utvrdili da je njihov generalistički model prevladao. "Gemini postavlja novo stanje umjetnosti u širokom rasponu tekstualnih, slikovnih, audio i video mjerila", napisali su u članku objavljenom u srijedu.

Google je rekao da Gemini također nadmašuje sve druge velike jezičke modele u osnovnim matematičkim sposobnostima i može razumjeti fiziku.

Kompanija je odbila otkriti veličinu Gemini modela, dajući brojke samo za najmanju verziju, nazvanu Gemini Nano, koja može raditi na pametnim telefonima Google Pixel. Ali kompanija je saopštila da je iskoristila nove računarske mogućnosti koje koriste najnoviju verziju Googleovih prilagođenih čipova, poznatih kao Tensor Processing Units.

To je značajno jer su drugi vodeći jezički modeli, poput OpenAI-jevog GPT-4 i Anthropicovog Claudea, obučeni pomoću Nvidia grafičkih procesora, kojih nedostataje na tržištu i skupi su za rad.

Sva tri Gemini modela — Nano, Pro i Ultra — biće dostupna poslovnim korisnicima, koji mogu iskoristiti svoje mogućnosti i ponuditi ih svojim klijentima.

Uz nekoliko izuzetaka, kompanije koje rade u industriji umjetne inteligencije ili nude AI usluge svojim zaposlenima kažu da je GPT-4 neosporni pobjednik u pogledu sposobnosti.

Mjerila ne govore cijelu priču. Ove procjene se uglavnom zasnivaju na iskustvu iz stvarnog svijeta. Kompanije imaju svoje kriterijume zasnovane na njihovim specifičnim potrebama, i u skoro svakom slučaju, GPT-4 nema blisku konkurenciju.

Moguće je da će Geminijev uspjeh u širokom spektru mjerila značiti da će nadmašiti GPT-4 u stvarnom svijetu. Nećemo znati sa sigurnošću sve dok Googleov model ne dosegne široku distribuciju i ne bude testiran od strane istih kompanija koje su utvrdile da je GPT-4 najsposobniji.

I tamo gdje se Googleov konkurent Microsoft oslanja na OpenAI za razvoj novih modela, Google je sada pokazao da je u stanju izgraditi vrhunsku umjetnu inteligenciju potpuno unutar kompanije. Ta prednost je posebno važna nakon što je izvršni direktor OpenAI Sam Altman prošlog mjeseca otpušten iz kompanije pod misterioznim okolnostima, da bi bio ponovo zaposlen nakon što je startup bio blizu raspada.

Za većinu poslovnih potreba, Gemini Ultra će biti previše, baš kao i GPT-4. Većina kompanija smatra da mogu koristiti mnogo manje i manje sposobne modele, koji su jeftiniji, sa istim uspjehom. To je zato što za slučajeve poslovne upotrebe, kompanije ne traže AI opće namjene. Oni žele modele koji se fokusiraju na podatke pohranjene na korporativnim serverima.

Danas su AI modeli opće namjene poput GPT-4 i Gemini korisni za potrošače. Ali postoji još jedan mogući kupac za Gemini: startupi.

Nova generacija AI startupa ima za cilj stvaranje “agenata” koji mogu samostalno djelovati u ime korisnika. Zamislite ih kao lične asistente AI. Danas čak ni GPT-4 nije dovoljan da pruži ovo iskustvo. Može li Gemini, sa svojim multimodalnim mogućnostima, dozvoliti ambicioznije proizvode iz AI startupa?

Nećemo znati sve dok ga startupi ne budu mogli ozbiljno koristiti, ali neke od mogućnosti koje je Google pokazao u demo prezentacijama sugeriraju da bi to moglo predstavljati novi nivo sposobnosti.

Čak i ako Gemini nije odmah promijenio igru, jasno je da predstavlja dugoročnu prijetnju dominaciji OpenAI-a. Kada je u pitanju AI kao što je Gemini, Google je na neki način usnuli div kojeg je probudio ChatGPT.

Mnogi od najboljih Googleovih umova nalaze se u DeepMindu, koji je bio zauzet užim primjenama AI. DeepMindova dostignuća poput AlphaFolda su nedvojbeno upečatljivija i važnija od ChatGPT-a.

Sada, DeepMind fokusira svoju moć na AI modele opće namjene i rezultati su prilično oštri. Gemini je u svojoj prvoj verziji i izgleda da je odmah postao industrijski standard. Može se samo zamisliti kako će Gemini 3 ili 4 izgledati.

Izvor: Semafor