Prenumerera

Prenumerera

Upptäck Gemini: Vår Kraftfullaste och Avancerade AI-modell Hittills

bySandra Åström Lee

februari 7, 2024

Google gemini

Google gemini

Google gemini

Varje teknikskifte är en möjlighet att främja vetenskapliga upptäckter, påskynda mänskliga framsteg och förbättra liv. Jag tror att övergången vi ser just nu med AI kommer att vara den mest djupgående i våra liv, mycket större än övergången till mobil eller webb innan den. AI har potential att skapa möjligheter – från det vardagliga till det extraordinära – för människor överallt. Det kommer att tillföra nya vågor av innovation och ekonomiska framsteg och driva kunskap, lärande, kreativitet och produktivitet i en skala vi inte sett tidigare.

Det är det som upphetsar mig: chansen att göra AI till hjälp för alla, överallt i världen.

Nästan åtta år in i vår resa som ett AI-first-företag, accelererar takten bara: Miljontals människor använder nu generativ AI i våra produkter för att göra saker de inte ens kunde för ett år sedan, från att hitta svar till mer komplexa frågor om att använda nya verktyg för att samarbeta och skapa. Samtidigt använder utvecklare våra modeller och infrastruktur för att bygga nya generativa AI-applikationer, och startups och företag runt om i världen växer med våra AI-verktyg.

Det här är en otrolig fart, och ändå börjar vi bara skrapa på ytan av vad som är möjligt.

Vi närmar oss detta arbete djärvt och ansvarsfullt. Det innebär att vi är ambitiösa i vår forskning och strävar efter de förmågor som kommer att ge enorma fördelar för människor och samhälle, samtidigt som vi bygger in skyddsåtgärder och arbetar i samarbete med regeringar och experter för att hantera risker när AI blir mer kapabel. Och vi fortsätter att investera i de allra bästa verktygen, grundmodellerna och infrastrukturen och tar dem till våra produkter och till andra, vägledda av våra AI-principer .

Nu tar vi nästa steg på vår resa med Gemini, vår mest kapabla och generella modell hittills, med toppmodern prestanda över många ledande riktmärken. Vår första version, Gemini 1.0, är optimerad för olika storlekar: Ultra, Pro och Nano. Det här är de första modellerna från Gemini-eran och det första förverkligandet av den vision vi hade när vi bildade Google DeepMind tidigare i år. Denna nya era av modeller representerar en av de största vetenskaps- och ingenjörsinsatser vi har gjort som företag. Jag är verkligen spänd på vad som väntar, och för de möjligheter Gemini kommer att låsa upp för människor överallt.

Vi presenterar Gemini

Av Demis Hassabis, VD och medgrundare av Google DeepMind, på uppdrag av Gemini-teamet

AI har varit i fokus för mitt livsverk, precis som för många av mina forskarkollegor. Ända sedan jag programmerade AI för datorspel som tonåring, och under mina år som neurovetenskaplig forskare och försökte förstå hur hjärnan fungerar, har jag alltid trott att om vi kunde bygga smartare maskiner, skulle vi kunna utnyttja dem till att gynna mänskligheten på otrolig sätt.

Detta löfte om en värld ansvarsfullt bemyndigad av AI fortsätter att driva vårt arbete på Google DeepMind. Vi har länge velat bygga en ny generation av AI-modeller, inspirerade av hur människor förstår och interagerar med världen. AI som känns mindre som en smart mjukvara och mer som något användbart och intuitivt – en experthjälpare eller assistent.

Idag är vi ett steg närmare denna vision när vi introducerar Gemini , den mest kapabla och allmänna modellen vi någonsin har byggt.

Tvillingarna är resultatet av storskaliga samarbeten från team på Google, inklusive våra kollegor på Google Research. Den byggdes från grunden för att vara multimodal, vilket innebär att den kan generalisera och sömlöst förstå, fungera över och kombinera olika typer av information inklusive text, kod, ljud, bild och video.

Vi presenterar Gemini: vår största och mest kapabla AI-modell

Gemini är också vår mest flexibla modell hittills – kan effektivt köras på allt från datacenter till mobila enheter. Dess toppmoderna funktioner kommer att avsevärt förbättra hur utvecklare och företagskunder bygger och skalar med AI.

Vi har optimerat Gemini 1.0, vår första version, för tre olika storlekar:

Gemini Ultra — vår största och mest kapabla modell för mycket komplexa uppgifter.
Gemini Pro — vår bästa modell för att skala över ett brett spektrum av uppgifter.
Gemini Nano — vår mest effektiva modell för uppgifter på enheten.

Toppmodern prestanda

Vi har noggrant testat våra Gemini-modeller och utvärderat deras prestanda för en mängd olika uppgifter. Från naturlig bild, ljud och videoförståelse till matematiska resonemang, Gemini Ultras prestanda överträffar nuvarande toppmoderna resultat på 30 av de 32 allmänt använda akademiska riktmärkena som används i forskning och utveckling av stora språkmodeller (LLM).

Med en poäng på 90,0 % är Gemini Ultra den första modellen som överträffar mänskliga experter på MMLU (massiv multitask språkförståelse), som använder en kombination av 57 ämnen som matematik, fysik, historia, juridik, medicin och etik för att testa båda världens kunskap och problemlösningsförmåga.

Vårt nya riktmärke för MMLU gör det möjligt för Gemini att använda sina resonemangsmöjligheter för att tänka mer noggrant innan de svarar på svåra frågor, vilket leder till betydande förbättringar jämfört med att bara använda sitt första intryck.

Gemini överträffar toppmodern prestanda på en rad riktmärken inklusive text och kodning.

Gemini Ultra uppnår också ett toppmodernt betyg på 59,4 % på det nya MMMU- riktmärket, som består av multimodala uppgifter som spänner över olika domäner som kräver medvetna resonemang.

Med de bildriktmärken vi testade överträffade Gemini Ultra tidigare toppmoderna modeller, utan hjälp från optiska teckenigenkänningssystem (OCR) som extraherar text från bilder för vidare bearbetning. Dessa riktmärken lyfter fram Geminis inhemska multimodalitet och indikerar tidiga tecken på Geminis mer komplexa resonemangsförmåga.

Se mer information i vår tekniska rapport för Gemini .

Gemini överträffar toppmodern prestanda på en rad multimodala riktmärken.

Nästa generations funktioner

Hittills har standardmetoden för att skapa multimodala modeller innefattat att träna separata komponenter för olika modaliteter och sedan sy ihop dem för att ungefär efterlikna en del av denna funktionalitet. Dessa modeller kan ibland vara bra på att utföra vissa uppgifter, som att beskriva bilder, men kämpar med mer konceptuella och komplexa resonemang.

Vi designade Gemini för att vara inbyggt multimodal, förutbildad från början på olika modaliteter. Sedan finjusterade vi den med ytterligare multimodal data för att ytterligare förfina dess effektivitet. Detta hjälper Gemini att sömlöst förstå och resonera om alla typer av input från grunden, mycket bättre än befintliga multimodala modeller – och dess kapacitet är toppmodern inom nästan alla domäner.

Lär dig mer om Geminis möjligheter och se hur det fungerar .

Sofistikerat resonemang

Gemini 1.0:s sofistikerade multimodala resonemangsmöjligheter kan hjälpa dig att förstå komplex skriftlig och visuell information. Detta gör den unikt skicklig på att avslöja kunskap som kan vara svår att urskilja bland stora mängder data.

Dess anmärkningsvärda förmåga att extrahera insikter från hundratusentals dokument genom att läsa, filtrera och förstå information kommer att bidra till att leverera nya genombrott i digitala hastigheter inom många områden från vetenskap till finans.

Gemini låser upp nya vetenskapliga insikter

Förstå text, bilder, ljud och mer

Gemini 1.0 tränades i att känna igen och förstå text, bilder, ljud och mer på samma gång, så att den bättre förstår nyanserad information och kan svara på frågor som rör komplicerade ämnen. Detta gör den särskilt bra på att förklara resonemang i komplexa ämnen som matematik och fysik.

Tvillingarna förklarar resonemang i matematik och fysik

Avancerad kodning

Vår första version av Gemini kan förstå, förklara och generera högkvalitativ kod i världens mest populära programmeringsspråk, som Python, Java, C++ och Go. Dess förmåga att arbeta över språk och resonera kring komplex information gör den till en av de ledande grundmodellerna för kodning i världen.

Gemini Ultra utmärker sig i flera riktmärken för kodning, inklusive HumanEval , en viktig industristandard för att utvärdera prestanda för kodningsuppgifter, och Natural2Code, vår interna datauppsättning, som använder författaregenererade källor istället för webbaserad information.

Gemini kan också användas som motor för mer avancerade kodsystem. För två år sedan presenterade vi AlphaCode , det första AI-kodgenereringssystemet som nådde en konkurrenskraftig prestandanivå i programmeringstävlingar.

Med hjälp av en specialiserad version av Gemini skapade vi ett mer avancerat kodgenereringssystem, AlphaCode 2 , som utmärker sig för att lösa konkurrenskraftiga programmeringsproblem som går utöver kodning för att involvera komplex matematik och teoretisk datavetenskap.

Gemini utmärker sig på kodning och konkurrenskraftig programmering

När den utvärderas på samma plattform som den ursprungliga AlphaCode, visar AlphaCode 2 massiva förbättringar som löser nästan dubbelt så många problem, och vi uppskattar att den presterar bättre än 85 % av tävlingsdeltagarna – upp från nästan 50 % för AlphaCode. När programmerare samarbetar med AlphaCode 2 genom att definiera vissa egenskaper för kodexemplen att följa, presterar den ännu bättre.

Vi är glada över att programmerare i allt högre grad använder mycket kapabla AI-modeller som samarbetsverktyg som kan hjälpa dem att resonera kring problemen, föreslå koddesigner och hjälpa till med implementering – så att de kan släppa appar och designa bättre tjänster, snabbare.

Se mer information i vår AlphaCode 2 tekniska rapport .

Mer pålitlig, skalbar och effektiv

Vi tränade Gemini 1.0 i stor skala på vår AI-optimerade infrastruktur med hjälp av Googles egendesignade Tensor Processing Units (TPU) v4 och v5e. Och vi designade den för att vara vår mest pålitliga och skalbara modell att träna, och vår mest effektiva att betjäna.

På TPU:er går Gemini betydligt snabbare än tidigare, mindre och mindre kapabla modeller. Dessa specialdesignade AI-acceleratorer har varit kärnan i Googles AI-drivna produkter som betjänar miljarder användare som Sök, YouTube, Gmail, Google Maps, Google Play och Android. De har också gjort det möjligt för företag runt om i världen att utbilda storskaliga AI-modeller kostnadseffektivt.

Idag tillkännager vi det mest kraftfulla, effektiva och skalbara TPU-systemet hittills, Cloud TPU v5p , designat för att träna banbrytande AI-modeller. Denna nästa generations TPU kommer att påskynda Geminis utveckling och hjälpa utvecklare och företagskunder att träna storskaliga generativa AI-modeller snabbare, vilket gör att nya produkter och möjligheter kan nå kunder snabbare.

Byggd med ansvar och säkerhet i centrum

På Google är vi fast beslutna att utveckla djärv och ansvarsfull AI i allt vi gör. Med utgångspunkt i Googles AI-principer och robusta säkerhetspolicyer i våra produkter lägger vi till nya skydd för att ta hänsyn till Geminis multimodala möjligheter. I varje utvecklingsstadium överväger vi potentiella risker och arbetar med att testa och minska dem.

Gemini har de mest omfattande säkerhetsutvärderingarna av alla Google AI-modeller hittills, inklusive för partiskhet och toxicitet. Vi har genomfört ny forskning om potentiella riskområden som cyberbrott, övertalning och autonomi, och har tillämpat Google Researchs klassens bästa kontradiktoriska testtekniker för att hjälpa till att identifiera kritiska säkerhetsproblem innan Geminis implementering.

För att identifiera blindfläckar i vår interna utvärderingsmetod arbetar vi med en mångfaldig grupp av externa experter och partners för att stresstesta våra modeller över en rad frågor.

För att diagnostisera innehållssäkerhetsproblem under Geminis utbildningsfaser och säkerställa att dess resultat följer våra policyer, använder vi riktmärken som Real Toxicity Prompts , en uppsättning av 100 000 prompter med olika grader av toxicitet hämtade från webben, utvecklade av experter vid Allen Institute för AI. Mer information om detta arbete kommer snart.

För att begränsa skada byggde vi dedikerade säkerhetsklassificerare för att identifiera, märka och sortera ut innehåll som involverar våld eller negativa stereotyper, till exempel. Kombinerat med robusta filter är detta skiktade tillvägagångssätt designat för att göra Gemini säkrare och mer inkluderande för alla. Dessutom fortsätter vi att ta itu med kända utmaningar för modeller som fakta, jordning, attribution och bekräftelse.

Ansvar och säkerhet kommer alltid att vara centralt för utveckling och driftsättning av våra modeller. Detta är ett långsiktigt engagemang som kräver samarbete, så vi samarbetar med industrin och ett bredare ekosystem för att definiera bästa praxis och sätta säkerhets- och säkerhetsriktmärken genom organisationer som MLCommons , Frontier Model Forum och dess AI Safety Fund , och vår Secure AI Framework (SAIF) , som utformades för att hjälpa till att minska säkerhetsrisker som är specifika för AI-system inom den offentliga och privata sektorn. Vi kommer att fortsätta samarbeta med forskare, regeringar och civilsamhällesgrupper runt om i världen när vi utvecklar Gemini.

Att göra Tvillingarna tillgängliga för världen

Gemini 1.0 rullas nu ut över en rad produkter och plattformar:

Gemini Pro i Googles produkter

Vi ger Gemini till miljarder människor genom Googles produkter.

Från och med idag kommer Bard att använda en finjusterad version av Gemini Pro för mer avancerade resonemang, planering, förståelse och mer. Detta är den största uppgraderingen till Bard sedan den lanserades. Den kommer att finnas tillgänglig på engelska i mer än 170 länder och territorier, och vi planerar att expandera till olika modaliteter och stödja nya språk och platser inom en snar framtid.

Vi tar också Gemini till Pixel . Pixel 8 Pro är den första smarttelefonen konstruerad för att köra Gemini Nano, som driver nya funktioner som Summarize i Recorder-appen och rullas ut i Smart Reply i Gboard, med början med WhatsApp, Line och KakaoTalk ¹— med fler meddelandeappar som kommer nästa år.

Under de kommande månaderna kommer Gemini att finnas tillgängligt i fler av våra produkter och tjänster som Search, Ads, Chrome och Duet AI.

Vi har redan börjat experimentera med Gemini i Sök, där det gör vår Search Generative Experience (SGE) snabbare för användare, med en 40 % minskning av latensen på engelska i USA, tillsammans med förbättringar i kvalitet.

Bygga med Tvillingarna

Från och med den 13 december kan utvecklare och företagskunder få tillgång till Gemini Pro via Gemini API i Google AI Studio eller Google Cloud Vertex AI .

Google AI Studio är ett gratis, webbaserat utvecklarverktyg för att prototyper och starta appar snabbt med en API-nyckel. När det är dags för en helt hanterad AI-plattform tillåter Vertex AI anpassning av Gemini med full datakontroll och drar nytta av ytterligare Google Cloud-funktioner för företagssäkerhet, säkerhet, integritet och datastyrning och efterlevnad.

Android-utvecklare kommer också att kunna bygga med Gemini Nano, vår mest effektiva modell för uppgifter på enheten, via AICore, en ny systemfunktion tillgänglig i Android 14, med start på Pixel 8 Pro-enheter. Registrera dig för en tidig förhandstitt av AICore .

Gemini Ultra kommer snart

För Gemini Ultra slutför vi för närvarande omfattande förtroende- och säkerhetskontroller, inklusive red-teaming av betrodda externa parter, och förfinar modellen ytterligare med hjälp av finjustering och förstärkningsinlärning från mänsklig feedback (RLHF) innan den görs allmänt tillgänglig.

Som en del av denna process kommer vi att göra Gemini Ultra tillgängligt för utvalda kunder, utvecklare, partners och säkerhets- och ansvarsexperter för tidig experimentering och feedback innan den rullas ut till utvecklare och företagskunder i början av nästa år.

Tidigt nästa år kommer vi också att lansera Bard Advanced , en ny, banbrytande AI-upplevelse som ger dig tillgång till våra bästa modeller och möjligheter, med början i Gemini Ultra.

Gemini-eran: möjliggör en framtid av innovation

Detta är en viktig milstolpe i utvecklingen av AI och starten på en ny era för oss på Google när vi fortsätter att snabbt förnya och på ett ansvarsfullt sätt utveckla våra modellers kapacitet.

Vi har gjort stora framsteg med Gemini hittills och vi arbetar hårt för att ytterligare utöka dess möjligheter för framtida versioner, inklusive framsteg inom planering och minne, och öka kontextfönstret för att bearbeta ännu mer information för att ge bättre svar.

Vi är entusiastiska över de fantastiska möjligheterna i en värld som ansvarsfullt bemyndigats av AI – en framtid av innovation som kommer att öka kreativiteten, utöka kunskapen, främja vetenskapen och förändra hur miljarder människor lever och arbetar runt om i världen.

bySandra Åström Lee

Published februari 07, 2024