Elke technologische verandering biedt een kans om wetenschappelijke ontdekkingen te bevorderen, de menselijke vooruitgang te versnellen en levens te verbeteren. Ik geloof dat de transitie die we nu met AI meemaken de meest ingrijpende in ons leven zal zijn, veel groter dan de transitie naar mobiel of internet daarvoor. AI heeft de potentie om kansen te creëren – van alledaags tot buitengewoon – voor mensen overal ter wereld. Het zal nieuwe golven van innovatie en economische vooruitgang teweegbrengen en kennis, leren, creativiteit en productiviteit op een ongekende schaal stimuleren.
Dat is wat mij zo enthousiast maakt: de kans om AI voor iedereen, overal ter wereld, nuttig te maken.
Bijna acht jaar na het begin van onze reis als een AI-first bedrijf, versnelt gewoon het tempoMiljoenen mensen gebruiken nu generatieve AI in onze producten om dingen te doen die ze een jaar geleden nog niet konden, van het vinden van antwoorden op complexere vragen tot het gebruiken van nieuwe tools om samen te werken en te creëren. Tegelijkertijd gebruiken ontwikkelaars onze modellen en infrastructuur om nieuwe generatieve AI-applicaties te bouwen, en groeien startups en ondernemingen over de hele wereld met onze AI-tools.
Dat is een ongelofelijke snelheid, en toch staan we nog maar aan het begin van wat mogelijk is.
We pakken dit werk gedurfd en verantwoord aan. Dat betekent ambitieus zijn in ons onderzoek en de mogelijkheden nastreven die enorme voordelen zullen opleveren voor mens en maatschappij, terwijl we tegelijkertijd waarborgen inbouwen en samenwerken met overheden en experts om risico's te beheersen naarmate AI steeds capabeler wordt. En we blijven investeren in de allerbeste tools, basismodellen en infrastructuur en passen deze toe op onze producten en die van anderen, geleid door onze AI-principes .
Nu zetten we de volgende stap in onze reis met Gemini, ons meest capabele en veelzijdige model tot nu toe, met state-of-the-art prestaties in vele toonaangevende benchmarks. Onze eerste release, Gemini 1.0, is geoptimaliseerd voor verschillende formaten: Ultra, Pro en Nano. Dit zijn de eerste modellen van het Gemini-tijdperk en de eerste realisatie van de visie die we hadden toen we Google DeepMind eerder dit jaar oprichtten. Dit nieuwe modeltijdperk vertegenwoordigt een van de grootste wetenschappelijke en technische inspanningen die we ooit als bedrijf hebben geleverd. Ik ben enorm enthousiast over wat ons te wachten staat en over de mogelijkheden die Gemini voor mensen overal ter wereld zal ontsluiten.
Maak kennis met Gemini
Door Demis Hassabis, CEO en medeoprichter van Google DeepMind, namens het Gemini-team
AI staat centraal in mijn levenswerk, net als bij veel van mijn onderzoekscollega's. Sinds ik als tiener AI programmeerde voor computerspellen, en tijdens mijn jaren als neurowetenschapper die probeerde te begrijpen hoe de hersenen werken, heb ik altijd geloofd dat als we slimmere machines zouden kunnen bouwen, we die zouden kunnen inzetten om de mensheid op ongelooflijke manieren te helpen.
Deze belofte van een wereld die op verantwoorde wijze wordt aangestuurd door AI, blijft de drijvende kracht achter ons werk bij Google DeepMind. We willen al lang een nieuwe generatie AI-modellen bouwen, geïnspireerd door hoe mensen de wereld begrijpen en ermee omgaan. AI die minder aanvoelt als slimme software en meer als iets nuttigs en intuïtiefs: een deskundige helper of assistent.
Vandaag de dag zijn we een stap dichter bij deze visie gekomen, wanneer wij introduceren Gemini , het meest capabele en algemene model dat we ooit hebben gebouwd.
Gemini is het resultaat van grootschalige samenwerkingen tussen teams bij Google, waaronder onze collega's bij Google Research. Het is vanaf de grond af opgebouwd om multimodaal te zijn, wat betekent dat het verschillende soorten informatie, waaronder tekst, code, audio, kan generaliseren en naadloos begrijpen, ermee kan werken en combineren., foto en video.
Maak kennis met Gemini: ons grootste en meest capabele AI-model
Gemini is tevens ons meest flexibele model tot nu toe – het draait efficiënt op alles, van datacenters tot mobiele apparaten. De geavanceerde mogelijkheden zullen de manier waarop ontwikkelaars en zakelijke klanten AI bouwen en schalen aanzienlijk verbeteren.
We hebben Gemini 1.0, onze eerste versie, geoptimaliseerd voor drie verschillende formaten:
- Tweelingen Ultra — ons grootste en meest capabele model voor zeer complexe taken.
- Gemini Pro — ons beste model voor opschaling over een breed scala aan taken.
- Tweeling Nano — ons meest efficiënte model voor taken op het apparaat.
State-of-the-art prestaties
We hebben onze Gemini-modellen grondig getest en hun prestaties geëvalueerd voor diverse taken. Van het begrijpen van natuurlijke beelden, audio en video tot wiskundig redeneren, de prestaties van Gemini Ultra overtreffen de huidige state-of-the-art resultaten op 30 van de 32 veelgebruikte academische benchmarks die worden gebruikt in onderzoek en ontwikkeling van grote taalmodellen (LLM's).
Met een score van 90,0 % is Gemini Ultra het eerste model dat menselijke experts overtreft op MMLU (Massive Multitasking Language Comprehension), dat gebruikmaakt van een combinatie van 57 vakken, zoals wiskunde, natuurkunde, geschiedenis, recht, geneeskunde en ethiek, om zowel kennis van de wereld als probleemoplossende vaardigheden te testen.
Dankzij onze nieuwe MMLU-benchmark kunnen Gemini hun redeneervermogen gebruiken om beter na te denken voordat ze moeilijke vragen beantwoorden. Dit leidt tot aanzienlijke verbeteringen ten opzichte van wanneer ze alleen op hun eerste indruk afgaan.
Gemini presteert beter dan de concurrentie op een reeks benchmarks, waaronder tekst en codering.
Gemini Ultra behaalt ook een state-of-the-art beoordeling van 59,4 % op de nieuwe MMMU- de benchmark, die bestaat uit multimodale taken die verschillende domeinen beslaan en die bewust redeneren vereisen.
In de door ons geteste beeldbenchmarks presteerde de Gemini Ultra beter dan eerdere state-of-the-art modellen, zonder de hulp van systemen voor optische tekenherkenning (OCR) die tekst uit afbeeldingen extraheren voor verdere verwerking. Deze benchmarks benadrukken de multimodaliteit van Gemini en geven vroege tekenen van Gemini's complexere redeneervermogen.
Zie meer informatie in onze technisch rapport voor Gemini .
Gemini presteert beter dan de concurrentie op een reeks multimodale benchmarks.
Functies van de volgende generatie
Tot nu toe bestond de standaardaanpak voor het creëren van multimodale modellen uit het trainen van afzonderlijke componenten voor verschillende modaliteiten en het vervolgens aan elkaar plakken om een deel van deze functionaliteit ruwweg na te bootsen. Deze modellen kunnen soms goed zijn in het uitvoeren van bepaalde taken, zoals het beschrijven van afbeeldingen, maar worstelen met meer conceptuele en complexe redeneringen.
We hebben Gemini zo ontworpen dat het van nature multimodaal is en vanaf het begin is getraind op verschillende modaliteiten. Vervolgens hebben we het verfijnd met aanvullende multimodale data om de effectiviteit verder te verfijnen. Dit helpt Gemini om naadloos elk type input vanaf de basis te begrijpen en te beredeneren, veel beter dan bestaande multimodale modellen – en de mogelijkheden ervan zijn state-of-the-art in vrijwel elk domein.
Meer informatie over De mogelijkheden van Tweelingen en hoe het werkt .
Geavanceerd redeneren
Dankzij de geavanceerde multimodale redeneermogelijkheden van Gemini 1.0 kunt u complexe schriftelijke en visuele informatie beter begrijpen. Hierdoor is Gemini 1.0 op unieke wijze in staat kennis te onthullen die moeilijk te onderscheiden is uit grote hoeveelheden data.
Het opmerkelijke vermogen om inzichten te halen uit honderdduizenden documenten door informatie te lezen, filteren en begrijpen, zal op digitale snelheid nieuwe doorbraken opleveren op veel gebieden, van wetenschap tot financiën.
Begrijp tekst, afbeeldingen, audio en meer
Gemini 1.0 is getraind om tekst, afbeeldingen, audio en meer tegelijk te herkennen en te begrijpen. Zo kan het genuanceerde informatie beter begrijpen en vragen over complexe onderwerpen beantwoorden. Dit maakt het bijzonder goed in het uitleggen van redeneringen in complexe vakken zoals wiskunde en natuurkunde.
Geavanceerde codering
Onze eerste versie van Gemini kan hoogwaardige code begrijpen, uitleggen en genereren in 's werelds populairste programmeertalen, waaronder Python, Java, C++ en Go. De mogelijkheid om over meerdere talen heen te werken en complexe informatie te begrijpen, maakt het een van de toonaangevende basismodellen voor programmeren ter wereld.
Gemini Ultra blinkt uit in verschillende coderingsbenchmarks, waaronder HumanEval , een belangrijke industriestandaard voor het evalueren van prestaties bij coderingstaken, en Natural2Code, onze interne dataset, die gebruikmaakt van door de auteur gegenereerde bronnen in plaats van op internet gebaseerde informatie.
Gemini kan ook worden gebruikt als engine voor geavanceerdere coderingssystemen. Twee jaar geleden introduceerden we AlphaCode , het eerste AI-codegeneratiesysteem dat een concurrerend prestatieniveau bereikte in programmeerwedstrijden.
Met behulp van een gespecialiseerde versie van Gemini hebben we een geavanceerder codegeneratiesysteem ontwikkeld, AlphaCode 2, dat uitstekend geschikt is voor het oplossen van competitieve programmeringsproblemen die verder gaan dan coderen en die complexe wiskunde en theoretische computerwetenschappen omvatten.
Bij evaluatie op hetzelfde platform als de originele AlphaCode, toont AlphaCode 2 enorme verbeteringen en lost het bijna twee keer zoveel problemen op. We schatten dat het 85 % van de concurrenten overtreft – tegenover bijna 50 % voor AlphaCode. Wanneer programmeurs samenwerken met AlphaCode 2 door bepaalde eigenschappen te definiëren voor de te volgen codevoorbeelden, presteert het zelfs nog beter.
We zijn blij dat programmeurs steeds vaker gebruikmaken van zeer capabele AI-modellen als hulpmiddelen voor samenwerking. Deze kunnen hen helpen bij het oplossen van problemen, het voorstellen van codeontwerpen en ondersteuning bieden bij de implementatie. Zo kunnen ze sneller apps uitbrengen en betere services ontwerpen.
Meer informatie vindt u in ons technisch rapport over AlphaCode 2. .
Betrouwbaarder, schaalbaarder en efficiënter
We hebben Gemini 1.0 op grote schaal getraind op onze AI-geoptimaliseerde infrastructuur met behulp van de speciaal ontworpen Tensorverwerkingseenheden (TPU) v4 en v5e. We hebben het zo ontworpen dat het ons meest betrouwbare en schaalbare model is om te trainen, en ons meest efficiënte model om te gebruiken.
Op TPU's draait Gemini aanzienlijk sneller dan voorheen, kleinere en minder capabele modellen. Deze speciaal ontworpen AI-versnellers vormen de kern van de door AI aangestuurde producten van Google die miljarden gebruikers bedienen, zoals Zoeken, YouTube, Gmail, Google Maps, Google Play en Android. Ze hebben het bovendien voor bedrijven over de hele wereld mogelijk gemaakt om grootschalige AI-modellen op een kosteneffectieve manier te trainen.
Vandaag kondigen we het krachtigste, efficiëntste en schaalbaarste TPU-systeem tot nu toe aan, Cloud TPU v5p , ontworpen om geavanceerde AI-modellen te trainen. Deze volgende generatie TPU zal de ontwikkeling van Gemini versnellen en ontwikkelaars en zakelijke klanten helpen om grootschalige generatieve AI-modellen sneller te trainen, waardoor nieuwe producten en kansen klanten sneller bereiken.
Gebouwd met verantwoordelijkheid en veiligheid in het hart
Bij Google zetten we ons in voor de ontwikkeling van gedurfde en verantwoorde AI in alles wat we doen. Voortbouwend op Google's AI-principes Om de multimodale mogelijkheden van Gemini te ondersteunen en te voorzien van robuuste beveiligingsbeleidsregels, voegen we nieuwe beveiligingen toe. In elke ontwikkelingsfase houden we rekening met potentiële risico's en testen en beperken we deze.
Gemini beschikt over de meest uitgebreide veiligheidsevaluaties van alle Google AI-modellen tot nu toe, inclusief voor bias en toxiciteit. We hebben nieuw onderzoek naar potentiële risicogebieden zoals cybercriminaliteit, overtuiging en autonomie, en heeft de beste in zijn klasse van Google Research toegepast technieken voor adversarieel testen om kritieke beveiligingsproblemen te identificeren vóór de implementatie van Gemini.
Om blinde vlekken in onze interne evaluatiemethodologie te identificeren, werken we samen met een diverse groep externe experts en partners om onze modellen op verschillende punten te testen.
Om tijdens de trainingsfases van Gemini problemen met de inhoudsbeveiliging te diagnosticeren en ervoor te zorgen dat de resultaten voldoen aan ons beleid, gebruiken we benchmarks zoals Echte toxiciteitsvragen , een set van 100.000 prompts met verschillende gradaties van toxiciteit, afkomstig van internet, ontwikkeld door experts van het Allen Institute for AI. Meer informatie over dit werk volgt binnenkort.
Om schade te beperken, hebben we speciale veiligheidsclassificaties ontwikkeld om content te identificeren, labelen en filteren die bijvoorbeeld geweld of negatieve stereotypen bevat. In combinatie met robuuste filters is deze gelaagde aanpak ontworpen om Gemini veiliger en inclusiever te maken voor iedereen. Daarnaast blijven we bekende uitdagingen voor modellen aanpakken, zoals feiten, aarding, attributie en bevestiging.
Verantwoordelijkheid en veiligheid zullen altijd centraal staan bij de ontwikkeling en implementatie van onze modellen. Dit is een langetermijnverbintenis die samenwerking vereist. Daarom werken we samen met de sector en het bredere ecosysteem om best practices te definiëren en veiligheids- en beveiligingsbenchmarks vast te stellen via organisaties zoals MLCommons , Grens Modelforum En zijn AI-veiligheidsfonds , en onze Veilig AI Framework (SAIF) , Deze is ontworpen om de veiligheidsrisico's die specifiek zijn voor AI-systemen in de publieke en private sector te beperken. We zullen blijven samenwerken met onderzoekers, overheden en maatschappelijke organisaties over de hele wereld tijdens de ontwikkeling van Gemini.
Gemini beschikbaar maken voor de wereld
Gemini 1.0 wordt nu uitgerold over een reeks producten en platforms:
Gemini Pro in Google-producten
Wij brengen Gemini naar miljarden mensen via Google-producten.
Vanaf vandaag Bard zal een verfijnde versie van Gemini Pro gebruiken Voor geavanceerder redeneren, plannen, begrijpen en meer. Dit is de grootste upgrade van Bard sinds de lancering. Het zal in meer dan 170 landen en gebieden in het Engels beschikbaar zijn, en we zijn van plan om in de nabije toekomst uit te breiden naar verschillende modaliteiten en nieuwe talen en locaties te ondersteunen.
Wij nemen ook Gemini naar Pixel . De Pixel 8 Pro is de eerste smartphone die is ontworpen voor Gemini Nano, dat nieuwe functies zoals Samenvatten in de Recorder-app mogelijk maakt en Smart Reply uitrolt in Gboard, te beginnen met WhatsApp, Line en KakaoTalk. 1 — en volgend jaar komen er nog meer berichten-apps bij.
In de komende maanden zal Gemini beschikbaar zijn in meer van onze producten en services, zoals Search, Ads, Chrome en Duet AI.
We zijn al begonnen met experimenteren met Gemini in Search, waardoor onze Search Generative Experience (SGE) sneller wordt voor gebruikers. De latentie in Amerikaans Engels is met 40% afgenomen en de kwaliteit is verbeterd.
Bouwen met de tweeling
Vanaf 13 december kunnen ontwikkelaars en zakelijke klanten toegang krijgen tot Gemini Pro via de Gemini API in Google AI Studio of Google Cloud Vertex AI .
Google AI Studio is een gratis, webgebaseerde ontwikkeltool waarmee je snel prototypes kunt maken en apps kunt lanceren met een API-sleutel. Wanneer het tijd is voor een volledig beheerd AI-platform, biedt Vertex AI Gemini-aanpassingen met volledige datacontrole en maakt het gebruik van extra Google Cloud-mogelijkheden voor beveiliging, veiligheid, privacy, databeheer en compliance binnen bedrijven.
Android-ontwikkelaars kunnen ook bouwen met Gemini Nano, ons meest efficiënte model voor taken op het apparaat, via AICore, een nieuwe systeemfunctie die beschikbaar is in Android 14, te beginnen met Pixel 8 Pro-apparaten. Meld u aan voor een vroege preview van AICore .
Gemini Ultra komt binnenkort
Voor Gemini Ultra voeren we momenteel uitgebreide vertrouwens- en beveiligingscontroles uit, waaronder het inschakelen van betrouwbare externe partijen als red team. Ook verfijnen we het model verder met behulp van fine-tuning en reinforcement learning op basis van menselijke feedback (RLHF) voordat we het algemeen beschikbaar stellen.
Als onderdeel van dit proces maken we Gemini Ultra beschikbaar voor geselecteerde klanten, ontwikkelaars, partners en experts op het gebied van beveiliging en verantwoording, zodat ze er alvast mee kunnen experimenteren en feedback kunnen geven. Vervolgens rollen we de app begin volgend jaar uit naar ontwikkelaars en zakelijke klanten.
Begin volgend jaar gaan we ook van start Bard Geavanceerd , een nieuwe, baanbrekende AI-ervaring die u toegang geeft tot onze beste modellen en mogelijkheden, te beginnen met Gemini Ultra.
Het Gemini-tijdperk: een toekomst van innovatie mogelijk maken
Dit is een belangrijke mijlpaal in de evolutie van AI en het begin van een nieuw tijdperk voor ons bij Google, waarin we snel blijven innoveren en de mogelijkheden van onze modellen op verantwoorde wijze verder ontwikkelen.
We hebben tot nu toe grote vooruitgang geboekt met Gemini en we werken er hard aan om de mogelijkheden ervan voor toekomstige releases verder uit te breiden. Denk hierbij aan verbeteringen op het gebied van planning en geheugen en het vergroten van het contextvenster om nog meer informatie te kunnen verwerken en zo betere antwoorden te kunnen geven.
We zijn enthousiast over de geweldige mogelijkheden van een wereld die op verantwoorde wijze wordt aangestuurd door AI – een toekomst van innovatie die de creativiteit een boost zal geven, kennis zal uitbreiden, de wetenschap zal bevorderen en de manier waarop miljarden mensen over de hele wereld leven en werken zal transformeren.







