Autor: Xinzhi Yuan
Google I/O 2026 Konferenz, volle Power!
Gerade eben sind Chop und Demis Hassabis gemeinsam aufgetreten und haben all die großen Überraschungen, die sie seit einem halben Jahr gesammelt haben, auf einmal enthüllt.
Ohne jegliche Zweifel, der größte Star des Abends, Gemini Omni, wurde offiziell vorgestellt!
Als ein echtes 'Alleskönner'-Modell kann Omni jede Form von Input verarbeiten und beliebige Inhalte generieren. Zudem unterstützt es als erstes Videoausgabe und wird als 'Videoversion von Nano Banana' bezeichnet.
Ein weiteres Highlight des Abends gehört Gemini 3.5 Flash.
In fast allen Benchmarks hat 3.5 Flash die eigene Vorgängerversion, Gemini 3.1 Pro, regelrecht überrollt. Die Ausgabegeschwindigkeit wurde direkt verdoppelt, im Vergleich zu GPT-5.5 und Opus 4.7 war es sogar über 4 Mal schneller. Die stärkere 3.5 Pro wird nächsten Monat veröffentlicht.
Außerdem wurden eine ganze Reihe neuer, schwerer Produkte vorgestellt:
Antigravity 2.0: Eine völlig neue unabhängige Desktop-Anwendung, die sich von IDE zu einer Agentenentwicklungsplattform weiterentwickelt hat.
Gemini Spark: Persönlicher AI-Agent, 7×24h Cloud-Betrieb.
Gemini App überarbeitet: Codename Neural Expressive, jetzt nach Rechenleistung abgerechnet.
AI Ultra-Abonnementplan: Neue 100-Dollar-Version, höchste Stufe von 250 auf 200 Dollar gesenkt.
Die größte Google-Suche-Upgrades in 25 Jahren: Integration von 3.5 Flash, neue intelligente Suchleiste, automatische Generierung von Mini-Apps usw.
Es ist nicht übertrieben zu sagen, dass die Dichte der Inhalte dieser I/O beispiellos ist.
Gemini Omni startet: Ein 'Alleskönner'-AI ist geboren.
Wie die Teaser-Videos verrückt andeuteten, ist das lang erwartete Gemini Omni endlich da. Hassabis trat persönlich auf und verkündete: 'Wir machen den nächsten wichtigen Schritt – Gemini Omni, ein neues Modell, das Inhalte aus jeder Eingabe erstellen kann.'
Dieses Setup sagt alles. Google will einen 'Alleskönner' AI-Kreativmotor schaffen. Es kombiniert die Intelligenz von Gemini mit der stärksten generativen AI und maximiert alle drei Dimensionen: Weltverständnis, Multimodalität und Bearbeitung. Mit anderen Worten: Gib ihm jede Kombination von Bildern, Audio, Video und Text, und es kann ein hochwertiges Video generieren. Außerdem kann man mit ihm im Chat Stil und Inhalt des Videos bearbeiten.
Wichtiger ist, dass Omni nicht nur 'so aussieht', es versteht tatsächlich die physische Welt. Hassabis sagte, dass frühere Systeme bei der Simulation von Konzepten wie Gravitation und kinetischer Energie oft scheiterten, aber Omni hat einen 'Sprung in der Entwicklung' vollzogen. Es hat das 'Weltwissen' und die 'Schlussfolgerungsfähigkeiten' von Gemini in die Videoerstellung integriert.
Gib ihm den Prompt 'Erkläre die Faltung von Proteinen mit Stop-Motion-Animation', und das generierte Video zeigt jede wissenschaftlich präzise Schrittfolge der Faltung der Aminosäurekette in α-Helix und β-Faltung, visuell umgesetzt als exquisite Stop-Motion-Animation.
Ein weiteres Beispiel ist die Zuordnung der 26 Buchstaben des englischen Alphabets zu entsprechenden Objekten. C steht für Capybara, D für Diskokugel, L für Lava-Lampe. Omni fügt keine Materialien zusammen; es verbindet tatsächlich Sprache, Bilder und Bedeutungen miteinander.
Man muss sagen, dass der Sprung von realistisch zu bedeutungsvoll zu groß war.
Auf der Bühne nahm Hassabis ein kurzes Video von sich selbst auf und begann, vor Ort zu improvisieren. Ein auf seiner Hand gezeichneter Kreis verwandelte sich in ein schwarzes Loch, und die Straße, die er abends entlangging, wurde zu einer Cyberpunk-Szene. Ein Satz kann das Bild neu schreiben, ein Satz kann die Welt verändern. Alles kann zur Leinwand für die Schaffung einer neuen Realität werden. Zum Beispiel kann man mit einem Selfie und einem gezeichneten Kreis sofort ein schwarzes Loch erzeugen, und es gibt unendlich viele kreative Möglichkeiten.
Und das ist nicht nur eine einmalige Erstellung. Du kannst weiter chatten. Die von Gemini Omni erzeugten Videos behalten die Charaktere bei, die physikalische Logik besteht und die Szenenerinnerung ist kohärent.
Beginnt mit einer Rohaufnahme eines Auftritts. In der zweiten Runde: 'Versetze den Geiger in die Umgebung dieses Bildes', mit einem Referenzbild von schneebedeckten Bergen und Gras, wechselt die Szene sofort, und die Bewegungen und Lichtverhältnisse passen sich der neuen Umgebung an.
In der dritten Runde: 'Wechsel die Perspektive auf die Schulter des Geigers', die Sicht dreht sich, aber die Spielbewegungen und die Musik bleiben vollständig konstant.
Egal, wie sich die Szenarien ändern, das Hauptmotiv bleibt stabil.
Besonders erschreckend ist die Flexibilität von Omni bei der Eingabe. Bilder, Texte, Videos, Audios – jede Referenz kann gemischt eingegeben werden, um einen kohärenten Output zu erzeugen. Du kannst sogar deinen eigenen Avatar erstellen, der in jeder Szene erscheint, deine Stimme spricht und Dinge tut, die du noch nie gemacht hast.
Derzeit ist Omni Flash offiziell gestartet, die API-Version wird in den kommenden Wochen verfügbar sein. Und eine stärkere Omni Pro-Version ist ebenfalls auf dem Weg. Dank Googles starker Integrationsfähigkeiten hat Omni bereits bei der Markteinführung Anbindungen an Gemini App, Google Flow und YouTube Shorts, wobei YouTube Shorts-Nutzer sogar kostenlos darauf zugreifen können.
Flash schlägt Pro: 3.5 hat die Definition von 'Flaggschiff' neu geschrieben.
Nach Gemini Omni war das Highlight der I/O-Konferenz die Veröffentlichung des neuen Flaggschiffs Gemini 3.5 Flash. Google beschreibt es als das leistungsstärkste Codierungs- und Agentenmodell bisher.
Vor Ort kündigte Hassabis an: '3.5 Flash hat in fast allen Benchmark-Tests Gemini 3.1 Pro übertroffen!' Um das klarzustellen: 3.1 Pro wurde erst vor drei Monaten als Flaggschiff-Modell von Google eingeführt, und jetzt hat ein Modell der Flash-Klasse es plattgemacht.
Überraschenderweise hat Google in so kurzer Zeit ein beeindruckendes Ergebnis geliefert:
Terminal-Bench 2.1 (Codierung): 76,2%
GDPval-AA (Agentenaufgaben in der realen Welt): 1656 Elo
MCP Atlas (Große Werkzeugnutzung): 83,6%
CharXiv Reasoning (Multimodales Verständnis): 84,2%
Die Parameter sind zu abstrakt, also schauen wir uns eine echte Grenzdemo an. In nur einem Augenblick kann 3.5 Flash eine akademische Arbeit in einer unbekannten Sprache verdauen und eine visuelle Website mit perfekter Interaktivität erstellen. Bei den Agentenaufgaben kann es über Antigravity mehrstufige Workflows durchführen und automatisch die Assets kategorisieren und benennen. Oder es kann mit zwei Agenten innerhalb von sechs Stunden die AlphaZero-Papiere reproduzieren und ein vollständig lauffähiges Spiel codieren.
93 Agenten haben in nur 12 Stunden ein OS erstellt.
Man kann sehen, dass die Erreichung all dieser Fähigkeiten durch das neue Antigravity 2.0 ermöglicht wurde. Heute wurde die Google-Agentenentwicklungsplattform Antigravity auf 2.0 aktualisiert und hat sich von IDE zu einer unabhängigen Desktop-Anwendung weiterentwickelt, die das Agent-first-Design vollständig umarmt.
Varun gab eine atemberaubende Demo, bei der er Antigravity mit 3.5 Flash nutzte, um ein Betriebssystem von Grund auf zu erstellen. 93 Sub-Agenten arbeiteten parallel, sendeten über 15.000 Modellanfragen und verarbeiteten 2,6 Milliarden Token. Nach 12 Stunden verwandelte sich ein völlig leeres Projekt in einen funktionierenden OS-Kernel. Scheduler, Speichermanagement, Dateisystem – jede Zeile Code wurde von Agenten geschrieben, getestet und auditiert. Die API-Kosten lagen bei unter 1000 US-Dollar.
Dann versuchte er, DOOM auf diesem von AI geschriebenen Betriebssystem auszuführen. Der erste Versuch scheiterte, da die Video- und Tastaturtreiber fehlten. Also gab er direkt im Antigravity 2.0 die Reparaturanweisung ein, und der Agent begann automatisch, den Treibercode zu ergänzen. Nach einer Weile erschien das DOOM-Bild auf dem Bildschirm, und das Publikum war begeistert.
Zusammenfassend bringt Antigravity 2.0 zentrale Upgrades mit sich:
Sub-Agenten können dynamisch generiert werden, während der Haupt-Agent die Aufgaben in Sub-Aufgaben aufteilt und sie parallel ohne Interferenzen ausführt;
Asynchrone Aufgabenverwaltung macht langwierige Operationen nicht mehr blockierend für den Haupt-Thread;
Geplante Aufgaben können 'zeitgesteuerte Aufgaben' festlegen, die Agenten automatisch ausführen, z.B. jeden Tag einmal den PR-Status überprüfen, oder einmal pro Stunde ein Gesundheitsprüfungs-Skript ausführen.
Neue Slash-Befehle: /goal, um den Agenten alles auf einmal ausführen zu lassen, /grill-me, um den Agenten zu helfen, die Anforderungen zu klären, bevor er handelt, /browser, um die Verwendung des Browsers explizit zu steuern.
Allerdings sind das alles bereits intern getestete Fähigkeiten. Google hat intern mit Antigravity eine Geschwindigkeit von 500 Milliarden Tokens pro Tag erreicht. Jetzt sind es bereits 30 Billionen pro Tag. Und diese 12-fache Beschleunigung von Flash wird ab heute in Antigravity verfügbar sein.
3.5 Flash wird gleichzeitig das Standardmodell für Gemini App und Google Search AI Mode, verfügbar für alle Benutzer weltweit. Entwickler können über Antigravity 2.0, Gemini API und Google AI Studio darauf zugreifen. Noch explosiver ist, dass 3.5 Pro derzeit intern getestet wird und nächsten Monat veröffentlicht wird.
7x24h persönlicher Butler: Google Spark ist endlich da.
Die dritte große Veröffentlichung heute Abend ist Gemini Spark! Die Positionierung von Spark ist sehr klar: dein persönlicher AI-Agent. Selbst wenn du deinen Laptop schließt, läuft er unermüdlich weiter. Er läuft auf einer dedizierten virtuellen Maschine in der Cloud und kann 7x24 Stunden online sein.
Gemini Spark wird von Gemini 3.5 + Antigravity-Framework angetrieben und tief in Google’s 'Office Suite' integriert. Der Produkt-Vizepräsident Josh Woodward demonstrierte zwei Szenarien, die das Publikum sofort in Aufregung versetzten.
Das erste Szenario war ein Arbeitsszenario: Eingabe eines Befehls: 'Hilf mir, eine E-Mail an das Team zu verfassen, die alle Informationen über die Veröffentlichung von Gemini Live in der letzten Woche zusammenfasst.' Spark griff automatisch auf Gmail, Docs und Chatprotokolle zu, um Informationen zu sammeln, und nutzte sogar eine von Woodward selbst geschriebene 'Ghostwriter'-Funktion, um die E-Mail automatisch an seinen persönlichen Stil anzupassen. Der gesamte Prozess lief im Hintergrund ab, der Mensch musste nur überprüfen und senden. Ja, Spark unterstützt benutzerdefinierte Skills, damit es deinen Ton, deine Vorlieben und deine Arbeitsweise erlernen kann.
Das zweite Szenario war ein Wohnszenario: Planung einer Blockparty. Spark erhielt die Aufgabe und führte sie Schritt für Schritt aus. Es erstellte ein Google Sheets-RSVP-Tracking-Dokument, das direkt mit Gmail verbunden war, um automatisch zu aktualisieren, wer geantwortet hat. Für Nachbarn, die sich nicht angemeldet hatten, entwarf Spark automatisch Erinnerungs-E-Mails, die erst nach Bestätigung gesendet wurden. Dann generierte es eine Google Slides-Präsentation, die sogar Informationen über ein aufblasbares Schloss im Block enthielt. Während des gesamten Prozesses wurde keine einzige App geöffnet.
Darüber hinaus verfügt Spark über leistungsstarke Sprachsteuerungsfähigkeiten. Vor Ort nahm Woodward sein Handy und gab direkt drei Sprachbefehle: 'Finde alle Meetings mit Sundar, die in hellrosa markiert sind', 'Schreibe eine Einladung für den neuen Nachbarn John zur Blockparty' und 'Erstelle ein Dokument, das die Aufgaben auflistet, die bis zum Ende des Schuljahres für die Kinder zu erledigen sind, sortiert nach Fälligkeitsdatum'.
Die Sprache wurde direkt in Textbefehle umgewandelt. Spark teilte eine kontinuierliche Sprachaufnahme automatisch in drei unabhängige Aufgaben-Threads auf, die im Hintergrund parallel ausgeführt wurden.
Preise: Das AI Ultra-Abonnement kostet 100 US-Dollar pro Monat für den Spark Beta-Zugang. Der höchste Ultra-Plan wurde von 250 US-Dollar auf 200 US-Dollar gesenkt. Spark wird nächste Woche zuerst für US-AI-Ultra-Nutzer die Beta-Version zur Verfügung stellen.
In dieser Nacht hat Google das Tor zu ASI aufgerissen.
Wenn man zurückblickt auf diese I/O, ist das wirklich Gruselige nicht ein einzelnes Produkt. Es ist die gleichzeitige Verfügbarkeit aller Fähigkeiten.
Multimodale Verständigung, multimodale Generierung, rund um die Uhr online Agent – diese drei Teile hat Google über Nacht zusammengefügt. Omni verwandelt einen Satz in eine Welt, ohne dass Menschen irgendwelches Material bereitstellen müssen; 93 Agenten haben ein Betriebssystem von Grund auf erstellt, ohne dass Menschen eine Zeile Code schreiben mussten; Spark arbeitet 7×24 Stunden für dich, ohne dass Menschen eine App öffnen müssen.
Wenn AI nicht mehr auf menschliche 'Fütterung' angewiesen ist, sondern selbst versteht, Entscheidungen trifft, ausführt und iteriert – das Ende dieses Weges heißt ASI (Superintelligenz).
Niemand kann einen genauen Zeitrahmen geben. Aber der Google I/O heute Abend hat alle erkennen lassen: Auf dem Weg zur Superintelligenz gibt es kein 'technisch unmöglich' mehr. Es bleibt nur noch die Geschwindigkeit der Implementierung. Vor einem halben Jahr diskutierten wir noch, ob AGI eine Blase sei. Ein halbes Jahr später verwendet Google Agenten, um Betriebssysteme zu schreiben. Die Beschleunigung in dieser Branche hat bereits den Bereich überschritten, den der Mensch intuitiv wahrnehmen kann.
Referenzmaterial:
https://youtu.be/wYSncx9zLIU
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
https://antigravity.google/blog/introducing-google-antigravity-2-0
https://antigravity.google/blog/google-io-2026-feature-deep-dive
