Google hat mit Android Bench ein offizielles Benchmark Projekt für große Sprachmodelle in der Android Entwicklung vorgestellt. Das neue System soll messbar machen, wie gut LLMs typische Android Aufgaben lösen. Google veröffentlicht dazu nicht nur eine Rangliste, sondern auch die Methodik, den Datensatz und den Test Harness. Damit will das Unternehmen Modellanbieter unter Druck setzen und Entwicklern mehr Transparenz bei der Auswahl von AI Hilfen für Android Projekte geben.
Google macht Android Entwicklung mit einem eigenen LLM Benchmark messbar
Android Bench basiert laut Google auf realen Entwicklungsaufgaben aus öffentlichen Android Repositories auf GitHub. Die Aufgaben decken mehrere typische Problemfelder ab. Genannt werden unter anderem Breaking Changes zwischen Android Versionen, netzwerkbezogene Aufgaben auf Wearables und Migrationen auf neue Jetpack Compose Versionen. Das Benchmark System prüft dabei nicht nur Textausgaben, sondern versucht, ein gemeldetes Problem per Code Änderung zu lösen und verifiziert das Ergebnis mit Unit Tests oder Instrumentation Tests. Google spricht deshalb bewusst von einer modellagnostischen Messung für echte Android Entwicklungsarbeit.
| Punkt | Info |
|---|---|
| Ziel | LLMs für Android Entwicklung vergleichbar machen |
| Aufgabenbasis | reale Aufgaben aus öffentlichen Android Repositories |
| Prüfung | Verifikation über Unit Tests und Instrumentation Tests |
| Transparenz | Methodik, Datensatz und Test Harness sind öffentlich |
| Schutz vor Datenkontamination | Canary String und manuelle Prüfung der Agent Abläufe |
Google hat die Methodik nach eigenen Angaben mit mehreren LLM Anbietern abgestimmt. Genannt wird auch JetBrains. Auf der Methodikseite beschreibt Google zusätzlich Schutzmaßnahmen gegen Datenkontamination. Dazu gehören ein Canary String gegen spätere Trainingsnutzung sowie eine manuelle Prüfung von Agent Abläufen, damit Erfolge nicht durch Reward Hacking oder zu schwache Tests entstehen. Das ist wichtig, weil öffentliche Benchmarks schnell an Aussagekraft verlieren, wenn Modelle Teile der Tests schon aus dem Training kennen.
Gemini 3.1 Pro führt die erste Android Bench Rangliste an
Im ersten öffentlichen Lauf konzentriert sich Android Bench nur auf die reine Modellleistung. Agentenfunktionen und externe Werkzeuge stehen noch nicht im Mittelpunkt. Laut Google lösen die getesteten Modelle zwischen 16 und 72 Prozent der Aufgaben erfolgreich. Im öffentlichen Leaderboard liegt Gemini 3.1 Pro Preview mit 72,4 Prozent vorn. Dahinter folgen Claude Opus 4.6 mit 66,6 Prozent, GPT 5.2 Codex mit 62,5 Prozent und Claude Opus 4.5 mit 61,9 Prozent. Der Basiswert von Gemini 2.5 Flash liegt bei 16,1 Prozent. Google erklärt dazu, dass der Score den Durchschnitt über 100 Testfälle und 10 Durchläufe pro Modell abbildet.
Für Entwickler ist das mehr als nur ein Prestige Vergleich zwischen Modellnamen. Google verknüpft Android Bench direkt mit Android Studio und erklärt, dass sich die getesteten Modelle per API Schlüssel in der aktuellen stabilen Version ausprobieren lassen. Der neue Benchmark dürfte deshalb auch für den Markt rund um KI Programmierung relevant werden. Google will Android Bench in kommenden Versionen weiter ausbauen und mehr Aufgaben mit höherer Komplexität aufnehmen. Damit entsteht ein neues Vergleichsinstrument für AI Hilfe in der Android Entwicklung, das stärker auf echte Code Arbeit als auf allgemeine Chat Fähigkeiten zielt.