Google Gemma: Offene KI-Modelle für Text, Vision und Codegenerierung (2024)

Definition: Familie offener KI-Modelle von Google Was ist Google Gemma?

Von Dipl.-Ing. (FH) Stefan Luber 6 min Lesedauer

Anbieter zum Thema

Fujitsu Technology Solutions GmbH
emma technologies S.a.r.l.

Google Gemma ist eine Familie offener KI-Modelle von Google. Sie beinhaltet vortrainierte Text-zu-Text-Modelle unterschiedlicher Größe, Vision-Language-Modelle und Modelle zur Codegenerierung und -vervollständigung. Die Modelle basieren auf Entwicklungsarbeiten und Technologien der Gemini-Modelle.

Google Gemma ist der Name für eine Familie offener und moderner KI-Modelle. Sie wurden von Google entwickelt und im Februar 2024 vorgestellt. Der Name Gemma geht auf das lateinische Wort „gemma“ zurück, was im Deutschen „Edelstein“ oder „Juwel“ bedeutet. Gemma ist von den Gemini-Sprachmodellen inspiriert und wurde von Google DeepMind und anderen Google-Teams entwickelt.

Die Modelle basieren auf Grundlagenarbeiten und Technologien, die für die Entwicklung der großen Gemini-Sprachmodelle von Google verwendet wurden. Die Gemma-Modelle stehen für die Allgemeinheit zur Verfügung und können für eigene KI-Projekte und KI-Forschungs- oder Entwicklungsarbeiten verwendet werden.

Definition: KI-Modell auf Basis von DeepMind-Technologie Was ist Google Gemini?

Mitglieder der Gemma-Modellfamilie sind vortrainierte Text-zu-Text-Modelle unterschiedlicher Größe sowie Vision-Language-Modelle und Modelle zur Codegenerierung und Codevervollständigung. Die Gemma-Modelle sind je nach Größe und Typ auf eigenen lokalen Servern, Rechnern und Mobilgeräten mit unterschiedlicher Hardwareausstattung ausführbar und eignen sich für den Betrieb auf öffentlichen oder privaten Cloud-Plattformen. Mithilfe von Entwickler-Tools und mit entsprechender Feinabstimmung lassen sich die Modelle für spezifische Aufgaben und individuelle Anwendungen anpassen und optimieren.

Google nennt die Gemma-Modelle selbst offene Modelle. Es handelt es sich aber nicht um Open-Source-Modelle im eigentlichen Sinn. Die Modelle können unter Einhaltung der von Google vorgegebenen Bedingungen für die Forschung oder für kommerzielle Zwecke frei eingesetzt, angepasst oder weitergegeben und veröffentlicht werden. Der Source Code der Modelle und das verwendete Trainingsmaterial sind aber nicht veröffentlicht.

Die Nutzer von Gemma verpflichten sich zu einem verantwortungsbewussten Umgang mit den Modellen. Sie dürfen sie nicht für schädliche Zwecke wie zur Erzeugung illegaler Inhalte, Hassrede oder Gewaltaufrufe und anderes zu verwenden.

Mittlerweile hat Google angekündigt, die Gemma-Modellfamilie zu erweitern und in naher Zukunft eine weiterentwickelte Version Gemma 2 mit verbesserter Leistung und Performance bereitzustellen.

Verfügbare Modelle und Modellversionen der Gemma-Familie

Zur Gemma-Familie gehören mittlerweile mehrere verschiedene KI-Modelle. Den Kern bilden die Text-zu-Text-Sprachmodelle Gemma 2B und Gemma 7B. Sie basieren auf der Transformer-Architektur und der Dekoder-Technik und wurden mit umfangreichen Daten bestehend aus Texten, Programmcode und mathematischen Inhalten vortrainiert. Sie sind für eine Vielzahl verschiedener Aufgaben aus dem Bereich der natürlichen Sprachverarbeitung und der Textgenerierung einsetzbar und lassen sich feinabstimmen.

Die Gemma-Text-zu-Text-Modelle sind in zwei unterschiedlichen Größen, mit zwei oder mit sieben Milliarden Parametern verfügbar. Das Modell Gemma 2B mit seinen zwei Milliarden Parametern benötigt weniger Hardwareressourcen und ist auf Geschwindigkeit und Effizienz optimiert. Es eignet sich zum Beispiel für den Einsatz auf Mobilgeräten oder Laptops mit begrenzten Hardwareressourcen. Gemma 7B mit seinen sieben Milliarden Parametern ist auch für komplexe und anspruchsvolle Aufgaben einsetzbar, stellt aber höhere Anforderungen an die zu verwendende Hardware. Es ist für die Ausführung auf Computern oder kleinen Servern gedacht.

Ein weiteres Modell der Gemma-Familie ist CodeGemma. Es basiert auf den Gemma-Text-zu-Text-Modellen, ist aber speziell für die Generierung und Vervollständigung von Programmcode optimiert. Es eignet sich ebenfalls für die lokale Ausführung auf Rechnern unterschiedlicher Leistung.

Das jüngste Modell der Familie ist PaliGemma. Bei PaliGemma handelt es sich um ein sogenanntes Vision-Language-Modell (VLM). Es ist inspiriert von PaLI-3 und eignet sich für verschiedene Vision-Language-Aufgaben wie das Generieren von Bild- oder Video-Untertiteln, das Beantworten von visuellen Fragestellungen, das Erfassen und Verstehen von Texten in Bildern und für die Objekterkennung oder Objektsegmentierung.

Strategien für den verantwortungsvollen Umgang mit den Gemma-Modellen

Die Veröffentlichung und Bereitstellung freier KI-Modelle sind mit einigen Risiken verbunden. Es besteht die Gefahr, dass die Modelle für nicht erwünschte Zwecke verwendet oder für illegale Aktivitäten missbraucht werden. Vor allem, wenn der Code und die Gewichtungen der Modelle veröffentlicht sind, lassen sich eventuell eingebaute Sicherheitsvorkehrungen ohne Weiteres wieder entfernen. Es ist nahezu unmöglich, diese Modelle zu kontrollieren und ihren Missbrauch zu verhindern.

Den Spagat zwischen der Förderung freier KI-Modelle und dem verantwortungsvollen Umgang mit Künstlicher Intelligenz versucht Google zu meistern, indem der Source Code und die Trainingsdaten der Modelle nicht veröffentlicht werden. Es handelt sich daher im eigentlichen Sinn nicht um Open-Source-Modelle. Um Missbrauch zu verhindern, sind in den Modellen und für das Pretraining verschiedene Sicherheitsmaßnahmen und Filter wie CSAM-Filter oder Filter für sensible Inhalte und Daten, die gegen Content-Moderationsrichtlinien von Google verstoßen könnten, implementiert.

Das Trainingsmaterial ist laut Google streng kuratiert. Die vortrainierten Gemma-Modelle wurden zudem ausgiebig auf verantwortungsvolles Verhalten und eventuell vorhandene Voreingenommenheit oder Diskriminierung geprüft. Darüber hinaus unterstützt ein Responsible Generative AI Toolkit die Entwickler beim Entwerfen und Implementieren verantwortungsbewusster KI-Anwendungen. Nutzer der Modelle verpflichten sich über die Google-Nutzungsbedingungen, denen sie zustimmen müssen, zu einem verantwortungsvollen Umgang mit der Künstlichen Intelligenz.

Lokale und cloudbasierte Bereitstellungs- und Nutzungsmöglichkeiten

Die Modelle der Gemma-Modelle sind auf verschiedenen Hardwareplattformen und Endgeräten ausführbar und nutzbar. Sie lassen sich abhängig von Typ und Größe des Modells auf PCs, Servern, Laptops, Mobilgeräten wie Smartphones und Tablets oder auf IoT-Geräten ausführen. Die lokale Ausführung ist beispielsweise mithilfe von Ollama möglich.

Gemma-Modelle sind aber auch als Cloud-Dienst nutzbar. Sie stehen beispielsweise über Google Vertex AI zur Verfügung. Gemma kann zudem über die Kaggle-Plattform oder über Hugging Face ausprobiert werden.

Leistung und Benchmarkergebnisse der Gemma-Modelle

Google hat die Modelle der Gemma-Familie verschiedenen Benchmarks unterzogen, um einen Eindruck über die Leistungsfähigkeit im Vergleich zu anderen offenen KI-Modellen zu bekommen. Getestet wurde zum Beispiel das allgemeine Weltwissen und die Problemlösungsfähigkeiten der Modelle per Massive Multitask Language Understanding Benchmark (MMLU), die mehrstufigen Argumentationsfähigkeiten, die Fähigkeit zu „vernünftigem“ Denken, die arithmetischen und mathematischen Fähigkeiten, die Fähigkeiten bei der Generierung von Programmcode und anderes.

Die beiden Text-zu-Text-Modelle Gemma 2B und 7B erzielen außergewöhnliche Ergebnisse und übertreffen in einigen Tests sogar größere offene KI-Modelle. So schlägt Gemma beispielsweise ähnlich große oder größere Modelle wie Llama2, Mistral, DeciLM oder Qwen1.5 in zahlreichen der getesteten Aufgabenstellungen. Viele der Aufgaben werden sehr effizient, aber dennoch genau erledigt.

Google führt die guten Benchmarkergebnisse unter anderem darauf zurück, dass die Gemma-Modelle Technologien und Forschungsergebnisse der großen und leistungsfähigen Gemini-Sprachmodelle verwenden. Eine hervorzuhebende Eigenschaft von Gemma ist zudem das große Standardkontextfenster. Es umfasst 8K und ermöglicht dem Modell ein breites und gleichzeitig tiefes Verständnis des Kontexts. Dank des großen Kontextfensters lassen sich komplexe Informationen erfassen und verarbeiten.

Die verschiedenen Anwendungsmöglichkeiten der Gemma-Modelle

Die verschiedenen Modelle der Gemma-Familie sind für eine Vielzahl von Aufgaben und Anwendungen einsetzbar. Dadurch, dass sich Modelle wie Gemma 2B auch auf Endgeräten und Mobilgeräten mit beschränkter Hardwareausstattung vollständig lokal betreiben und ausführen lassen, steigt die Zahl möglicher KI-Einsatzszenarien zusätzlich.

Grundsätzlich lassen sich die Modelle verwenden, um Texte zu generieren, zusammenzufassen oder zu übersetzen, Inhalte aus Texten zu extrahieren, Chatbots zu realisieren, Programmcode zu erstellen, zu vervollständigen, zu analysieren oder zu kommentieren, Bilder und Videos zu untertiteln, visuelle Fragen zu beantworten oder visuelle Aufgabenstellungen zu bearbeiten und für vieles mehr.

Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki

Google Gemma: Offene KI-Modelle für Text, Vision und Codegenerierung (4)Von AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.

Zum Special: Definitionen rund um Cloud Computing

(ID:50076953)

Google Gemma: Offene KI-Modelle für Text, Vision und Codegenerierung (2024)
Top Articles
Latest Posts
Article information

Author: Kelle Weber

Last Updated:

Views: 5893

Rating: 4.2 / 5 (53 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Kelle Weber

Birthday: 2000-08-05

Address: 6796 Juan Square, Markfort, MN 58988

Phone: +8215934114615

Job: Hospitality Director

Hobby: tabletop games, Foreign language learning, Leather crafting, Horseback riding, Swimming, Knapping, Handball

Introduction: My name is Kelle Weber, I am a magnificent, enchanting, fair, joyous, light, determined, joyous person who loves writing and wants to share my knowledge and understanding with you.