OpenGPT-X: Teuken 7B – Europas offenes KI-Modell für Unternehmen

Geschrieben von Carsten Mickeleit | Oct 14, 2025 3:55:59 PM

## Einleitung

Generative KI entwickelt sich rasant – doch viele große Sprachmodelle stammen aus den USA und sind wenig angepasst auf europäische Sprachen oder Datenschutzanforderungen. Mit dem Projekt **OpenGPT-X** haben Fraunhofer IAIS & IIS gemeinsam mit Partnern nun ein offenes, mehrsprachiges Modell mit dem Namen **Teuken 7B** veröffentlicht, das speziell auf die Bedürfnisse europäischer Nutzer:innen ausgelegt ist. [iais.fraunhofer.de](https://www.iais.fraunhofer.de/de/branchen-themen/themen/generative-ki/opengpt-x.html?trk=public_post_comment-text)

Dieser Beitrag beleuchtet:

- was **Teuken 7B** technisch ausmacht,

- wie Unternehmen das Modell nutzen und anpassen können,

- welche datenschutzrechtlichen Herausforderungen bestehen,

- und welche Rolle solche offenen Modelle für **Aiverti.ai** oder vergleichbare Plattformen spielen.

---

## Hauptteil

### Was ist Teuken 7B?

Teuken 7B ist ein Sprachmodell mit **sieben Milliarden Parametern**, das von Grund auf multilingual konzipiert wurde – mit Daten in allen **24 EU-Amtssprachen**.

Es gibt verschiedene Versionen:

- **instruct-research-v0.4** (für Forschung)

- **instruct-commercial-v0.4** (für kommerzielle Nutzung, Lizenz Apache 2.0)

- **instruct-v0.6** & **base-v0.6** (für nicht-kommerzielle Nutzung)

Das Modell ist offen verfügbar (z. B. auf Hugging Face) und kann von Unternehmen als Basis verwendet werden, um auf eigene Anwendungsfälle zugeschnittene Varianten zu erzeugen.

#### Multilingualität und europäische Ausrichtung

Ein großer Vorteil ist, dass Teuken 7B von Anfang an mit einem Fokus auf europäische Sprachen und Normen trainiert wurde. Etwa 50 % der Trainingsdaten stammen aus nicht-englischen Quellen, um eine ausgewogenere Leistung über alle Sprachen zu gewährleisten.

#### Anpassbarkeit & Offenheit

Das Modell ist offen lizenziert und erlaubt es Entwickler:innen, durch **Fine-Tuning, Instruction Tuning, Model Merging** oder **Continued Pretraining** eigene Versionen zu erzeugen. Sensible Daten bleiben im eigenen Unternehmensumfeld – das Modell muss nicht mit sensiblen Inhalten ausgelagert werden.

---

### Anwendung in Unternehmen

#### Mögliche Use-Cases

Einige typische Einsatzfelder sind:

- **RAG-Architekturen** (Retrieval-Augmented Generation) zur Verknüpfung von Unternehmenswissen und KI

- **Texte generieren** (z. B. Berichte, Zusammenfassungen, E-Mails)

- **Informationsextraktion**, z. B. aus Verträgen, Dokumenten, Berichten

- **Chatbots**, die in mehreren Sprachen gleichzeitig agieren

Diese Anwendungsfelder lassen sich branchenübergreifend einsetzen – in Recht, Medien, Gesundheitswesen, Verwaltung, Forschung etc.

#### Schritte zur Anpassung

1. **Download & Basisversion wählen** – z. B. instruct-commercial für kommerzielle Nutzung

2. **Analyse des Anwendungsfalls** – welche Domäne, Sprache(n), Anforderungen an Konsistenz, Bias etc.

3. **Feinjustierung (Fine-Tuning / Instruction Tuning / Merging)** mit unternehmenseigenen Daten

4. **Evaluation & Validierung** – Benchmarks, Vergleich mit anderen Modellen, Testdaten

5. **Deployment & Monitoring** – Integration in Anwendungen, Versionierung, Feedback-Schleifen

---

### Datenschutz und Compliance

Gerade in Europa spielt der Datenschutz eine zentrale Rolle. Hier sind wichtige Aspekte:

#### Datenhoheit

Da Teuken 7B lokal oder in der eigenen Infrastruktur betrieben werden kann, verbleiben sensible Daten innerhalb des Unternehmens. Das minimiert Risiken aus Datenübertragung oder Speicherung in unsicheren Umgebungen.

#### Lizenz & rechtlicher Rahmen

Die kommerzielle Version von Teuken 7B steht unter **Apache 2.0** zur Verfügung.

Zum Zeitpunkt der Veröffentlichung müssen Anforderungen des **EU AI Act** beachtet werden – allerdings greift die Verordnung erst ab August 2027 für Modelle, die vor August 2025 in Verkehr gebracht wurden.

#### Risiken und Verantwortung

Wie bei allen KI-Sprachmodellen besteht das Risiko der Generierung unangemessener, beleidigender oder fehlerhafter Inhalte. Unternehmen sollten Mechanismen einrichten wie:

- Output-Filter / Moderation

- Feedback-Loops und menschliche Kontrolle

- Bias-Analyse und Monitoring

---

## Fazit

OpenGPT-X mit dem Modell **Teuken 7B** stellt eine spannende europäische Alternative zu US-basierten Modellen dar. Es bietet Multilingualität, Offenheit und Anpassbarkeit – bei hoher Kontrolle über Daten und Infrastruktur.

Für Unternehmen und Tools wie **Aiverti.ai** ergibt sich daraus eine große Chance: Ein offenes Modell als Basis zu nutzen und kundenspezifisch zu erweitern, ohne Datenschutz- oder Lizenzbedenken zu vernachlässigen.

Wer in den nächsten Schritten KI-gestützte Anwendungen umsetzen will, sollte prüfen, wie Teuken 7B in seine Infrastruktur passt, und ein Pilotprojekt starten (z. B. RAG-Integration oder Chatbot in 2–3 Sprachen).

---

Vollständigen Beitrag anzeigen