Molmo (Multimodal Open Language Model) ist eine Familie von Open-Source-Modellen für multimodale KI, die vom Allen Institute for AI (AI2) entwickelt wurden. Im Gegensatz zu vielen anderen hochmodernen multimodalen Modellen, die proprietär sind, zeichnet sich Molmo durch seinen Open-Source-Ansatz aus. Das bedeutet, dass die Modellgewichte, der Trainingscode, die Daten und die Evaluierungen frei zugänglich sind.
Kuratierte Datensätze statt riesiger Datenmengen
Ein wichtiger Aspekt von Molmo ist die Verwendung von kleineren, aber hochwertigen Datensätzen, die speziell für das Training multimodaler Modelle zusammengestellt wurden. Anstatt auf Milliarden von Bild-Text-Paaren aus dem Internet zurückzugreifen, konzentrierten sich die Entwickler auf die Erstellung von Datensätzen mit Fokus auf Qualität und Detailgenauigkeit.
PixMo (Pixels for Molmo) bildet das Herzstück der Trainingsdaten für Molmo. Besonders hervorzuheben ist die Methode der Datenerfassung: Für den Datensatz PixMo-Cap, der für das Pretraining der Modelle verwendet wird, wurden menschliche Annotatoren gebeten, Bilder detailliert zu beschreiben – und zwar durch Sprechen. Dieser Ansatz, bei dem die Beschreibungen in 60 bis 90 Sekunden gesprochen statt geschrieben werden, hat sich als äusserst effektiv erwiesen. Die Annotatoren lieferten so detailliertere Beschreibungen in kürzerer Zeit, und die Audioaufnahmen dienen gleichzeitig als Beweis dafür, dass keine anderen KI-Modelle für die Beschreibungen verwendet wurden. Insgesamt umfasst PixMo-Cap 712.000 verschiedene Bilder mit rund 1,3 Millionen detaillierten Bildbeschreibungen.
Neben PixMo-Cap umfasst PixMo noch weitere Datensätze, die auf unterschiedliche Fähigkeiten abzielen:
- PixMo-AskModelAnything: Beantwortung von Fragen zu Bildern in einem Chat-Kontext.
- PixMo-Points: Lokalisieren und Zählen von Objekten in Bildern mithilfe von 2D-Punkten. Dieser Ansatz ermöglicht neue Interaktionsmöglichkeiten, da Molmo auf visuelle Elemente zeigen kann.
- PixMo-CapQA: Fragenbeantwortung basierend auf Bildbeschreibungen.
- PixMo-Docs: Verstehen von Dokumenten, Tabellen und Diagrammen.
- PixMo-Clocks: Ablesen von Analoguhren.
Leistung auf Augenhöhe mit proprietären Modellen
Die Leistung von Molmo ist beeindruckend. Trotz der Verwendung kleinerer Datensätze schneidet Molmo in Benchmarks und menschlichen Evaluierungen genauso gut oder sogar besser ab als proprietäre Modelle wie GPT-4o, Claude 3.5 und Gemini 1.5. Besonders hervorzuheben sind:
- MolmoE-1B: Dieses effiziente Modell, das auf dem Mixture-of-Experts-LLM OLMoE-1B-7B basiert, erreicht fast die Leistung von GPT-4V.
- Molmo-7B-O und Molmo-7B-D: Diese Modelle erzielen in Benchmarks und menschlichen Evaluierungen Ergebnisse, die zwischen GPT-4V und GPT-4o liegen.
- Molmo-72B: Das leistungsstärkste Modell der Molmo-Familie erreicht in Benchmarks die höchste Punktzahl und liegt in der menschlichen Evaluierung nur knapp hinter GPT-4o.
Bedeutung von Molmo für die Zukunft der KI
Molmo ist ein Beweis dafür, dass Open-Source-KI-Modelle mit den besten proprietären Modellen mithalten können, auch wenn sie mit kleineren, aber hochwertigen Datensätzen trainiert werden.
Die Entscheidung der Entwickler, Molmo als Open-Source-Projekt zu veröffentlichen, ist vielversprechend für die Zukunft der KI-Forschung und -Entwicklung. Entwickler und Forscher haben nun die Möglichkeit, die Technologie hinter Molmo zu verstehen, zu verbessern und für eigene Anwendungen zu nutzen, ohne von grossen Technologieunternehmen abhängig zu sein.
Molmo hat das Potenzial, die Art und Weise, wie wir mit KI interagieren, zu verändern. Die Fähigkeit, auf visuelle Elemente zu zeigen, eröffnet neue Möglichkeiten für die Kommunikation zwischen Mensch und Maschine.
Hinweise zu den Quellen
Der Text wurde mithilfe von NotebookLM auf Basis des Beitrags zu Molmo von Ai2 und dem dazugehörenden Paper (von AI2 Tech Report genannt), sowie einem Beitrag von TechCrunch erstellt.
Kommentare