Pinterest hat mit einer radikalen Neugestaltung seiner KI-Infrastruktur die Betriebskosten für visuelle Empfehlungen um 90 % reduziert. Diese Optimierung basiert nicht auf teuren Closed-Source-Lösungen, sondern auf der konsequenten Nutzung und Anpassung von Open-Source-Modellen. Der technologische Durchbruch unter der Leitung von CTO Matt Madrigal zeigt, wie Unternehmen durch gezielte Modifizierung selbst hochkomplexe KI-Architekturen kosteneffizient und leistungsstark gestalten können.
Warum Standard-KI-Modelle für Pinterest zu teuer waren
Mit über 620 Millionen monatlich aktiven Nutzern ist Pinterest eine der größten visuellen Entdeckungsplattformen weltweit. Jede Interaktion – von der Bildsuche bis zur Produktempfehlung – erfordert leistungsfähige KI-Modelle. Doch der Einsatz von Frontier-Modellen wie Qwen3-VL für jede einzelne Bildverarbeitung hätte nicht nur technische, sondern auch finanzielle Grenzen gesprengt.
Madrigal und sein Team analysierten, dass die Standardlösung eines vollumfänglichen Vision-Layers für die visuelle Suche schlichtweg unwirtschaftlich war. Stattdessen entschlossen sie sich, das Modell radikal zu vereinfachen und auf die proprietären Stärken von Pinterest zuzuschneiden. Die Kostenreduktion um 90 % bei gleichzeitig 30 % verbesserter Genauigkeit ist das Ergebnis dieser Strategie.
Wie Pinterest Open-Source-KI für visuelle Suche neu definiert
Pinterests Reise mit KI begann bereits mit früheren Modellen wie Googles BERT und OpenAIs CLIP. Doch statt sich auf diese externen Lösungen zu verlassen, entwickelte das Unternehmen eigene visuelle Embeddings und passte CLIP mit seinem „Pin CLIP“ an die spezifischen Anforderungen an. Diese proprietären Embeddings ermöglichen es, Bildmetadaten und Nutzervorlieben präzise zu erfassen – und das bereits vor der Laufzeit.
Der nächste Schritt war die Anpassung von Qwen3-VL, einem hochmodernen Multimodal-Modell. Madrigals Team entfernte die ursprüngliche Vision-Encoder-Schicht komplett und ersetzte sie durch ein eigenes Embedding-System. Diese Maßnahme hatte zwei entscheidende Vorteile:
- Vorberechnete Embeddings: Bildinformationen und Metadaten werden offline vorverarbeitet, was die Laufzeitperformance dramatisch verbessert.
- Kontinuierliches Lernen: Die Embeddings werden regelmäßig mit neuen Daten aktualisiert, um stets aktuelle und relevante Empfehlungen zu liefern.
„Open-Source-Modelle mit Apache-Lizenzen bieten uns die Freiheit, Gewichte anzupassen und die Architektur maßgeschneidert für unsere einzigartigen Anwendungsfälle zu gestalten“, erklärt Madrigal. „Das ist der Grund, warum wir auf Open Source setzen – es gibt uns die Kontrolle, die wir brauchen.“
Die Architektur hinter Pinterests „Taste Graph“
Ein zentrales Element von Pinterests KI-Strategie ist der sogenannte „Taste Graph“. Dabei handelt es sich um ein dynamisches System, das die sich ständig wandelnden Vorlieben einzelner Nutzer abbildet. Im Gegensatz zu sozialen Netzwerken, die Beziehungen zwischen Personen modellieren, konzentriert sich der Taste Graph auf die Präferenzen und Inspirationen der Nutzer.
Der Graph kombiniert zwei Schlüsselelemente:
- Benutzer-Embeddings: Diese fassen zusammen, welche Stile, Farben oder Produktkategorien ein Nutzer besonders mag. Sie werden kontinuierlich an neue Aktivitäten und Trends angepasst.
- Inhalts-Embeddings: Diese repräsentieren die Charakteristika von Pins und Produktbildern, sodass sie optimal zu den Nutzerpräferenzen passen.
Ein Beispiel verdeutlicht die Funktionsweise: Ein Nutzer, der sich für Mid-Century-Modern-Design interessiert, erhält Empfehlungen für Möbel und Deko in diesem Stil. Ein anderer Nutzer mit Vorliebe für Nantucket-Ästhetik bekommt passende Küchenutensilien oder Wohndekoration angezeigt.
Warum Pinterest auf Eigenbau statt auf Closed-Source setzt
Madrigal betont, dass die Kombination aus proprietären Embeddings und Open-Source-Modellen nicht nur Kostenvorteile bringt, sondern auch die Performance steigert. Ohne diese Anpassungen müssten Bilder bei jeder Empfehlung einzeln verarbeitet werden – mit entsprechend hohem Rechenaufwand und Latenzzeiten.
„Wenn eine KI-Funktion für unsere Nutzer entscheidend ist und Skalierbarkeit bis zu 600 Millionen monatlichen Nutzern erfordert, dann bauen wir sie entweder selbst oder passen existierende Open-Source-Lösungen so an, dass sie unsere Anforderungen erfüllen“, so Madrigal.
Diese Philosophie spiegelt sich auch in Pinterests Investitionen in Sandbox-Umgebungen wider, die kreative Experimente ermöglichen – ohne dabei die Sicherheit oder Stabilität der Plattform zu gefährden. Durch kontinuierliches Benchmarking und Feedbackschleifen stellt das Unternehmen sicher, dass jede KI-Innovation tatsächlich den Nutzererfolg steigert.
Fazit: Maßgeschneiderte KI als Erfolgsfaktor für visuelle Plattformen
Pinterests Ansatz zeigt, wie Unternehmen Open-Source-Technologie nicht nur nutzen, sondern durch gezielte Anpassungen in eine strategische Ressource verwandeln können. Die Kombination aus proprietären Embeddings, kontinuierlichem Lernen und einem dynamischen Taste Graph ermöglicht es, visuelle Entdeckung effizient und skalierbar zu gestalten.
Für andere Plattformen, die ähnliche Herausforderungen bewältigen müssen, könnte dies ein Blueprint sein: Investition in maßgeschneiderte KI-Lösungen statt teurer Closed-Source-Alternativen. Die Zukunft der visuellen Suche wird nicht nur von der Größe der Modelle abhängen, sondern von der intelligenten Integration von Daten, Architektur und Nutzerbedürfnissen.
KI-Zusammenfassung
Pinterest, 620 milyon aktif kullanıcıya görsel öneri sunarken AI maliyetlerini %90’a kadar düşürdü. Qwen3-VL’in görsel katmanının sökülmesi ve özel yerleştirmelerin kullanılmasıyla nasıl başardı?
