Skip to content
Blogserie_KI_RZ_3
Gioele Monopoli13. September 20241 min read

AI in der Praxis: Multimodale Search Engine

In der sich rasant entwickelnden Welt des E-Commerce und der digitalen Erfahrungen wird die Fähigkeit, nahtlos nach relevanten Informationen über verschiedene Modalitäten hinweg zu suchen und diese abzurufen – wie Text und Bilder – immer wichtiger. Hier kommen multimodale Suchmaschinen, unterstützt von KI, ins Spiel.

Anwendungen von multimodalen Suchmaschinen sind vielfältig und variieren von E-Commerce-Plattformen wie Amazon StyleSnap bis hin zu Empfehlungssystemen und allgemeinen Suchmaschinen wie Google Lens und Shutterstock. Diese ermöglichen es den Nutzern, ein Bild hochzuladen und relevante Suchergebnisse zu erhalten, sei es zur Identifizierung eines Objekts, zum Finden ähnlicher Produkte oder zum Entdecken passender Bilder.

Es gibt drei Arten der Suche zwischen Text und Bild.

Text zu Image

 

Wir geben Text ein und rufen die dazu relevanten Produktbilder ab.

Beispielszenario: Ein Kunde gibt in die Suchleiste ein: „weisse Sneakers mit blauen Streifen“.

Abgerufene Bilder:

  • Bilder von verschiedenen weissen Sneakers mit blauen Streifen von verschiedenen Marken.
  • Nahaufnahmen, die die blauen Streifendetails auf den Sneakers zeigen.

Image zu Text

 

Wir geben ein Bild ein und rufen eine Liste relevanter Produktbeschreibungen ab.

Image zu Image

 

Wir geben ein Bild ein und finden zu diesem Bild ähnliche passende Bilder. 

Beispielszenario: Ein Kunde sieht ein Paar weisse Sneakers mit blauen Streifen, die ihm gefallen, und lädt das Bild hoch.

Abgerufene ähnliche Bilder:

  • Andere weisse Sneakers mit blauen Streifen von verschiedenen Marken.
  • Weisse Sneakers mit Streifen in anderen Farben (z.B. rot, grün) zur Auswahl.
  • Ähnliche Sneakers im Stil mit einzigartigen Designvariationen, wie verschiedenen Sohlenmustern oder Schnürstilen.

 

Wie funktioniert die Multimodale Search Engine?

Zwei der bahnbrechenden Open-Source-Modelle in diesem KI-Bereich sind CLIP (von OpenAI) und BLIP (von Salesforce). Diese Modelle verwenden einen Text-Encoder, wie BERT, und einen Vision-Encoder, wie ViT, um ähnliche Bild-Text-Paare zusammenzubringen und negative auseinanderzuhalten, wodurch ein gemeinsamer Einbettungsraum entsteht. In diesem Raum werden Bilder und ihre entsprechenden textlichen Beschreibungen als Vektoren dargestellt, was ein cross-modales Verständnis ermöglicht.

 

CLIP-Architektur (https://encord.com/blog/open-ai-clip-alternatives/)

Mehr erfahren

Sind Sie interessiert daran, wie KI Ihre multimodalen Suchmöglichkeiten revolutionieren kann? Schreiben Sie uns für eine Beratung, wie wir KI-Lösungen auf Ihre individuellen Geschäftsanforderungen zuschneiden können.

Kontakt aufnehmen

VERWANDTE ARTIKEL