Multimodal GEO — Sichtbarkeit jenseits von Text
🎯 Lernziel
Sie verstehen die drei neuen GEO-Dimensionen (Visual, Audio, Video), können Speakable Schema und ImageObject Schema implementieren, wissen, wie Video-Inhalte maschinenlesbar werden, und verstehen, was Googles Personal Intelligence für GEO bedeutet.
Lektion 7.1: Der Multimodal Shift — Warum Text allein nicht mehr reicht
In den Modulen 1 bis 6 haben Sie gelernt, wie textbasierte Inhalte und strukturierte Daten die Grundlage für KI-Sichtbarkeit bilden. Dieses Wissen bleibt essenziell — es ist das Fundament. Aber das Fundament allein reicht nicht mehr.
Die neueste Generation von KI-Systemen versteht nicht nur Text. Sie sieht Bilder, hört Audio, analysiert Videos und kennt den Nutzer persönlich. Google Search Live ist seit März 2026 in über 200 Ländern verfügbar — mit Echtzeit-Sprachkonversation und Kamera-Erkennung. GPT-5.x verarbeitet Text, Bild, Audio und Video in einem einzigen Modell.
Die 3 Auslöser der multimodalen Revolution
- Native Multimodalität: GPT-4o war das erste Modell, das Text, Bild und Audio gleichzeitig verarbeitete — nicht als separate Module, sondern als ein neuronaler Strang. Nachfolger wie GPT-5.x, Gemini 3.1 und Claude verfeinern diesen Ansatz.
- Google Search Live: Seit März 2026 in 200+ Ländern: Echtzeit-Sprachkonversation + Kamera-Input. Ein Nutzer richtet sein Smartphone auf ein Produkt und fragt: „Was ist das? Wo bekomme ich es günstiger?" — Google antwortet in Echtzeit.
- Personalisierte KI-Suche: Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich.
Die 3 neuen GEO-Dimensionen
| Dimension | Klassisches GEO (Modul 1–6) | Multimodales GEO (Modul 7) |
|---|---|---|
| Visual | Alt-Text-Formel | ImageObject Schema, IPTC, C2PA, Image Sitemaps |
| Audio | — | Speakable Schema, Voice-Optimierung, AudioObject |
| Video | — | VideoObject + Clip, SeekToAction, Transkripte |
| Kontext | Kontext-Marker | Personalisierte Kontextualisierung |
💡 Schlüsselkonzept: Multimodale Zitierfähigkeit. In der textbasierten KI-Suche war das Ziel: „Die KI soll unseren Text zitieren." Im multimodalen Zeitalter: „Die KI soll unser Bild zeigen, unseren Text vorlesen und unser Video an der richtigen Stelle abspielen." Jede Modalität ist ein eigener Zitations-Kanal.
Lektion 7.2: Visual GEO — Von Alt-Text zu maschinenlesbarem Bild-Kontext
In Modul 3 haben Sie die Alt-Text-Formel gelernt. Jetzt gehen wir tiefer: Bilder sind eigenständige Daten-Entitäten, die strukturiert, authentifiziert und maschinenlesbar gemacht werden müssen.
ImageObject Schema — Das Bild als strukturierte Entität
Ein Alt-Text sagt der KI: „Hier ist ein Bild von X." Ein ImageObject-Schema sagt ihr: „Hier ist ein digitales Asset mit Ersteller, Lizenz, Erstellungsdatum, Inhaltsbeschreibung und Authentizitätsnachweis."
{
"@context": "https://schema.org",
"@type": "ImageObject",
"name": "Vitamin C Glow Serum — Produktansicht Frontal",
"description": "Vitamin C Glow Serum, 30ml Glasflakon mit goldener
Pipette, hochdosiertes Ascorbyl Glucoside, MIRI Cosmetics",
"contentUrl": "https://beispiel.de/images/serum-frontal.webp",
"uploadDate": "2026-01-15",
"encodingFormat": "image/webp",
"creator": {
"@type": "Person",
"name": "Sarah Weber",
"jobTitle": "Produktfotografin"
},
"copyrightHolder": {
"@type": "Organization",
"name": "MIRI Cosmetics GmbH"
},
"representativeOfPage": true
}
| Feld | Was es der KI sagt | Warum wichtig |
|---|---|---|
creator + sameAs | Wer hat das Bild erstellt? | E-E-A-T: Verifizierbare Urheberschaft |
copyrightHolder | Wem gehört es? | Authentizitätssignal — Original statt Stock |
uploadDate | Wann hochgeladen? | Frische-Signal |
representativeOfPage | Hauptbild der Seite? | KI wählt dieses Bild für Zitationen |
IPTC-Metadaten — Das unsichtbare Datenpaket im Bild
Jede Bilddatei kann unsichtbare Metadaten enthalten, die direkt eingebettet sind — unabhängig vom HTML. Diese reisen mit dem Bild, egal wohin es kopiert wird.
| IPTC-Feld | GEO-Relevanz |
|---|---|
Creator | E-E-A-T: Originaler Content |
Copyright Notice | Eigentumssignal |
Digital Source Type | Unterscheidung: Foto vs. KI-generiert |
Description | Semantischer Kontext |
Das Feld Digital Source Type ist besonders mächtig: digitalCapture = echtes Foto, trainedAlgorithmicMedia = KI-generiert. Multimodale KIs bewerten echte Fotos als authentischer.
# ExifTool — IPTC-Metadaten setzen
exiftool -Creator="Sarah Weber" \
-CopyrightNotice="© 2026 MIRI Cosmetics GmbH" \
-DigitalSourceType="digitalCapture" \
vitamin-c-serum.webp
⚠️ Häufiger Fehler: Viele CMS und Image-Optimierungstools entfernen IPTC-Metadaten automatisch, um Dateigröße zu sparen. Prüfen Sie, ob Ihre Asset-Pipeline die Metadaten erhält.
C2PA Content Credentials
Die Coalition for Content Provenance and Authenticity (C2PA) macht die Herkunft digitaler Medien kryptographisch nachweisbar. Der EU AI Act (Art. 50) verpflichtet ab August 2026 zur Kennzeichnung KI-generierter Inhalte — C2PA ist die bevorzugte Lösung.
- Hardware: Google Pixel 9+ und Sony PXW-Z300 betten C2PA bei Aufnahme ein
- Software: Adobe Photoshop/Lightroom unterstützen Content Credentials nativ
- Plattformen: YouTube integriert C2PA + SynthID
Image Sitemaps
Image Sitemaps geben multimodalen Crawlern eine Prioritätsliste der wichtigsten Bild-Assets — statt alle Bilder analysieren zu müssen.
<url>
<loc>https://beispiel.de/produkte/serum</loc>
<image:image>
<image:loc>https://beispiel.de/images/serum.webp</image:loc>
<image:caption>Vitamin C Glow Serum, 30ml, MIRI Cosmetics</image:caption>
<image:title>MIRI Vitamin C Glow Serum</image:title>
</image:image>
</url>
Lektion 7.3: Audio GEO — Speakable Schema + Voice-Optimierung
Google Search Live ermöglicht Echtzeit-Sprachkonversation in 98+ Sprachen. Nutzer fragen per Stimme — und die KI antwortet per Stimme. Eine neue technische Schicht wird entscheidend: Speakable Schema.
Was ist Speakable Schema?
Speakable ist eine offizielle Schema.org-Property, die KI-Assistenten mitteilt, welche Textpassagen sich zum Vorlesen eignen. Es ist ein Highlighter: „Wenn du diese Seite vorließt, nimm diese Absätze."
{
"@context": "https://schema.org",
"@type": "WebPage",
"name": "MIRI Vitamin C Glow Serum",
"speakable": {
"@type": "SpeakableSpecification",
"cssSelector": [
".product-summary",
".product-key-facts",
".product-faq-answer"
]
}
}
5 Regeln für voice-optimierte Texte
| # | Regel | Detail |
|---|---|---|
| 1 | Kürze | Voice-Antworten: 15–30 Sekunden = 25–50 Wörter. Langer Text wird gekürzt — die KI wählt, was wegfällt. |
| 2 | Zahlen mit Kontext | Speakable-Passagen so schreiben, dass sie vorgelesen natürlich klingen. „€49,90/Monat" → ausformulieren. |
| 3 | Keine Tabellen/Listen | Voice kann keine Tabelle vorlesen. Top-3-Vorteile als einen fließenden Satz formulieren. |
| 4 | Markenname vorn | In den ersten 10 Wörtern der Speakable-Passage — der Nutzer soll wissen, wer empfohlen wird. |
| 5 | Natürlich klingen | Laut vorlesen! Klingt es wie ein freundlicher Berater oder wie ein Geschäftsbericht? |
Voice-Query-Patterns
| Merkmal | Text-Query | Voice-Query |
|---|---|---|
| Länge | 2–4 Wörter | 5–10 Wörter (natürliche Sprache) |
| Struktur | Keyword-basiert | Frageform („Welches X ist am besten für Y?") |
| Erwartung | Liste von Optionen | Eine einzige, direkte Antwort |
Voice-Queries matchen besonders gut auf FAQ-Schema mit natürlichsprachlichen Fragen. Nicht: „Was sind die Vorteile?" Sondern: „Welches Anti-Aging-Serum eignet sich für empfindliche Haut ab 40?"
AudioObject und Podcast-Schema
{
"@context": "https://schema.org",
"@type": "PodcastEpisode",
"name": "GEO für E-Commerce — Warum Strukturierte Daten
über Umsatz entscheiden",
"datePublished": "2026-04-01",
"duration": "PT32M15S",
"associatedMedia": {
"@type": "AudioObject",
"contentUrl": "https://beispiel.de/podcast/ep14.mp3",
"encodingFormat": "audio/mpeg"
},
"transcript": "https://beispiel.de/podcast/ep14-transcript.txt"
}
💡 Der entscheidende Schlüssel: transcript. Eine Audio-Datei ist für eine KI eine Black Box. Das Transkript macht den Inhalt maschinenlesbar. Ohne Transkript existiert der Podcast für die KI nicht.
Lektion 7.4: Video GEO — VideoObject, Clip, SeekToAction
Video ist die datenreichste Modalität — und gleichzeitig die am schlechtesten für KI aufbereitete. Ein typisches Unternehmensvideo hat vielleicht einen Titel und eine kurze Beschreibung. Für die KI ist das, als würde man ein 500-Seiten-Buch mit „Interessantes Buch" betiteln.
Clip Schema — Zeitstempel-basierte Zitationen
Clip-Schema erlaubt der KI, spezifische Stellen innerhalb eines Videos zu zitieren — nicht das ganze Video, sondern exakt die 30 Sekunden, die die Frage beantworten.
{
"@type": "VideoObject",
"name": "Vitamin C Serum Anwendung",
"hasPart": [
{
"@type": "Clip",
"name": "Richtige Dosierung: 3-4 Tropfen",
"startOffset": 46,
"endOffset": 105,
"url": "https://beispiel.de/video/serum#t=46,105"
},
{
"@type": "Clip",
"name": "Einarbeitungstechnik",
"startOffset": 106,
"endOffset": 180,
"url": "https://beispiel.de/video/serum#t=106,180"
}
]
}
SeekToAction — Die KI darf direkt springen
"potentialAction": {
"@type": "SeekToAction",
"target": "https://beispiel.de/video/serum?t={seek_to_second_number}",
"startOffset-input": "required name=seek_to_second_number"
}
In Kombination mit Clip-Schema weiß die KI nicht nur dass sie springen darf, sondern auch wohin.
YouTube GEO — Der zweitgrößte Suchkanal
| Element | Typisch (80% aller Videos) | GEO-Optimiert |
|---|---|---|
| Titel | Clickbait oder generisch | Faktenbasiert, Keyword + Brand |
| Description | 2 Sätze + Link-Dump | Answer-Dense 200 Zeichen + Transkript + Chapters + FAQ |
| Chapters | Keine | Mind. 4 mit deskriptiven Titeln |
| Closed Captions | Auto-generiert (fehlerhaft) | Manuell korrigiert |
| Pinned Comment | Keiner | FAQ oder Zusammenfassung |
Lektion 7.5: Personalisierte KI-Suche — GEO im individuellen Kontext
Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich — und generiert individualisierte Antworten.
Was sich verändert
Ohne Personal Intelligence: „Welchen CRM-Anbieter empfiehlst du?" → Generische Top-5-Liste.
Mit Personal Intelligence: KI weiß aus Gmail: 3 Mitarbeiter, deutschsprachig, DSGVO-Fokus. → „Für dein 3-Personen-Team mit DSGVO-Fokus empfehle ich [Anbieter X] — EU-Hosting, ab €29/Monat."
Granularität in strukturierten Daten
| Kontext-Signal | Standard GEO | Multimodal GEO |
|---|---|---|
| Zielgruppe | „Für KMUs" | „Für Teams mit 3–20 Personen, DACH" |
| Preisbereich | „Premium" | Exakte Startpreise pro Paket |
| Compliance | — | „DSGVO-konform, EU-Hosting, ISO 27001" |
| Sprache | — | availableLanguage: ["de", "en"] |
| Geografie | Stadt/Land | areaServed + eligibleRegion |
💡 Die DSGVO-Grenze. Sie optimieren nicht mit persönlichen Daten — das ist Googles Domäne. Sie machen Ihre eigenen Daten so granular, dass die Personalisierungs-Engine sie korrekt matchen kann. Analogie: Sie steuern nicht, wie der Nutzer das Regal durchsucht — aber Sie stellen sicher, dass Ihr Produkt im richtigen Regal steht.
Lektion 7.6: Multimodal Middleware — Edge Routing für verschiedene Crawler-Typen
In Modul 5 lernten Sie Edge Routing für Text-Bots. Im multimodalen Zeitalter wird die Logik komplexer: Verschiedene Bots haben verschiedene Fähigkeiten.
Multimodale Crawler erkennen
| Crawler | Modalität | Was er verarbeitet |
|---|---|---|
GPTBot | Text + Schema | HTML, JSON-LD. Kein Bild-Processing. |
ChatGPT-User | Text + Bild | Lädt Seiten wie ein Browser. Kann Bilder „sehen". |
Google-Extended | Text + Bild + Audio | Gemini-Training. Multimodal. |
Googlebot-Image | Bilder | Bild-spezifisch: Alt-Text + IPTC. |
Googlebot-Video | Video | Video-spezifisch: Thumbnails, Metadaten. |
Lazy Loading — Der stille Killer für Visual GEO
Lazy Loading ist für Menschen eine Performance-Verbesserung, für KI-Crawler fatal: Viele Bots laden Seiten ohne zu scrollen. Bilder mit loading="lazy" werden nie geladen — sie existieren für den Bot nicht.
Lösung: Produktbilder „above the fold" (die ersten 1–3) niemals lazy-loaden. Bei Middleware: loading="lazy" durch loading="eager" ersetzen für Bot-Requests.
🛠️ Praxis-Übung Modul 7
Nehmen Sie eine Produktseite und erstellen Sie: 1) ImageObject-Schema für das Hauptbild, 2) Speakable Schema mit CSS-Selektoren, 3) VideoObject + Clip für ein Produktvideo, 4) Prüfen Sie: Werden IPTC-Metadaten von Ihrer Asset-Pipeline erhalten?
Über den Autor
Sascha Deforth — GEO Practitioner und Gründer von TrueSource AI. Spezialisiert auf AI Visibility Optimization mit 200+ durchgeführten Audits. → LinkedIn