Modul 6 von 7 · NEU

Multimodal GEO — Sichtbarkeit jenseits von Text

⏱ ~90 Min📖 6 Lektionen🆕 April 2026

🎯 Lernziel

Sie verstehen die drei neuen GEO-Dimensionen (Visual, Audio, Video), können Speakable Schema und ImageObject Schema implementieren, wissen, wie Video-Inhalte maschinenlesbar werden, und verstehen, was Googles Personal Intelligence für GEO bedeutet.

Lektion 6.1: Der Multimodal Shift — Warum Text allein nicht mehr reicht

In den Modulen 1 bis 6 haben Sie gelernt, wie textbasierte Inhalte und strukturierte Daten die Grundlage für KI-Sichtbarkeit bilden. Dieses Wissen bleibt essenziell — es ist das Fundament. Aber das Fundament allein reicht nicht mehr.

Die neueste Generation von KI-Systemen versteht nicht nur Text. Sie sieht Bilder, hört Audio, analysiert Videos und kennt den Nutzer persönlich. Google Search Live ist seit März 2026 in über 200 Ländern verfügbar — mit Echtzeit-Sprachkonversation und Kamera-Erkennung. GPT-5.x verarbeitet Text, Bild, Audio und Video in einem einzigen Modell.

Die 3 Auslöser der multimodalen Revolution

Native Multimodalität: GPT-4o war das erste Modell, das Text, Bild und Audio gleichzeitig verarbeitete — nicht als separate Module, sondern als ein neuronaler Strang. Nachfolger wie GPT-5.x, Gemini 3.1 und Claude verfeinern diesen Ansatz.
Google Search Live: Seit März 2026 in 200+ Ländern: Echtzeit-Sprachkonversation + Kamera-Input. Ein Nutzer richtet sein Smartphone auf ein Produkt und fragt: „Was ist das? Wo bekomme ich es günstiger?" — Google antwortet in Echtzeit.
Personalisierte KI-Suche: Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich.

Die 3 neuen GEO-Dimensionen

Dimension	Klassisches GEO (Modul 1–6)	Multimodales GEO (Modul 7)
Visual	Alt-Text-Formel	ImageObject Schema, IPTC, C2PA, Image Sitemaps
Audio	—	Speakable Schema, Voice-Optimierung, AudioObject
Video	—	VideoObject + Clip, SeekToAction, Transkripte
Kontext	Kontext-Marker	Personalisierte Kontextualisierung

💡 Schlüsselkonzept: Multimodale Zitierfähigkeit. In der textbasierten KI-Suche war das Ziel: „Die KI soll unseren Text zitieren." Im multimodalen Zeitalter: „Die KI soll unser Bild zeigen, unseren Text vorlesen und unser Video an der richtigen Stelle abspielen." Jede Modalität ist ein eigener Zitations-Kanal.

Lektion 6.2: Visual GEO — Von Alt-Text zu maschinenlesbarem Bild-Kontext

In Modul 3 haben Sie die Alt-Text-Formel gelernt. Jetzt gehen wir tiefer: Bilder sind eigenständige Daten-Entitäten, die strukturiert, authentifiziert und maschinenlesbar gemacht werden müssen.

ImageObject Schema — Das Bild als strukturierte Entität

Ein Alt-Text sagt der KI: „Hier ist ein Bild von X." Ein ImageObject-Schema sagt ihr: „Hier ist ein digitales Asset mit Ersteller, Lizenz, Erstellungsdatum, Inhaltsbeschreibung und Authentizitätsnachweis."

{
  "@context": "https://schema.org",
  "@type": "ImageObject",
  "name": "Vitamin C Glow Serum — Produktansicht Frontal",
  "description": "Vitamin C Glow Serum, 30ml Glasflakon mit goldener
    Pipette, hochdosiertes Ascorbyl Glucoside, Beispiel Cosmetics",
  "contentUrl": "https://beispiel.de/images/serum-frontal.webp",
  "uploadDate": "2026-01-15",
  "encodingFormat": "image/webp",
  "creator": {
    "@type": "Person",
    "name": "Sarah Weber",
    "jobTitle": "Produktfotografin"
  },
  "copyrightHolder": {
    "@type": "Organization",
    "name": "Beispiel Cosmetics GmbH"
  },
  "representativeOfPage": true
}

Feld	Was es der KI sagt	Warum wichtig
`creator + sameAs`	Wer hat das Bild erstellt?	E-E-A-T: Verifizierbare Urheberschaft
`copyrightHolder`	Wem gehört es?	Authentizitätssignal — Original statt Stock
`uploadDate`	Wann hochgeladen?	Frische-Signal
`representativeOfPage`	Hauptbild der Seite?	KI wählt dieses Bild für Zitationen

IPTC-Metadaten — Das unsichtbare Datenpaket im Bild

Jede Bilddatei kann unsichtbare Metadaten enthalten, die direkt eingebettet sind — unabhängig vom HTML. Diese reisen mit dem Bild, egal wohin es kopiert wird.

IPTC-Feld	GEO-Relevanz
`Creator`	E-E-A-T: Originaler Content
`Copyright Notice`	Eigentumssignal
`Digital Source Type`	Unterscheidung: Foto vs. KI-generiert
`Description`	Semantischer Kontext

Das Feld Digital Source Type ist besonders mächtig: digitalCapture = echtes Foto, trainedAlgorithmicMedia = KI-generiert. Multimodale KIs bewerten echte Fotos als authentischer.

# ExifTool — IPTC-Metadaten setzen
exiftool -Creator="Sarah Weber" \
         -CopyrightNotice="© 2026 Beispiel Cosmetics GmbH" \
         -DigitalSourceType="digitalCapture" \
         vitamin-c-serum.webp

⚠️ Häufiger Fehler: Viele CMS und Image-Optimierungstools entfernen IPTC-Metadaten automatisch, um Dateigröße zu sparen. Prüfen Sie, ob Ihre Asset-Pipeline die Metadaten erhält.

C2PA Content Credentials

Die Coalition for Content Provenance and Authenticity (C2PA) macht die Herkunft digitaler Medien kryptographisch nachweisbar. Der EU AI Act (Art. 50) verpflichtet ab August 2026 zur Kennzeichnung KI-generierter Inhalte — C2PA ist die bevorzugte Lösung.

Hardware: Google Pixel 9+ und Sony PXW-Z300 betten C2PA bei Aufnahme ein
Software: Adobe Photoshop/Lightroom unterstützen Content Credentials nativ
Plattformen: YouTube integriert C2PA + SynthID

Image Sitemaps

Image Sitemaps geben multimodalen Crawlern eine Prioritätsliste der wichtigsten Bild-Assets — statt alle Bilder analysieren zu müssen.

<url>
  <loc>https://beispiel.de/produkte/serum</loc>
  <image:image>
    <image:loc>https://beispiel.de/images/serum.webp</image:loc>
    <image:caption>Vitamin C Glow Serum, 30ml, Beispiel Cosmetics</image:caption>
    <image:title>Vitamin C Glow Serum — Produktansicht</image:title>
  </image:image>
</url>

Lektion 6.3: Audio GEO — Speakable Schema + Voice-Optimierung

Google Search Live ermöglicht Echtzeit-Sprachkonversation in 98+ Sprachen. Nutzer fragen per Stimme — und die KI antwortet per Stimme. Eine neue technische Schicht wird entscheidend: Speakable Schema.

Was ist Speakable Schema?

Speakable ist eine offizielle Schema.org-Property, die KI-Assistenten mitteilt, welche Textpassagen sich zum Vorlesen eignen. Es ist ein Highlighter: „Wenn du diese Seite vorließt, nimm diese Absätze."

⚠️ Ehrlicher Hinweis: Google unterstützt Speakable Schema offiziell nur für News-Publisher (Google News). Für allgemeine Websites gibt es Stand 2026 keine bestätigte Auswertung durch Google. Trotzdem empfehlen wir die Implementierung: Andere KI-Assistenten (Siri, Alexa, Copilot) können diese Signale nutzen, und die Schema.org-Property ist standardkonform. Behandeln Sie es als zukunftssichere Investition — nicht als garantierten Ranking-Faktor.

{
  "@context": "https://schema.org",
  "@type": "WebPage",
  "name": "Vitamin C Glow Serum — Produktseite",
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": [
      ".product-summary",
      ".product-key-facts",
      ".product-faq-answer"
    ]
  }
}

5 Regeln für voice-optimierte Texte

#	Regel	Detail
1	Kürze	Voice-Antworten: 15–30 Sekunden = 25–50 Wörter. Langer Text wird gekürzt — die KI wählt, was wegfällt.
2	Zahlen mit Kontext	Speakable-Passagen so schreiben, dass sie vorgelesen natürlich klingen. „€49,90/Monat" → ausformulieren.
3	Keine Tabellen/Listen	Voice kann keine Tabelle vorlesen. Top-3-Vorteile als einen fließenden Satz formulieren.
4	Markenname vorn	In den ersten 10 Wörtern der Speakable-Passage — der Nutzer soll wissen, wer empfohlen wird.
5	Natürlich klingen	Laut vorlesen! Klingt es wie ein freundlicher Berater oder wie ein Geschäftsbericht?

Voice-Query-Patterns

Merkmal	Text-Query	Voice-Query
Länge	2–4 Wörter	5–10 Wörter (natürliche Sprache)
Struktur	Keyword-basiert	Frageform („Welches X ist am besten für Y?")
Erwartung	Liste von Optionen	Eine einzige, direkte Antwort

Voice-Queries matchen besonders gut auf FAQ-Schema mit natürlichsprachlichen Fragen. Nicht: „Was sind die Vorteile?" Sondern: „Welches Anti-Aging-Serum eignet sich für empfindliche Haut ab 40?"

AudioObject und Podcast-Schema

{
  "@context": "https://schema.org",
  "@type": "PodcastEpisode",
  "name": "GEO für E-Commerce — Warum Strukturierte Daten
    über Umsatz entscheiden",
  "datePublished": "2026-04-01",
  "duration": "PT32M15S",
  "associatedMedia": {
    "@type": "AudioObject",
    "contentUrl": "https://beispiel.de/podcast/ep14.mp3",
    "encodingFormat": "audio/mpeg"
  },
  "transcript": "https://beispiel.de/podcast/ep14-transcript.txt"
}

💡 Der entscheidende Schlüssel: transcript. Eine Audio-Datei ist für eine KI eine Black Box. Das Transkript macht den Inhalt maschinenlesbar. Ohne Transkript existiert der Podcast für die KI nicht.

Lektion 6.4: Video GEO — VideoObject, Clip, SeekToAction

Video ist die datenreichste Modalität — und gleichzeitig die am schlechtesten für KI aufbereitete. Ein typisches Unternehmensvideo hat vielleicht einen Titel und eine kurze Beschreibung. Für die KI ist das, als würde man ein 500-Seiten-Buch mit „Interessantes Buch" betiteln.

Clip Schema — Zeitstempel-basierte Zitationen

Clip-Schema erlaubt der KI, spezifische Stellen innerhalb eines Videos zu zitieren — nicht das ganze Video, sondern exakt die 30 Sekunden, die die Frage beantworten.

{
  "@type": "VideoObject",
  "name": "Vitamin C Serum Anwendung",
  "hasPart": [
    {
      "@type": "Clip",
      "name": "Richtige Dosierung: 3-4 Tropfen",
      "startOffset": 46,
      "endOffset": 105,
      "url": "https://beispiel.de/video/serum#t=46,105"
    },
    {
      "@type": "Clip",
      "name": "Einarbeitungstechnik",
      "startOffset": 106,
      "endOffset": 180,
      "url": "https://beispiel.de/video/serum#t=106,180"
    }
  ]
}

SeekToAction — Die KI darf direkt springen

"potentialAction": {
  "@type": "SeekToAction",
  "target": "https://beispiel.de/video/serum?t={seek_to_second_number}",
  "startOffset-input": "required name=seek_to_second_number"
}

In Kombination mit Clip-Schema weiß die KI nicht nur dass sie springen darf, sondern auch wohin.

YouTube GEO — Der zweitgrößte Suchkanal

Element	Typisch (80% aller Videos)	GEO-Optimiert
Titel	Clickbait oder generisch	Faktenbasiert, Keyword + Brand
Description	2 Sätze + Link-Dump	Answer-Dense 200 Zeichen + Transkript + Chapters + FAQ
Chapters	Keine	Mind. 4 mit deskriptiven Titeln
Closed Captions	Auto-generiert (fehlerhaft)	Manuell korrigiert
Pinned Comment	Keiner	FAQ oder Zusammenfassung

Lektion 6.5: Personalisierte KI-Suche — GEO im individuellen Kontext

Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich — und generiert individualisierte Antworten.

Was sich verändert

Ohne Personal Intelligence: „Welchen CRM-Anbieter empfiehlst du?" → Generische Top-5-Liste.

Mit Personal Intelligence: KI weiß aus Gmail: 3 Mitarbeiter, deutschsprachig, DSGVO-Fokus. → „Für dein 3-Personen-Team mit DSGVO-Fokus empfehle ich [Anbieter X] — EU-Hosting, ab €29/Monat."

Granularität in strukturierten Daten

Kontext-Signal	Standard GEO	Multimodal GEO
Zielgruppe	„Für KMUs"	„Für Teams mit 3–20 Personen, DACH"
Preisbereich	„Premium"	Exakte Startpreise pro Paket
Compliance	—	„DSGVO-konform, EU-Hosting, ISO 27001"
Sprache	—	`availableLanguage: ["de", "en"]`
Geografie	Stadt/Land	`areaServed` + `eligibleRegion`

💡 Die DSGVO-Grenze. Sie optimieren nicht mit persönlichen Daten — das ist Googles Domäne. Sie machen Ihre eigenen Daten so granular, dass die Personalisierungs-Engine sie korrekt matchen kann. Analogie: Sie steuern nicht, wie der Nutzer das Regal durchsucht — aber Sie stellen sicher, dass Ihr Produkt im richtigen Regal steht.

Lektion 6.6: Multimodal Middleware — Edge Routing für verschiedene Crawler-Typen

In Modul 5 lernten Sie Edge Routing für Text-Bots. Im multimodalen Zeitalter wird die Logik komplexer: Verschiedene Bots haben verschiedene Fähigkeiten.

Multimodale Crawler erkennen

Crawler	Modalität	Was er verarbeitet
`GPTBot`	Text + Schema	HTML, JSON-LD. Kein Bild-Processing.
`ChatGPT-User`	Text + Bild	Lädt Seiten wie ein Browser. Kann Bilder „sehen".
`Google-Extended`	Text + Bild + Audio	Gemini-Training. Multimodal.
`Googlebot-Image`	Bilder	Bild-spezifisch: Alt-Text + IPTC.
`Googlebot-Video`	Video	Video-spezifisch: Thumbnails, Metadaten.

Lazy Loading — Der stille Killer für Visual GEO

Lazy Loading ist für Menschen eine Performance-Verbesserung, für KI-Crawler fatal: Viele Bots laden Seiten ohne zu scrollen. Bilder mit loading="lazy" werden nie geladen — sie existieren für den Bot nicht.

Lösung: Produktbilder „above the fold" (die ersten 1–3) niemals lazy-loaden. Bei Middleware: loading="lazy" durch loading="eager" ersetzen für Bot-Requests.

🛠️ Praxis-Übung Modul 7

Nehmen Sie eine Produktseite und erstellen Sie: 1) ImageObject-Schema für das Hauptbild, 2) Speakable Schema mit CSS-Selektoren, 3) VideoObject + Clip für ein Produktvideo, 4) Prüfen Sie: Werden IPTC-Metadaten von Ihrer Asset-Pipeline erhalten?

Über den Autor

Sascha Deforth — GEO Practitioner und Gründer von TrueSource AI. Spezialisiert auf AI Visibility Optimization mit 200+ durchgeführten Audits. → LinkedIn