Academy Modul 7
Modul 7 von 7 · NEU

Multimodal GEO — Sichtbarkeit jenseits von Text

⏱ ~90 Min📖 6 Lektionen🆕 April 2026

🎯 Lernziel

Sie verstehen die drei neuen GEO-Dimensionen (Visual, Audio, Video), können Speakable Schema und ImageObject Schema implementieren, wissen, wie Video-Inhalte maschinenlesbar werden, und verstehen, was Googles Personal Intelligence für GEO bedeutet.

Lektion 7.1: Der Multimodal Shift — Warum Text allein nicht mehr reicht

In den Modulen 1 bis 6 haben Sie gelernt, wie textbasierte Inhalte und strukturierte Daten die Grundlage für KI-Sichtbarkeit bilden. Dieses Wissen bleibt essenziell — es ist das Fundament. Aber das Fundament allein reicht nicht mehr.

Die neueste Generation von KI-Systemen versteht nicht nur Text. Sie sieht Bilder, hört Audio, analysiert Videos und kennt den Nutzer persönlich. Google Search Live ist seit März 2026 in über 200 Ländern verfügbar — mit Echtzeit-Sprachkonversation und Kamera-Erkennung. GPT-5.x verarbeitet Text, Bild, Audio und Video in einem einzigen Modell.

Die 3 Auslöser der multimodalen Revolution

  1. Native Multimodalität: GPT-4o war das erste Modell, das Text, Bild und Audio gleichzeitig verarbeitete — nicht als separate Module, sondern als ein neuronaler Strang. Nachfolger wie GPT-5.x, Gemini 3.1 und Claude verfeinern diesen Ansatz.
  2. Google Search Live: Seit März 2026 in 200+ Ländern: Echtzeit-Sprachkonversation + Kamera-Input. Ein Nutzer richtet sein Smartphone auf ein Produkt und fragt: „Was ist das? Wo bekomme ich es günstiger?" — Google antwortet in Echtzeit.
  3. Personalisierte KI-Suche: Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich.

Die 3 neuen GEO-Dimensionen

DimensionKlassisches GEO (Modul 1–6)Multimodales GEO (Modul 7)
VisualAlt-Text-FormelImageObject Schema, IPTC, C2PA, Image Sitemaps
AudioSpeakable Schema, Voice-Optimierung, AudioObject
VideoVideoObject + Clip, SeekToAction, Transkripte
KontextKontext-MarkerPersonalisierte Kontextualisierung

💡 Schlüsselkonzept: Multimodale Zitierfähigkeit. In der textbasierten KI-Suche war das Ziel: „Die KI soll unseren Text zitieren." Im multimodalen Zeitalter: „Die KI soll unser Bild zeigen, unseren Text vorlesen und unser Video an der richtigen Stelle abspielen." Jede Modalität ist ein eigener Zitations-Kanal.

Lektion 7.2: Visual GEO — Von Alt-Text zu maschinenlesbarem Bild-Kontext

In Modul 3 haben Sie die Alt-Text-Formel gelernt. Jetzt gehen wir tiefer: Bilder sind eigenständige Daten-Entitäten, die strukturiert, authentifiziert und maschinenlesbar gemacht werden müssen.

ImageObject Schema — Das Bild als strukturierte Entität

Ein Alt-Text sagt der KI: „Hier ist ein Bild von X." Ein ImageObject-Schema sagt ihr: „Hier ist ein digitales Asset mit Ersteller, Lizenz, Erstellungsdatum, Inhaltsbeschreibung und Authentizitätsnachweis."

{
  "@context": "https://schema.org",
  "@type": "ImageObject",
  "name": "Vitamin C Glow Serum — Produktansicht Frontal",
  "description": "Vitamin C Glow Serum, 30ml Glasflakon mit goldener
    Pipette, hochdosiertes Ascorbyl Glucoside, MIRI Cosmetics",
  "contentUrl": "https://beispiel.de/images/serum-frontal.webp",
  "uploadDate": "2026-01-15",
  "encodingFormat": "image/webp",
  "creator": {
    "@type": "Person",
    "name": "Sarah Weber",
    "jobTitle": "Produktfotografin"
  },
  "copyrightHolder": {
    "@type": "Organization",
    "name": "MIRI Cosmetics GmbH"
  },
  "representativeOfPage": true
}
FeldWas es der KI sagtWarum wichtig
creator + sameAsWer hat das Bild erstellt?E-E-A-T: Verifizierbare Urheberschaft
copyrightHolderWem gehört es?Authentizitätssignal — Original statt Stock
uploadDateWann hochgeladen?Frische-Signal
representativeOfPageHauptbild der Seite?KI wählt dieses Bild für Zitationen

IPTC-Metadaten — Das unsichtbare Datenpaket im Bild

Jede Bilddatei kann unsichtbare Metadaten enthalten, die direkt eingebettet sind — unabhängig vom HTML. Diese reisen mit dem Bild, egal wohin es kopiert wird.

IPTC-FeldGEO-Relevanz
CreatorE-E-A-T: Originaler Content
Copyright NoticeEigentumssignal
Digital Source TypeUnterscheidung: Foto vs. KI-generiert
DescriptionSemantischer Kontext

Das Feld Digital Source Type ist besonders mächtig: digitalCapture = echtes Foto, trainedAlgorithmicMedia = KI-generiert. Multimodale KIs bewerten echte Fotos als authentischer.

# ExifTool — IPTC-Metadaten setzen
exiftool -Creator="Sarah Weber" \
         -CopyrightNotice="© 2026 MIRI Cosmetics GmbH" \
         -DigitalSourceType="digitalCapture" \
         vitamin-c-serum.webp

⚠️ Häufiger Fehler: Viele CMS und Image-Optimierungstools entfernen IPTC-Metadaten automatisch, um Dateigröße zu sparen. Prüfen Sie, ob Ihre Asset-Pipeline die Metadaten erhält.

C2PA Content Credentials

Die Coalition for Content Provenance and Authenticity (C2PA) macht die Herkunft digitaler Medien kryptographisch nachweisbar. Der EU AI Act (Art. 50) verpflichtet ab August 2026 zur Kennzeichnung KI-generierter Inhalte — C2PA ist die bevorzugte Lösung.

  • Hardware: Google Pixel 9+ und Sony PXW-Z300 betten C2PA bei Aufnahme ein
  • Software: Adobe Photoshop/Lightroom unterstützen Content Credentials nativ
  • Plattformen: YouTube integriert C2PA + SynthID

Image Sitemaps

Image Sitemaps geben multimodalen Crawlern eine Prioritätsliste der wichtigsten Bild-Assets — statt alle Bilder analysieren zu müssen.

<url>
  <loc>https://beispiel.de/produkte/serum</loc>
  <image:image>
    <image:loc>https://beispiel.de/images/serum.webp</image:loc>
    <image:caption>Vitamin C Glow Serum, 30ml, MIRI Cosmetics</image:caption>
    <image:title>MIRI Vitamin C Glow Serum</image:title>
  </image:image>
</url>

Lektion 7.3: Audio GEO — Speakable Schema + Voice-Optimierung

Google Search Live ermöglicht Echtzeit-Sprachkonversation in 98+ Sprachen. Nutzer fragen per Stimme — und die KI antwortet per Stimme. Eine neue technische Schicht wird entscheidend: Speakable Schema.

Was ist Speakable Schema?

Speakable ist eine offizielle Schema.org-Property, die KI-Assistenten mitteilt, welche Textpassagen sich zum Vorlesen eignen. Es ist ein Highlighter: „Wenn du diese Seite vorließt, nimm diese Absätze."

{
  "@context": "https://schema.org",
  "@type": "WebPage",
  "name": "MIRI Vitamin C Glow Serum",
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": [
      ".product-summary",
      ".product-key-facts",
      ".product-faq-answer"
    ]
  }
}

5 Regeln für voice-optimierte Texte

#RegelDetail
1KürzeVoice-Antworten: 15–30 Sekunden = 25–50 Wörter. Langer Text wird gekürzt — die KI wählt, was wegfällt.
2Zahlen mit KontextSpeakable-Passagen so schreiben, dass sie vorgelesen natürlich klingen. „€49,90/Monat" → ausformulieren.
3Keine Tabellen/ListenVoice kann keine Tabelle vorlesen. Top-3-Vorteile als einen fließenden Satz formulieren.
4Markenname vornIn den ersten 10 Wörtern der Speakable-Passage — der Nutzer soll wissen, wer empfohlen wird.
5Natürlich klingenLaut vorlesen! Klingt es wie ein freundlicher Berater oder wie ein Geschäftsbericht?

Voice-Query-Patterns

MerkmalText-QueryVoice-Query
Länge2–4 Wörter5–10 Wörter (natürliche Sprache)
StrukturKeyword-basiertFrageform („Welches X ist am besten für Y?")
ErwartungListe von OptionenEine einzige, direkte Antwort

Voice-Queries matchen besonders gut auf FAQ-Schema mit natürlichsprachlichen Fragen. Nicht: „Was sind die Vorteile?" Sondern: „Welches Anti-Aging-Serum eignet sich für empfindliche Haut ab 40?"

AudioObject und Podcast-Schema

{
  "@context": "https://schema.org",
  "@type": "PodcastEpisode",
  "name": "GEO für E-Commerce — Warum Strukturierte Daten
    über Umsatz entscheiden",
  "datePublished": "2026-04-01",
  "duration": "PT32M15S",
  "associatedMedia": {
    "@type": "AudioObject",
    "contentUrl": "https://beispiel.de/podcast/ep14.mp3",
    "encodingFormat": "audio/mpeg"
  },
  "transcript": "https://beispiel.de/podcast/ep14-transcript.txt"
}

💡 Der entscheidende Schlüssel: transcript. Eine Audio-Datei ist für eine KI eine Black Box. Das Transkript macht den Inhalt maschinenlesbar. Ohne Transkript existiert der Podcast für die KI nicht.

Lektion 7.4: Video GEO — VideoObject, Clip, SeekToAction

Video ist die datenreichste Modalität — und gleichzeitig die am schlechtesten für KI aufbereitete. Ein typisches Unternehmensvideo hat vielleicht einen Titel und eine kurze Beschreibung. Für die KI ist das, als würde man ein 500-Seiten-Buch mit „Interessantes Buch" betiteln.

Clip Schema — Zeitstempel-basierte Zitationen

Clip-Schema erlaubt der KI, spezifische Stellen innerhalb eines Videos zu zitieren — nicht das ganze Video, sondern exakt die 30 Sekunden, die die Frage beantworten.

{
  "@type": "VideoObject",
  "name": "Vitamin C Serum Anwendung",
  "hasPart": [
    {
      "@type": "Clip",
      "name": "Richtige Dosierung: 3-4 Tropfen",
      "startOffset": 46,
      "endOffset": 105,
      "url": "https://beispiel.de/video/serum#t=46,105"
    },
    {
      "@type": "Clip",
      "name": "Einarbeitungstechnik",
      "startOffset": 106,
      "endOffset": 180,
      "url": "https://beispiel.de/video/serum#t=106,180"
    }
  ]
}

SeekToAction — Die KI darf direkt springen

"potentialAction": {
  "@type": "SeekToAction",
  "target": "https://beispiel.de/video/serum?t={seek_to_second_number}",
  "startOffset-input": "required name=seek_to_second_number"
}

In Kombination mit Clip-Schema weiß die KI nicht nur dass sie springen darf, sondern auch wohin.

YouTube GEO — Der zweitgrößte Suchkanal

ElementTypisch (80% aller Videos)GEO-Optimiert
TitelClickbait oder generischFaktenbasiert, Keyword + Brand
Description2 Sätze + Link-DumpAnswer-Dense 200 Zeichen + Transkript + Chapters + FAQ
ChaptersKeineMind. 4 mit deskriptiven Titeln
Closed CaptionsAuto-generiert (fehlerhaft)Manuell korrigiert
Pinned CommentKeinerFAQ oder Zusammenfassung

Lektion 7.5: Personalisierte KI-Suche — GEO im individuellen Kontext

Google Personal Intelligence verbindet Gmail, Photos, Drive und Calendar mit AI Mode. Die KI kennt den Nutzer persönlich — und generiert individualisierte Antworten.

Was sich verändert

Ohne Personal Intelligence: „Welchen CRM-Anbieter empfiehlst du?" → Generische Top-5-Liste.

Mit Personal Intelligence: KI weiß aus Gmail: 3 Mitarbeiter, deutschsprachig, DSGVO-Fokus. → „Für dein 3-Personen-Team mit DSGVO-Fokus empfehle ich [Anbieter X] — EU-Hosting, ab €29/Monat."

Granularität in strukturierten Daten

Kontext-SignalStandard GEOMultimodal GEO
Zielgruppe„Für KMUs"„Für Teams mit 3–20 Personen, DACH"
Preisbereich„Premium"Exakte Startpreise pro Paket
Compliance„DSGVO-konform, EU-Hosting, ISO 27001"
SpracheavailableLanguage: ["de", "en"]
GeografieStadt/LandareaServed + eligibleRegion

💡 Die DSGVO-Grenze. Sie optimieren nicht mit persönlichen Daten — das ist Googles Domäne. Sie machen Ihre eigenen Daten so granular, dass die Personalisierungs-Engine sie korrekt matchen kann. Analogie: Sie steuern nicht, wie der Nutzer das Regal durchsucht — aber Sie stellen sicher, dass Ihr Produkt im richtigen Regal steht.

Lektion 7.6: Multimodal Middleware — Edge Routing für verschiedene Crawler-Typen

In Modul 5 lernten Sie Edge Routing für Text-Bots. Im multimodalen Zeitalter wird die Logik komplexer: Verschiedene Bots haben verschiedene Fähigkeiten.

Multimodale Crawler erkennen

CrawlerModalitätWas er verarbeitet
GPTBotText + SchemaHTML, JSON-LD. Kein Bild-Processing.
ChatGPT-UserText + BildLädt Seiten wie ein Browser. Kann Bilder „sehen".
Google-ExtendedText + Bild + AudioGemini-Training. Multimodal.
Googlebot-ImageBilderBild-spezifisch: Alt-Text + IPTC.
Googlebot-VideoVideoVideo-spezifisch: Thumbnails, Metadaten.

Lazy Loading — Der stille Killer für Visual GEO

Lazy Loading ist für Menschen eine Performance-Verbesserung, für KI-Crawler fatal: Viele Bots laden Seiten ohne zu scrollen. Bilder mit loading="lazy" werden nie geladen — sie existieren für den Bot nicht.

Lösung: Produktbilder „above the fold" (die ersten 1–3) niemals lazy-loaden. Bei Middleware: loading="lazy" durch loading="eager" ersetzen für Bot-Requests.

🛠️ Praxis-Übung Modul 7

Nehmen Sie eine Produktseite und erstellen Sie: 1) ImageObject-Schema für das Hauptbild, 2) Speakable Schema mit CSS-Selektoren, 3) VideoObject + Clip für ein Produktvideo, 4) Prüfen Sie: Werden IPTC-Metadaten von Ihrer Asset-Pipeline erhalten?

Über den Autor

Sascha Deforth — GEO Practitioner und Gründer von TrueSource AI. Spezialisiert auf AI Visibility Optimization mit 200+ durchgeführten Audits. → LinkedIn