In der Übersicht
Viele Unternehmungen probieren generative KI bzw. Large-Language-Models (LLMs) aus oder nutzen diese für die Dienstleistungserbringung. Nielsen hat z.B. das Produkt Nielsen IQ lanciert, welches menschliche Bewertungen auf neue Produkte simuliert. Largo.ai simuliert wie die Zielgruppe neue Unterhaltungsprogramme bewerten würde.
Dies sind nur zwei Beispiele dafür, wie LLMs in der Marktforschung genutzt werden. Inmitten der technologischen Begeisterung kommen Fragen zur Qualität oft zu kurz.
Die Idee, Large Language Models (LLMs) im Marketing einzusetzen, entstand kurz nach ihrer Entwicklung (vgl. Qian et al 2025). Einer ihrer Hauptvorteile liegt in der Möglichkeit, in silico-Stichproben zu erzeugen, also synthetische Daten zu produzieren, die menschliche Antworten auf Fragebögen und Interviews nachahmen, jedoch nur einen Bruchteil der Kosten verursachen (Arora et al 2024). Bisherige qualitative Analysen von LLM-Ergebnissen zeigen gemischte Befunde (Sarstedt et al 2023). Einige Arbeiten aus der Marketingliteratur oder verwandten Disziplinen berichteten von einer guten Übereinstimmung zwischen synthetischen Daten und menschlichen Antworten (Brand et al 2023, Li et al 2023), andere stellten Abweichungen fest, die von geringfügig (Goli & Singh 2023, Arora et al 2024) bis gravierend reichten (Gao et al 2024). Diese Studien verwendeten einfache oder begrenzte Metriken zur Bewertung der Qualität von synthetischen Stichproben wie z.B. Genauigkeit, Mittelwert und Varianz, seltener auch AUC oder Kullback-Leibler-Divergenz.
Unternehmen, die den Einsatz von LLMs in Erwägung ziehen, müssen sich daher oft auf anekdotische, qualitative Hinweise stützen, um Entscheidungen zu treffen. Das ist nicht nur für die Unternehmen selbst verwirrend, sondern auch für deren Kunden, die den Anbietern vertrauen müssen, ohne die Stärken und Schwächen von in silico-Daten für ihre konkreten Anwendungsfälle zu kennen. Gleichzeitig spielen Benchmarks eine zentrale Rolle in der Entwicklung von KI-Systemen (Sculley et al 2025). Solange keine robuste Methode zur Leistungsbewertung existiert, bleibt die Weiterentwicklung von LLMs für das Marketing gehemmt.
Im September 2025 fand im Rahmen der SwissAI Weeks der erste Round-Table zu Best-Practices rund um synthetische Daten in der Marktforschung statt. Im April 2026 präsentierten wir das Evaluationsframework für quantitative und qualitative Daten am AI Agents Summit in Luzern. Die Gesprächsnotizen und das Evaluationsframework finden Sie in den beigefügten Dokumenten.