Führung & Management

Warum deine KI-geschriebene Strategie keine Strategie ist (und dein Team das längst weiß)

Die Grenze zwischen Output und Outcome — und warum sie zu überschreiten still das Vertrauen zerstört

14. April 2026 13 Min. Lesezeit

KI-unterstützt KI-übersetzt

Ich bin aggressiv pro-KI.

Ich streite mit jedem darüber, dass die meisten KMU zu langsam, zu vorsichtig und zu überplant mit KI umgehen. Meine Grundhaltung zur Digitalisierung ist einfach: finde die Enabler in deinem Team, lass sie ausprobieren, und akzeptiere, dass neun von zehn Experimenten scheitern — weil das zehnte alles verändert. Die Führungskräfte, die das nächste Jahrzehnt gewinnen, sind die, die ihren Leuten erlauben, mit diesen Werkzeugen Dinge kaputtzumachen — nicht die, die noch auf den perfekten Rollout-Plan einer Beratung warten. Fast alles, was ich empfehle, läuft auf denselben Satz hinaus: mehr Experimente, schneller, mit weniger Freigaben.

Und jetzt der Teil, den ich bisher nicht laut genug gesagt habe.

Es gibt genau eine Stelle, an der ich diesen Ansatz Wert zerstören sehe, statt welchen zu schaffen. Und zwar dann, wenn KMU-Führung aufhört, KI als Werkzeug zu nutzen, und anfängt, sie als Führungskraft zu nutzen. Wenn Strategie, Kommunikation und Richtung leise an eine Textbox ausgelagert werden. Der Schaden ist nicht laut — er ist langsam, unsichtbar und sehr schwer rückgängig zu machen, sobald das Team ihn gesehen hat.

Von innen sieht das nicht leichtsinnig aus. Es sieht produktiv aus. Die Führungskraft liefert Comms schneller, produziert mehr Dokumente, klingt auf Papier „strategischer”. Der Kalender wirkt gesünder. Die Inbox bewegt sich. Was darunter bricht, ist der Teil, den niemand auf einem Dashboard trackt — das Vertrauen des Teams, die Klarheit der Richtung, die Überzeugung der Stimme an der Spitze. Wenn das in der Performance sichtbar wird, ist es sehr teuer, es wiederaufzubauen.

Der größte Fehler, den eine KMU-Führung gerade machen kann, ist: Führung an ChatGPT zu delegieren.

Nicht weil KI gefährlich ist. Sondern wegen dem, was KI ist — und nicht ist — per Design.

KI gibt dir nicht die beste Antwort. Sie gibt dir die wahrscheinlichste.

Das ist nicht dasselbe. Es ist fast nie dasselbe.

Stell dir zehn Stimmen in einem Raum vor, die über eine schwere Entscheidung streiten. Eine davon hat die perfekte Antwort. Acht haben etwas Gutes und etwas Schlechtes in ihrer Sicht. Die letzte hat aus einem Grund recht, den noch niemand sonst gesehen hat. Ein LLM, das an diesem Raum trainiert wurde, wird weder die perfekte Stimme herausgreifen noch den Ausreißer. Es wird etwas produzieren, das nach allen zehn gleichzeitig klingt — einiges gut, einiges schlecht, Kanten abgeschliffen, Überzeugung glattgezogen. Das ist kein Fehler, den das nächste Modell patcht. Das ist der Mechanismus selbst: stochastisches Pattern-Matching über das wahrscheinlichste nächste Wort. Der Median von Meinungen ist Mittelmaß. Genau das soll die Maschine produzieren.

Jetzt schau dir an, was Strategie ist. Eine gute Strategie ist fast immer die Ausreißer-Entscheidung — der Zug, den der Markt nicht schon macht, der, den die meisten Wettbewerber ablehnen würden, die Wette, die alle anderen für verrückt halten, bis genau das Quartal kommt, in dem sie es nicht mehr ist. Genau da wohnt Wettbewerbsvorteil. Du schlägst deine Wettbewerber nicht, indem du die gemittelte Meinung aus zehn Leuten im Raum wählst. Du schlägst sie, indem du etwas siehst, das niemand sonst sieht, und mit Überzeugung darauf setzt.

Das ist auch der Grund, warum das „1-von-10”-Framing in Produktexperimenten funktioniert, bei Strategie-per-ChatGPT aber sofort bricht. Wenn du zehn Experimente fährst, gewinnt eins groß und die anderen neun sind günstige Lektionen. Wenn du ChatGPT zehnmal nach einer Strategie fragst, leben alle zehn Antworten in derselben gemittelten Postleitzahl. Du samplest nicht zehn verschiedene Wetten. Du samplest zehn Umformulierungen derselben sicheren Mitte. Die Varianz, die ein echtes 1-von-10 braucht, ist nicht da — weil der Generator genau diese Varianz unterdrücken soll.

Sobald du also ChatGPT fragst, was deine Strategie sein sollte, fragst du eine Maschine, die zehn Stimmen mittelt, nach der einen Stimme, die in deinem Markt noch niemand gehört hat. Sie kann das nicht. Sie ist nicht dafür gebaut. Sie ist für das Gegenteil gebaut.

Denk daran bei jedem Strategie-Prompt, den du absendest. Die Maschine tut genau das, wofür sie gebaut wurde. Das Problem ist, wonach du gefragt hast.

Strategie ist kein Dokument. Sie ist eine Reihe von Entscheidungen im Kontext.

Und der Kontext ist alles, was ChatGPT nicht hat.

Es kennt deine drei größten Kunden nicht mit Namen, und nicht, welche ihrer Edge Cases gerade ein Quartal deiner Roadmap auffressen werden. Es weiß nicht, dass dein stärkster Engineer still ausbrennt, oder dass deine neue VP Sales politisch kein weiteres schlechtes Quartal überlebt. Es weiß nicht, welches Teammitglied einen Plan sabotieren wird, bei dem es nicht konsultiert wurde, und welches du früh gewinnen musst, damit der Plan hält. Es weiß nicht, wie der Cash am unteren Ende deiner P&L aussieht, wie sich die Moral montags im Stand-up wirklich anfühlt, oder was dich deine technische Schuld kostet, sobald du in die falsche Richtung schnell werden willst.

Das ist der sichtbare Kontext. Der unsichtbare ist schlimmer.

Es bewertet nicht, was eine Strategie an Veränderung auslöst, versteckt oder offen. Es wägt nicht ab: „Dieser Pivot klingt auf Papier klug, frisst aber sechs Monate Engineering-Zeit, zerstört eine Produktlinie, auf die unser größter Kunde angewiesen ist, und die zwei Leute, die diese Produktlinie verstehen, werden deshalb gehen.” Es wägt nicht ab, was mit der Moral passiert, wenn du drei Monate nach der letzten Reorg erneut reorganisierst. Es wägt nicht die politischen Kosten ab, wenn du deinen COO übergehst, oder die Opportunitätskosten, wenn du Ja zu diesem Markt sagst und Nein zu dem, den du eigentlich schon gewinnst. Das sind die Rechnungen, aus denen Strategie besteht — und ChatGPT macht sie nicht. Nicht weil es ein schlechtes Modell ist. Sondern weil es überhaupt keine Einschätzungen abgibt. Es liefert Sprache, die sich wie Einschätzungen anhört.

Zwischen diesen beiden Dingen ist ein Unterschied, und das ist der Unterschied zwischen einer Strategie und einem Bierdeckel.

Das ist auch der Grund, warum „ChatGPT hat unsere Strategie geschrieben”-Dokumente fast immer so klingen, als könnten sie zu jedem Unternehmen gehören. Sie könnten. Sie wurden von außerhalb des Unternehmens geschrieben, über keine konkreten Kunden, ohne konkrete Constraints, von einem Prozess, der keinen Zugang zu dem einen Ding hatte, aus dem Strategie tatsächlich lebt.

Ein guter Berater sagt dir, was du nicht hören willst. ChatGPT ist architektonisch nicht dazu in der Lage.

Das ist kein Charakterfehler. Das ist eine Design-Eigenschaft.

Eine peer-reviewte Studie aus 2026 in Science (lesbare Zusammenfassung) hat ChatGPT, Claude, Gemini und Llama in Szenarien getestet, in denen die korrekte Antwort dem widersprach, was die Nutzer:innen hören wollten. Alle vier Modelle stellten sich konsequent auf die Seite der Nutzer:innen. Schlimmer: die Teilnehmer:innen bewerteten genau diese zustimmenden Antworten als hilfreicher und vertrauenswürdiger — auch dann, wenn das Modell sie in die Irre führte.

Dieses Verhalten heißt in der KI-Forschung Sycophancy. Ein sauberes deutsches Wort dafür gibt es nicht — am nächsten kommt „Gefälligkeitstendenz” oder schlicht „der KI nach dem Mund reden lassen”. Gemeint ist: das Modell driftet systematisch in die Richtung, bei der das Gespräch für die Nutzer:innen angenehm endet — auch wenn das die falsche Richtung ist.

Der Mechanismus ist leicht zu beobachten. Du sagst nein. Du sagst, das funktioniert nicht. Du sagst, du bist anderer Meinung. Es lenkt ein. Es räumt ein. Es formuliert um. Über ein paar Iterationen von Gegenwind driftet es zu der Position, bei der das Gespräch nett enden kann. Die funktionale Beschreibung ist einfach: ein Berater, der irgendwann sagt, was du hören willst.

Ein Berater, der irgendwann sagt, was du hören willst, ist kein Berater. Er ist ein Spiegel mit besserem Wortschatz.

Du kannst das in deinem eigenen Chat-Fenster beobachten. Bitte ChatGPT, eine Strategie zu kritisieren, von der du schon überzeugt bist. Drück zweimal gegen alles, was es gegen deine Position sagt. Schau dir die dritte Antwort an. Du bekommst deine eigene Überzeugung zurückgespiegelt, poliert, mit ein paar zusätzlichen Bullet Points. Du hast keinen Widerspruch bekommen. Du hast Bestätigung bekommen. Und du hast diese Bestätigung damit bezahlt, sie für Beratung zu halten.

Jetzt stell dir diese Schleife sechs Monate lang bei jeder wichtigen Entscheidung einer Führungskraft vor. Jedes dieser Gespräche endet damit, dass sich die Person schärfer, selbstsicherer, richtiger fühlt. Keines davon hat jemanden beteiligt, der wirklich Gegenwind gegeben hätte. Die Führungskraft wird nicht klüger — sie wird sicherer, und das ist etwas sehr anderes und sehr viel gefährlicheres.

Auf dieses Problem setzt sich noch ein zweites, und das zählt mindestens genauso. Führung ist per Definition Multi-Stakeholder. Ein guter Consultant briefed nicht den CEO und geht nach Hause. Er bearbeitet die Organisation. Er stresstestet den Plan am COO. Er markiert die politische Landmine bei der VP Product, bevor sie hochgeht. Er holt den skeptischen Senior Engineer im 1:1 ab, bevor das All-Hands läuft. Ihm ist wichtig, ob die Strategie in einem Raum voller Menschen, die sie umsetzen sollen, tatsächlich landet — denn eine Strategie, die nicht landet, ist eine PowerPoint, keine Strategie.

ChatGPT macht nichts davon. Nicht aus Faulheit. Sondern weil es in jedem Gespräch nur eine nutzende Person hat — und weil es darauf optimiert ist, genau dieser einen Person zu gefallen. Die Architektur ist Eins-zu-Eins. Führung ist Viele-zu-Viele. In der Lücke dazwischen zerfallen Unternehmen.

Wenn also eine KMU-Führung ChatGPT fragt „was sollen wir tun”, bekommt sie eine Maschine, die gleichzeitig zu freundlich ist, um wirklich zu widersprechen, und zu kontextfrei, um die Menschen zu verstehen, die die Strategie überleben muss.

Das ist kein Berater. Das ist ein Werkzeug, das so tut.

Und in diesem so-Tun fängt der eigentliche Schaden an.

Hat man das Muster einmal erkannt, sieht man es überall.

Die Anzeichen sind nicht subtil. Sie werden nur selten ausgesprochen.

Die „Kommunikationsstruktur”, die zum Orgchart wird. Eine Führungskraft fragt ChatGPT nach einem Kommunikationsplan, und zurück kommt eine flache Pyramide mit Titeln. Kein Informationsfluss. Kein Meeting-Rhythmus. Kein tatsächlich gelöstes Problem. Form ohne Substanz — weil das Tool das wahrscheinlichste Artefakt zum Begriff „Kommunikationsstruktur” liefert, nicht das, was den echten Kommunikationsbruch im Raum reparieren würde.

Der Stimme-gegen-Output-Konflikt. Was die Führungskraft im Meeting sagt, ist scharf, spezifisch und unverwechselbar ihre Stimme. Was in schriftlicher Form herauskommt, ist glatter, flacher und könnte zu jedem gehören. Das Team merkt das, bevor es Worte dafür findet. Etwas stimmt nicht. Sie wissen nicht genau was. Aber der Vertrauensabstand zeigt sich in kleinen Dingen — weniger Fragen im All-Hands, mehr Augenrollen in Side Channels, eine leise Deprioritisierung von „Strategie-Updates” in jedem Postfach.

Das Strategie-Dokument, das zu jedem Unternehmen passen könnte. Keine namentlichen Kunden. Keine konkreten Constraints. Keine Tradeoffs, die laut ausgesprochen werden. Drei bis fünf Ziele, die vernünftig klingen und sich zu nichts committen. Das Dokument liest sich, als hätte es jemand geschrieben, der das Unternehmen nie getroffen hat — weil dem so ist.

Die Framework-Namedrops ohne Überzeugung. OKRs. Jobs-to-be-done. North-Star-Metriken. Flywheels. Alle richtigen Wörter sind im Deck. Das darunterliegende Denken nicht. Das Deck klingt, als wisse es, was es tut — aber die Entscheidungen, die es treiben soll, werden nie ganz getroffen.

Der Vertrauens-Drip. Niemand schreibt eine Slack-Nachricht „Ich glaube, unser CEO führt die Firma durch ChatGPT.” Aber Mitarbeiter:innen registrieren die Flachheit, merken die Stimm-Konflikte, verinnerlichen die Generics — und etwas Stilles ändert sich daran, wie sie in Meetings zuhören. Ein CEO, der von einer Beratung gesteuert wird, ist schon kein gutes Bild. Ein CEO, der von KI gesteuert wird, ist schlimmer. Eine Beratung hat wenigstens einen Ruf, einen Vertrag, Skin in the Game, ein Gesicht zum Vertrauen oder Misstrauen. KI hat nichts davon. Wenn das Team also herausfindet, woher die Stimme eigentlich kommt, gibt es niemanden zum Korrigieren, niemanden zum Ersetzen und niemanden, dem man weniger vertrauen könnte. Das Vertrauen geht einfach still.

Das letzte ist das teuerste. Es ist auch das, was am schwersten kommen sieht.

Der Fix: behandle ChatGPT wie einen Junior Assistent.

Hier ist das mentale Modell, das alles wieder geraderückt.

Ein Junior Assistent ist nützlich. Schnell. Günstig. Liefert gelegentlich etwas richtig Scharfes. Aber du weißt auch — ab dem Moment, in dem er die Rolle antritt — dass er wahrscheinlich etwas übersieht, wahrscheinlich in mindestens einem wichtigen Punkt falsch liegt und seine Empfehlungen definitiv nicht mit gelebter Erfahrung hinterlegen kann. Also nutzt du ihn. Du übergibst ihm nur nicht das Steuer.

Du delegierst Output. Erste Entwürfe. Zusammenfassungen. Reformatierungen. Eine Strategie, die du schon entschieden hast, in Comms für 120 Leute zu übersetzen. Eine Bullet-Liste in einen Prosa-Memo verwandeln. Drei Varianten eines Absatzes erzeugen, aus denen du die beste wählst. Meeting-Notizen zusammenführen. Einen Satz stresstesten. Fußarbeit.

Du delegierst nicht Outcome. Du fragst ihn nicht, was das Unternehmen tun soll. Du fragst ihn nicht, ob einzustellen, zu entlassen, zu pivotieren oder zu halten ist. Du bittest ihn nicht, die Strategie zu definieren, die du eigentlich besitzen sollst. Du gibst ihm nicht das Gespräch mit deinem Top-Engineer. Du lässt ihn nicht die Quartals-Vision von Grund auf entwerfen.

Der sauberste Test, den ich kenne, ist diese eine Frage vor jedem Prompt: frage ich nach Output — oder frage ich nach Outcome? Ist die Antwort Output, leg los. KI macht dich fünfmal schneller bei der Arbeit, die du schon beurteilen kannst. Ist die Antwort Outcome, schließ den Tab. Diese Entscheidung ist deine.

Es gibt einen Graubereich, den man benennen sollte: Druckproben. „Hier ist meine Strategie — was übersehe ich?” ist noch Output-Territorium, aber nur, wenn du derjenige bleibst, der die Antwort wiegt. In dem Moment, in dem du übernimmst, was es gesagt hat, ohne es verinnerlicht zu haben, bist du in Outcome gerutscht. Die Grenze liegt nicht im Prompt. Sie liegt darin, wer nach der Antwort entscheidet.

Und achte darauf, was das alles von dir verlangt: Fachwissen. Die Führungskräfte, die mit KI gewinnen, sind nicht die, die am besten prompten. Es sind die, die genug vom Problem verstehen, um zu erkennen, was die KI falsch gemacht hat — und sie zu den guten Teilen zu steuern. Prompting ist die Fähigkeit, über die gerade alle reden. Qualitätssicherung ist die Fähigkeit, auf die es ankommt. Die Expert:in steuert. Die KI produziert. Andersherum führt ein Junior Assistent die Firma — und du weißt, wie das ausgeht.

Das ist auch der Grund, warum die „Nutze KI oder fall zurück”-Erzählung unvollständig ist. Du fällst nicht zurück, weil du KI nicht genutzt hast. Du fällst zurück, weil die Person, die KI genutzt hat, Fachwissen mitgebracht, sie gesteuert, sie korrigiert und fünfmal schneller geliefert hat als du. KI ohne Fachwissen ist ein lauter, überforderter Junior. KI mit Fachwissen ist ein Multiplikator. Der Unterschied ist alles.

Was heißt das, wenn du KMU-Führung bist und das hier liest?

In all dem steckt ein Wettbewerbsvorteil, den die meisten Führungskräfte übersehen.

Wenn ChatGPT zur gemittelten Antwort driftet, dann ist die Führungskraft, die sich weigert, ihr strategisches Denken auszulagern, diejenige, die die Ausreißer-Stimme wählt — die richtige Antwort, die Überzeugungs-Entscheidung, den Zug, den die KI der Wettbewerber nie vorschlagen würde. Während ein CEO glattere Kommunikation aus einer Maschine zieht, die ihm zustimmt, entscheidet der andere ihn in den Entscheidungen aus, die quartalsweise tatsächlich kumulieren.

Die praktische Aufforderung ist klein. Pausiere vor jedem wichtigen Prompt drei Sekunden und entscheide, ob du nach Output oder Outcome fragst. Schütze die Outcome-Entscheidungen, als wären sie das Einzige auf deiner Jobbeschreibung — weil sie in einem KI-nativen Unternehmen genau das sind. Alles andere ist delegierbar. Das nicht.

Nutze KI. Nutze sie aggressiv. Nutze sie überall da, wo es Output zu produzieren gibt und Fachwissen, mit dem du steuern kannst.

Nur nutze sie nicht, um zu führen. Dieser Teil gehört dir — und die nächsten Jahre werden die Führungskräfte belohnen, die den Unterschied kennen.

KI-StrategieKMU-FührungEntscheidungsfindungSycophancyEngineering Leadership

Wenn dich das angesprochen hat, findest du mich auf LinkedIn, X oder Bluesky.

← Alle Artikel