Quality Booster

Der 90-Tage-Plan: KI-Testing im Team einführen

Eine ehrliche Roadmap für Testmanager, die KI-gestütztes Testing einführen wollen — mit ISTQB-Konzepten, realistischen Erwartungen und den Fehlern, die ich gemacht habe.

Andi

Andi

Test-Manager

Bevor wir starten, eine ehrliche Zahl: Laut einer MIT-Studie zur “GenAI Divide” liefern 95% aller GenAI-Pilotprojekte keinen messbaren Geschäftswert. Nicht weil die Technologie schlecht ist — sondern weil Teams ohne klaren Plan starten, zu viel auf einmal wollen und zu früh aufgeben.

Dieser Artikel ist mein Versuch, es besser zu machen. Kein Hochglanz-Framework, sondern eine Roadmap, die auf echten Erfahrungen basiert — meinen eigenen und denen aus der Branche. Ich verwende dabei bewusst Konzepte aus dem ISTQB CT-AI Syllabus, weil sie eine gemeinsame Sprache schaffen, die über Tool-Hype hinausgeht.

Verstehen
Woche 1–2
🧪 Ausprobieren
Woche 3–6
📈 Ausweiten
Woche 7–10
🔄 Verankern
Woche 11–12
🚀 Lernen
Ab Monat 4
Von der Analyse bis zum kontinuierlichen Lernen

Bevor du anfängst: Zwei Dinge, die du verstehen solltest

1. KI verstärkt, was da ist

Das ist die wichtigste Erkenntnis, die sich durch alle Erfahrungsberichte zieht: KI verstärkt bestehende Prozesse — sie repariert keine kaputten. Ein Team mit soliden Testing-Grundlagen wird durch KI effizienter. Ein Team mit schwachen Prozessen bekommt schwache Tests schneller. Das ISTQB nennt das Prinzip der Kontextabhängigkeit des Testens — was in einem Kontext funktioniert, funktioniert in einem anderen nicht.

Frag dich also zuerst: Sind deine Testprozesse stabil genug, dass du sie beschleunigen willst? Oder musst du sie erst in Ordnung bringen?

2. Die Trust Curve

Teams durchlaufen beim KI-Einsatz vier vorhersagbare Phasen:

  1. Begeisterung — “Das wird alles verändern!”
  2. Experiment — Erste Quick Wins scheinen möglich
  3. Ernüchterung — Die KI produziert Unsinn, Wartungsaufwand steigt
  4. Selektiver Einsatz — KI für spezifische, gut abgegrenzte Aufgaben

Wer diese Kurve kennt, wird von Phase 3 nicht überrascht. Die meisten gescheiterten Einführungen brechen genau dort ab — weil niemand mit der Ernüchterung gerechnet hat.

Phase 1 Begeisterung
"Das wird alles verändern!"
Phase 2 Experiment
Quick Wins scheinen möglich
Phase 3 Ernüchterung
Hier brechen die meisten ab
Phase 4 Selektiver Einsatz
KI für gezielte Aufgaben
Die Trust Curve: Wer Phase 3 kennt, wird von ihr nicht überrascht

Phase 1: Verstehen (Woche 1–2)

Ziel: Herausfinden, wo KI in deinem Kontext wirklich Sinn macht — und wo nicht

Was du brauchst

  • Ein kleines Kern-Team (2–3 Leute: Testmanager, erfahrener Tester, ein Entwickler)
  • Rückendeckung vom Management
  • Ehrlichkeit gegenüber dem eigenen Reifegrad

Schwachstellen-Analyse

Analysiere deinen aktuellen Testprozess. Wo können KI-Tools deine bestehende Arbeit unterstützen?

Prozess-SchrittTypisches ProblemKI-PotenzialRealistischer Nutzen
Testfall-ErstellungHoher manueller AufwandGenerierung aus RequirementsGut für Boilerplate, schwach bei Fachlogik
TestdatenAnonymisierung aufwendigSynthetische DatengenerierungEiner der stärksten Use Cases (Adoption +80% in einem Jahr)
Selektoren-WartungBrüchige XPath/CSS-LocatorsSelf-Healing LocatorsFunktioniert, spart echte Zeit
FehleranalyseTriage dauert zu langeAutomatische KategorisierungHilfreich als Ersteinschätzung, nicht als Ersatz
DokumentationNachträglich, unvollständigLive-DokumentationNützlich, aber Review nötig

Stakeholder-Mapping

Ein Muster, das ich immer wieder sehe: Management und Frontline-Teams haben völlig unterschiedliche Erwartungen. Laut dem World Quality Report 2025/26 sagen 39% der Führungskräfte, KI habe ihre Prozesse “revolutioniert” — aber nur 19% der Ingenieure stimmen zu. Dieses Gap ist ein zuverlässiger Frühindikator für Probleme.

Identifiziere deshalb bewusst:

  • Champions — Wer ist neugierig und experimentierfreudig?
  • Erfahrene Skeptiker — Wer hat berechtigte Bedenken? (Nimm diese Leute ernst. Ingenieure mit 10+ Jahren Erfahrung sind meist die vorsichtigsten — und sie haben oft recht.)
  • Blocker — Wer könnte aktiv gegen das Projekt arbeiten? Vieleicht aus Angst vor Veränderung?

Am Ende von Phase 1 hast du:

  • 1–2 konkrete Use Cases, die du testen willst (nicht mehr)
  • Eine ehrliche Einschätzung: Sind unsere Grundlagen solide genug?
  • Ein Stakeholder-Map mit Kommunikationsplan

Phase 2: Ausprobieren (Woche 3–6)

Ziel: Mit einem einzigen Use Case beweisen, ob KI in deinem Kontext funktioniert

Das Assertion-Problem

Bevor du loslegst, eine Warnung: Das gefährlichste Anti-Pattern bei KI-generiertem Testing ist das, was ich das Assertion-Problem nenne. Die KI erzeugt Tests, die fehlerfrei durchlaufen — aber nichts Sinnvolles prüfen. Die Tests werden grün, Bugs gehen trotzdem in Produktion, und du hast falsches Vertrauen geschaffen. Das ISTQB beschreibt das als Automation Bias — die Tendenz, KI-generierten Ergebnissen zu sehr zu vertrauen.

Deshalb ist die wichtigste Regel beim Pilot: Jeder KI-generierte Test wird von einem Menschen reviewed. Laut ContextQA haben 76% der Unternehmen, die KI im Testing einsetzen, Human-in-the-Loop-Prozesse etabliert — nicht weil sie der Technologie nicht vertrauen, sondern weil sie aus Erfahrung gelernt haben.

Einen Use Case auswählen

Wähle einen einzigen Use Case für den Pilot. Ideale Kriterien:

  • Nicht business-critical (bei Fehlern entsteht kein Schaden)
  • Wiederholbar (mindestens 10 ähnliche Fälle)
  • Messbar (zeitlich quantifizierbar)
  • Kein komplexes Domänenwissen nötig

Aus meiner Erfahrung funktionieren diese Use Cases am besten für den Einstieg:

  • Testdaten-Generierung — strukturell valide, semantisch ungewöhnliche Eingaben
  • Boilerplate-Code — Setup/Teardown, parametrisierte Variationen
  • Test-Dokumentation — aus vorhandenen Tests Beschreibungen generieren
  • Root-Cause-Analyse — Stack Traces analysieren, Fehlerursachen eingrenzen

Weniger gut für den Einstieg: E2E-Test-Generierung (zu komplex, zu viel Domänenwissen nötig).

Pair Testing mit KI

Etabliere das Arbeitsmodell “Tester + KI”. Nicht “KI testet autonom”, sondern ein iterativer Dialog:

👤
Tester
1. Prompt mit Kontext Testfall-Beschreibung + Kontext senden
2. Vorschlag KI generiert Testschritte, Daten, Code
3. Review & Anpassung Prüfung, Korrektur, Optimierung
4. Finaler Output Überarbeiteter, finaler Testfall
5. Validierung im Team Abnahme, Feedback, Lernen
🤖
KI-Tool
Das "Pair Testing" Modell: Tester und KI arbeiten iterativ zusammen – menschliches Fachwissen + KI-Effizienz

Was du messen solltest

Miss nicht nur Geschwindigkeit. Das ISTQB definiert im CT-AI-Syllabus verschiedene ML Performance Metrics — für unser Szenario übersetze ich das in pragmatische Metriken:

Was du misstWarum
Zeit pro Testfall (vorher/nachher)Effizienz — aber Vorsicht vor dem Hidden-Review-Burden
Anteil sinnvoller AssertionsQualität — der wichtigste Wert
Wo die KI versagt hatLernen — dokumentiere jedes Scheitern
Review-Aufwand pro KI-OutputEhrlichkeit — wenn Review 80% der manuellen Zeit kostet, ist der Gewinn nur 20%

Wichtig: Erfinde keine Zielwerte. Miss, was tatsächlich passiert. Wenn der Effizienzgewinn bei 10% liegt statt bei den erhofften 50%, ist das eine ehrliche Erkenntnis — kein Scheitern.

Anti-Patterns in dieser Phase

  • “Wir testen alles mit KI” — Der Pilot muss fokussiert bleiben. Ein Use Case, nicht fünf.
  • Happy-Path-Overfitting — KI konzentriert sich auf die offensichtlichen Szenarien. Edge Cases, Fehlerzustände und Race Conditions gehen unter — genau dort, wo die echten Bugs sitzen.
  • Keine manuelle Validierung — Jeder KI-Output wird gereviewed. Ohne Ausnahme.

Am Ende von Phase 2 hast du:

  • Einen ehrlich gemessenen Effizienzgewinn (oder die Erkenntnis, dass es keinen gibt)
  • Dokumentierte Lessons Learned — vor allem: was hat NICHT funktioniert
  • Eine Go/No-Go-Entscheidung für Phase 3

Phase 3: Ausweiten (Woche 7–10)

Ziel: Den Piloten auf weitere Bereiche ausdehnen — wenn er funktioniert hat

Knowledge Transfer

Das Pilot-Team schult die erweiterte Gruppe. Drei Workshops haben sich bewährt:

  1. Grundlagen & Tool-Handling (4h) — Was kann das Tool, was nicht? Erwartungsmanagement ist wichtiger als Feature-Demos.
  2. Prompt Engineering für Tester (4h) — Kontext geben, Constraints formulieren, Ergebnisse iterativ verbessern. Das ISTQB CT-GenAI Syllabus behandelt Prompt Engineering als eigenes Kapitel — zu Recht, es ist eine neue Kernkompetenz.
  3. Review & Qualitätssicherung (4h) — Wie erkennst du, ob ein KI-generierter Test sinnvoll ist? Woran merkst du, dass Assertions fehlen oder zu schwach sind?

Weitere Use Cases priorisieren

Ordne potenzielle Use Cases nach Risiko und Nutzen ein. Das ISTQB-Prinzip des risikobasierten Testens gilt hier genauso:

Use CaseRisikoNutzenEmpfehlung
Testdaten-GenerierungNiedrigHochSofort starten
Unit-Test-ScaffoldingNiedrigMittelGuter zweiter Schritt
API-Test-GenerierungMittelHochMit Review-Prozess
E2E-Test-GenerierungHochHochErst nach Erfahrung
Visuelles RegressionstestingMittelMittelWenn Use Case vorhanden

Governance definieren

Spätestens jetzt braucht ihr klare Regeln:

  • Wer darf KI-generierte Tests ohne Review committen? (Antwort: niemand)
  • Welche Daten dürfen an externe KI-Services gesendet werden? (Data Residency, Compliance)
  • Wie werden KI-unterstützte Tests in der Testdokumentation gekennzeichnet?

Am Ende von Phase 3 hast du:

  • Mindestens 50% des Teams mit dem Tool vertraut
  • 2–3 weitere Use Cases in Arbeit
  • Governance-Regeln dokumentiert

Phase 4: Verankern (Woche 11–12)

Ziel: KI-Testing in den regulären Testprozess integrieren

Integration in die Teststufen

Das ISTQB definiert klassische Teststufen — KI-Unterstützung lässt sich in jede einbauen, aber mit unterschiedlichem Reifegrad:

TeststufeKI-AnwendungReifeHinweis
Unit TestTest-Scaffolding, BoilerplateHochGut erforscht, viele Tools
IntegrationstestAPI-Dokumentation aus CodeMittelFunktioniert für Standard-APIs
SystemtestTestfall-Generierung aus User StoriesNiedrigBraucht viel Domänenwissen
AbnahmetestDokumentation, ProtokollierungMittelUnterstützend, nicht ersetzend

Prozess-Anpassung

Aktualisiere deine Teststrategie:

  • Wo wird KI-Generierung eingesetzt und wo bewusst nicht?
  • Wie sieht der Review-Prozess für KI-Output aus?
  • Welche Metriken trackst du für die KI-Unterstützung?
  • Wie gehst du mit Concept Drift um — dem ISTQB-Begriff dafür, dass sich die zugrunde liegenden Daten und Anforderungen über die Zeit verändern?

Am Ende von Phase 4 hast du:

  • KI-Testing in der Teststrategie dokumentiert
  • Einen etablierten Review-Prozess
  • CI/CD-Integration, wo es Sinn macht

Phase 5: Lernen (ab Monat 4)

Ziel: Kontinuierlich verbessern und ehrlich bleiben

Metriken etablieren

Definiere KPIs, die dir wirklich etwas sagen:

KPIWas er dir sagtWarnung
Zeitersparnis pro TestzyklusEffizienzgewinnOhne Review-Aufwand ist die Zahl geschönt
Anteil sinnvoller KI-AssertionsQualität des OutputsDer wichtigste KPI
Defect-Detection-Rate vorher/nachherOb du wirklich besser testestBraucht 3–6 Monate Daten
Adoption-Rate im TeamOb es angenommen wirdNiedrig = Signal, nicht Problem

Langfristige Perspektive

Realistische Zeitleisten aus der Branche: Die meisten Teams sehen erste spürbare Verbesserungen nach 6–12 Monaten. Voller Nutzen zeigt sich oft erst nach 18–24 Monaten. Der 90-Tage-Plan bringt dich durch die kritischste Phase — den Anfang. Aber erwarte keine Transformation in drei Monaten.

Themen für Monat 4–12:

  • Interne Prompt-Bibliothek aufbauen (Wissensmanagement)
  • Metamorphic Testing kennenlernen — eine ISTQB-Testtechnik, die besonders wertvoll ist, wenn kein eindeutiges Testorakel existiert
  • Erste Erfahrungen mit agentic Testing sammeln (autonome KI-Agenten, die Tests selbstständig ausführen) — aber mit Kostenbewusstsein: ein einzelner agentischer Testlauf kann tausende API-Tokens verbrauchen. Gartner prognostiziert, dass über 40% der Agentic-AI-Projekte bis 2027 wegen unkontrollierbarer Kosten eingestellt werden

Was funktioniert — und was nicht

Bewährt

  • Klein anfangen — Ein erfolgreicher Pilot überzeugt mehr als jede Präsentation
  • Erfahrene Skeptiker einbinden — Sie finden die Schwachstellen, bevor es teuer wird
  • Immer reviewen — Human-in-the-Loop ist keine Schwäche, sondern Qualitätssicherung
  • Ehrlich messen — Auch ein “nur” 15% Effizienzgewinn ist ein Erfolg, wenn er nachhaltig ist

Gescheitert

  • Big Bang — Die komplette Testautomatisierung auf einmal ersetzen wollen
  • Tool first — Tools kaufen, bevor der Use Case klar ist
  • Ohne Governance — KI-Output ohne Review in die Pipeline lassen
  • Ängste ignorieren — Wenn das Team Sorgen hat, sind die meist berechtigt
  • Unrealistische Erwartungen — “50% schneller in 30 Tagen” ist Marketing, nicht Realität. Der Stack Overflow Developer Survey 2025 zeigt: nur 33% der Entwickler vertrauen KI-Output, 45% sagen, das Debuggen von KI-generiertem Code koste mehr Zeit als selbst schreiben

Zusammenfassung

PhaseWocheFokusWoran du merkst, dass es läuft
Verstehen1–2Use-Case-Analyse, Stakeholder1–2 konkrete, abgegrenzte Use Cases
Ausprobieren3–6Pilot mit einem Use CaseEhrlich gemessener Effizienzgewinn
Ausweiten7–10Knowledge Transfer, weitere Use CasesTeam nutzt Tool selbstständig
Verankern11–12Prozess-Integration, GovernanceKI-Testing in Teststrategie dokumentiert
Lernen13+Metriken, kontinuierliche VerbesserungDatenbasierte Entscheidungen

Dieser Plan ist keine Garantie — aber er gibt dir einen Rahmen, um die typischen Fehler zu vermeiden. Die wichtigste Erkenntnis aus meiner eigenen Erfahrung: Fang an, fang klein an, und sei ehrlich darüber, was funktioniert und was nicht.

Hast du Fragen oder eigene Erfahrungen? Ich freue mich über jede Nachricht an hello@quality-booster.com.


Quellen & Weiterführendes

Andi

Andi

Test-Manager