From: Petr Kindlmann · QA & AI Quality · For: Devcity leadership

AI delivery needs a quality layer. Devcity can build it from QA.

A proposal to test AI evaluation, guardrails, audit logging, and production monitoring as a reusable Devcity service — through a scoped pilot role. Three-minute read; thirty-minute discussion at the end; one decision: approve a scoped pilot mandate on the next suitable AI engagement.

Přečíst návrh Spustit ukázku

Co je to za stránku

Jsem Petr, QA engineer v Devcity. Tahle stránka je můj interní návrh na rozšíření QA disciplíny do AI projektů, které Devcity dnes dělá nebo plánuje. Adresát jste vy — lidé, kteří rozhodují o tom, co Devcity klientům nabízí. Z mé strany jde o pět minut čtení a třicet minut rozhovoru, ze strany Devcity jedno rozhodnutí o tom, jestli zkusit pilot na příští AI zakázce.

Stránka je zároveň funkční ukázkou té služby. AI chat na konci odpovídá na otázky o tomto návrhu a vedle se průběžně kontroluje kvalita každé odpovědi. Tohle je přesně to, co bych v Devcity zaváděl pro klienty. Médium je samo o sobě sdělení.

Kde vidím mezeru

Devcity už dnes prodává AI a automatizaci. Postupně toho bude víc.

To je dobrá pozice — váš obsah na LinkedIn to potvrzuje, klientské poptávky to potvrzují. AI a automatizace jsou další růstová vlna konzultačních služeb a Devcity v ní stojí na startu.

Když ale klient AI funkci nasadí, nikdo zatím neumí říct s důkazem, jak dobře funguje.

Funguje? Nehalucinuje? Drží stejnou kvalitu i za šest měsíců po nasazení? Když se zeptá klientův auditor, právník nebo představenstvo, klient nemá co ukázat. A my mu nemáme co poskytnout.

Za rok to nebude volitelné.

EU AI Act, sektorová regulace, vlastní compliance týmy klientů — všechny tyto tlaky míří jedním směrem. Klienti, kteří dnes říkají „hlavně ať to funguje", začnou za rok říkat „ukažte mi, jak víte, že to funguje". Konzultantská firma, která to umí už teď, bude pro ně jasná volba.

Tradiční QA tuhle mezeru nezavře.

QA, jak ji děláme dnes, ověřuje deterministický software — daný vstup, daný výstup. AI funkce takhle nepracují. Stejný prompt vrátí jindy jinou odpověď, model se tiše aktualizuje, drobná změna promptu má globální dopad. Tradiční QA nástroje tohle neumí evaluovat. Potřebujeme rozšíření QA disciplíny, ne nový tým.

Co konkrétně navrhuji

Jedna věta: přidat ke každému AI projektu Devcity kvalitativní vrstvu, vést ji ze stávající QA kapacity, začít pilotem na příští zakázce, z toho udělat samostatnou službu, kterou prodáváme dál.

Co se přidá k projektu

Evaluační specifikace — definice „hotovo" pro AI funkci, podepsaná klientem
Vrstva pojistek (guardrails) testovatelná nezávisle na modelu
Auditní logování každého AI rozhodnutí
Průběžná evaluace v produkci s detekcí driftu
Měsíční report kvality pro klientovy stakeholdery

Co to stojí Devcity

V pilotu efektivně nula — vede se ze stávající QA kapacity
Workstream uvnitř stávajícího rozpočtu klientské zakázky
Část mé QA kapacity na současných účtech přechází na pilot za 2–3 sprinty
Po pilotu: samostatně placená služba na každém dalším AI projektu
Konzervativně cost-neutral, realisticky nový placený segment

What changes for the client

An AI feature with a documented quality bar, not a black box
Risk cases tested repeatedly, production behavior monitored
A runbook for when the AI starts behaving unexpectedly
Evidence for governance, procurement, legal, and internal compliance
A reason to pay Devcity more than a supplier who "just ships AI"

What Devcity gets

A stronger AI offer — measure, monitor, defend, not just ship
A reusable service layer: templates, runbooks, sales material from the pilot
Lower delivery risk on AI projects — quality bar before launch, monitoring after
New commercial layer (model decided by leadership after pilot)
Differentiation in procurement and renewals, not just direct revenue

What this is not

Not a claim that AI can be made perfect — it cannot.
Not a heavy compliance framework for every AI feature — most do not need one.
Not a replacement for current QA — it extends it.
Not a new team request — it starts from existing capacity.
Not theory — the demo below shows the core pattern working on this proposal itself.

Try the proposal assistant

This page is itself the service. The assistant answers questions about the proposal in consultant structure — direct answer, why, what changes, business impact. A separate judge model scores each answer for sales-readiness and proposes one concrete improvement. Pick an audience, click a question, watch the right-hand panel.

Pitching to:

Start with a softball

Or push back — tough questions

Pick an audience above, click a question, and watch the assistant respond in a consultant structure. After each answer you'll see action buttons — shorter, more technical, client-facing, what could go wrong — to push the answer further. The judge panel on the right scores sales-readiness and tells you the one thing to improve.

Sales-readiness check

A separate judge model scores every answer on six sales dimensions and proposes one improvement.

Nothing yet. Click a question above and watch this light up.

Pilot — concretely, on the next suitable engagement

On the next Devcity engagement that touches AI or automation, we ring-fence evaluation and guardrails as a separate quality workstream. The development team ships the AI feature; QA adds the quality layer around it: evaluation criteria, risk cases, guardrail tests, logging requirements, and incident handling.

Commercial handling stays with leadership. For the pilot, the goal is to test the method inside an existing engagement before turning it into a formal product package.

After the pilot, Devcity should have reusable templates, real delivery evidence, and enough information to decide whether this should become a standalone service. "Stop" is a legitimate outcome; we learn cheaply.

Pilot deliverables (Devcity keeps them, reuses on future clients):

Evaluační specifikace — šablona pro AI funkce
Sada testů pojistek, kterou si klient pustí sám
Schéma auditního logování a dashboard pro compliance
Runbook pro incidenty AI v produkci
Šablona měsíční zprávy o kvalitě pro klientovy stakeholdery

Co potřebuji od vás

Třicet minut příští týden.

Projdeme si návrh, dostanete odpovědi na to, na co jste se mě tady neptal, a rozhodneme, jestli zkusit pilot na nejbližší AI zakázce. Pokud ne, ztratíme půl hodiny — pokud ano, Devcity má za půl roku novou prodejnou službu a referenční případ k ní.

Domluvit hovor (e-mail) Vrátit se k návrhu

Petr Kindlmann · QA Engineer · Devcity