Problem: AI mnoży możliwości szybciej niż odpowiedzialność
W projekcie webowym decyzja rzadko brzmi dzisiaj „czy użyć AI?”, ponieważ prawdziwe pytania są trudniejsze:
- czy klasyczny parser wystarczy, czy potrzebujesz modelu generatywnego,
- czy wysyłać dane do usługi API, czy uruchomić model w kontrolowanym środowisku,
- czy budować wyszukiwanie semantyczne, czy prosty full-text search rozwiązuje problem,
- czy agent może wykonać akcję, czy powinien jedynie przygotować propozycję dla człowieka.
Każda opcja ma inną jakość, cenę, latencję, zdolność audytu oraz profil ryzyka. Decyzja technologiczna bez zapisanych kryteriów jest opinią przebraną za strategię.
Evals to testy jakości systemu AI: zestaw przypadków, oczekiwanych zachowań i metryk, na podstawie których porównujesz warianty rozwiązania. , są w tym procesie odpowiednikiem prób ładunkowych przed dopuszczeniem mostu do ruchu. Najpierw definiujesz, co konstrukcja ma wytrzymać, potem mierzysz, czy faktycznie to spełnia.
Czym jest matryca ważona, a czym nie jest
Matryca ważona porównuje kilka opcji według tych samych kryteriów, a każde kryterium dostaje wagę, każda opcja wynik - łączna punktacja pokazuje kompromis:
Nie jest to wyrocznia ani naukowa pieczęć na subiektywnym wyborze. Jeżeli ocena jakości jest zgadywana, wynik jedynie precyzyjnie sumuje zgadywanie.
Nie utożsamiaj też każdej tabeli z klasyczną macierzą Pugha. Metoda Pugha porównuje warianty względem rozwiązania referencyjnego, zwykle oznaczeniami lepiej / tak samo / gorzej. W projekcie AI częściej przydaje się ważony model punktowy, bo możesz w nim połączyć wyniki evals, koszt zapytania, latencję i ograniczenia operacyjne.
Krok 1: nazwij decyzję i próg sukcesu
Nie zaczynaj od listy modeli, tylko zacznij od zdania opisującego efekt:
Potrzebujemy wyciągać pola z faktur kosztowych z dokładnością zaakceptowaną przez księgowość, przy walidacji obowiązkowych pól, audycie wyniku i budżecie operacyjnym określonym przed pilotażem.
To zdanie zmienia dyskusję, ponieważ zamiast pytać, który model jest „najlepszy”, pytasz, który wariant spełnia konkretny kontrakt biznesowy i techniczny.
Kryteria sukcesu powinny być:
- mierzalne — np. poprawność ekstrakcji pól na zestawie testowym,
- powiązane z procesem — błąd numeru konta jest ważniejszy niż niedoskonały opis,
- możliwe do powtórzenia — tę samą ocenę uruchomisz po zmianie promptu, modelu albo ceny,
- kompletne ryzykowo — obejmują jakość, dane, koszt i zachowanie w przypadku niepewności.
Krok 2: ustaw kryteria eliminacyjne
Średnia ważona nie może ukryć warunku krytycznego. Rozwiązanie nie kwalifikuje się do rankingu, jeżeli nie przechodzi bramki wejściowej.
Dla systemu AI pracującego na dokumentach firmowych lista eliminacyjna może wyglądać tak:
Warunki przetwarzania danych zostały zaakceptowane dla danego typu dokumentów.
Wynik ma schemat, walidację oraz zapis źródła i wersji konfiguracji.
Niska pewność albo brak wymaganych pól kieruje sprawę do człowieka.
Możesz odtworzyć decyzję na zestawie testowym po zmianie modelu lub promptu.
Opcję, która odpada na tym etapie, odrzucasz. Nie ratujesz jej dodatkowymi punktami za niższy koszt.
Krok 3: zbuduj kryteria punktowane
Kryteria zależą od zastosowania, ale techniczna decyzja AI zwykle wymaga co najmniej pięciu wymiarów:
| Kryterium | Co sprawdzasz | Przykładowa waga |
|---|---|---|
| Jakość na własnym eval set | Poprawność wyniku i obsługa trudnych przypadków | 30% |
| Ryzyko danych i kontrola | Zakres wysyłanych danych, audyt, uprawnienia | 20% |
| Obsługa wyjątków | Walidacja, odrzucenia, human-in-the-loop | 15% |
| Koszt operacyjny | Koszt dla realnego wolumenu i liczby ponowień | 15% |
| Latencja p95 | Czas od żądania do użytecznego wyniku | 10% |
| Utrzymanie | Monitoring, wersjonowanie promptów, zmiana dostawcy | 10% |
Wagi wpisz przed uruchomieniem porównania. Jeżeli ustawiasz je dopiero po zobaczeniu rezultatów, macierz staje się narzędziem uzasadniania faworyta.
Krok 4: przygotuj eval set zamiast dyskutować o wrażeniach
System generatywny oceniasz na tym, co naprawdę będzie wykonywał. Dla ekstrakcji faktur potrzebujesz różnych formatów, brakujących pól, skanów słabej jakości, dokumentów wielowalutowych i przypadków, które mają zostać odrzucone do ręcznej weryfikacji.
Minimalny zestaw porównawczy powinien zawierać:
- reprezentatywne przykłady typowych wejść,
- trudne przypadki i błędne dane,
- oczekiwany wynik albo jasną rubrykę oceny,
- osobną kontrolę szkód: wyciek danych, nieuzasadnione wykonanie akcji, brak odmowy,
- pomiar kosztu i latencji przy tej samej konfiguracji testu.
Publiczne benchmarki mogą pomóc w wyborze kandydatów. Decyzję wdrożeniową opierasz na evals Twojego procesu, ponieważ to Twoje dokumenty, język, reguły oraz koszt błędu definiują wynik.
Jeżeli używasz drugiego modelu do automatycznej oceny wyników (popularny wzorzec LLM-as-a-judge to metoda, w której model językowy ocenia odpowiedzi innego modelu według ustalonej rubryki lub kryteriów jakości.), zweryfikuj jego oceny człowiekiem na losowej próbce — co najmniej kilkudziesięciu przypadków. Sędzia bywa systemowo łagodniejszy dla odpowiedzi w swoim stylu i potrafi powtarzać te same błędy, których nie wychwyci wskaźnik zbiorczy.
Przykład: ekstrakcja danych z dokumentów
Załóżmy, że porównujesz trzy warianty dla panelu finansowego:
- A: parser regułowy + OCR, czyli Optical Character Recognition, rozpoznaje tekst w skanach i obrazach dokumentów, aby można go było dalej przetwarzać. — przewidywalny, ale wrażliwy na nowe formaty,
- B: model API zwracający dane w ustalonym schemacie + walidacja,
- C: model w kontrolowanym środowisku + walidacja i kolejka ręcznej akceptacji.
Poniższe oceny są ilustracją procesu, nie rekomendacją konkretnej technologii. W prawdziwym projekcie wpisujesz wyniki swojego pilotażu.
| Kryterium | Waga | A: reguły | B: API + walidacja | C: kontrolowane środowisko |
|---|---|---|---|---|
| Jakość na eval set | 30% | 6 | 9 | 8 |
| Ryzyko danych i kontrola | 20% | 10 | 6 | 9 |
| Obsługa wyjątków | 15% | 7 | 8 | 8 |
| Koszt operacyjny | 15% | 9 | 8 | 5 |
| Latencja p95 | 10% | 9 | 8 | 6 |
| Utrzymanie | 10% | 6 | 8 | 5 |
| Wynik ważony | 100% | 7,70 | 7,90 | 7,25 |
W tym wariancie B wygrywa o niewielki margines. To nie jest sygnał do natychmiastowego wdrożenia. To sygnał do sprawdzenia, czy wynik utrzyma się, gdy zwiększysz wagę kontroli danych albo przetestujesz więcej dokumentów nietypowych.
Pamiętaj o marginesie błędu
Różnica 7,90 vs 7,70 to 2,5% — w praktyce mieści się w szumie pomiarowym oceny jakościowej. Jeżeli przewaga zwycięzcy jest mniejsza niż 5–10%, traktuj wynik jako remis i rozstrzygaj kryteriami jakościowymi: ryzyko Vendor lock-in oznacza uzależnienie rozwiązania od jednego dostawcy w sposób, który utrudnia lub podraża migrację do alternatywy., doświadczenie zespołu, ścieżka migracji, koszt zmiany dostawcy za rok. Iluzoryczna precyzja "B wygrywa o 0,20 punktu" jest najbardziej niebezpieczną cechą każdej matrycy.
Krok 5: wykonaj analizę wrażliwości
Matryca jest cenna dopiero wtedy, gdy pokaże, jak krucha jest rekomendacja. Przetestuj co najmniej trzy scenariusze:
- podnieś wagę najważniejszego ryzyka,
- zwiększ założony wolumen i przelicz koszt,
- obniż ocenę jakości zwycięzcy po dodaniu trudniejszych przypadków.
Jeżeli ranking zmienia się po niewielkiej korekcie, nie masz jeszcze stabilnego wyboru. Potrzebujesz pilotażu dwóch opcji albo dokładniejszego pomiaru kryterium, które przesądza o wyniku.
Gdy decyzja dotyczy gotowego narzędzia AI
Ta sama metoda działa przy wyborze subskrypcji dla zespołu, ale kryteria muszą objąć koszty i zależności organizacyjne. Przy porównaniu narzędzi typu asystent, generator treści albo platforma automatyzacji dopisz do macierzy:
- integracje z obecnym obiegiem dokumentów, CRM-em i systemem uprawnień,
- całkowity koszt posiadania, czyli licencje, wdrożenie, szkolenia, integracje, administrację oraz zużycie API,
- adopcję zespołu, mierzoną w pilotażu na rzeczywistych zadaniach, nie na deklaracjach,
- przenośność danych i konfiguracji, żeby decyzja nie tworzyła niekontrolowanego vendor lock-inu.
Przed zakupem sprawdź również DPA, czyli Data Processing Agreement, to umowa powierzenia przetwarzania danych między administratorem danych a podmiotem przetwarzającym., podprocesorów, lokalizację przetwarzania, zasady retencji danych, SLA, czyli Service Level Agreement, określa gwarantowany poziom dostępności lub obsługi usługi oraz konsekwencje jego niedotrzymania., okres wypowiedzenia i możliwość eksportu danych. Narzędzie, które wygrywa funkcjami, ale nie przechodzi bramki danych albo kontraktu, nie powinno wejść do pilotażu.
W pilotażu ustal z góry metrykę efektu, budżet, grupę użytkowników i termin decyzji. Wtedy wynik brzmi konkretnie: rozszerzamy wdrożenie, ograniczamy zakres albo rezygnujemy, zamiast utrzymywać kolejną subskrypcję bez właściciela.
Najlepsza decyzja AI nie jest tą z najwyższym numerem w tabeli. Jest tą, której przewaga pozostaje widoczna po dodaniu ryzyka, kosztu błędu i niewygodnych przypadków testowych.
Szablon do użycia w projekcie
Kiedy matryca nie wystarczy
Nie próbuj punktacją zastąpić pracy, której jeszcze nie wykonałeś, ponieważ sama matryca nie rozwiąże:
- nieznanego ryzyka danych,
- braku reprezentatywnego eval setu,
- braku właściciela błędów produkcyjnych,
- agenta z uprawnieniami, których nikt nie potrafi audytować,
- procesu, którego nie da się opisać i zmierzyć.
W tych sytuacjach zatrzymujesz wdrożenie, ograniczasz zakres albo wracasz do prostszego rozwiązania. Czasem właściwą architekturą AI jest brak generatywnego AI w ścieżce krytycznej.
