Dlaczego AI nie naprawi chaosu w danych
Modele językowe skutecznie przekładają pytania biznesowe na zapytania SQL, jeśli mają jasny schemat, konsekwentne nazewnictwo, opisane tabele i zdefiniowane relacje. Bez tego analityk może dostać SQL, który wygląda poprawnie i zwraca wynik, ale opiera się na błędnych założeniach modelu.
Najgorsze raporty AI to nie te, które się wysypują, ale te, które dają liczbę — i ta liczba wygląda wiarygodnie.
Przykładowo, zarząd dostaje raport "wygenerowany przez AI" i podejmuje na jego podstawie błędną decyzję. Problemem nie musi być sam model, lecz hurtownia, w której kolumna revenue w jednej tabeli oznacza kwotę netto, w drugiej brutto, a w trzeciej wyłącznie potwierdzone wpłaty. Przepis na chaos gotowy.
Fundament: hurtownia danych w sensownej formie
- Single source of truth. Jeden centralny punkt, do którego trafiają dane ze wszystkich źródeł (CRM, ERP, e-commerce, marketing, finanse) i z którego powstają raporty.
- Modelowanie semantyczne. Surowe dane przechodzą przez warstwę oczyszczania do modeli biznesowych, a metryki, takie jak przychód czy aktywny klient, mają jedną obowiązującą definicję. Pomagają w tym narzędzia takie jak dbt.
- Słownik danych. Każda tabela i każda kolumna mają opis, ponieważ bez tego nawet doświadczony analityk nie wie, czy
user_idto ID z aplikacji web, mobile, czy CRM. AI z opisami radzi sobie nieporównanie lepiej niż bez. - Świeżość i jakość. Wiemy, kiedy dane były aktualizowane. Mamy testy (nie ma zer w polu cena, nie ma duplikatów PK, nie ma null tam, gdzie być nie powinno). AI pomaga to pisać, ale projektować musi człowiek.
BigQuery jako platforma dobrze pasująca do polskich realiów
Firmy korzystające z Google Ads, Google Analytics 4 lub innych usług Google często rozważają BigQuery to serverless'owa hurtownia danych od Google Cloud, rozliczająca koszt zapytań na podstawie ilości skanowanych danych. jako hurtownię, ponieważ ułatwia połączenie danych z ekosystemu Google, w tym natywny eksport z GA4, bez utrzymywania własnej infrastruktury bazodanowej.
- BigQuery ML — modele uczenia maszynowego (regresja, klasyfikacja, klasteryzacja, prognozowanie szeregów czasowych) uruchamiane bezpośrednio w SQL, na danych w hurtowni.
- Gemini w BigQuery (Data Canvas, asystent SQL). Asystent generujący zapytania, podpowiadający składnię i wyjaśniający istniejące zapytania. Dokumentacja Google wskazuje obecnie obsługę promptów w języku angielskim.
- Funkcje generatywne wbudowane w SQL.
ML.GENERATE_TEXT(), podpięcie modeli językowych jako zwykłej funkcji SQL — generujesz podsumowania, klasyfikujesz teksty, wyodrębniasz dane z opisów. - Vertex AI integracja. Bardziej zaawansowane scenariusze (własne modele, embeddingi, wyszukiwanie wektorowe) w ekosystemie Google Cloud.
To nie jest argument, że "trzeba BigQuery". Snowflake z Cortex i Databricks z asystentami oferują analogiczne możliwości. Jeśli jednak dane i zespół działają już w ekosystemie Google, BigQuery jest naturalną ścieżką do wdrożenia AI w analityce.
Codzienne zastosowania AI w pracy analityka
- Generowanie SQL z opisu w języku naturalnym. "Pokaż mi sprzedaż netto z kategorii elektronika w Q1 2026 w podziale na regiony, posortowane malejąco." Dobrze opisany schemat może istotnie skrócić przygotowanie pierwszej wersji zapytania.
- Wyjaśnianie cudzego SQL. Dziedziczysz po poprzedniku zapytanie na 300 linii z CTE i window functions. Wklejasz w asystenta, prosisz o wyjaśnienie krok po kroku.
- Refaktoring i optymalizacja. AI może zaproponować uproszczenia lub ograniczenie skanowanych danych, ale wpływ zmiany na wynik i koszt trzeba sprawdzić przed wdrożeniem.
- Generowanie testów danych. "Napisz testy dbt sprawdzające, czy kolumna order_id nie ma duplikatów..." — gotowy YAML z testami.
- Eksploracja danych. "Pokaż mi anomalie w sprzedaży za ostatnie 30 dni." AI generuje zapytanie, wykres, krótki opis.
- Komentarz tekstowy do dashboardu. Z surowych liczb AI przygotowuje szkic odpowiedzi na pytanie "co się wydarzyło w tym tygodniu", który analityk może zatwierdzić przed publikacją.
Trzy techniki, które robią różnicę
Prompt z kontekstem schematu. Zamiast "napisz mi zapytanie o sprzedaż", przekazujesz zatwierdzony fragment definicji tabel (CREATE TABLE, opisy kolumn) i dopiero potem pytanie. Model nie musi wtedy zgadywać znaczenia pól.
Few-shot z firmowych przykładów. Pokaż AI kilka "kanonicznych" zapytań używanych w firmie. Model otrzymuje wtedy wzorzec konwencji, joinów i aliasów, których powinien używać.
Verify, then trust. Każde zapytanie generowane przez AI sprawdzasz na małym wycinku danych ze znanym wynikiem. Dopiero potem uruchamiasz je na produkcji.
Pułapki, których warto uniknąć
- Halucynacje schematu. Model wymyśla kolumny, których nie ma, albo pyta o
customer_lifetime_value, którego nigdy nie wyliczyliśmy. Rozwiązaniem jest dostarczanie schematu z opisami. - Złe joiny. AI bywa nadwrażliwe na nazwy kolumn —
user_idw jednej tabeli iuser_idw drugiej zostaną sjoinowane, choć oznaczają zupełnie różne encje. Analityk musi weryfikować logikę biznesową, nie tylko składnię. - Koszty. W BigQuery niepotrzebne skanowanie znacznie większego zbioru danych bezpośrednio podnosi koszt zapytania.
- Bezpieczeństwo danych. Nie przekazuj danych wrażliwych ani produkcyjnego schematu narzędziu, którego firma nie zatwierdziła. Gemini in BigQuery, ChatGPT w ofertach biznesowych i Claude for Work opisują ochronę danych komercyjnych, ale wdrożenie nadal wymaga sprawdzenia retencji, uprawnień, lokalizacji przetwarzania i wymagań compliance.
Zasady dostępu: kto może pytać o dane przez AI
Ostatnią, ale niekoniecznie najmniej ważną jest kwestia zdefiniowania zasad dostępu. Przed uruchomieniem asystenta trzeba określić, kto może generować zapytania, do których zbiorów, kto zatwierdza wykorzystanie wyniku w raportach oraz jakie dane osobowe są wyłączone lub maskowane.
