Czym jest RAG (Retrieval-Augmented Generation)?

RAG to sprytna architektura aplikacji, która oducza model językowy (LLM) zmyślania i halucynowania. Zanim system wypuści w świat odpowiedź na pytanie, najpierw nurkuje w wektorowej bazie danych, szuka tam najtrafniejszych fragmentów z Twoich prywatnych dokumentacji, artykułów czy FAQ, a dopiero potem przekazuje je modelowi jako żelazny kontekst. Dzięki temu LLM staje się ekspertem od wiedzy w Twojej firmie bez płacenia za skomplikowany i powolny fine-tuning.

RAG czy fine-tuning — w co uderzyć?

Jeśli Twoje dane stale żyją (piszesz bloga, dodajesz FAQ, rozbudowujesz bazę wiedzy) — bierz RAG. Możesz w sekundę usunąć lub dodać dokument, a zmiana widoczna jest od razu. Fine-tuning zostaw dla sytuacji, gdzie modelowi brakuje wrodzonej wiedzy u podstaw (np. słownictwa ściśle branżowego lub specyficznego tonu marki). Co więcej: RAG jest zwyczajnie tani, bezbolesny we wdrożeniu i w pełni transparentny (widzisz z jakiego źródła AI wyciągnęło odpowiedź). W okolicach 2026 r. RAG to podstawa biznesowa. Fine-tuning to wisienka na torcie.

Na jakim stacku postawić RAG w Next.js w 2026 r.?

Podzielmy to na trzy sensowne pułapy. (1) **Budżetowe MVP**: Next.js na froncie + Vercel AI SDK + tanie OpenAI Embeddings (`text-embedding-3-small`) + wektorówka od Supabase (pgvector). Całość kosztuje grosze (od zera do 50 USD/mies.). (2) **Mocna produkcja**: Podmieniasz bazę na Pinecone lub Upstash Vector i opcjonalnie wzmacniasz to Cohere Rerank dla trafniejszych odpowiedzi. (3) **Format dla molochów (Enterprise)**: Hybrydowe wyszukiwarki (BM25 + wektorowy zarys), własne i skomplikowane algorytmy chunkowania, mocny rurociąg do ewaluacji (np. system Ragas) i monitory pokroju LangSmith. Zacznij z MVP, a potem rośnij jak na drożdżach!

Ile w ogóle kosztuje utrzymanie tego ustrojstwa?

Koszty potnij na trzy plastry: (1) **Tworzenie Embeddingów** — to grosze, `text-embedding-3-small` za przetworzenie 1 miliona tokenów kasuje Cię rzędu 0,02 USD. (2) **Miejsce w wektorowej bazie** — Supabase lub Pinecone z darmowymi tierami wytrzymają całkiem sporo przed uderzeniem w ścianę abonamentową. (3) **Odpowiadający model (Twój główny koszt)** — Tu idą pieniądze. Średnie użycie np. Claude Haiku 4.5 lub modelu GPT-4o-mini to opłaty od ułamków centów do pełnego centa za trafienie z zapytaniem z kontekstem. Z ruchem na poziomie 10k pytań zapłacisz ok. 10 do 100 USD.

Jakiej wielkości "chunki" (fragmenty tekstu) będą najlepsze?

Złoty środek leży z reguły pomiędzy 200 a 800 tokenami. Robisz krótsze (200-400)? Masz super precyzję wyszukiwania, ale zdania tracą wyczucie z szerszego kontekstu. Zrobisz dłuższe wpadające pod 1000? Model lepiej zrozumie wywód, ale baza trudniej sklei zapytanie z wynikiem. Typowy scenariusz techniczny (Dokumentacje/FAQ) uwielbia się z rozmiarami około 400–600 tokenów na ucięcie. Do tego narzuć z opcji np overlap (nachodzenie na siebie końcówek i początków) rzędu 50 tokenów i eksperymentuj.

Kiedy odpalać zautomatyzowane prze-indeksowanie i odświeżanie wektorów bazy?

Zdecydowanie najlepiej po każdej istotnej modyfikacji źródłowej treści. Masz dwie taktyki: (1) **Wyzwalanie z Webhooka** — jeśli napisałeś artykuł w CMS np w Sanity to przycisk "Zapisz" cicho z tyłu rzuca na nowo wektor przez Server Action. To najinteligentniejszy tryb. (2) **Rzeźnia z Pełną przebudową (Cron jobs)** — Odpalasz np raz dziennie procesora by wymiótł i wygenerował nowe embeddingi po wszystkich stronach w repozytorium. Kosztuje więcej przy odpalaniu uderzeń (przez zjadane zapytań o tokeny) ale ratuje w wypadkach problematycznej bazy u podstaw.

Co to za pojęcie te embeddingi? Dlaczego wszyscy o tym gadają w RAG?

Embedding to po inżyniersku "zakodowanie tekstu w kosmicznie długą tablicę z liczbami" (wektor np na 1536 miejsc u tablicy). Taka maszyna liczbowa w rewelacyjny sposób zbiera "sens semantyczny" ze słowa i rzuca go w układzie na płaszczyznach matematycznych. Jeśli więc wpadniesz w wektorową bazę z pytaniem "Co muszę zrobić żeby wyrobić hasło?", algorytm matematycznie zbliży się do wygenerowanego w przestrzeni wektora o sensie z frazą z dokumentacji "Oto szybki proces, by skutecznie zresetować poświadczenia w firmie". Prosty "Ctrl+F" nigdy by tego nie dokonał!

RAG w Next.js — budujemy inteligentną bazę wiedzy z AI

W skrócie

RAG to złoty tandem: Szukaj po sensie słów + Generuj odpowiedź z gotowca — model LLM ma zabronione bajdurzenie bez twardego zaplecza informacyjnego od Ciebie. - Budowa z klocków (Pipeline 6 etapowy) — Szatkujesz tekst → Wektorujesz to uderzeniami → Ładujesz na bazę i czekasz → Ktoś pyta o sens u w wektorówce → Wysyłasz znalezisko w locie do LLM → Streamujesz uśmiechniętemu z wyniku klientowi! - Najsensowniejszy ekwipunek — Next.js dający Front-End oraz zaplecze, Vercel AI SDK za "klej", Embeddingi od OpenAI za wektor + tani pgvector przez Supabase za półkę na wektory. - RAG nokautujący Fine-Tuning — Fine-Tuning (Douczanie) bierz za fraki by model udawał styl bycia np mądrego poety ze starożytności, a od solidnych wdrożeń z wiedzy uderzaj twardo z RAG.
Rozliczenia z księgową u dostawców API — Same wektory to grosze, za małą bazę (np. o opcjach ok. 10 tys pytań) zapłacisz miesięcznie maksymalnie za stówkę dolców na zaciąganie np od GPT-4o-mini lub taniego i szybkiego Haiku! - Cięcia tekstów u źródeł (Chunk size) — Widełki od 400 do ok 600 uciętych uderzeń tokenowych to strzał u początkującego idealny by na twardo wystartować!

Do czego właściwie uderza to całe mityczne i szeroko rzucane po IT pojęcie RAG?

łata największą i najbardziej irytującą bolączkę znanych, przepotężnych modeli u twórców narzędzi pokroju od chociażby ChatGPT czy z obozu Anthropic. Są niesamowicie mądre, ale niestety nie mają krzty pojęcia, co się dzieje za zamkniętymi i niedostępnymi podstronami u Twoich firmowych dokumentacji bazy! Zespół stworzył nowatorskie repo z setką funkcji o wpisy FAQ? Owy model by to pojąć zaczął po prostu na pytania klientów bajdurzyć bez oparcia (halucynować)! Tu do pracy ruszył twardo wariant od RAG. To jak wyciągniecie grubej i potężnej instrukcji na stół za krawat od inżynierów i powiedzenie wprost — "Patrz tylko tu zanim wylejesz do klienta informację bez weryfikacji!".

Rezultat nie pozwala zaistnieć u klienta na rozczarowania przy okienkach na Twoim zintegrowanym narzędziu do obsługi e-sklepu u bazy.

Krótko i żołnierskim sznytem z wiedzy: RAG przy aplikacjach z ekosystemów od Next.js to sześć mocnych przystanków od stacji z produkcją po opublikowanie! Na pętli z wiedzy (1) ciachasz wielkie poradniki na plasterki u wytycznych do wielkości tokenów od ok. 400 do max blisko z okolic od 800, na starcie potem je (2) wrzucasz do potężnych walców od paczek w algorytmach od uderzeń w u np u baz uderzeniowych z OpenAi, na wyjściu z kodu lądują uciekając w system bazy danych np we wdrożeniach darmowych pgvector pod opcję np dla MVP by potem za startować pod (4) zapytaniem wyjściowym, co wyciąga je z systemu u zapytania a od strony z (5) zbija w całość prompt po zapytaniu pod ujęciu dla np "Taniego LLM z Claude-haiku z rodziny 4.5" na twardo wysyłając klientom jako gotowe pule pod streaming przez pakiety od "Vercela" w zarysie od kroku (6).

Mapa, jak przepływa Twój pomysł od zaciągania zapytań (Architektura RAG)

Code

Twoi użytkownicy wysyłają uderzenie np "Co robi opcja za reset w firmie u hasła?"
       ↓
1. Rzucasz do maszyn od OpenAI: (Weź uderz i spłaszcz zapytanie o ciąg 1536 liczb wektora)
       ↓
2. Pukamy do bazy (Znalazłem po bliskości z matematycznego odczytu: Uderza pod kątem wpisu oznaczonym 'logowanie_w_systemie_na_koncie_do_resetowania.mdx')
       ↓
3. Łączymy "Odpowiedź na pytania z dokumentacji z wsadzonym u wejścia wektorem i wrzucamy LLM"
       ↓
4. Otrzymujesz poprawną i uśmiechniętą w ekran odpowiedź pod chat u klienta: AI: "Jasne, rzucam u wydań na zapleczu by użyć instrukcji o resetowaniu..."!

Jaki zestaw narzędzi wziąć do piaskownicy w web

Twoje królestwo Next.js — Za odcięciem opcji o backend, ujęciu API z bazą Frontu
Vercel AI SDK — Składny pakiet o strumieniowy streamingu ze starymi gotowcami (bez szarpania się od ręki z SSE)
Złożenia OpenAI Embeddings — Genialny strzał na portfel o uderzeniach z wektoryzacji z tekstów
Platforma pod wektory Supabase we wdrożeniu pgvector za MVP, na ostro weź i Upstash Vector od opcji Pinecone dla ostrych na setki z tysiącach żądań w produkcji
Pilnowanie ucięć i typowań w zarysie - Od Zod na obronie

Pierwsza stacja: Jak siekać i obrabiać dane w procesach

Grube artykuły to przeszkoda, nie wciśniesz 30 tysięcy słów na jedno wdrożenie we frazach modelu, nie płacąc potężnego majątku za zżeranie w tokenach. Ciachaj zarysy inteligentnie pod porcje:

Code

// Z bazy pod lib/rag/chunker.ts rzucamy opcję
interface Chunk {
  content: string
  metadata: {
    source: string
    title: string
    chunkIndex: number
  }
}
 
export function chunkText(
  text: string,
  source: string,
  title: string,
  chunkSize: number = 500, // Uderza u góry pod puszczenie od ok 500
  overlap: number = 100, // Na zakładki, by puszczać po 100 (nie odcięło np kontekst od ujęć z myśli dla zdania pomiędzy by powiązało je do wyszukiwania!)
): Chunk[] {
  const words = text.split(/\s+/)
  const chunks: Chunk[] = []
  let i = 0
  let chunkIndex = 0
 
  while (i < words.length) {
    const chunk = words.slice(i, i + chunkSize).join(' ')
    chunks.push({
      content: chunk,
      metadata: { source, title, chunkIndex },
    })
    i += chunkSize - overlap
    chunkIndex++
  }
 
  return chunks
}

Druga stacja: Czas uderzyć na zarysy pod wektory do modelu!

Code

// Uderza z lib/rag/embeddings.ts
import { openai } from '@ai-sdk/openai'
import { embed, embedMany } from 'ai'
 
export async function generateEmbedding(text: string): Promise<number[]> {
  const { embedding } = await embed({
    model: openai.embedding('text-embedding-3-small'), // Pakujesz się i ładujesz tu bezczelnie małą taniochę, bo to "wiedza u zarysu dla tekstu dla firmy u asortymentu w wektory" - u wystarcza w zupełnie u wdrożeń we firmowych!
    value: text,
  })
  return embedding
}
 
export async function generateEmbeddings(texts: string[]): Promise<number[][]> {
  const { embeddings } = await embedMany({
    model: openai.embedding('text-embedding-3-small'),
    values: texts,
  })
  return embeddings
}

Trzeci kocioł z bazą, by zamienić cyfry dla silnika z wsadów w wejściowym i wyciąganym oparciu!

Baza ma u Ciebie w systemie potrafić czytać dziwactwa. Supabase rozwiązuje to z opcji pod rozszerzeniem na platformy w darmowych ujęciach z "vector"!

Code

-- Rzucaj na edytor Supabase na pulpicie u SQL:
create extension if not exists vector;
 
create table documents (
  id bigserial primary key,
  content text not null,
  metadata jsonb,
  embedding vector(1536) -- Na te śliczne wymiary od paczki u małych np w "text-embedding-3"
);
 
-- Pod wydajności odczytowe wrzuć na tło potężnego "ivfflat"!
create index on documents using ivfflat (embedding vector_cosine_ops)
  with (lists = 100);
 
-- Co to u góry narzuciłeś to jedno, z wejścia za wsadami wpisz sztywną funkcję by zrzucić bliskości w matematycznych uderzeniach przy np rzutniku w od zapytaniach!
create or replace function match_documents(
  query_embedding vector(1536),
  match_threshold float default 0.7,
  match_count int default 5
)
returns table (
  id bigint,
  content text,
  metadata jsonb,
  similarity float
)
language sql stable
as $$
  select
    id,
    content,
    metadata,
    1 - (embedding <=> query_embedding) as similarity
  from documents
  where 1 - (embedding <=> query_embedding) > match_threshold
  order by embedding <=> query_embedding
  limit match_count;
$$;

Czwarta paczka z odlewami do wysyłki (Proces z indeksowania na plik)

Przesypmy "fizyczne" informacje dla systemów z chmury:

Code

// Twój proces uruchomiony z scripts/index-documents.ts u zaplecza by rzucić bazy przed wdrożeniem
import { chunkText } from '@/lib/rag/chunker'
import { generateEmbeddings } from '@/lib/rag/embeddings'
import { createClient } from '@supabase/supabase-js'
import fs from 'fs'
import path from 'path'
 
const supabase = createClient(
  process.env.NEXT_PUBLIC_SUPABASE_URL!,
  process.env.SUPABASE_SERVICE_ROLE_KEY!,
)
 
async function indexDocuments() {
  // Chwytaj np gotowe rzuty o artykułach na dyskach po .MDX
  const articlesDir = path.join(process.cwd(), 'content/blog')
  const files = fs.readdirSync(articlesDir).filter((f) => f.endsWith('.mdx'))
 
  for (const file of files) {
    const content = fs.readFileSync(path.join(articlesDir, file), 'utf-8')
    const title = file.replace('.mdx', '')
 
    // Siekamy i kroimy!
    const chunks = chunkText(content, file, title)
    console.log(
      `Bierzemy plik pod ${file}: ułamek wyszedł pod ucięcie z ${chunks.length} kawałków tekstowych.`,
    )
 
    // Palimy z uderzeń pod ujęcie o API u modelu pod ujęcia o embedding
    const embeddings = await generateEmbeddings(chunks.map((c) => c.content))
 
    // Wysyłamy i wciskamy do bazy od chłopaków z Supabase z przygotowanego zestawienia wektorów
    const records = chunks.map((chunk, i) => ({
      content: chunk.content,
      metadata: chunk.metadata,
      embedding: embeddings[i],
    }))
 
    const { error } = await supabase.from('documents').insert(records)
    if (error)
      console.error(
        `Oj! Masz błąd u indeksowań na paczkach przy błędem: ${file}:`,
        error,
      )
  }
 
  console.log('Spakowane na wektorową wnękę! Baza dziękuje ze odczyty!')
}
 
indexDocuments()

Przepiękny most pod API u Twojego RAG w "Streamingu na widoki"

Zmontujmy "centralny proces ujęty z uderzeń i odbić przy zapytaniu za front-end", czyli nasz główny kontroler:

Code

//  W paczce lądują u app/api/rag/route.ts dla serwera!
import { openai } from '@ai-sdk/openai'
import { convertToModelMessages, streamText, type UIMessage } from 'ai'
import { generateEmbedding } from '@/lib/rag/embeddings'
import { createClient } from '@supabase/supabase-js'
 
const supabase = createClient(
  process.env.NEXT_PUBLIC_SUPABASE_URL!,
  process.env.SUPABASE_SERVICE_ROLE_KEY!,
)
 
export async function POST(req: Request) {
  const { messages }: { messages: UIMessage[] } = await req.json()
  const lastMessage = messages.at(-1)
  const lastMessageText =
    lastMessage?.parts
      .filter((part) => part.type === 'text')
      .map((part) => part.text)
      .join('\n') ?? ''
 
  if (!lastMessageText.trim()) {
    return Response.json(
      { error: 'Hola! Pusto rzucone z konsol.' },
      { status: 400 },
    )
  }
 
  // ETAP 1. Z wejścia ładujemy wpisane po "chat" na matematycznie rzucony pod płaszczyzny dla modelu u wektor!
  const queryEmbedding = await generateEmbedding(lastMessageText)
 
  // ETAP 2. Strzał od funkcji Supabase! Pod rzut w poszukiwania co dla modelu w tekstach u wektorów masz ukryte do rzutów!
  const { data: documents } = await supabase.rpc('match_documents', {
    query_embedding: queryEmbedding,
    match_threshold: 0.7,
    match_count: 5,
  })
 
  // ETAP 3. Klejenie wyników do odrzuconych z uderzeń o potężny bufor po tekstach z dokumentu
  const context = documents
    ?.map(
      (doc: any) => `[Wskazane Źródło: ${doc.metadata.title}]\n${doc.content}`,
    )
    .join('\n\n---\n\n')
 
  // ETAP 4. "Hej Model, Odpowiedz, nie zmyślając!"
  const result = streamText({
    model: openai('gpt-4o'),
    system: `Oto RAG! Ty jesteś z opcji dla asystenta pod odciecia do pytań od firmy ze StriveLab. Na bazie z opcji na podstawie rzutów na sztywny wektor pod wejściem niżej od kontekstach - odpowiedz na pytanie i zachowuj opcje! Jak nic tu u podstaw dla wektorach np do tekstach niżej nie wpakowano – wywal by rzucił, że opcji nie znalazł za wsadami. Zero bajkopisarstwa!
 
Z rzutowanego pola KONTEKSTOWEGO U BAZIE:
${context || 'Niestety na twardo bazy tu pod wsad nie podały.'}`,
    messages: await convertToModelMessages(messages),
  })
 
  return result.toUIMessageStreamResponse()
}

No i front ze ślicznej architektury na "chat":

Code

'use client'
 
import { useState } from 'react'
import { DefaultChatTransport } from 'ai'
import { useChat } from '@ai-sdk/react'
 
export default function KnowledgeBase() {
  const [input, setInput] = useState('')
 
  // Wrzucasz standard od Vercela bez ceregieli z puszczeń po API na endpoint do Twojego RAG
  const { messages, sendMessage, status } = useChat({
    transport: new DefaultChatTransport({ api: '/api/rag' }),
  })
  const isLoading = status === 'submitted' || status === 'streaming'
 
  function handleSubmit(event: React.FormEvent<HTMLFormElement>) {
    event.preventDefault()
    if (!input.trim()) return
 
    sendMessage({ text: input })
    setInput('')
  }
 
  return (
    <div className="mx-auto max-w-2xl p-6">
      <h1 className="mb-2 text-2xl font-bold">
        Zapytaj u mądrego asystenta bazy StriveLab
      </h1>
      <p className="mb-6 text-gray-500">
        Pytaj od technologii pod SEO, o ujęć dla usług firmy na podstronach.
      </p>
 
      <div className="mb-6 min-h-[200px] space-y-4">
        {messages.map((m) => (
          <div
            key={m.id}
            className={`rounded-lg p-4 ${
              m.role === 'user' ? 'ml-8 bg-blue-50' : 'mr-8 bg-gray-50'
            }`}
          >
            {m.parts.map((part, index) =>
              part.type === 'text' ? (
                <p key={`${m.id}-${index}`} className="whitespace-pre-wrap">
                  {part.text}
                </p>
              ) : null,
            )}
          </div>
        ))}
      </div>
 
      <form onSubmit={handleSubmit} className="flex gap-2">
        <input
          value={input}
          onChange={(event) => setInput(event.target.value)}
          placeholder="O czym powiada paczka dla Next.js np na pozycjonowaniach SEO?"
          className="flex-1 rounded-lg border px-4 py-3"
        />
        <button
          type="submit"
          disabled={isLoading}
          className="rounded-lg bg-blue-600 px-6 py-3 text-white disabled:opacity-50"
        >
          Sprawdź u Maszyny
        </button>
      </form>
    </div>
  )
}

Dwa rzuty do zapamiętania, o RAG

By zbudować zgrabnie i wejść do grona systemów firm bez pustych bajkopisarzy z modeli – po prostu tnij u wejścia wektorów, przepuść u chmur (lub we wdrożeniowych na małych od pgvector) a odpowiadaj pod kątem rzucanej od "Prompt-ów ze sztucznym doklejonym kontekstem u bazy z RAG"! Sztywna od Vercel paczka o integracji u rzutów za opcją AI SDK pozwala to wykręcić dla średniej z paczki rzędu pod budżet bez uderzeń i skoków dla tysięcznych rachunków by nie wdrożyć fine-tuning! A Twoje narzędzia dostają opcje u rzutowaniu z profesjonalnych rzutów pod gigabajtów darmowej, sztywnej u bazy po "Firmowym Know-how".

W skrócie

RAG to złoty tandem: Szukaj po sensie słów + Generuj odpowiedź z gotowca — model LLM ma zabronione bajdurzenie bez twardego zaplecza informacyjnego od Ciebie. - Budowa z klocków (Pipeline 6 etapowy) — Szatkujesz tekst → Wektorujesz to uderzeniami → Ładujesz na bazę i czekasz → Ktoś pyta o sens u w wektorówce → Wysyłasz znalezisko w locie do LLM → Streamujesz uśmiechniętemu z wyniku klientowi! - Najsensowniejszy ekwipunek — Next.js dający Front-End oraz zaplecze, Vercel AI SDK za "klej", Embeddingi od OpenAI za wektor + tani pgvector przez Supabase za półkę na wektory. - RAG nokautujący Fine-Tuning — Fine-Tuning (Douczanie) bierz za fraki by model udawał styl bycia np mądrego poety ze starożytności, a od solidnych wdrożeń z wiedzy uderzaj twardo z RAG.
Rozliczenia z księgową u dostawców API — Same wektory to grosze, za małą bazę (np. o opcjach ok. 10 tys pytań) zapłacisz miesięcznie maksymalnie za stówkę dolców na zaciąganie np od GPT-4o-mini lub taniego i szybkiego Haiku! - Cięcia tekstów u źródeł (Chunk size) — Widełki od 400 do ok 600 uciętych uderzeń tokenowych to strzał u początkującego idealny by na twardo wystartować!

Do czego właściwie uderza to całe mityczne i szeroko rzucane po IT pojęcie RAG?

Rezultat nie pozwala zaistnieć u klienta na rozczarowania przy okienkach na Twoim zintegrowanym narzędziu do obsługi e-sklepu u bazy.

Mapa, jak przepływa Twój pomysł od zaciągania zapytań (Architektura RAG)

Code

Twoi użytkownicy wysyłają uderzenie np "Co robi opcja za reset w firmie u hasła?"
       ↓
1. Rzucasz do maszyn od OpenAI: (Weź uderz i spłaszcz zapytanie o ciąg 1536 liczb wektora)
       ↓
2. Pukamy do bazy (Znalazłem po bliskości z matematycznego odczytu: Uderza pod kątem wpisu oznaczonym 'logowanie_w_systemie_na_koncie_do_resetowania.mdx')
       ↓
3. Łączymy "Odpowiedź na pytania z dokumentacji z wsadzonym u wejścia wektorem i wrzucamy LLM"
       ↓
4. Otrzymujesz poprawną i uśmiechniętą w ekran odpowiedź pod chat u klienta: AI: "Jasne, rzucam u wydań na zapleczu by użyć instrukcji o resetowaniu..."!

Jaki zestaw narzędzi wziąć do piaskownicy w web

Twoje królestwo Next.js — Za odcięciem opcji o backend, ujęciu API z bazą Frontu
Vercel AI SDK — Składny pakiet o strumieniowy streamingu ze starymi gotowcami (bez szarpania się od ręki z SSE)
Złożenia OpenAI Embeddings — Genialny strzał na portfel o uderzeniach z wektoryzacji z tekstów
Platforma pod wektory Supabase we wdrożeniu pgvector za MVP, na ostro weź i Upstash Vector od opcji Pinecone dla ostrych na setki z tysiącach żądań w produkcji
Pilnowanie ucięć i typowań w zarysie - Od Zod na obronie

Pierwsza stacja: Jak siekać i obrabiać dane w procesach

Code

// Z bazy pod lib/rag/chunker.ts rzucamy opcję
interface Chunk {
  content: string
  metadata: {
    source: string
    title: string
    chunkIndex: number
  }
}
 
export function chunkText(
  text: string,
  source: string,
  title: string,
  chunkSize: number = 500, // Uderza u góry pod puszczenie od ok 500
  overlap: number = 100, // Na zakładki, by puszczać po 100 (nie odcięło np kontekst od ujęć z myśli dla zdania pomiędzy by powiązało je do wyszukiwania!)
): Chunk[] {
  const words = text.split(/\s+/)
  const chunks: Chunk[] = []
  let i = 0
  let chunkIndex = 0
 
  while (i < words.length) {
    const chunk = words.slice(i, i + chunkSize).join(' ')
    chunks.push({
      content: chunk,
      metadata: { source, title, chunkIndex },
    })
    i += chunkSize - overlap
    chunkIndex++
  }
 
  return chunks
}

Druga stacja: Czas uderzyć na zarysy pod wektory do modelu!

Code

// Uderza z lib/rag/embeddings.ts
import { openai } from '@ai-sdk/openai'
import { embed, embedMany } from 'ai'
 
export async function generateEmbedding(text: string): Promise<number[]> {
  const { embedding } = await embed({
    model: openai.embedding('text-embedding-3-small'), // Pakujesz się i ładujesz tu bezczelnie małą taniochę, bo to "wiedza u zarysu dla tekstu dla firmy u asortymentu w wektory" - u wystarcza w zupełnie u wdrożeń we firmowych!
    value: text,
  })
  return embedding
}
 
export async function generateEmbeddings(texts: string[]): Promise<number[][]> {
  const { embeddings } = await embedMany({
    model: openai.embedding('text-embedding-3-small'),
    values: texts,
  })
  return embeddings
}

Trzeci kocioł z bazą, by zamienić cyfry dla silnika z wsadów w wejściowym i wyciąganym oparciu!

Baza ma u Ciebie w systemie potrafić czytać dziwactwa. Supabase rozwiązuje to z opcji pod rozszerzeniem na platformy w darmowych ujęciach z "vector"!

Code

-- Rzucaj na edytor Supabase na pulpicie u SQL:
create extension if not exists vector;
 
create table documents (
  id bigserial primary key,
  content text not null,
  metadata jsonb,
  embedding vector(1536) -- Na te śliczne wymiary od paczki u małych np w "text-embedding-3"
);
 
-- Pod wydajności odczytowe wrzuć na tło potężnego "ivfflat"!
create index on documents using ivfflat (embedding vector_cosine_ops)
  with (lists = 100);
 
-- Co to u góry narzuciłeś to jedno, z wejścia za wsadami wpisz sztywną funkcję by zrzucić bliskości w matematycznych uderzeniach przy np rzutniku w od zapytaniach!
create or replace function match_documents(
  query_embedding vector(1536),
  match_threshold float default 0.7,
  match_count int default 5
)
returns table (
  id bigint,
  content text,
  metadata jsonb,
  similarity float
)
language sql stable
as $$
  select
    id,
    content,
    metadata,
    1 - (embedding <=> query_embedding) as similarity
  from documents
  where 1 - (embedding <=> query_embedding) > match_threshold
  order by embedding <=> query_embedding
  limit match_count;
$$;

Czwarta paczka z odlewami do wysyłki (Proces z indeksowania na plik)

Przesypmy "fizyczne" informacje dla systemów z chmury:

Code

// Twój proces uruchomiony z scripts/index-documents.ts u zaplecza by rzucić bazy przed wdrożeniem
import { chunkText } from '@/lib/rag/chunker'
import { generateEmbeddings } from '@/lib/rag/embeddings'
import { createClient } from '@supabase/supabase-js'
import fs from 'fs'
import path from 'path'
 
const supabase = createClient(
  process.env.NEXT_PUBLIC_SUPABASE_URL!,
  process.env.SUPABASE_SERVICE_ROLE_KEY!,
)
 
async function indexDocuments() {
  // Chwytaj np gotowe rzuty o artykułach na dyskach po .MDX
  const articlesDir = path.join(process.cwd(), 'content/blog')
  const files = fs.readdirSync(articlesDir).filter((f) => f.endsWith('.mdx'))
 
  for (const file of files) {
    const content = fs.readFileSync(path.join(articlesDir, file), 'utf-8')
    const title = file.replace('.mdx', '')
 
    // Siekamy i kroimy!
    const chunks = chunkText(content, file, title)
    console.log(
      `Bierzemy plik pod ${file}: ułamek wyszedł pod ucięcie z ${chunks.length} kawałków tekstowych.`,
    )
 
    // Palimy z uderzeń pod ujęcie o API u modelu pod ujęcia o embedding
    const embeddings = await generateEmbeddings(chunks.map((c) => c.content))
 
    // Wysyłamy i wciskamy do bazy od chłopaków z Supabase z przygotowanego zestawienia wektorów
    const records = chunks.map((chunk, i) => ({
      content: chunk.content,
      metadata: chunk.metadata,
      embedding: embeddings[i],
    }))
 
    const { error } = await supabase.from('documents').insert(records)
    if (error)
      console.error(
        `Oj! Masz błąd u indeksowań na paczkach przy błędem: ${file}:`,
        error,
      )
  }
 
  console.log('Spakowane na wektorową wnękę! Baza dziękuje ze odczyty!')
}
 
indexDocuments()

Przepiękny most pod API u Twojego RAG w "Streamingu na widoki"

Zmontujmy "centralny proces ujęty z uderzeń i odbić przy zapytaniu za front-end", czyli nasz główny kontroler:

Code

//  W paczce lądują u app/api/rag/route.ts dla serwera!
import { openai } from '@ai-sdk/openai'
import { convertToModelMessages, streamText, type UIMessage } from 'ai'
import { generateEmbedding } from '@/lib/rag/embeddings'
import { createClient } from '@supabase/supabase-js'
 
const supabase = createClient(
  process.env.NEXT_PUBLIC_SUPABASE_URL!,
  process.env.SUPABASE_SERVICE_ROLE_KEY!,
)
 
export async function POST(req: Request) {
  const { messages }: { messages: UIMessage[] } = await req.json()
  const lastMessage = messages.at(-1)
  const lastMessageText =
    lastMessage?.parts
      .filter((part) => part.type === 'text')
      .map((part) => part.text)
      .join('\n') ?? ''
 
  if (!lastMessageText.trim()) {
    return Response.json(
      { error: 'Hola! Pusto rzucone z konsol.' },
      { status: 400 },
    )
  }
 
  // ETAP 1. Z wejścia ładujemy wpisane po "chat" na matematycznie rzucony pod płaszczyzny dla modelu u wektor!
  const queryEmbedding = await generateEmbedding(lastMessageText)
 
  // ETAP 2. Strzał od funkcji Supabase! Pod rzut w poszukiwania co dla modelu w tekstach u wektorów masz ukryte do rzutów!
  const { data: documents } = await supabase.rpc('match_documents', {
    query_embedding: queryEmbedding,
    match_threshold: 0.7,
    match_count: 5,
  })
 
  // ETAP 3. Klejenie wyników do odrzuconych z uderzeń o potężny bufor po tekstach z dokumentu
  const context = documents
    ?.map(
      (doc: any) => `[Wskazane Źródło: ${doc.metadata.title}]\n${doc.content}`,
    )
    .join('\n\n---\n\n')
 
  // ETAP 4. "Hej Model, Odpowiedz, nie zmyślając!"
  const result = streamText({
    model: openai('gpt-4o'),
    system: `Oto RAG! Ty jesteś z opcji dla asystenta pod odciecia do pytań od firmy ze StriveLab. Na bazie z opcji na podstawie rzutów na sztywny wektor pod wejściem niżej od kontekstach - odpowiedz na pytanie i zachowuj opcje! Jak nic tu u podstaw dla wektorach np do tekstach niżej nie wpakowano – wywal by rzucił, że opcji nie znalazł za wsadami. Zero bajkopisarstwa!
 
Z rzutowanego pola KONTEKSTOWEGO U BAZIE:
${context || 'Niestety na twardo bazy tu pod wsad nie podały.'}`,
    messages: await convertToModelMessages(messages),
  })
 
  return result.toUIMessageStreamResponse()
}

No i front ze ślicznej architektury na "chat":

Code

'use client'
 
import { useState } from 'react'
import { DefaultChatTransport } from 'ai'
import { useChat } from '@ai-sdk/react'
 
export default function KnowledgeBase() {
  const [input, setInput] = useState('')
 
  // Wrzucasz standard od Vercela bez ceregieli z puszczeń po API na endpoint do Twojego RAG
  const { messages, sendMessage, status } = useChat({
    transport: new DefaultChatTransport({ api: '/api/rag' }),
  })
  const isLoading = status === 'submitted' || status === 'streaming'
 
  function handleSubmit(event: React.FormEvent<HTMLFormElement>) {
    event.preventDefault()
    if (!input.trim()) return
 
    sendMessage({ text: input })
    setInput('')
  }
 
  return (
    <div className="mx-auto max-w-2xl p-6">
      <h1 className="mb-2 text-2xl font-bold">
        Zapytaj u mądrego asystenta bazy StriveLab
      </h1>
      <p className="mb-6 text-gray-500">
        Pytaj od technologii pod SEO, o ujęć dla usług firmy na podstronach.
      </p>
 
      <div className="mb-6 min-h-[200px] space-y-4">
        {messages.map((m) => (
          <div
            key={m.id}
            className={`rounded-lg p-4 ${
              m.role === 'user' ? 'ml-8 bg-blue-50' : 'mr-8 bg-gray-50'
            }`}
          >
            {m.parts.map((part, index) =>
              part.type === 'text' ? (
                <p key={`${m.id}-${index}`} className="whitespace-pre-wrap">
                  {part.text}
                </p>
              ) : null,
            )}
          </div>
        ))}
      </div>
 
      <form onSubmit={handleSubmit} className="flex gap-2">
        <input
          value={input}
          onChange={(event) => setInput(event.target.value)}
          placeholder="O czym powiada paczka dla Next.js np na pozycjonowaniach SEO?"
          className="flex-1 rounded-lg border px-4 py-3"
        />
        <button
          type="submit"
          disabled={isLoading}
          className="rounded-lg bg-blue-600 px-6 py-3 text-white disabled:opacity-50"
        >
          Sprawdź u Maszyny
        </button>
      </form>
    </div>
  )
}

RAG w Next.js — budujemy inteligentną bazę wiedzy z AI

Do czego właściwie uderza to całe mityczne i szeroko rzucane po IT pojęcie RAG?

Mapa, jak przepływa Twój pomysł od zaciągania zapytań (Architektura RAG)

Jaki zestaw narzędzi wziąć do piaskownicy w web

Pierwsza stacja: Jak siekać i obrabiać dane w procesach

Druga stacja: Czas uderzyć na zarysy pod wektory do modelu!

Trzeci kocioł z bazą, by zamienić cyfry dla silnika z wsadów w wejściowym i wyciąganym oparciu!

Czwarta paczka z odlewami do wysyłki (Proces z indeksowania na plik)

Przepiękny most pod API u Twojego RAG w "Streamingu na widoki"

No i front ze ślicznej architektury na "chat":

Dwa rzuty do zapamiętania, o RAG

Czytaj dalej

RAG w Next.js — budujemy inteligentną bazę wiedzy z AI

Do czego właściwie uderza to całe mityczne i szeroko rzucane po IT pojęcie RAG?

Mapa, jak przepływa Twój pomysł od zaciągania zapytań (Architektura RAG)

Jaki zestaw narzędzi wziąć do piaskownicy w web

Pierwsza stacja: Jak siekać i obrabiać dane w procesach

Druga stacja: Czas uderzyć na zarysy pod wektory do modelu!

Trzeci kocioł z bazą, by zamienić cyfry dla silnika z wsadów w wejściowym i wyciąganym oparciu!

Czwarta paczka z odlewami do wysyłki (Proces z indeksowania na plik)

Przepiękny most pod API u Twojego RAG w "Streamingu na widoki"

No i front ze ślicznej architektury na "chat":

Dwa rzuty do zapamiętania, o RAG

Czytaj dalej