Co AI robi z Twoim tekstem, zanim Ci odpowie?

Zanim zobaczysz pierwszy znak odpowiedzi, Twoje zdanie przechodzi przez serię dość zaskakujących etapów – od cięcia na drobne „klocki”, przez rzut do wielowymiarowej przestrzeni liczb, aż po wielokrotne „spojrzenia” modelu na cały kontekst. Co właściwie dzieje się krok po kroku, gdy rozmawiasz z AI?

Od słów do liczb: moment, w którym tekst przestaje być tekstem

Pierwszym etapem „słuchania” jest tokenizacja, czyli podział tekstu na mniejsze jednostki, zwane tokenami. Mogą to być całe słowa, ich fragmenty albo pojedyncze znaki. Podział na tokeny nie wynika z rozbioru gramatycznego czy z jakiejś analizy znaczenia, lecz z praktycznych powodów „inżynieryjnych”. Język jest zbyt bogaty, by sensownym rozwiązaniem było przechowywanie każdego możliwego wyrazu osobno.

Stosuje się więc techniki dzielenia słów na częściej występujące elementy, dzięki czemu nawet rzadkie lub nowe formy można zapisać jako kombinację cząstek znanych [2]. Jednym słowem tokenizacja pozwala sprowadzić dowolny tekst do skończonego zbioru symboli.

Wektory zamiast słów. Jak powstaje przestrzeń znaczeń?

Każdy token zostaje następnie przetworzony na wektor liczb, to tzw. embedding. Można go postrzegać jako punkt w przestrzeni o bardzo wielu wymiarach. W tej przestrzeni odległość między punktami nie jest przypadkowa – tokeny używane w podobnych kontekstach znajdują się bliżej siebie, a te używane w odmiennych dalej. Dzięki temu tworzy się coś w rodzaju geometrycznej mapy relacji językowych. Pojęcia powiązane znaczeniowo, składniowo lub funkcjonalnie układają się w charakterystyczne struktury. To właśnie dlatego modele potrafią uchwycić podobieństwa, analogie i zależności między słowami.

Co ciekawe, początkowy embedding danego tokenu jest taki sam niezależnie od kontekstu. Dopiero w kolejnych etapach przetwarzania – po przejściu przez warstwy modelu – ulega uszczegółowieniu. „Znaczenie” nie jest zapisane raz na zawsze, lecz konstruowane dynamicznie w trakcie analizy zdania [3].

Wszystkie tokeny przetwarzane są równolegle. To daje ogromne korzyści obliczeniowe, ale ma też swoje negatywne konsekwencje – sam model nie wie, które słowo pojawiło się wcześniej, a które później. Tymczasem w języku kolejność ma znaczenie. Z tego powodu do reprezentacji tokenów dodaje się informację o ich pozycji w sekwencji, tak aby przekazać modelowi strukturę zdania i relacje jego elementów. Dzięki temu transformer nie widzi jedynie chaotycznego zbioru elementów, lecz uporządkowaną wypowiedź, w której kolejność wpływa na sens [1].

Mechanizm uwagi. Jak model „ogląda” całe zdanie?

Sercem współczesnych modeli językowych jest mechanizm uwagi (attention). To on umożliwia spójne łączenie informacji rozrzuconych po całym tekście.

W uproszczeniu można powiedzieć, że każdy token „sprawdza”, które inne tokeny są dla niego istotne w danym kontekście. I nie robi tego tylko raz – proces zachodzi równolegle w wielu tzw. attention heads (głowach uwagi). Każda z nich może nauczyć się wychwytywać inny typ zależności: składniowe, semantyczne, tematyczne lub bardziej abstrakcyjne.

Nie są to jednak reguły zaprogramowane ręcznie. W trakcie uczenia się model sam odkrywa, jakie relacje warto wzmacniać, aby lepiej przewidywać kolejne elementy tekstu. Wyniki pracy wielu „głów” są następnie łączone i przekazywane dalej, by mogły przechodzić przez kolejne warstwy sieci i ulegać dalszym przekształceniom.

Dzięki temu model potrafi łączyć odległe fragmenty wypowiedzi, śledzić zależności i budować reprezentacje coraz bardziej abstrakcyjne.

Model nie analizuje wyłącznie ostatniego zdania. Przy każdym kroku bierze pod uwagę cały dostępny kontekst: wcześniejsze wypowiedzi użytkownika, własne odpowiedzi oraz ustalone zasady rozmowy. To sprawia wrażenie pamięci i ciągłości dialogu.

W rzeczywistości nie jest to pamięć w sensie psychologicznym. Model nie „zapamiętuje” informacji na stałe — za każdym razem przetwarza cały dostępny kontekst od nowa. Jego możliwości są ograniczone długością tzw. okna kontekstowego. Gdy rozmowa staje się bardzo długa, najstarsze fragmenty mogą przestać być uwzględniane lub są reprezentowane w uproszczonej formie.

Z tego powodu czasem warto przypominać istotne informacje lub ponownie formułować założenia, zwłaszcza w długich, złożonych dialogach.

Jak powstaje odpowiedź AI?

Gdy kontekst zostanie przetworzony, model przechodzi do generowania odpowiedzi. Nie tworzy jej jednak jako gotowej całości. Nie planuje struktury tekstu ani nie „wie z góry”, dokąd zmierza.

Działa krok po kroku. Dla danego stanu oblicza, jaki token może pojawić się jako następny, przypisując każdemu możliwemu tokenowi pewne prawdopodobieństwo. Na tej podstawie wybierany jest jeden z nich (często z elementem kontrolowanej losowości). Następnie proces powtarza się już z uwzględnieniem nowo wygenerowanego fragmentu.

W ten sposób odpowiedź powstaje sekwencyjnie, jako seria lokalnych decyzji probabilistycznych. Mimo to całość często sprawia wrażenie spójnej i celowej – efekt ten wynika z bogatych reprezentacji i regularności języka, a nie z posiadania intencji czy planu.

Skuteczność modeli językowych jest rezultatem kilku nakładających się czynników. Język naturalny posiada silne regularności statystyczne, które można uchwycić przy odpowiedniej skali danych. Modele trenowane są na ogromnych zbiorach tekstów, co pozwala im poznać niezliczone warianty użycia słów i konstrukcji.

Duże architektury potrafią integrować informacje z wielu poziomów jednocześnie, tworząc złożone reprezentacje pojęć i relacji. Dodatkowo współczesne modele są dostrajane z udziałem ludzi, którzy oceniają odpowiedzi i pomagają korygować ich styl, bezpieczeństwo oraz zgodność z intencją użytkownika (tzw. RLHF) [4]. Ten etap nie zwiększa „inteligencji” w sensie poznawczym, ale znacząco poprawia użyteczność.

Ostatni krok – wracamy od liczb do słów

Gdy sekwencja tokenów zostanie wygenerowana, następuje proces odwrotny do tokenizacji – detokenizacja. Ostatecznie więc numeryczne identyfikatory są zamieniane na fragmenty tekstu, które łączą się w słowa, zdania i akapity. Dopiero wtedy widzisz gotową odpowiedź. Cała wcześniejsza matematyka pozostaje poza polem naszego widzenia, a my mamy wrażenie płynnej rozmowy.

Jakość odpowiedzi w dużej mierze zależy od jakości pytania. Pomaga jasno określić cel wypowiedzi, dodać kontekst i ograniczenia, a złożone problemy dzielić na mniejsze części. Warto też prosić o przykłady, doprecyzowania lub alternatywne ujęcia tematu. W razie potrzeby można poprosić o uproszczenie albo większą techniczność odpowiedzi – model potrafi dostosować styl do takich wskazówek.

Mimo imponujących możliwości modele językowe mają wyraźne ograniczenia. Potrafią generować odpowiedzi brzmiące bardzo przekonująco, które jednak zawierają błędy lub całkowicie fałszywe informacje – zjawisko to określa się mianem halucynacji.

Modele nie mają dostępu do rzeczywistości ani własnych doświadczeń. Ich „wiedza” wynika wyłącznie z danych treningowych oraz treści rozmowy. Nie posiadają świadomości, intencji ani rozumienia w ludzkim sensie – operują na wzorcach i zależnościach statystycznych.

Świadomość tych ograniczeń jest kluczowa, jeśli chcemy korzystać z AI odpowiedzialnie i z odpowiednim krytycznym dystansem.

Bibliografia

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS.
Sennrich, R., Haddow, B., Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL.
Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR Workshop.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS.