Bakgrund och genombrott
Transformer-arkitekturen presenterades i den banbrytande forskningsartikeln "Attention Is All You Need" av Vaswani et al. vid Google Brain 2017. Artikeln föreslog en helt ny approach till sekvensbearbetning som ersatte de då dominerande rekurrenta neurala nätverken (RNN) med en mekanism baserad på uppmärksamhet (attention).
Det centrala problemet med RNN:er var att de bearbetade data sekventiellt, ett element i taget, vilket gjorde dem långsamma att träna och svaga på att fånga beroenden mellan ord som ligger långt ifrån varandra i en text. Transformer-arkitekturen löste båda dessa problem genom att bearbeta hela sekvenser parallellt.
Genombrottet ledde snabbt till en rad inflytelserika modeller. BERT (2018) använde transformer-arkitekturen för att skapa kraftfulla textrepresentationer. GPT-serien (2018 och framåt) visade att transformers skalade extremt väl med mer data och beräkningskraft. Sedan dess har arkitekturen dominerat inte bara NLP utan även bild-, ljud- och multimodala tillämpningar.
Hur transformer-arkitekturen fungerar
Kärnan i en transformer är self-attention-mekanismen. Den låter varje element i en sekvens direkt beakta alla andra element när den bearbetas. Om modellen läser meningen "Katten satt på mattan som var blå", kan self-attention hjälpa modellen att koppla "blå" till "mattan" snarare än "katten", oavsett avståndet mellan orden.
En transformer består typiskt av en encoder och en decoder, var och en uppbyggd av flera identiska lager. Varje lager innehåller en self-attention-mekanism och ett feed-forward neuralt nätverk. Positional encoding läggs till indata för att ge modellen information om ordningen, eftersom attention-mekanismen i sig inte har någon uppfattning om position.
Multi-head attention är en förbättring där modellen kan uppmärksamma olika aspekter av relationer parallellt. Istället för en enda attention-beräkning görs flera oberoende beräkningar som fångar olika typer av beroenden, exempelvis grammatiska relationer, semantisk likhet och referentiella kopplingar. I Veckans AI-podden har man förklarat hur denna mekanism ger transformers deras imponerande förmåga.
Varför transformers dominerar
Den främsta anledningen till transformers dominans är deras skalbarhet. Till skillnad från tidigare arkitekturer blir transformers konsekvent bättre när man ökar modellstorlek, datamängd och beräkningskraft. Denna skalningsegenskap, beskriven i skalningslagar av OpenAI och DeepMind, har motiverat utvecklingen av allt större modeller.
Paralleliserbarhet är en annan nyckelfördelar. Eftersom transformers bearbetar hela sekvenser samtidigt kan de effektivt utnyttja moderna GPU:er och TPU:er som är optimerade för parallell beräkning. Detta gör dem betydligt snabbare att träna än sekventiella arkitekturer.
Transformer-arkitekturen har också visat sig vara remarkabelt flexibel och kan appliceras på långt fler domäner än bara text. Vision Transformers (ViT) applicerar arkitekturen på bilder, och liknande varianter finns för ljud, video, proteinstrukturförutsägelse och till och med robotstyrning. Denna universalitet gör transformers till en de facto-standard i modern AI-forskning.
Vanliga frågor
Vad är attention i AI-sammanhang?
Attention (uppmärksamhet) är en mekanism som låter en modell fokusera på de mest relevanta delarna av indata när den producerar utdata. I en transformer väger self-attention varje element i en sekvens mot alla andra element för att avgöra vilka relationer som är viktigast.
Kommer något att ersätta transformers?
Forskning pågår kring alternativa arkitekturer som Mamba (State Space Models) och RWKV som kan vara mer effektiva för vissa uppgifter. Men hittills har ingen arkitektur lyckats matcha transformers breda kapabilitet och skalbarhet.
Varför kallas det transformer?
Namnet syftar på att modellen transformerar (omvandlar) indata till utdata genom attention-mekanismen. Varje lager i arkitekturen omvandlar representationen av sekvensen till en allt mer användbar form för den specifika uppgiften.