Hur datorseende fungerar
För en dator är en bild bara en matris av siffror som representerar pixelvärden. Utmaningen i datorseende är att extrahera meningsfull information från dessa siffror, alltså att förstå vad bilden föreställer. Modern datorseende löser detta främst med hjälp av djupa neurala nätverk, särskilt konvolutionella neurala nätverk (CNN).
En CNN bearbetar en bild i flera lager. De tidiga lagren identifierar enkla mönster som kanter och hörn, mellanlagren kombinerar dessa till mer komplexa former som cirklar och texturer, och de djupare lagren kan känna igen hela objekt som ansikten, bilar eller djur. Denna hierarkiska bearbetning liknar delvis hur det mänskliga synsinnet fungerar.
Moderna datorseendesystem använder ofta förtränade modeller som redan lärt sig att känna igen grundläggande visuella mönster. Dessa kan sedan finjusteras för specifika uppgifter, vilket kräver betydligt mindre data och tid än att träna från grunden.
Viktiga tillämpningar
Bildklassificering handlar om att avgöra vad en bild föreställer, som att identifiera växter, sjukdomar eller produktdefekter. Objektdetektion går ett steg längre och lokaliserar specifika objekt i bilden med avgränsningsrutor. Semantisk segmentering klassificerar varje pixel i bilden, vilket är avgörande för tillämpningar som autonom körning.
Inom sjukvården används datorseende för att analysera röntgenbilder, CT-skanningar och patologiska prover. AI-system kan ofta identifiera tidiga tecken på cancer och andra sjukdomar med en precision som matchar eller överträffar erfarna radiologer. I Veckans AI-podden har man belyst hur svenska sjukhus börjat implementera sådana system.
Andra viktiga tillämpningar inkluderar ansiktsigenkänning för säkerhet och autentisering, kvalitetskontroll i tillverkning, autonoma fordon, augmented reality, och analys av satellitbilder för miljöövervakning och stadsplanering.
Utmaningar och framtid
Trots stora framsteg har datorseende fortfarande betydande begränsningar. System kan luras av adversariella exempel, små förändringar i bilden som är osynliga för människor men som får AI:n att helt felklassificera bilden. Robusthet mot varierande ljusförhållanden, vinklar och ocklusioner är också utmaningar.
Bias i träningsdata kan leda till system som fungerar sämre för vissa folkgrupper eller i vissa miljöer. Ansiktsigenkänning har exempelvis visat sig vara mindre tillförlitlig för personer med mörkare hudtoner, vilket har lett till krav på rättvisegranskningar och reglering av tekniken.
Framtiden pekar mot multimodala system som kan kombinera visuell information med text och ljud för djupare förståelse. Vision-language-modeller som GPT-4V och Gemini kan redan diskutera och resonera om bilder, och denna utveckling kommer sannolikt att accelerera. Realtidsbearbetning på edge-enheter som mobiltelefoner och IoT-sensorer är ett annat aktivt utvecklingsområde.
Vanliga frågor
Kan datorseende se lika bra som en människa?
På specifika uppgifter kan datorseende matcha eller överträffa mänsklig förmåga, till exempel vid identifiering av cancertumörer i medicinska bilder. Men generell visuell förståelse, som att tolka komplexa scener och förstå sammanhang, är människor fortfarande överlägsna.
Hur används datorseende i Sverige?
Svenska företag använder datorseende inom bland annat tillverkning för kvalitetskontroll, sjukvård för bilddiagnostik, detaljhandel för kundanalys, och autonoma fordon. Sverige har flera framstående forskningsgrupper och företag inom området.
Kräver datorseende alltid kraftfull hårdvara?
Träning av datorseendemodeller kräver typiskt kraftfulla GPU:er, men körning av färdiga modeller kan göras på betydligt enklare hårdvara. Optimerade modeller kan idag köras direkt på mobiltelefoner och enkla inbyggda system.