<iframe src="https://www.googletagmanager.com/ns.html?id=GTM-W3GDQPF" height="0" width="0" style="display:none;visibility:hidden">

AI 2.0 og norsk industri: En revolusjon i vente

Multimodale AI-modeller representerer et paradigmeskifte i kunstig intelligens, skriver Michael Alexander Riegler.

Publisert 28. apr. 2024 kl. 15.31
Lesetid: 4 minutter
Artikkellengde er 792 ord
TEMMELIG MYE: Ihvertfall med multimodale modeller, om man skal tro artikkelforfatteren. Her fra Hannover-messen sist uke. Foto: Bloomberg

Gjestekommentar: Michael Alexander Riegler, sjefsforsker på kunstig intelligens, Simula Metropolitan Center for Digital Engineering

Mens diskusjonen i Norge for det meste fortsetter å fokusere på ChatGPT og store språkmodeller, har AI-verdenen raskt beveget seg videre. OpenAIs beslutning om å gjøre sin modell GPT 3.5, som også driver den gratis versjonen av ChatGPT, tilgjengelig for alle uten betaling eller registrering, illustrerer dette tydelig.

Men hva er det neste? Tenk deg en verden der maskiner ikke bare kan chatte med oss som en venn (tenk på ChatGPT), men også forstå bilder, lyder og videoer, og skape og tolke dem på en menneskelig måte. Dette er ikke science fiction, men realiteten i dagens AI.

Michael Alexander Riegler. Foto: Simula

Mens OpenAI akkurat har åpnet døren til sitt svakeste modell, går vi nå inn i en enda mer spennende fase der AI forstår verden gjennom mer enn bare tekst. Dette gjennombruddet er muliggjort av «multimodale» AI-modeller – et begrep for AI som kan forstå og kommunisere på flere måter, ikke bare gjennom ord. OpenAIs Sora og Googles Genie leder an, men open source-modeller som CoDi-2 følger tett på, og demonstrerer evner man en gang trodde var utelukkende menneskelige.

Enkelt forklart betyr «multimodal» mange moduser eller måter. For AI refererer dette til å forstå verden gjennom forskjellige innganger – tekst, bilder, lyd og video – på samme måte som mennesker gjør. Det er som å ha en samtale med noen som ikke bare lytter til ordene dine, men også legger merke til uttrykk, tonefall og omgivelser for å fullt ut forstå konteksten.

Forskere får tilgang til dypere innsikt fra data, noe som muliggjør banebrytende forskning innen komplekse områder som klimaendringer og genetikk

Fremskrittene innen AI, demonstrert av OpenAIs Sora som kan lage realistiske videoer, eller Googles Genie som kan skape interaktive verdener for videospill, viser oss AIs enorme potensial. Det handler ikke bare om å forenkle oppgaver eller automatisere rutinearbeid, men om å forsterke vår kreative kapasitet og løse komplekse problemstillinger. Tenk deg AI som hjelper filmskapere med å lage fantastiske visuelle effekter, assisterer musikere med å komponere komplekse musikkstykker, eller tolker hva som skjer i en fotballkamp (TacticAI fra Google) – mulighetene virker uendelige.

Disse fremskrittene innehar muligheten til å utvikle mer engasjerende og personlig innhold, fra markedsføring til underholdning. Innen robotikk åpner multimodale AI-modeller for mer avanserte og intuitive roboter som kan utføre en rekke oppgaver, fra presisjonskirurgi til automatisert jordbruk, med større effektivitet og mindre behov for menneskelig inngripen. Forskere får tilgang til dypere innsikt fra data, noe som muliggjør banebrytende forskning innen komplekse områder som klimaendringer og genetikk. For forbrukere betyr det en fremtid der spill, virtuell virkelighet og personlig assistanse er fullstendig skreddersydd til våre preferanser og behov med en presisjon som tidligere var utenkelig.

Til tross for disse modellenes evne til å forstå og bearbeide et bredt spekter av data, er det viktig å huske at de ikke tenker eller forstår på samme måte som mennesker. De er begrenset av dataene de er trent på (som forskning viser, er modellene dårlige til å løse nye oppgaver som ikke har vært i treningsdataene), og deres «forståelse» er i beste fall en simulering basert på mønstergjenkjenning og statistisk analyse. Magien i modellene ligger ikke i en innebygd intelligens, men i deres evne til å raskt analysere og respondere på store mengder data, et resultat av grundig teknisk arbeid og algoritmisk finesse.

Et annet viktig aspekt å vurdere er energiforbruket til disse modellene. Men det pågår forskning, og selskaper jobber i høy hastighet for å finne løsninger. Et eksempel er Microsofts 1-bits LLM-konsept, som kan innlede en ny æra av små og effektive modeller. Modeller basert på dette konseptet ville ikke behøve et helt «kraftverk» for å kjøre. Istedenfor kunne de fungere på et enkelt batteri som du finner i en telefon. Modellene arbeider med mye enklere instruksjoner, slik som «ja», «nei» eller «kanskje» for å ta beslutninger. Dette gjør dem ikke bare smarte, men også svært billige i drift – samtidig som de kan gjøre alt de store, dyre modellene kan. Dette betyr at vi kan anvende disse modellene overalt uten å bruke for mye energi.

Multimodale AI-modeller representerer et paradigmeskifte i kunstig intelligens. De gir maskiner evnen til å forstå verden på en mer menneskelig måte, og åpner for flere spennende muligheter innen en rekke bransjer. Suksessen til multimodal AI i Norge krever en flerdimensjonal tilnærming som inneholder retningslinjer, kompetansehevning, transparent utvikling og samarbeid mellom bedrifter, myndigheter, forskere og sivilsamfunnet.

Michael Alexander Riegler

Sjefsforsker på kunstig intelligens, Simula Metropolitan Center for Digital Engineering