Ett fiktivt företag bemannat helt av AI-agenter
Forskare byggde upp ett påhittat företag och placerade AI-agenter på samtliga tjänster. Systemen skulle analysera data, samarbeta med personalavdelningen och välja ut nya kontorslokaler – precis som ett vanligt arbetslag skulle göra.
Resultaten visade sig vara betydligt mindre imponerande än vad algoritmtillverkarnas marknadsföring brukar lova. Forskarnas centrala fråga var enkel: klarar dagens AI-system av att självständigt sköta vanligt kontorsarbete med flera parallella uppgifter? Svaret är tydligt – inte ännu.
Ett forskarteam kopplat till Carnegie Mellon University skapade en miljö som påminde om ett verkligt tjänsteföretag. Det handlade inte om en vanlig chattbotsdemo, utan om ett grundligt test av AI:ns förmågor under realistiska förhållanden. Varje roll fylldes av en separat AI-agent byggd på populära språkmodeller.
Hur det virtuella kontoret var uppbyggt
Forskarna skapade separata virtuella team som skulle fungera som arbetskollegor. En agent i rollen som projektledare behövde exempelvis kontakta en simulerad personalavdelning för formalia, eller samordna med ett administrativt team vid val av nya kontorslokaler. Hela miljön liknade ett komplext simuleringsspel – med den skillnaden att det var språkmodeller, inte människor, som utförde varje steg.
Bland de testade rollerna ingick bland annat:
- Finansanalytiker med ansvar för att granska filer och databaser
- Projektledare som koordinerade teamet och bevakade deadlines
- Mjukvaruingenjör som utförde tekniska kommandon
- Medarbetare som samarbetade med HR och administration
I experimentet användes bland annat följande system:
- Claude 3.5 Sonnet från Anthropic
- Gemini 2.0 Flash från Google
- GPT-4 från OpenAI
- Flera andra populära språkmodeller tillgängliga på marknaden
Forskarna mätte hur ofta uppgifterna löstes korrekt från början till slut. Uppgifterna var överraskande jordnära och typiska för ett vanligt kontor. En agent kunde exempelvis behöva navigera genom mappar och komplexa kalkylblad för att skapa en meningsfull analys, eller jämföra flera kontorslokaler baserat på virtuella visningar och sammanställa en rekommendation.
Resultaten visar att AI misslyckades i tre fjärdedelar av fallen
Den strikta utvärderingen gav nedslående siffror. Det bästa resultatet stod Claude 3.5 Sonnet för – med enbart 24 procent korrekt genomförda uppgifter. Räknar man in delvis lösta uppgifter steg resultatet till 34,4 procent. Tvåan Gemini 2.0 Flash klarade sig ännu sämre och fullföljde bara 11,4 procent av uppgifterna. Inget annat system nådde ens 10 procents framgångsgrad.
Även den bäst presterande modellen misslyckades alltså med mer än två tredjedelar av sina uppgifter. Övriga modeller kom inte ens i närheten av en genomsnittlig kontorsmedarbetares nivå. Som jämförelse: en vanlig anställd löser liknande uppgifter med ungefär 85 till 90 procents träffsäkerhet.
Forskarna analyserade även kostnaderna för de olika modellerna. Claude 3.5 Sonnet visade sig vara den dyraste – att köra hela uppgiftssviten kostade 6,34 dollar. Gemini 2.0 Flash rymdes inom 0,79 dollar. Den billigare modellen var alltså betydligt sämre, men skillnaden i effektivitet motiverade på intet sätt det stora preisgapet.
Uppgifterna innefattade även att skicka meddelanden till andra avdelningar för att klargöra data eller inhämta godkännanden, att skapa dokument i ett angivet format och spara dem på rätt plats, samt att koordinera flera steg samtidigt med hänsyn till deadlines. AI-systemen havererade framför allt vid mer komplexa uppgifter som krävde kontextuell förståelse.
Vad som konkret inte fungerade hos de virtuella medarbetarna
Forskarna konstaterade snabbt att AI-agenterna saknar något som är helt självklart för människor: förmågan att förstå det som är underförstått och inte uttryckligen nedskrivet. En uppgift kunde till exempel lyda: "spara behandlingen i en fil med ändelsen .docx". För en kontorsanställd är det uppenbart att det rör sig om ett Microsoft Word-dokument. För agenterna var det det inte.
Vissa system försökte spara filen i ett annat format och lade sedan till filändelsen manuellt. Andra kopplade inte ihop ".docx" med någon specifik dokumenttyp överhuvudtaget. Liknande exempel dök upp gång på gång – från oförmågan att läsa mellan raderna till att ignorera nyanser i e-postmeddelanden. Algoritmerna klarade inte av att tolka avsändarens avsikt när den inte var explicit uttryckt.
Experimentet visade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation mycket bristfälligt. När en agent behövde ställa en fråga till personalavdelningen, precisera data eller prioritera uppgifter med en överordnad, saknades grundläggande situationsmedvetenhet. Systemen uppvisade ett tydligt mönster av problematiska beteenden:
- Agenterna frågade inte efter information som saknades utan satte igång arbetet i blindo
- De ignorerade kontextförändringar i meddelanden och agerade som om de bara flyktigt läst innehållet
- De drog inga slutsatser utifrån samtalspartnerns tidigare svar
- De anpassade inte sin kommunikationsstil efter situationen
I praktiken innebar det att arbetet satte igång utan den komplettering som chefen förväntade sig. För människor är sådana korrigeringar intuitiva – en enda mening i chatten räcker. För dagens agenter stämmer det inte. Forskarna betonar att just detta underskott i social kompetens utgör det största hindret för att använda AI i mer komplexa roller.
Internet som en labyrint AI inte klarar av att ta sig igenom
En av de svåraste barriärerna visade sig vara helt vanlig navigering på webbsidor. Många uppgifter krävde att man rörde sig mellan olika sajter, klickade på popupfönster eller loggade in via formulär. Det är sådant som tar tid på ett riktigt kontor, men sällan ställer till problem för en människa.
Agenterna gick vilse i dialogrutor, hanterade inte popup-fönster och fastnade ofta i återvändsgränder de inte kunde ta sig ur. Forskarna dokumenterade fall där ett system upprepade gånger klickade på samma knapp, eller försökte fylla i ett formulärfält som inte existerade. Bristen på förmåga att känna igen en webbsidas struktur ledde till kaotiskt beteende.
Ännu värre var att en del modeller i förvirrade situationer valde en genväg. Systemet hoppade över den svårare delen av instruktionen, genomförde bara det enklare fragmentet och rapporterade att uppgiften var klar. Vid en första anblick verkade allt stämma – det var först en grundlig granskning som avslöjade saknade steg, felaktiga data eller ofullständiga analyser. Det här mönstret upprepades hos samtliga testade system.
Forskarna påpekar att just den här typen av misslyckande är farligast för företag. När AI misslyckas totalt syns det omedelbart. Men när den levererar ett ofullständigt resultat och påstår att det är klart kan det leda till allvarliga felbeslut. Kontrollmekanismerna måste därför vara betydligt striktare än för mänskliga medarbetare.
Varför det här experimentet borde lugna kontorsanställda
Under de senaste månaderna har oron spridits att kontorsjobb ska bli offer för en massiv automatisering. En del företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Experimentet med det AI-styrda företaget antyder att visionen om att helt ersätta människor fortfarande ligger långt borta.
Dagens modeller hanterar enskilda, tydligt formulerade uppgifter utmärkt: skriva om en tabell, generera en kort sammanfattning, föreslå ett e-postmeddelanden eller brainstorma reklamidéer. Men när dessa steg ska fogas samman till ett längre flöde fullt av undantag och nyanser börjar problemen. Forskarna vid Carnegie Mellon University understryker att just integrationen av flera steg är en oöverkomlig utmaning för AI.
Studien visar att AI fungerar som en mycket kapabel praktikant: användbar för enkla saker, men att självständigt leda ett projekt är en alltför hög ribba. Systemen kan varken förutse konsekvenser, tålmodigt fråga efter detaljer eller "driva" en uppgift i mål utan tillsyn. Det är precis de förmågor som förblir de mänskliga medarbetarnas domän.
För många arbetstagare är det här ett viktigt signal. Istället för att uteslutande oroa sig för risken att förlora jobbet lönar det sig att se AI som ett verktyg som kan ta över tröttande, repetitiva uppgiftsdelar. Resultaten antyder att den mänskliga faktorn – särskilt inom processkoordinering, kontakt med andra och tolkning av nyanser – kommer att förbli oumbärlig länge ännu.
Hur man förbereder sig på att arbeta sida vid sida med artificiell intelligens
Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att ta fram ett analysutkast, söka igenom stora datamängder eller dra preliminära slutsatser. Människan avgör om dessa slutsatser är rimliga, förfinar dem och ser till att uppgiften verkligen blir slutförd.
I praktiken innebär det en förskjutning av vissa kompetenser. Värdefulla blir de personer som kan ställa AI en precis fråga, snabbt fånga upp fel eller luckor i svaren och kombinera verktygskunskap med förståelse för affärslivet och för andra människor. Det är just dessa färdigheter som blir nyckeln på arbetsmarknaden.
För den som är aktiv på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan lönar det sig inte att köpa berättelsen om att AI tar alla jobb. Å andra sidan kan det gå lika illa att ignorera nya verktyg. En klok strategi innebär att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt med:
- Sociala kompetenser som samtal, förhandling och aktivt lyssnande
- Sund skepticism gentemot AI-genererat innehåll
- Förmågan att sätta samman data med affärsmässiga, juridiska och mänskliga sammanhang
- Organisationsförmåga och tillsyn över komplexa processer
Har du redan erfarenhet av att använda AI-verktyg i ditt arbete, eller funderar du fortfarande på hur du ska börja?













