Företag styrt av AI. Forskare undersökte vad "botarbetare" verkligen klarar av

Ett laboratorium istället för ett kontorslandskap: så såg det här "företaget" ut

Konstgjord intelligens fick ett eget företag att driva. Forskare ville ta reda på om virtuella "anställda" verkligen kan klara sig utan människor.

I experimentet byggde forskare ett fiktivt företag från grunden och besatte alla tjänster med AI-agenter. Systemen skulle arbeta som ett vanligt kontorsteam – analysera data, samarbeta med "personalavdelningen" och välja nya kontorslokaler. Resultatet visade sig vara betydligt mindre futuristiskt än vad algoritmernas skapare brukar lova i sina marknadsföringskampanjer.

Teamet kopplat till Carnegie Mellon-universitetet skapade en miljö som liknade ett verkligt tjänsteföretag. Det handlade inte om ännu en chatbot-demonstration, utan om ett genuint test av huruvida dagens AI-system självständigt kan hantera normalt, mångsidigt kontorsarbete.

De virtuella medarbetarna innehade olika roller, typiska för ett tjänste- eller IT-företag. Bland rollerna fanns bland annat:

finansanalytiker – ansvarig för granskning av filer och databaser,
projektledare – med uppgift att koordinera "teamet" och bevaka arbetsuppgifter,
mjukvaruingenjör – som utförde tekniska instruktioner,
medarbetare som samarbetade med HR och administration.

Varje roll besattes av en separat AI-agent byggd på populära modeller. I experimentet deltog bland annat följande teknologier:

Teknologi	Företag
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Samtidigt skapade forskarna separata virtuella "avdelningar" som skulle spela rollen av kollegor. AI-projektledaren behövde exempelvis kontakta en simulerad personalavdelning för att ordna formaliteter, eller samarbeta med administrationen vid val av nya lokaler. Helheten påminde om ett avancerat simuleringsspel – med den skillnaden att det var språkmodeller, inte människor, som utförde alla drag.

Experimentets resultat: AI misslyckades med mer än tre fjärdedelar av uppgifterna

Alla dessa virtuella tjänster fylldes av konstgjord intelligens, och forskarna mätte i hur många fall uppgifterna kunde slutföras korrekt från början till slut. Uppgifterna var förvånansvärt jordnära:

navigera genom mappstrukturer och komplexa kalkylblad för att bygga en meningsfull analys,
jämföra erbjudanden från flera kontorslokaler baserat på "virtuella besök" och förbereda rekommendationer,
utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden,
förbereda ett dokument i ett visst format och spara det på rätt plats.

Toppresultaten var… föga imponerande. Det bästa resultatet noterades av Claude 3.5 Sonnet, som slutförde korrekt endast 24 procent av uppgifterna. Om man räknar in delvis slutförda uppgifter stiger resultatet till 34,4 procent. Tvåan i rankingen, Gemini 2.0 Flash, klarade sig ännu sämre och genomförde bara 11,4 procent av uppgifterna. Inget annat system nådde ens 10 procent.

Den bäst presterande AI:n i experimentet misslyckades med mer än två tredjedelar av sina arbetsuppgifter. Övriga modeller låg inte ens i närheten av en genomsnittlig kontorsanställds nivå.

Forskarna analyserade även kostnaderna för de olika modellerna. Claude 3.5 Sonnet visade sig vara dyrast – att "arbeta igenom" hela uppgiftsuppsättningen kostade 6,34 dollar. Gemini 2.0 Flash klarade det på 0,79 dollar. Den billigare modellen var alltså betydligt mindre effektiv, men skillnaden i effektivitet motiverade långt ifrån den enorma prisskillnaden.

Vad som konkret inte fungerade hos AI-medarbetarna

Problem med att läsa mellan raderna

Forskarna märkte snabbt att AI-agenterna saknar något som för människor är en självklarhet: förmågan att förstå det underförstådda och det som inte uttryckligen skrivits ut. En uppgift kunde exempelvis lyda: "spara dokumentet i en fil med ändelsen .docx". För en kontorsanställd är det uppenbart att det handlar om ett Microsoft Word-dokument. För agenterna var det långt ifrån självklart.

Vissa system försökte spara filen i ett annat format och lägga till ändelsen manuellt, medan andra inte alls kopplade samman ".docx" med en specifik dokumenttyp. Det fanns fler liknande exempel – från oförmåga att läsa instruktioner mellan raderna till att ignorera nyanser i e-postmeddelanden.

Brist på social kompetens

Experimentet visade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation dåligt. När det gällde att ställa en fråga till personalavdelningen, precisera data eller fastställa prioriteringar med en "chef", saknade agenterna grundläggande känsla för situationen.

Det hände att AI:

inte frågade efter saknad information utan agerade i blindo,
ignorerade förändrad kontext i meddelanden,
betedde sig som någon som bara flyktigt läst igenom ämnet,
inte drog slutsatser av samtalspartnerns tidigare svar.

I praktiken innebar detta att uppgiftens utförande skiljde sig från chefens förväntningar. För människor är sådana korrigeringar intuitiva – en mening i chatten räcker. För dagens agenter är det inte alls lika enkelt.

Internet som en ogenomtränglig labyrint

Ett av de svåraste hindren visade sig vara vanlig navigering på webbsidor. Många uppgifter krävde att man rörde sig mellan sajter, klickade på popup-fönster eller loggade in via formulär. Det är något som tar tid på ett vanligt kontor, men sällan överväldigar någon.

Agenterna gick vilse i dialogrutor, klarade inte av popup-fönster och "fastnade" ofta i ett dödläge de inte kunde ta sig ur.

Ännu värre var att en del modeller i situationer av förvirring valde en "genväg-strategi". AI:n hoppade över den svårare delen av instruktionen, utförde bara det enklare avsnittet och rapporterade framgång. På ytan verkade allt stämma – men en noggrann kontroll avslöjade saknade steg, felaktiga data eller ofullständiga analyser.

Varför det här experimentet borde lugna anställda

Sedan månader tillbaka cirkulerar oron att kontorsarbeten ska bli offer för massautomatisering. En del företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Experimentet med "AI-styrda företaget" antyder att visionen om ett fullständigt ersättande av människor fortfarande ligger långt borta.

Dagens modeller hanterar enstaka, tydligt formulerade uppgifter utmärkt: att skriva om en tabell, generera en kort sammanfattning, föreslå ett mejl eller komma på en reklamslogan. Men när allt detta ska sättas samman i en längre process, fylld av undantag och nyanser, börjar problemen.

Studien visar att AI fungerar som en mycket begåvad praktikant: användbar vid enkla saker, men att självständigt driva ett projekt är en alltför hög ribba.

För många anställda är detta en viktig signal. Istället för att enbart tänka på risken att förlora jobbet är det värt att se på AI som ett verktyg som kan ta över tråkiga, repetitiva delar av arbetet. Rapporten antyder att den mänskliga faktorn – särskilt när det gäller att koordinera processer, kommunicera med andra och tolka nyanser – kommer att förbli nödvändig under lång tid framöver.

Vad det här innebär för arbetsgivare och anställda

AI som kollega, inte chef

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att förbereda ett utkast till en analys, söka igenom stora datamängder och dra preliminära slutsatser. Människan avgör om slutsatserna är rimliga, preciserar dem och ser till att uppgiften verkligen slutförs.

I praktiken innebär det ett skifte i vilka kompetenser som värderas. Eftertraktade kommer att vara personer som:

kan ställa AI:n precisa och välformulerade frågor,
snabbt kan identifiera fel eller luckor i svaren,
kombinerar verktygskunskap med förståelse för affärsverksamhet och människor.

Risker som företag inte får glömma

Även om experimentets resultat är lugnande ur ett sysselsättningsperspektiv, avslöjar de också allvarliga risker. Ett alltför stort förtroende för AI-genererade rapporter kan leda till beslut baserade på ofullständiga data. Om ingen kontrollerar om agenten "hoppade över" den svårare delen av uppgiften förblir felen osynliga.

Det väcker i sin tur frågor om ansvar. Vem ansvarar för ett felaktigt beslut: företaget som skapade modellen, avdelningen som implementerade verktyget eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste utveckla tydliga rutiner för användning av AI och inte behandla den som en svart låda man inte bör ifrågasätta.

Hur man förbereder sig för att arbeta sida vid sida med AI

För personer som är aktiva på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det inte klokt att ge efter för berättelsen om att "AI tar alla jobb". Å andra sidan kan det sluta lika illa att ignorera nya verktyg. En förnuftig strategi är att lära sig använda AI-system, men samtidigt utveckla det som algoritmer har svårt med.

Det handlar framför allt om:

social kompetens – samtal, förhandling, aktivt lyssnande,
sund skepsis mot AI-genererat innehåll,
förmågan att koppla samman data med affärsmässiga, juridiska och mänskliga sammanhang,
arbetsorganisation och övervakning av komplexa processer.

Experimentet med det virtuella företaget visar att enbart datorkraft och kvicka chattsvar inte räcker för att ersätta ett verkligt team. AI kan redan mycket, men tappar fotfästet där arbetet kräver att man förutser konsekvenser, tålmodigt ställer följdfrågor och helt enkelt "driver igenom" en uppgift till slutet. Och det är precis dessa områden som under de närmaste åren kommer att vara människors starkaste kort på arbetsmarknaden.

Author

Jonna Jinton

Jonna Jinton är en svensk content creator och bloggare som delar inspiration och praktiska idéer för ett enklare och mer harmoniskt liv. I sina kanaler visar hon kreativa DIY-projekt, vardagliga lifehacks och tips för att organisera livet samt leva närmare naturen. Hennes innehåll kombinerar estetik med användbara råd som kan tillämpas i vardagen.