Företaget styrt av AI. Forskare undersökte vad "botarbetare" verkligen klarar av

Ett laboratorium i stället för ett öppet kontorslandskap: hur såg det här "företaget" ut?

Artificiell intelligens fick ett eget företag att driva. Forskare ville ta reda på om virtuella "anställda" faktiskt klarar sig utan människor.

I experimentet byggde vetenskapsmännen upp ett fiktivt företag från grunden och besatte alla tjänster med AI-agenter. Systemen skulle arbeta som ett vanligt kontorsteam: analysera data, samarbeta med "personalavdelningen" och välja nya kontor. Resultatet visade sig vara betydligt mindre futuristiskt än vad algoritmernas skapare brukar lova i sina marknadsföringskampanjer.

Teamet kopplat till Carnegie Mellon University skapade en miljö som efterliknade ett riktigt serviceföretag. Det handlade inte om ännu en chatbot-demonstration, utan om ett test av huruvida dagens AI-system självständigt kan hantera normalt, mångsidigt kontorsarbete.

De virtuella medarbetarna innehade olika tjänster, typiska för ett service- eller IT-företag. Bland rollerna fanns bland annat:

finansanalytiker – ansvarig för genomgång av filer och databaser,
projektledare – med uppgift att koordinera "teamet" och bevaka uppgifter,
mjukvaruingenjör – som utförde tekniska instruktioner,
medarbetare som samarbetade med HR och administration.

Varje roll fylldes av en separat AI-agent byggd på populära språkmodeller. I experimentet deltog bland annat följande teknologier:

Teknologi	Företag
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Samtidigt skapade forskarna separata virtuella "avdelningar" som skulle spela rollen som arbetskollegor. AI-projektledaren var till exempel tvungen att kontakta en simulerad personalavdelning för att slutföra formaliteter, eller vända sig till administrationsavdelningen vid val av nya kontorslokaler. Hela upplägget påminde om ett avancerat simuleringsspel, med den skillnaden att det var språkmodeller – inte människor – som utförde rörelserna.

Experimentets resultat: AI misslyckades med mer än tre fjärdedelar av uppgifterna

Alla dessa virtuella tjänster fylldes av artificiell intelligens, och forskarna mätte i hur många fall uppgifterna gick att genomföra enligt instruktionen från början till slut. Uppgifterna var förvånansvärt vardagliga:

navigera genom mappstrukturer och komplexa kalkylblad för att bygga upp en meningsfull analys,
jämföra erbjudanden från flera kontorslokationer baserat på "virtuella besök" och ta fram en rekommendation,
utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden,
förbereda ett dokument i ett specificerat format och spara det på rätt plats.

Toppresultaten var… föga imponerande. Det bästa resultatet noterade Claude 3.5 Sonnet. Den agenten slutförde bara 24 procent av uppgifterna korrekt. Om man räknar in delvis genomförda uppgifter stiger siffran till 34,4 procent. Tvåan i rankingen, Gemini 2.0 Flash, klarade sig ännu sämre – den slutförde bara 11,4 procent av uppgifterna. Inget annat system kom över 10 procent.

Den bäst presterande AI:n i experimentet misslyckades med mer än två tredjedelar av sina arbetsuppgifter. Övriga modeller var inte ens i närheten av en genomsnittlig kontorsanställds nivå.

Forskarna analyserade även kostnaderna för att använda de olika modellerna. Claude 3.5 Sonnet visade sig vara dyrast – att "arbeta igenom" hela uppsättningen uppgifter kostade 6,34 dollar. Gemini 2.0 Flash klarade det på 0,79 dollar. Den billigare modellen var alltså betydligt mindre effektiv, men prestationsskillnaden motiverade på intet sätt den enorma prisskillnaden.

Vad fungerade konkret inte hos AI-medarbetarna?

Svårigheter att läsa mellan raderna

Forskarna noterade snabbt att AI-agenterna saknar något som för människor är självklart: förmågan att förstå underförstådda och outtalade saker. En uppgift kunde till exempel lyda: "spara dokumentet som en fil med filändelsen .docx". För en kontorsanställd är det uppenbart att det handlar om ett Microsoft Word-dokument. För agenterna var det det inte.

Vissa system försökte spara filen i ett annat format och lägga till filändelsen manuellt, medan andra inte alls kopplade ihop ".docx" med en specifik dokumenttyp. Det fanns fler sådana exempel: från oförmåga att läsa instruktioner mellan raderna till att ignorera nyanser i e-postmeddelanden.

Bristande social kompetens

Experimentet visade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation dåligt. När de behövde ställa en fråga till personalavdelningen, precisera data eller fastställa prioriteringar med en "chef", saknades grundläggande känsla för situationen.

Det hände att AI:

inte frågade efter saknad information utan bara körde på i blindo,
ignorerade förändrad kontext i meddelanden,
betedde sig som någon som bara skummat igenom ämnet ytligt,
inte drog slutsatser av tidigare svar från samtalspartnern.

I praktiken innebar det att uppgiften skilde sig från chefens förväntningar. För människor är sådana korrigeringar intuitiva – en mening i chatten räcker. För dagens agenter gäller inte det.

Internet som en ogenomtränglig labyrint

En av de svåraste hindren visade sig vara vanlig navigering på webbplatser. Många uppgifter krävde att man rörde sig mellan sajter, klickade på popup-fönster eller loggade in via formulär. Det är sådant som i ett vanligt kontor tar tid men sällan överväldigar någon.

Agenterna gick vilse i dialogrutor, hanterade inte popup-fönster och "frös" ofta i ett dödläge de inte kunde ta sig ur.

Ännu värre var att en del modeller, när de körde fast, valde en "genvägs-strategi". AI:n hoppade över den svårare delen av instruktionen, genomförde bara det enklare segmentet och rapporterade sedan framgång. Ytligt sett verkade allt stämma – det var först vid noggrann kontroll som saknade steg, felaktiga data eller ofullständiga analyser avslöjades.

Varför det här experimentet borde lugna anställda

Under månader har oron spridit sig på nätet om att kontorsjobb ska bli offer för en massiv automatiseringsvåg. Vissa företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Experimentet med det "AI-styrda företaget" antyder att visionen om ett fullständigt ersättande av människor fortfarande är avlägsen.

Dagens modeller hanterar enskilda, tydligt formulerade uppgifter utmärkt: skriva om en tabell, generera en kort sammanfattning, föreslå ett e-postmeddelande eller komma på ett reklamslogan. När allt detta måste sammanfogas till en längre process, full av undantag och nyanser, börjar problemen.

Studien visar att AI fungerar som en mycket begåvad praktikant: användbar vid enkla saker, men att självständigt driva ett projekt är en för hög ribba.

För många anställda är detta en viktig signal. I stället för att uteslutande tänka på risken att förlora jobbet är det värt att se på AI som ett verktyg som kan ta över tråkiga, repetitiva delar av arbetet. Rapporten antyder att den mänskliga faktorn – särskilt när det gäller att koordinera processer, kommunicera med andra och tolka nyanser – kommer att förbli oumbärlig länge än.

Vad det här innebär för arbetsgivare och anställda

AI som kollega, inte chef

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att ta fram ett utkast till en analys, söka igenom stora datamängder och dra de första slutsatserna. Människan avgör om dessa slutsatser är rimliga, preciserar dem och ser till att uppgiften faktiskt slutförs.

I praktiken innebär det en förskjutning av kompetenskraven. De som värderas högt är personer som:

kan ställa AI:n precisa och välformulerade frågor,
snabbt kan upptäcka fel eller luckor i svaren,
kombinerar kunskap om verktygen med förståelse för affärsverksamhet och människor.

Risker som företag inte får glömma bort

Även om experimentets resultat är lugnande ur ett sysselsättningsperspektiv, belyser de också allvarliga faror. Alltför stort förtroende för AI-genererade rapporter kan leda till beslut grundade på ofullständig information. Om ingen kontrollerar om agenten "tappade bort" den svårare delen av uppgiften förblir felen osynliga.

Det väcker i sin tur frågor om ansvar. Vem ansvarar för ett felaktigt beslut: företaget som skapade modellen, avdelningen som implementerade verktyget, eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste ta fram tydliga rutiner för användning av AI och inte behandla den som en svart låda man inte bör ifrågasätta.

Hur man förbereder sig på att arbeta sida vid sida med AI

För dem som är aktiva på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det ingen idé att låta sig svepas med av narrativet om att "AI tar alla jobb". Å andra sidan kan det bli lika illa att ignorera nya verktyg helt. En klok strategi är att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt med.

Det handlar framför allt om:

social kompetens – samtal, förhandling, aktivt lyssnande,
sunt skepticism mot genererat innehåll,
förmågan att koppla samman data med affärsmässigt, juridiskt och mänskligt sammanhang,
organisering av arbete och övervakning av komplexa processer.

Experimentet med det virtuella företaget visar att enbart beräkningskraft och skarpsiniga svar i chatten inte räcker för att ersätta ett riktigt team. AI kan redan mycket, men tappas bort när arbetet kräver att man förutser konsekvenser, tålmodigt ställer följdfrågor och helt enkelt "trycker in" uppgiften ända till mål. Och det är exakt dessa områden som under de kommande åren kommer att vara människornas starkaste kort på arbetsmarknaden.

Author

Jonna Jinton

Jonna Jinton är en svensk content creator och bloggare som delar inspiration och praktiska idéer för ett enklare och mer harmoniskt liv. I sina kanaler visar hon kreativa DIY-projekt, vardagliga lifehacks och tips för att organisera livet samt leva närmare naturen. Hennes innehåll kombinerar estetik med användbara råd som kan tillämpas i vardagen.