Företag styrt av AI. Forskare undersökte vad "botanställda" egentligen klarar av

Laboratorium istället för kontorslandskap: så såg det här "företaget" ut

Artificiell intelligens fick ett eget företag att driva. Forskare ville ta reda på om virtuella "medarbetare" verkligen kan hantera jobbet utan människor inblandade.

I experimentet byggde forskarna ett fiktivt företag från grunden och tillsatte samtliga tjänster med AI-agenter. Systemen skulle arbeta precis som ett vanligt kontorsteam – analysera data, samarbeta med "HR-avdelningen" och välja nya kontorslokaler. Resultatet visade sig vara betydligt mindre futuristiskt än vad algoritmernas marknadsförare brukar lova.

Ett team kopplat till Carnegie Mellon University skapade en miljö som liknade ett verkligt tjänsteföretag. Det handlade inte om ytterligare en chatbot-demonstration, utan om ett genuint test av huruvida dagens AI-system självständigt kan hantera normalt, mångsidigt kontorsarbete.

De virtuella medarbetarna innehade olika roller typiska för ett tjänste- eller IT-företag. Bland rollerna återfanns bland annat:

Finansanalytiker – ansvarig för granskning av filer och databaser
Projektledare – skulle koordinera "teamet" och hålla koll på uppgifterna
Mjukvaruingenjör – utförde tekniska instruktioner
Medarbetare som samarbetade med HR och administration

Varje roll besattes av en separat AI-agent byggd på populära språkmodeller. I experimentet deltog bland annat följande teknologier:

Teknologi	Företag
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskarna skapade dessutom separata virtuella "avdelningar" som skulle spela rollen av kollegor. AI-projektledaren behövde till exempel kontakta en simulerad HR-avdelning för att ordna formaliteter, eller administrationen när nya kontorslokaler skulle väljas. Helheten påminde om ett avancerat simuleringsspel – med den skillnaden att det var språkmodeller som utförde varje drag.

Experimentets resultat: AI misslyckades med över tre fjärdedelar av uppgifterna

Samtliga virtuella tjänster fylldes av artificiell intelligens, och forskarna mätte i hur många fall uppgifterna gick att slutföra korrekt från början till slut. Uppgifterna var förvånansvärt vardagliga:

Navigera genom mappstrukturer och komplexa kalkylblad för att bygga en meningsfull analys
Jämföra erbjudanden från flera kontorslokaler baserat på "virtuella besök" och ta fram en rekommendation
Utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden
Förbereda ett dokument i ett angivet format och spara det på rätt plats

Toppresultaten var… föga imponerande. Det bästa resultatet stod Claude 3.5 Sonnet för – denna agent klarade korrekt av bara 24 procent av uppgifterna. Räknar man in delvis genomförda uppgifter stiger siffran till 34,4 procent. Tvåan i rankingen, Gemini 2.0 Flash, presterade ännu sämre och slutförde bara 11,4 procent av uppgifterna. Inget annat system kom ens upp i 10 procent.

Den bäst presterande AI:n i experimentet misslyckades med mer än två tredjedelar av sina arbetsuppgifter. Övriga modeller var inte ens i närheten av en genomsnittlig kontorsanställds nivå.

Forskarna analyserade också kostnaderna för att använda de olika modellerna. Claude 3.5 Sonnet visade sig vara dyrast – att "arbeta igenom" hela uppsättningen uppgifter kostade 6,34 dollar. Gemini 2.0 Flash klarade sig på 0,79 dollar. Den billigare modellen var alltså betydligt mindre effektiv, men skillnaden i prestanda motiverade på intet sätt den enorma prisskillnaden.

Vad som konkret inte fungerade hos AI-medarbetarna

Svårigheter att läsa mellan raderna

Forskarna märkte snabbt att AI-agenterna saknade något som för människor ofta är självklart: förmågan att förstå underförstådda och inte uttryckligen angivna saker. En uppgift kunde till exempel lyda: "spara rapporten i en fil med ändelsen .docx". För en kontorsanställd är det uppenbart att det handlar om ett Microsoft Word-dokument. För agenterna var det det inte.

Vissa system försökte spara filen i ett annat format och lägga till filändelsen manuellt. Andra kopplade inte alls ihop ".docx" med en specifik dokumenttyp. Liknande exempel var många – allt från oförmåga att läsa instruktioner med sunt förnuft, till att ignorera nyanser i mejlinnehåll.

Avsaknad av social kompetens

Experimentet visade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation dåligt. När det gällde att ställa frågor till HR, precisera data eller fastställa prioriteringar med en "chef", saknade agenterna grundläggande omdöme.

Det förekom att AI:n:

inte frågade om saknad information utan körde på i blindo
ignorerade förändrat sammanhang i meddelanden
betedde sig som någon som bara skummat igenom uppgiften
inte drog slutsatser utifrån samtalspersonens tidigare svar

I praktiken innebar detta att uppgiften divergerade från vad chefen förväntade sig. För människor är sådana korrigeringar intuitiva – ett enda meddelande i chatten räcker. För dagens agenter är det betydligt svårare.

Internet som en ogenomtränglig labyrint

En av de svåraste hindren visade sig vara vanlig navigering på webbplatser. Många uppgifter krävde att man rörde sig mellan sajter, klickade på popup-fönster eller loggade in via formulär. Sådant tar tid på ett vanligt kontor, men sällan överväldigar det någon.

Agenterna gick vilse i dialogrutor, klarade inte av pop-ups och "fastnade" ofta i döda punkter som de inte kunde ta sig ur.

Ännu värre: när de kom vilse antog flera modeller en "genvägs-strategi". AI:n hoppade över den svårare delen av instruktionen, utförde bara det enklare fragmentet och rapporterade framgång. Vid första anblick verkade allt stämma – men en noggrann granskning avslöjade saknade steg, felaktig data eller ofullständiga analyser.

Varför det här experimentet borde lugna anställda

Under lång tid har oron spridit sig om att kontorsjobb ska bli offer för massiv automatisering. Vissa företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Experimentet med det "AI-styrda företaget" antyder att visionen om ett fullständigt utbyte av människor fortfarande ligger långt bort.

Dagens modeller klarar sig utmärkt med enskilda, tydligt formulerade uppgifter: att skriva om en tabell, generera en kort sammanfattning, föreslå ett mejl eller komma på ett reklamslogan. När allt detta ska kopplas samman i en längre process full av undantag och nyanser – då börjar det kärva.

Studien visar att AI fungerar som en mycket kapabel praktikant: användbar för enkla saker, men att självständigt driva ett projekt är en ribba som sitter för högt.

För många anställda är detta en viktig signal. Istället för att enbart fokusera på risken att förlora jobbet är det klokt att se på AI som ett verktyg som kan ta över tråkiga, repetitiva delar av arbetet. Rapporten antyder att den mänskliga faktorn – särskilt när det gäller att koordinera processer, kommunicera med andra och tolka nyanser – kommer att förbli oumbärlig under lång tid framöver.

Vad det här innebär för arbetsgivare och anställda

AI som kollega, inte som chef

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att ta fram ett utkast till en analys, söka igenom stora datamängder och dra de första slutsatserna. Människan avgör om slutsatserna är rimliga, förfinar dem och ser till att uppgiften verkligen blir klar.

I praktiken innebär detta en förskjutning av vissa kompetenser. Värdefulla kommer de personer att vara som:

kan ställa precisa frågor till AI:n
snabbt kan identifiera fel eller brister i svaren
kombinerar verktygskunskap med förståelse för affärsverksamhet och människor

Risker som företag inte får glömma

Även om experimentets resultat är lugnande ur ett sysselsättningsperspektiv, pekar de också på allvarliga faror. Alltför stort förtroende för AI-genererade rapporter kan leda till beslut grundade på ofullständig data. Om ingen kontrollerar om agenten "hoppade över" den svårare delen av uppgiften, förblir felen osynliga.

Det väcker i sin tur frågor om ansvar. Vem bär ansvaret för ett felaktigt beslut: företaget som skapade modellen, avdelningen som implementerade verktyget, eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste ta fram tydliga rutiner för AI-användning och inte behandla det som en svart låda man inte får ifrågasätta.

Hur man förbereder sig för att arbeta sida vid sida med AI

För den som är aktiv på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det inte värt att falla för narrativet om att "AI kommer att ta alla jobb". Å andra sidan kan det sluta lika illa att ignorera nya verktyg. En klok strategi är att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt med.

Det handlar framför allt om:

Social kompetens – kommunikation, förhandling och aktivt lyssnande
Sunt skepticism mot genererat innehåll
Förmågan att koppla data till affärsmässigt, juridiskt och mänskligt sammanhang
Arbetsorganisation och överblick över komplexa processer

Experimentet med det virtuella företaget visar att råa beräkningskrafter och kvicka chatt-svar inte räcker för att ersätta ett riktigt team. AI klarar redan mycket, men tappar bort sig där arbetet kräver att man förutser konsekvenser, tålmodigt ställer följdfrågor och helt enkelt "kör uppgiften i mål". Och det är just dessa områden som under de kommande åren kommer att vara människornas starkaste kort på arbetsmarknaden.

Author

Jonna Jinton

Jonna Jinton är en svensk content creator och bloggare som delar inspiration och praktiska idéer för ett enklare och mer harmoniskt liv. I sina kanaler visar hon kreativa DIY-projekt, vardagliga lifehacks och tips för att organisera livet samt leva närmare naturen. Hennes innehåll kombinerar estetik med användbara råd som kan tillämpas i vardagen.