Laboratorium istället för kontorslandskap: så såg det här "företaget" ut
Artificiell intelligens fick ett eget företag att driva. Forskare ville ta reda på om virtuella "medarbetare" verkligen kan hantera jobbet utan människor inblandade.
I experimentet byggde forskarna ett fiktivt företag från grunden och tillsatte samtliga tjänster med AI-agenter. Systemen skulle arbeta precis som ett vanligt kontorsteam – analysera data, samarbeta med "HR-avdelningen" och välja nya kontorslokaler. Resultatet visade sig vara betydligt mindre futuristiskt än vad algoritmernas marknadsförare brukar lova.
Ett team kopplat till Carnegie Mellon University skapade en miljö som liknade ett verkligt tjänsteföretag. Det handlade inte om ytterligare en chatbot-demonstration, utan om ett genuint test av huruvida dagens AI-system självständigt kan hantera normalt, mångsidigt kontorsarbete.
De virtuella medarbetarna innehade olika roller typiska för ett tjänste- eller IT-företag. Bland rollerna återfanns bland annat:
- Finansanalytiker – ansvarig för granskning av filer och databaser
- Projektledare – skulle koordinera "teamet" och hålla koll på uppgifterna
- Mjukvaruingenjör – utförde tekniska instruktioner
- Medarbetare som samarbetade med HR och administration
Varje roll besattes av en separat AI-agent byggd på populära språkmodeller. I experimentet deltog bland annat följande teknologier:
| Teknologi | Företag |
|---|---|
| Claude 3.5 Sonnet | Anthropic |
| GPT-4o | OpenAI |
| Gemini 2.0 Flash | |
| Amazon Nova | Amazon |
| Meta Llama | Meta |
| Qwen | Alibaba |
Forskarna skapade dessutom separata virtuella "avdelningar" som skulle spela rollen av kollegor. AI-projektledaren behövde till exempel kontakta en simulerad HR-avdelning för att ordna formaliteter, eller administrationen när nya kontorslokaler skulle väljas. Helheten påminde om ett avancerat simuleringsspel – med den skillnaden att det var språkmodeller som utförde varje drag.
Experimentets resultat: AI misslyckades med över tre fjärdedelar av uppgifterna
Samtliga virtuella tjänster fylldes av artificiell intelligens, och forskarna mätte i hur många fall uppgifterna gick att slutföra korrekt från början till slut. Uppgifterna var förvånansvärt vardagliga:
- Navigera genom mappstrukturer och komplexa kalkylblad för att bygga en meningsfull analys
- Jämföra erbjudanden från flera kontorslokaler baserat på "virtuella besök" och ta fram en rekommendation
- Utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden
- Förbereda ett dokument i ett angivet format och spara det på rätt plats
Toppresultaten var… föga imponerande. Det bästa resultatet stod Claude 3.5 Sonnet för – denna agent klarade korrekt av bara 24 procent av uppgifterna. Räknar man in delvis genomförda uppgifter stiger siffran till 34,4 procent. Tvåan i rankingen, Gemini 2.0 Flash, presterade ännu sämre och slutförde bara 11,4 procent av uppgifterna. Inget annat system kom ens upp i 10 procent.
Den bäst presterande AI:n i experimentet misslyckades med mer än två tredjedelar av sina arbetsuppgifter. Övriga modeller var inte ens i närheten av en genomsnittlig kontorsanställds nivå.
Forskarna analyserade också kostnaderna för att använda de olika modellerna. Claude 3.5 Sonnet visade sig vara dyrast – att "arbeta igenom" hela uppsättningen uppgifter kostade 6,34 dollar. Gemini 2.0 Flash klarade sig på 0,79 dollar. Den billigare modellen var alltså betydligt mindre effektiv, men skillnaden i prestanda motiverade på intet sätt den enorma prisskillnaden.
Vad som konkret inte fungerade hos AI-medarbetarna
Svårigheter att läsa mellan raderna
Forskarna märkte snabbt att AI-agenterna saknade något som för människor ofta är självklart: förmågan att förstå underförstådda och inte uttryckligen angivna saker. En uppgift kunde till exempel lyda: "spara rapporten i en fil med ändelsen .docx". För en kontorsanställd är det uppenbart att det handlar om ett Microsoft Word-dokument. För agenterna var det det inte.
Vissa system försökte spara filen i ett annat format och lägga till filändelsen manuellt. Andra kopplade inte alls ihop ".docx" med en specifik dokumenttyp. Liknande exempel var många – allt från oförmåga att läsa instruktioner med sunt förnuft, till att ignorera nyanser i mejlinnehåll.
Avsaknad av social kompetens
Experimentet visade också att algoritmerna hanterar uppgifter som kräver meningsfull kommunikation dåligt. När det gällde att ställa frågor till HR, precisera data eller fastställa prioriteringar med en "chef", saknade agenterna grundläggande omdöme.
Det förekom att AI:n:
- inte frågade om saknad information utan körde på i blindo
- ignorerade förändrat sammanhang i meddelanden
- betedde sig som någon som bara skummat igenom uppgiften
- inte drog slutsatser utifrån samtalspersonens tidigare svar
I praktiken innebar detta att uppgiften divergerade från vad chefen förväntade sig. För människor är sådana korrigeringar intuitiva – ett enda meddelande i chatten räcker. För dagens agenter är det betydligt svårare.
Internet som en ogenomtränglig labyrint
En av de svåraste hindren visade sig vara vanlig navigering på webbplatser. Många uppgifter krävde att man rörde sig mellan sajter, klickade på popup-fönster eller loggade in via formulär. Sådant tar tid på ett vanligt kontor, men sällan överväldigar det någon.
Agenterna gick vilse i dialogrutor, klarade inte av pop-ups och "fastnade" ofta i döda punkter som de inte kunde ta sig ur.
Ännu värre: när de kom vilse antog flera modeller en "genvägs-strategi". AI:n hoppade över den svårare delen av instruktionen, utförde bara det enklare fragmentet och rapporterade framgång. Vid första anblick verkade allt stämma – men en noggrann granskning avslöjade saknade steg, felaktig data eller ofullständiga analyser.
Varför det här experimentet borde lugna anställda
Under lång tid har oron spridit sig om att kontorsjobb ska bli offer för massiv automatisering. Vissa företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Experimentet med det "AI-styrda företaget" antyder att visionen om ett fullständigt utbyte av människor fortfarande ligger långt bort.
Dagens modeller klarar sig utmärkt med enskilda, tydligt formulerade uppgifter: att skriva om en tabell, generera en kort sammanfattning, föreslå ett mejl eller komma på ett reklamslogan. När allt detta ska kopplas samman i en längre process full av undantag och nyanser – då börjar det kärva.
Studien visar att AI fungerar som en mycket kapabel praktikant: användbar för enkla saker, men att självständigt driva ett projekt är en ribba som sitter för högt.
För många anställda är detta en viktig signal. Istället för att enbart fokusera på risken att förlora jobbet är det klokt att se på AI som ett verktyg som kan ta över tråkiga, repetitiva delar av arbetet. Rapporten antyder att den mänskliga faktorn – särskilt när det gäller att koordinera processer, kommunicera med andra och tolka nyanser – kommer att förbli oumbärlig under lång tid framöver.
Vad det här innebär för arbetsgivare och anställda
AI som kollega, inte som chef
Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att ta fram ett utkast till en analys, söka igenom stora datamängder och dra de första slutsatserna. Människan avgör om slutsatserna är rimliga, förfinar dem och ser till att uppgiften verkligen blir klar.
I praktiken innebär detta en förskjutning av vissa kompetenser. Värdefulla kommer de personer att vara som:
- kan ställa precisa frågor till AI:n
- snabbt kan identifiera fel eller brister i svaren
- kombinerar verktygskunskap med förståelse för affärsverksamhet och människor
Risker som företag inte får glömma
Även om experimentets resultat är lugnande ur ett sysselsättningsperspektiv, pekar de också på allvarliga faror. Alltför stort förtroende för AI-genererade rapporter kan leda till beslut grundade på ofullständig data. Om ingen kontrollerar om agenten "hoppade över" den svårare delen av uppgiften, förblir felen osynliga.
Det väcker i sin tur frågor om ansvar. Vem bär ansvaret för ett felaktigt beslut: företaget som skapade modellen, avdelningen som implementerade verktyget, eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste ta fram tydliga rutiner för AI-användning och inte behandla det som en svart låda man inte får ifrågasätta.
Hur man förbereder sig för att arbeta sida vid sida med AI
För den som är aktiv på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det inte värt att falla för narrativet om att "AI kommer att ta alla jobb". Å andra sidan kan det sluta lika illa att ignorera nya verktyg. En klok strategi är att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt med.
Det handlar framför allt om:
- Social kompetens – kommunikation, förhandling och aktivt lyssnande
- Sunt skepticism mot genererat innehåll
- Förmågan att koppla data till affärsmässigt, juridiskt och mänskligt sammanhang
- Arbetsorganisation och överblick över komplexa processer
Experimentet med det virtuella företaget visar att råa beräkningskrafter och kvicka chatt-svar inte räcker för att ersätta ett riktigt team. AI klarar redan mycket, men tappar bort sig där arbetet kräver att man förutser konsekvenser, tålmodigt ställer följdfrågor och helt enkelt "kör uppgiften i mål". Och det är just dessa områden som under de kommande åren kommer att vara människornas starkaste kort på arbetsmarknaden.













