Firma sterowana przez AI. Naukowcy sprawdzili, jak bardzo zawodzi w realnej pracy
Badacze zbudowali wirtualną firmę, w której wszystkie stanowiska obsadziły systemy AI.
Wynik eksperymentu może zaskoczyć wielu entuzjastów automatyzacji.
W symulowanym przedsiębiorstwie pracownicy-ludzie zniknęli, a ich miejsce zajęły wyłącznie agentowe modele sztucznej inteligencji. Zarządzały projektami, analizowały finanse, wybierały nowe biuro. Miały sprawdzić, czy AI jest gotowa przejąć codzienną, biurową robotę na masową skalę. Zamiast rewolucji wyszła lista ograniczeń, o których rzadko mówi marketing technologicznych gigantów.
Wirtualna firma, prawdziwe pytania o przyszłość pracy
Eksperyment przeprowadził zespół z uniwersytetu Carnegie Mellon. Zamiast badać pojedyncze komendy w stylu „napisz maila” czy „streść raport”, naukowcy odtworzyli całe środowisko biurowe. Stworzyli fikcyjną firmę i zatrudnili w niej zestaw agentów AI różnych producentów.
Przeczytaj również: Te dwa znaki zodiaku w marcu wraca do nich nierozwiązana sprawa
W projekcie brały udział m.in. modele oparte na:
- Claude od Anthropic (wersja Claude 3.5 Sonnet),
- GPT‑4o od OpenAI,
- Google Gemini,
- Amazon Nova,
- Meta Llama,
- Qwen od Alibaba.
Każdy z tych systemów otrzymał konkretną rolę: od analityka finansowego, przez kierownika projektu, po inżyniera oprogramowania. Dodatkowo badacze zbudowali „otoczenie firmowe”: symulowanych kolegów z innych działów, np. zasobów ludzkich, z którymi agent AI musiał się kontaktować, żeby wykonać zadanie zgodnie z procedurą.
Przeczytaj również: Blue Origin chce chronić Ziemię przed asteroidami. Nowa misja NEO Hunter
Badacze nie pytali, czy AI napisze poprawne zdanie po angielsku, tylko czy poprowadzi cały proces pracy – od zrozumienia zlecenia, przez komunikację, aż po finalny wynik zapisany we właściwym miejscu.
AI w roli pracownika biurowego: miało być przejęcie, wyszła seria potknięć
Zadania przypominały te, z którymi na co dzień mierzą się pracownicy w biurach. Chodziło nie tylko o wiedzę merytoryczną, ale o umiejętność ogarnięcia całego kontekstu i detali, które zwykle załatwiamy odruchowo.
Od analizy plików po wybór nowej siedziby
Agentowe systemy AI musiały m.in.:
Przeczytaj również: Astronomowie zaskoczeni tajemniczym sygnałem radiowym co 36 minut
- przeglądać złożone struktury plików i zbudować na ich podstawie analizę bazy danych,
- przeprowadzać kilka wirtualnych „wizyt” w potencjalnych lokalach biurowych i uzasadnić wybór najlepszego miejsca,
- komunikować się z innymi działami, np. „napisać” do HR w symulowanym intranecie,
- łączyć informacje z różnych źródeł i dostarczyć końcowy dokument we wskazanym formacie.
Chodziło więc o sprawdzenie, czy AI poradzi sobie nie tylko z pojedynczym krokiem, ale z całym łańcuchem czynności, który w rzeczywistej firmie zajmuje ludziom od kilku godzin do kilku dni.
Trzy czwarte zadań nieukończone. Najlepszy system daleko od ideału
Rezultat? Wbrew marketingowym hasłom o „asystentach, którzy zrobią za ciebie wszystko”, w symulowanej firmie większość zadań zwyczajnie nie została domknięta.
Najlepiej wypadł Claude 3.5 Sonnet. Mimo tego udało mu się w pełni ukończyć tylko 24 procent zleconych zadań. Jeśli doliczyć te, które zostały zrobione częściowo, wynik rośnie do 34,4 procent. To i tak oznacza, że w dwóch przypadkach na trzy „pracownik AI” gubił się po drodze.
Drugie miejsce zajął Gemini 2.0 Flash, ale tu wskaźnik pełnego wykonania zadania spadł już do 11,4 procent. Żaden z pozostałych agentów nie przekroczył nawet 10 procent w pełni zrealizowanych zadań.
| Agent AI | Pełne wykonanie zadań | Uwzględniając częściowe wykonanie | Szacunkowy koszt pracy |
|---|---|---|---|
| Claude 3.5 Sonnet | 24% | 34,4% | 6,34 USD |
| Gemini 2.0 Flash | 11,4% | — | 0,79 USD |
| Inne testowane agentowe modele | < 10% | — | różnie, w zależności od dostawcy |
W skali eksperymentu agentowe systemy AI poległy na ponad trzech czwartych realnych zadań biurowych. Nawet „złoty medalista” kończył poprawnie tylko co czwarte.
Dlaczego agent AI gubi się w zadaniach, z którymi człowiek radzi sobie odruchowo
Badacze przyjrzeli się, co dzieje się „po drodze” – kiedy model nie tylko generuje tekst, ale ma działać jak samodzielny pracownik. Wnioski są dość trzeźwiące.
Problem numer jeden: rzeczy „domyślne” dla ludzi
AI świetnie radzi sobie z wyraźnie opisanymi poleceniami. Schody zaczynają się, gdy pojawiają się niepisane reguły. Przykład z eksperymentu: agent dostaje zadanie przygotowania dokumentu i zapisania go jako plik z końcówką „.docx”. Dla człowieka to automatyczny sygnał – chodzi o Microsoft Word. Systemy AI wcale nie zawsze to rozumieją. Traktują rozszerzenie jak nic nieznaczący techniczny dopisek, co rozwala całą procedurę.
Podobnie jest z kontekstem organizacyjnym. Jeśli w zadaniu brakuje jednego, specyficznego zdania, agent potrafi kompletnie pominąć ważny krok, który każdy pracownik biurowy załatwiłby intuicyjnie.
Brak kompetencji społecznych i orientacji w otoczeniu
Inny słaby punkt to zadania wymagające odrobiny „miękkiej” komunikacji. Symulowani koledzy z firmy mieli odpowiadać agentom na pytania, tak jak robią to działy HR czy finansów w rzeczywistości. Modele gubiły się, kiedy trzeba było dopytać o szczegóły, zaplanować kolejną wiadomość albo poprawnie zinterpretować odpowiedź.
Bardzo źle wypadło też korzystanie z przeglądarki internetowej. Agenci mieli wejść na strony, nawigować po menu, a czasem poradzić sobie z wyskakującymi okienkami. Na tym etapie wiele zadań po prostu się rozjeżdżało. Popup blokował dostęp, system nie wiedział, jak go zamknąć, więc „udawał”, że problemu nie ma.
Niebezpieczne skróty myślowe: AI oznajmia sukces, choć go nie ma
Najbardziej niepokojące z perspektywy rzeczywistej firmy jest to, co AI robi w momencie zagubienia. Zamiast przyznać, że nie wie, jak dokończyć zadanie, część agentów wybierała skrót: wykonywała łatwiejszą, wąską część polecenia, a cały proces uznawała za zakończony.
System potrafił oznaczyć zadanie jako „zrealizowane”, mimo że ominął właśnie najbardziej wymagający fragment polecenia. W prawdziwej organizacji mogłoby to oznaczać błędne decyzje menedżerów.
Czy pracownicy mogą odetchnąć? Co ten eksperyment oznacza dla rynku pracy
Wyniki z Carnegie Mellon raczej studzą wyobrażenia o firmach, w których boty całkowicie zastępują etaty biurowe. Szefowie, którzy już dziś liczą na masowe zwolnienia dzięki „samodzielnym agentom AI”, powinni podejść do sprawy z chłodnym dystansem.
Dzisiejsze modele sztucznej inteligencji potrafią błyskawicznie streszczać raporty, generować szkice prezentacji, proponować rozwiązania techniczne. W zadaniach punktowych bywają szybsze i tańsze niż człowiek. Eksperyment pokazuje natomiast, że gdy trzeba przejąć na siebie pełną odpowiedzialność za złożony proces – razem z cichymi zasadami, komunikacją, reagowaniem na nieprzewidziane bariery – AI zaczyna mieć poważny kłopot.
Jednocześnie w danych widać wyraźny wątek ekonomiczny. Claude 3.5 Sonnet, który wykazał się najwyższą skutecznością, był też najdroższy w eksploatacji spośród opisanych agentów. Gemini 2.0 Flash kosztował wyraźnie mniej, ale też rzadziej doprowadzał zadania do końca. Dla firm to konkretna zagwozdka: ile oszczędności na pracy ludzi realnie da się uzyskać, skoro bardziej zaawansowany model jest znacząco droższy, a wciąż bardzo zawodny.
Gdzie AI faktycznie się sprawdza, a gdzie wciąż nie daje rady
W praktyce rodzi się więc scenariusz, w którym AI nie wyrzuca ludzi z biura, tylko zmienia charakter ich pracy. Zamiast samodzielnego „pracownika cyfrowego” mamy narzędzie, które przyspiesza wybrane fragmenty procesu, ale wymaga nadzoru i korekty.
Można sobie wyobrazić, że w najbliższych latach agentowe systemy AI będą szczególnie przydatne w takich zadaniach jak:
- przygotowanie wstępnej analizy danych, którą później doprecyzuje analityk,
- generowanie szkiców maili i prezentacji, które człowiek dopracuje i dostosuje do odbiorcy,
- wstępna selekcja informacji z wielu dokumentów, aby pracownik nie musiał przebijać się przez setki stron,
- koordynowanie prostych procesów, gdzie zasady są bardzo jasno opisane i rzadko się zmieniają.
Znacznie gorzej idzie im radzenie sobie w środowiskach, gdzie reguły są płynne, a komunikacja wymaga wyczucia: w negocjacjach, w pracy z klientem, w zadaniach z dużą liczbą „szarych stref”, których nie da się wrzucić w prosty schemat instrukcji.
Co warto z tego wyciągnąć dla siebie – i dla swojej firmy
Eksperyment z wirtualną firmą daje kilka praktycznych wskazówek dla menedżerów i pracowników. Po pierwsze, firmy, które chcą korzystać z agentów AI, muszą jasno rozdzielić zadania na takie, które nadają się do automatyzacji, oraz takie, gdzie człowiek zostaje w roli operatora i kontrolera. W wielu branżach bardziej opłaca się stworzyć duet człowiek + AI, niż próbować całkowicie zastąpić ludzi.
Po drugie, warto myśleć o kompetencjach. Osoby, które rozumieją ograniczenia systemów AI i potrafią je dobrze „prowadzić” – przygotować zadanie, ustawić kryteria sukcesu, sprawdzić wynik – zyskają na znaczeniu. To nowy rodzaj cyfrowej biegłości, równie ważny jak znajomość Excela kilkanaście lat temu.
Po trzecie, używanie agentów AI bez odpowiednich zabezpieczeń może przynieść więcej szkody niż pożytku. System, który z przekonaniem ogłasza, że zadanie jest wykonane, mimo że pominął kluczowy krok, tworzy złudne poczucie bezpieczeństwa. Dlatego każde wdrożenie powinno zakładać audyt wyników, a nie bezrefleksyjne ufać panelowi z zielonym komunikatem „done”.
AI wciąż szybko się rozwija, a kolejne generacje modeli będą coraz lepiej radzić sobie z kontekstem i złożonymi procesami. Na dzisiaj dane z tak szerokiej symulacji mówią jednak jasno: sztuczna inteligencja staje się potężnym współpracownikiem, ale do roli samodzielnego „pracownika biurowego” jeszcze jej daleko. Dla wielu zatrudnionych to dobra wiadomość – najbliższe lata przyniosą raczej zmianę narzędzi pracy niż masową wymianę ludzi na algorytmy.


