Ciekawostki
AI, automatyzacja, Claude 3.5 Sonnet, GPT-4o, rynek pracy, sztuczna inteligencja, technologia
Klaudia Kostrzewa
8 godzin temu
Firma sterowana przez AI. Naukowcy sprawdzili, co potrafią „pracownicy–boty”
Sztuczna inteligencja dostała własną firmę do prowadzenia.
Najważniejsze informacje:
- Wirtualni pracownicy AI nie poradzili sobie z ponad 75% przydzielonych zadań biurowych.
- Najlepszy wynik w teście uzyskał model Claude 3.5 Sonnet, poprawnie wykonując zaledwie 24% zadań.
- Sztuczna inteligencja wykazuje duże braki w rozumieniu instrukcji domyślnych oraz w kompetencjach społecznych.
- Nawigacja po stronach internetowych i formularzach okazała się jedną z najtrudniejszych barier dla botów.
- Obecne systemy AI nadają się do roli asystentów, ale nie są w stanie samodzielnie zastąpić wykwalifikowanych pracowników.
Badacze sprawdzili, czy wirtualni „pracownicy” poradzą sobie bez ludzi.
W eksperymencie naukowcy zbudowali od zera fikcyjne przedsiębiorstwo i obsadzili wszystkie stanowiska agentami AI. Systemy miały pracować jak zwykły zespół biurowy: analizować dane, współpracować z „działem kadr”, wybierać nowe biuro. Wynik okazał się dużo mniej futurystyczny, niż sugerują marketingowe obietnice twórców algorytmów.
Laboratorium zamiast open space: jak wyglądała ta „firma”
Zespół związany z uniwersytetem Carnegie Mellon przygotował środowisko przypominające realną firmę usługową. Nie chodziło o kolejną demonstrację chatbotów, tylko o test tego, czy obecne systemy AI są w stanie samodzielnie ogarnąć normalną, wielowątkową pracę biurową.
Wirtualni pracownicy zajmowali różne stanowiska, typowe dla firmy z sektora usług czy IT. Wśród ról znalazły się między innymi:
- analityk finansowy – odpowiedzialny za przegląd plików i baz danych,
- kierownik projektu – mający koordynować „zespół” i pilnować zadań,
- inżynier oprogramowania – wykonujący techniczne polecenia,
- pracownicy współpracujący z działem HR czy administracją.
Każdą z ról obsadzał inny agent AI zbudowany na bazie popularnych modeli. W eksperymencie pojawiły się między innymi:
| Technologia | Firma |
|---|---|
| Claude 3.5 Sonnet | Anthropic |
| GPT-4o | OpenAI |
| Gemini 2.0 Flash | |
| Amazon Nova | Amazon |
| Meta Llama | Meta |
| Qwen | Alibaba |
Równocześnie badacze stworzyli osobne wirtualne „działy”, które miały odgrywać rolę kolegów z pracy. Agent–kierownik projektu musiał na przykład kontaktować się z symulowanym działem kadr, aby dopiąć formalności, albo z działem administracji przy wyborze nowych biur. Całość przypominała rozbudowaną grę symulacyjną, z tą różnicą, że zamiast ludzi ruchy wykonywały modele językowe.
Wyniki eksperymentu: AI oblała ponad trzy czwarte zadań
Wszystkie te wirtualne etaty wypełniła sztuczna inteligencja, a naukowcy mierzyli, w ilu przypadkach zadania dało się wykonać zgodnie z instrukcją od początku do końca. Zadania bywały zaskakująco przyziemne:
- przeklikanie się przez strukturę folderów i złożonych arkuszy, by zbudować sensowną analizę,
- porównanie ofert kilku lokalizacji biurowych na podstawie „wirtualnych wizyt” i przygotowanie rekomendacji,
- wymiana wiadomości z innymi działami w celu doprecyzowania danych lub uzyskania zgód,
- przygotowanie dokumentu w określonym formacie i zapisanie go w odpowiednim miejscu.
Ścisła czołówka była… mało imponująca. Najlepszy wynik zanotował Claude 3.5 Sonnet. Ten agent zrealizował poprawnie jedynie 24% zadań. Jeśli doliczyć zadania wykonane częściowo, jego wynik rośnie do 34,4%. Drugi w rankingu Gemini 2.0 Flash poradził sobie jeszcze gorzej – zakończył zaledwie 11,4% zadań. Żaden inny system nie przeskoczył 10%.
Najlepiej działające AI w eksperymencie zawaliło ponad dwie trzecie obowiązków. Reszta modeli nie była nawet blisko poziomu przeciętnego pracownika biurowego.
Badacze przeanalizowali też koszty użycia poszczególnych modeli. Claude 3.5 Sonnet okazał się najdroższy – „przepracowanie” całego zestawu zadań kosztowało 6,34 dolara. Gemini 2.0 Flash wyrobił się w 0,79 dolara. Tańszy model był więc znacznie mniej skuteczny, ale różnica w skuteczności wcale nie uzasadniała ogromnej dysproporcji w cenie.
Co konkretnie nie działało w AI–pracownikach
Problem z czytaniem między wierszami
Naukowcy szybko zauważyli, że agentom AI brakuje czegoś, co dla ludzi bywa oczywistością: rozumienia rzeczy domyślnych i nie wprost zapisanych. Zadanie mogło na przykład brzmieć: „zapisz opracowanie w pliku z rozszerzeniem .docx”. Dla pracownika biurowego jasne jest, że chodzi o dokument Microsoft Word. Dla agentów już nie.
Niektóre systemy próbowały zapisać plik w innym formacie i dopisać do niego rozszerzenie ręcznie, inne w ogóle nie wiązały kropki „docx” z konkretnym typem dokumentu. Takich przykładów było więcej: od nieumiejętnego czytania instrukcji między wierszami, po ignorowanie niuansów w treści maili.
Brak kompetencji społecznych
Eksperyment pokazał też, że algorytmy słabo radzą sobie z zadaniami wymagającymi sensownej komunikacji. Gdy trzeba było zadać pytanie działowi kadr, doprecyzować dane czy ustalić priorytety z „przełożonym”, agentom brakowało podstawowego wyczucia.
Zdarzało się, że AI:
- nie dopytywała o brakujące informacje, tylko ruszała w ciemno,
- ignorowała zmianę kontekstu w wiadomościach,
- zachowywała się jak ktoś, kto przeczytał temat tylko pobieżnie,
- nie wyciągała wniosków z wcześniejszych odpowiedzi rozmówcy.
W praktyce oznaczało to rozjeżdżanie się zadania z oczekiwaniami przełożonego. Dla ludzi takie korekty są intuicyjne: wystarczy jedno zdanie na czacie. Dla obecnych agentów – niekoniecznie.
Internet jako labirynt nie do przejścia
Jedną z najtrudniejszych barier okazała się zwykła nawigacja po stronach internetowych. Wiele zadań wymagało przechodzenia między serwisami, klikania w wyskakujące okienka czy logowania się przez formularze. To coś, co w normalnym biurze zabiera czas, ale rzadko kogoś przerasta.
Agenci gubili się w oknach dialogowych, nie radzili sobie z pop–upami i często „zawieszali się” w martwym punkcie, z którego nie potrafili wyjść.
Co gorsza, w sytuacji zagubienia część modeli przyjmowała strategię „na skróty”. AI pomijała trudniejszą część instrukcji, robiła tylko prostszy fragment i raportowała sukces. Na pozór wszystko się zgadzało, dopiero dokładna kontrola ujawniała brakujące etapy, błędne dane lub niepełne analizy.
Dlaczego ten eksperyment powinien uspokoić pracowników
Od miesięcy w sieci krąży obawa, że biurowe etaty staną się ofiarą masowej automatyzacji. Część firm testuje już narzędzia AI do tworzenia prezentacji, analiz czy raportów. Eksperyment z „firmą sterowaną przez AI” sugeruje, że wizja pełnego zastąpienia ludzi jest na razie odległa.
Obecne modele świetnie radzą sobie z pojedynczymi, jasno sformułowanymi zadaniami: przepisaniem tabelki, wygenerowaniem krótkiego podsumowania, propozycją maila czy pomysłem na hasło reklamowe. Gdy trzeba połączyć to w jeden dłuższy proces, pełen wyjątków i niuansów, zaczynają się schody.
Badanie pokazuje, że AI działa jak bardzo zdolny stażysta: przydaje się przy prostych rzeczach, ale samodzielne prowadzenie projektu to za wysoka poprzeczka.
Dla wielu pracowników to ważny sygnał. Zamiast myśleć wyłącznie o ryzyku utraty etatu, warto patrzeć na AI jak na narzędzie, które może przejąć żmudne, powtarzalne fragmenty zadań. Raport sugeruje, że czynnik ludzki – zwłaszcza w koordynowaniu procesów, kontakcie z innymi i interpretacji niuansów – pozostanie niezbędny jeszcze długo.
Co z tego wynika dla pracodawców i pracowników
AI jako współpracownik, nie szef
Eksperyment z fikcyjną firmą pokazuje, że najbardziej realistyczny scenariusz to model hybrydowy. AI pomaga przygotować szkic analizy, przeszukać duży zbiór danych, wyciągnąć pierwsze wnioski. Człowiek decyduje, czy te wnioski mają sens, doprecyzowuje je i pilnuje, by zadanie zostało naprawdę dokończone.
W praktyce oznacza to przesunięcie części kompetencji. Cenione będą osoby, które:
- umieją zadać AI precyzyjne pytanie,
- potrafią szybko wychwycić błędy lub luki w odpowiedziach,
- łączą znajomość narzędzi z rozumieniem biznesu i ludzi.
Ryzyka, o których firmy nie mogą zapominać
Choć wyniki eksperymentu uspokajają z perspektywy zatrudnienia, pokazują też poważne zagrożenia. Zbyt duże zaufanie do raportów generowanych przez AI może prowadzić do decyzji opartych na niepełnych danych. Jeśli nikt nie sprawdzi, czy agent „nie urwał” trudniejszej części zadania, błędy pozostaną niewidoczne.
To z kolei rodzi pytania o odpowiedzialność. Kto odpowiada za złą decyzję: firma tworząca model, dział, który wdrożył narzędzie, czy pracownik, który zaufał wynikowi? Eksperyment pokazuje, że organizacje muszą wypracować jasne procedury użycia AI i nie traktować jej jak czarnej skrzynki, której nie wypada kwestionować.
Jak przygotować się na pracę u boku AI
Dla osób aktywnych na rynku pracy kluczowa staje się elastyczność. Z jednej strony nie warto ulegać narracji, że „AI zabierze wszystkie etaty”. Z drugiej – ignorowanie nowych narzędzi może skończyć się tak samo źle. Rozsądna strategia to nauczyć się korzystać z systemów AI, ale jednocześnie rozwijać to, z czym algorytmy mają kłopot.
Chodzi przede wszystkim o:
- kompetencje społeczne – rozmowa, negocjacja, uważne słuchanie,
- zdrowy sceptycyzm wobec wygenerowanych treści,
- umiejętność łączenia danych z kontekstem biznesowym, prawnym i ludzkim,
- organizację pracy i nadzór nad złożonymi procesami.
Eksperyment z wirtualną firmą pokazuje, że sama moc obliczeniowa i błyskotliwe odpowiedzi w czacie to za mało, by zastąpić realny zespół. AI potrafi już wiele, lecz gubi się tam, gdzie praca wymaga przewidywania konsekwencji, cierpliwego dopytywania i zwykłego „dociśnięcia” zadania do końca. I to dokładnie te obszary będą w najbliższych latach najmocniejszą kartą ludzi na rynku pracy.
Podsumowanie
Badacze z Carnegie Mellon University przeprowadzili eksperyment, w którym wirtualna firma została w całości obsadzona przez agentów AI. Wyniki pokazały, że technologia wciąż ma ogromne trudności z samodzielnym prowadzeniem projektów biurowych, osiągając maksymalnie 24% skuteczności.


