CodeWithLLM-Updates
-

Експеримент з автономного кодінгу
https://cursor.com/blog/scaling-agents
Cursor запустили сотні ШІ-агентів одночасно для роботи над одним спільним проєктом протягом тижнів без втручання людини. Суть полягає в тому, щоб перейти від формату «один чат-бот вирішує одну задачу» до формату «віртуальної IT-компанії», де агенти працюють паралельно, не заважаючи один одному.

Головний висновок — просте збільшення кількості агентів ефективне для вирішення складних завдань, якщо правильно налаштувати промпти та моделі (Opus 4.5 схильна «зрізати кути», GPT-5.2 краще у довготривалому плануванні). Рішенням став ієрархічний підхід «Планувальники та Виконавці» (Planners and Workers). Планувальники безперервно досліджують код і створюють задачі, а Виконавці реалізують їх, не відволікаючись на загальну координацію.

Агенти написали понад мільйон рядків коду, створивши з нуля веббраузер, емулятор Windows 7 та клон Excel.

https://www.youtube.com/watch?v=U7s_CaI93Mo

Агенти створили браузер, алі він не працює
https://emsh.cat/cursor-implied-success-without-evidence/
Блогу embedding-shapes розвінчує цей "успіх". Автор стверджує, що експеримент Cursor — це маркетингова ілюзія та фікція, а результат роботи агентів — неробоче сміття: проєкт неможливо зібрати. Команда cargo build видає десятки помилок. Агенти тижнями писали код, але, схоже, жодного разу не перевіряли його на працездатність і ігнорували помилки компіляції.

Це "AI slop" тобто згенерований текст, який виглядає як код, але не має за собою реальної логіки чи робочої структури. Агенти просто "нагнали" обсяг (мільйон рядків), але не виконали базовий мінімум: створити програму, яка хоча б запускається і відкриває простий HTML-файл. Тобто вони створили код, а не програму.

https://news.ycombinator.com/item?id=46646777
Користувачі (зокрема nindalf) заглянули у файл залежностей (Cargo.toml) і виявили, що "браузер" використовує готові компоненти від Servo (двигун від Mozilla/Igalia) для парсингу HTML та CSS, а також бібліотеку QuickJS для JavaScript. Заява Cursor про те, що агенти написали все це "з нуля" (from scratch), була визнана брехнею. Код, який згенерували агенти, — це переважно "клей", що з'єднує чужі готові бібліотеки.

Спільнота підтвердила висновки автора статті embedding-shapes: код не компілюється, тести провалені, а історія комітів показує, що агенти просто генерували гігабайти тексту без перевірки працездатності. Заяви про "мільйони рядків коду" та "автономних агентів" розраховані на менеджерів та інвесторів, які не будуть перевіряти репозиторій. Ситуацію порівнюють із шахрайством (fraud).