CodeWithLLM-Updates
-

Якщо роки 2 тому моделі в програмуванні поводилися як джин — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.

Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл AGENTS.md не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.

Ми вчимося спрощувати архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.

NxCode Team про роботу ШІ агентів
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).

Агенти провалюються не через якість моделі, а через поганий harness.

Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.

OpenAI про harness engineering
https://openai.com/index/harness-engineering/
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.

Найважливіше тепер — не тільки якісна модель, а середовище:
– структурована папка docs/ як single source of truth,
– короткий AGENTS.md (~100 рядків) замість гігантського промпту,
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
– «doc-gardening» агент, який сам виправляє застарілу документацію.

Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.

Обговорення на ХН про harness engineering
https://news.ycombinator.com/item?id=46988596
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив лише один інструмент — формат редагування файлів, замість apply_patch / str_replace ввів Hashline (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей покращили результати.

Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.

Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.