CodeWithLLM-Updates
-

Якщо роки 2 тому моделі в програмуванні поводилися як джин — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.

Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл AGENTS.md не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.

Ми вчимося спрощувати архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.

NxCode Team про роботу ШІ агентів
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).

Агенти провалюються не через якість моделі, а через поганий harness.

Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.

OpenAI про harness engineering
https://openai.com/index/harness-engineering/
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.

Найважливіше тепер — не тільки якісна модель, а середовище:
– структурована папка docs/ як single source of truth,
– короткий AGENTS.md (~100 рядків) замість гігантського промпту,
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
– «doc-gardening» агент, який сам виправляє застарілу документацію.

Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.

Обговорення на ХН про harness engineering
https://news.ycombinator.com/item?id=46988596
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив лише один інструмент — формат редагування файлів, замість apply_patch / str_replace ввів Hashline (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей покращили результати.

Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.

Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.

Деякі люди вже втомилися від дедалі важчих інструментів, таких як Claude Code або Cursor, де все більше функцій не потрібні, промпти величезні, а все приховано.

Pi агент
https://shittycodingagent.ai/ https://pi.dev/
Супермінімалістичний open-source AI-кодинг агент для термінала — всього 4 базові інструменти: read, write, edit, bash. Все інше — через розширення. Працює як CLI, headless, RPC, SDK — саме тому Pi стоїть «під капотом» OpenClaw.

Сесії у вигляді дерева — можна розгалужувати, повертатися, експортувати в HTML. Повна прозорість — видно все, що відбувається.

Pi дозволяє підключати різні LLM-провайдери для роботи агента. Налаштування зберігаються в ~/.pi/agent/ (глобально) або .pi/ (локально в проєкті). Основні файли: settings.json для загальних параметрів, а також файли на кшталт SYSTEM.md для кастомних промптів. Автентифікацію можна здійснювати двома способами: через підписку (OAuth/login) або через API-ключ.

https://www.youtube.com/watch?v=boSPk_Ig4gU

Можна налаштувати та використовувати Pi Coding Agent локально безкоштовно через Ollama.

Як автор це зробив
https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
https://news.ycombinator.com/item?id=46844822
Без вбудованих режимів планування, фонового bash, суб-агентів чи MCP. Агент уникає прихованих ін'єкцій з боку інших harness, забезпечуючи повну спостережуваність взаємодій. Уникає частих змін промптів/інструментів (на відміну від Claude Code), які ламають робочі процеси.

5–10× довші вікна контексту завдяки мінімальному промпту, є зміна моделі посеред сесії.

Працює з необмеженим доступом до файлової системи та команд, визнаючи, що захисні бар'єри часто неефективні, а продуктивна робота вимагає повних можливостей. YOLO-режим лякає коментаторів на хакреньюз: ризик exfiltration, prompt injection, випадкове видалення бази даних тощо. Деякі радять chroot / containers / VMs, інші кажуть, що sandbox у Codex — «security theater».

https://news.ycombinator.com/item?id=47143754
Користувачі пишуть, що Pi дає «рівень контролю, якого не було раніше». RPC/headless-режим супер для інтеграцій. Екосистема форків і розширень — цікавий проект oh-my-pi https://github.com/can1357/oh-my-pi (batteries-included версія), але говорять часто ламає інструменти після оновлень.

Можливий Anthropic-бан, є попередження про ризик відключення акк за альтернативні клієнти (як з OpenCode).

OpenAI активно намагається перехопити ініціативу у Cluade Code - зараз вкладають в це багато грошей.

Codex безкоштовно ще місяць
https://openai.com/codex/
Продовження оригінального limited-time промо від 2 лютого 2026. Після релізу Windows-версії Codex app подовжили ще на місяць, тепер безкоштовні ChatGPT аккаунти мають можливість генерувати код до 2 квітня. Для Plus - подвійні ліміти.

Codex app під Windows та GPT‑5.4
https://openai.com/index/introducing-gpt-5-4/
OpenAI представила нарешті windows версію Codex app та GPT‑5.4 нову модель, яка поєднує coding-можливості з GPT-5.3-Codex та потужний reasoning. Як завжди модель стала ефективнішою за токенами, швидшою в ітераціях та проактивнішою.

https://www.youtube.com/watch?v=8hNcRChDrNk

Додали спеціальній скіл WinUI App для розробників під Windows. Можна вибирати різні термінали та перемикатися на WSL.

З версії 26.305 додали fast mode де GPT-5.4 працює в 1.5 раза швидше при тому ж рівні інтелекту. З мінусів - не можна редагувати список "Default open destination".

Кажуть що GPT-5.4 може бачити скріншоти, керувати мишею та клавіатурою, запускати Playwright у режимі Interactive для візуального дебагінгу в реальному часі.

WebSocket режим
https://developers.openai.com/api/docs/guides/websocket-mode/
Це постійне з’єднання для Responses API, спеціально створене для довгих агентних workflow з купою tool calls (agentic coding, автоматизація, оркестрація). Для coding-агентів значно менша затримка в ітераціях, до 40% швидше виконання при 20+ tool calls.

Режим вбудовано в Codex App (macOS/Windows). У Codex-Spark режим увімкнено за замовчуванням, а для інших моделей у конфіг ~/.codex/config.toml треба додати responses_websockets_v2 = true (у версії CLI v0.110 буде Under-development features попередження).

Cursor рік тому був найвідоміший AI-орієнтований код-редактор, але надалі конкуренція значно зросла.

Запустили свою CLI - за зиму додали там режими Plan і Ask, субагенти та навички, генерацію зображень, вбудовані Mermaid ASCII-діаграми, клавіатурні скорочення.

Cursor Cloud Agents з використанням комп'ютера
https://forum.cursor.com/t/cloud-agents-with-computer-use/152829
https://cursor.com/blog/third-era
Тепер агенти запускають створений софт у власному VM (повноцінному комп'ютеру), тестують зміни, генерують PR з скріншотами та логами. Можуть записувати коротке demo-відео. Можна підключитися до VM агента і подивитися.

https://www.youtube.com/watch?v=tMflcZHo2zI

Записано прямо в новому офісі Cursor. Глибокий розбір останнього великого оновлення, називають це "третьою ерою" Cursor де перша — просто AI-доповнення в редакторі, друга — локальні агенти, третя — повноцінні хмарні агенти з власним комп'ютером. Тепер рухаються в сторону agentic платформи.

Cursor у Zed та JetBrains
https://forum.cursor.com/t/cursor-is-now-available-in-jetbrains-ides/153584
Додали підтримку Agent Client Protocol (ACP) тобто тепер можна використовувати підписку та агента Cursor у тих IDE, що його підтримують як то IntelliJ IDEA, PyCharm, WebStorm.

Zed AI тільки для повнолітніх
https://zed.dev/blog/terms-update
Zed перелічили серед інших змін що додають обмеження 18+ й воно стосується «Service» — тобто хмарної SaaS-частини: створення аккаунту, AI-фіч (Zed Pro, edit prediction тощо).

У треді на Hacker News пояснили, що якщо дозволити <18, треба було б верифікувати згоду батьків, вести окремі політики зберігання/обробки даних, робити age-gate систему. Тому простіше було заборонити.