CodeWithLLM-Updates
-

Якщо роки 2 тому моделі в програмуванні поводилися як джин — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.

Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл AGENTS.md не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.

Ми вчимося спрощувати архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.

NxCode Team про роботу ШІ агентів
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).

Агенти провалюються не через якість моделі, а через поганий harness.

Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.

OpenAI про harness engineering
https://openai.com/index/harness-engineering/
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.

Найважливіше тепер — не тільки якісна модель, а середовище:
– структурована папка docs/ як single source of truth,
– короткий AGENTS.md (~100 рядків) замість гігантського промпту,
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
– «doc-gardening» агент, який сам виправляє застарілу документацію.

Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.

Обговорення на ХН про harness engineering
https://news.ycombinator.com/item?id=46988596
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив лише один інструмент — формат редагування файлів, замість apply_patch / str_replace ввів Hashline (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей покращили результати.

Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.

Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.

Деякі люди вже втомилися від дедалі важчих інструментів, таких як Claude Code або Cursor, де все більше функцій не потрібні, промпти величезні, а все приховано.

Pi агент
https://shittycodingagent.ai/ https://pi.dev/
Супермінімалістичний open-source AI-кодинг агент для термінала — всього 4 базові інструменти: read, write, edit, bash. Все інше — через розширення. Працює як CLI, headless, RPC, SDK — саме тому Pi стоїть «під капотом» OpenClaw.

Сесії у вигляді дерева — можна розгалужувати, повертатися, експортувати в HTML. Повна прозорість — видно все, що відбувається.

Pi дозволяє підключати різні LLM-провайдери для роботи агента. Налаштування зберігаються в ~/.pi/agent/ (глобально) або .pi/ (локально в проєкті). Основні файли: settings.json для загальних параметрів, а також файли на кшталт SYSTEM.md для кастомних промптів. Автентифікацію можна здійснювати двома способами: через підписку (OAuth/login) або через API-ключ.

https://www.youtube.com/watch?v=boSPk_Ig4gU

Можна налаштувати та використовувати Pi Coding Agent локально безкоштовно через Ollama.

Як автор це зробив
https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
https://news.ycombinator.com/item?id=46844822
Без вбудованих режимів планування, фонового bash, суб-агентів чи MCP. Агент уникає прихованих ін'єкцій з боку інших harness, забезпечуючи повну спостережуваність взаємодій. Уникає частих змін промптів/інструментів (на відміну від Claude Code), які ламають робочі процеси.

5–10× довші вікна контексту завдяки мінімальному промпту, є зміна моделі посеред сесії.

Працює з необмеженим доступом до файлової системи та команд, визнаючи, що захисні бар'єри часто неефективні, а продуктивна робота вимагає повних можливостей. YOLO-режим лякає коментаторів на хакреньюз: ризик exfiltration, prompt injection, випадкове видалення бази даних тощо. Деякі радять chroot / containers / VMs, інші кажуть, що sandbox у Codex — «security theater».

https://news.ycombinator.com/item?id=47143754
Користувачі пишуть, що Pi дає «рівень контролю, якого не було раніше». RPC/headless-режим супер для інтеграцій. Екосистема форків і розширень — цікавий проект oh-my-pi https://github.com/can1357/oh-my-pi (batteries-included версія), але говорять часто ламає інструменти після оновлень.

Можливий Anthropic-бан, є попередження про ризик відключення акк за альтернативні клієнти (як з OpenCode).

OpenAI активно намагається перехопити ініціативу у Cluade Code - зараз вкладають в це багато грошей.

Codex безкоштовно ще місяць
https://openai.com/codex/
Продовження оригінального limited-time промо від 2 лютого 2026. Після релізу Windows-версії Codex app подовжили ще на місяць, тепер безкоштовні ChatGPT аккаунти мають можливість генерувати код до 2 квітня. Для Plus - подвійні ліміти.

Codex app під Windows та GPT‑5.4
https://openai.com/index/introducing-gpt-5-4/
OpenAI представила нарешті windows версію Codex app та GPT‑5.4 нову модель, яка поєднує coding-можливості з GPT-5.3-Codex та потужний reasoning. Як завжди модель стала ефективнішою за токенами, швидшою в ітераціях та проактивнішою.

https://www.youtube.com/watch?v=8hNcRChDrNk

Додали спеціальній скіл WinUI App для розробників під Windows. Можна вибирати різні термінали та перемикатися на WSL.

З версії 26.305 додали fast mode де GPT-5.4 працює в 1.5 раза швидше при тому ж рівні інтелекту. З мінусів - не можна редагувати список "Default open destination".

Кажуть що GPT-5.4 може бачити скріншоти, керувати мишею та клавіатурою, запускати Playwright у режимі Interactive для візуального дебагінгу в реальному часі.

WebSocket режим
https://developers.openai.com/api/docs/guides/websocket-mode/
Це постійне з’єднання для Responses API, спеціально створене для довгих агентних workflow з купою tool calls (agentic coding, автоматизація, оркестрація). Для coding-агентів значно менша затримка в ітераціях, до 40% швидше виконання при 20+ tool calls.

Режим вбудовано в Codex App (macOS/Windows). У Codex-Spark режим увімкнено за замовчуванням, а для інших моделей у конфіг ~/.codex/config.toml треба додати responses_websockets_v2 = true (у версії CLI v0.110 буде Under-development features попередження).

Cursor рік тому був найвідоміший AI-орієнтований код-редактор, але надалі конкуренція значно зросла.

Запустили свою CLI - за зиму додали там режими Plan і Ask, субагенти та навички, генерацію зображень, вбудовані Mermaid ASCII-діаграми, клавіатурні скорочення.

Cursor Cloud Agents з використанням комп'ютера
https://forum.cursor.com/t/cloud-agents-with-computer-use/152829
https://cursor.com/blog/third-era
Тепер агенти запускають створений софт у власному VM (повноцінному комп'ютеру), тестують зміни, генерують PR з скріншотами та логами. Можуть записувати коротке demo-відео. Можна підключитися до VM агента і подивитися.

https://www.youtube.com/watch?v=tMflcZHo2zI

Записано прямо в новому офісі Cursor. Глибокий розбір останнього великого оновлення, називають це "третьою ерою" Cursor де перша — просто AI-доповнення в редакторі, друга — локальні агенти, третя — повноцінні хмарні агенти з власним комп'ютером. Тепер рухаються в сторону agentic платформи.

Cursor у Zed та JetBrains
https://forum.cursor.com/t/cursor-is-now-available-in-jetbrains-ides/153584
Додали підтримку Agent Client Protocol (ACP) тобто тепер можна використовувати підписку та агента Cursor у тих IDE, що його підтримують як то IntelliJ IDEA, PyCharm, WebStorm.

Zed AI тільки для повнолітніх
https://zed.dev/blog/terms-update
Zed перелічили серед інших змін що додають обмеження 18+ й воно стосується «Service» — тобто хмарної SaaS-частини: створення аккаунту, AI-фіч (Zed Pro, edit prediction тощо).

У треді на Hacker News пояснили, що якщо дозволити <18, треба було б верифікувати згоду батьків, вести окремі політики зберігання/обробки даних, робити age-gate систему. Тому простіше було заборонити.

JetBrains Air
https://air.dev/changelog
JetBrains розробляє Air як Agentic Development Environment тобто Агентне середовище розробки, все це дуже схоже на відповідь до OpenAI Codex app - тут через підписку JetBrains AI Pro/Ultimate. Наразі доступна попередня версія (Preview) під Mac OS, розробка версій для Windows та Linux триває.

Почали як обгортка для Codex та Claude. 5 березня додали ще Gemini CLI та Junie. Тепер можна обирати між різними агентами залежно від завдання або комбінувати їх — один агент може перевіряти роботу іншого.

Можна використовувати ChatGPT підписку (тоді буде тільки Codex). Вхід через Claude Pro, Max та Team скасовано через нову політику використання Anthropic - треба додавати API ключі.

T3 Code
https://t3.codes/
Чомусь Teo вирішив окрім відеоблогера побути розробником - поки що вийшла забаговна обгортка Codex (потім буде й Claude Code) з мінімальним описом та доками. Навіщо це зараз використовувати замість оригінального Codex app мені не зрозуміло.

модель Leanstral
https://mistral.ai/news/leanstral
Mistral AI представляє Leanstral — відкритий код-агент для мови програмування Lean 4 (яка ще interactive theorem prover). Модель з 6B активних параметрів у розрідженій архітектурі навчається не лише виконувати завдання, а й формально доводити правильність реалізацій. Це робить її потужним інструментом для перевірки коду.

Доступна безкоштовно в Mistral Vibe https://mistral.ai/products/vibe (через API labs-leanstral-2603) та для завантаження на власне обладнання та інтеграції з lean-lsp-mcp. Це перший внесок у майбутнє, де формальна верифікація стане повсякденною, а людський ревью перестане бути вузьким місцем.

Реакція ХН
https://news.ycombinator.com/item?id=47404796
Ентузіасти бачать майбутнє в «executable specs» коли агент пише код + докази, і регресії стають неможливими. Скептики нагадують що докази гарантують лише валідність, а не що ти довів саме те, що хотів і для звичайних проєктів (не математика/критичне ПЗ) це поки «overkill».

Nvidia Nemotron 3 Super
https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b
Nvidia презентували свою нову модель - Nemotron 3 Super, open hybrid Mamba-Transformer MoE модель: 120B total / 12B active parameters, 1M token контекст. Зараз безкоштовно в Kilo Code https://blog.kilo.ai/p/nvidia-nemotron-3-super-launch

На Hacker News пост про реліз набрав лише 13 поінтів і 2 коменти, в цілому всім все одно. Nvidia довго це робила й Qwen 3.5 зараз "наздогнав і перегнав" багато кого.

Оновлення моделі від Cursor
https://forum.cursor.com/t/introducing-composer-2/155288
https://cursor.com/blog/composer-2
Composer це власна модель Cursor, яка дає гарні результати на простих завданнях. Версію 2 тренували спеціально на довгих кодинг-завданнях через reinforcement learning. Модель доволі дешева, є звичайний та швидкий варіанти.

а це Kimi K2.5
https://news.ycombinator.com/item?id=47452404
Користувачі помітили, що Cursor Composer 2 базується на китайській моделі з відкритими вагами Kimi K2.5 від компанії Moonshot AI, а не є повністю власною розробкою Cursor «з нуля».

 Модель Kimi K2.5 має специфічну модифіковану ліцензію MIT. Вона вимагає обов'язково вказувати назву "Kimi K2.5" в інтерфейсі, якщо дохід компанії перевищує $20 млн на місяць. Пізніше представники Moonshot та Cursor підтвердили, що між ними є офіційне партнерство. Cursor отримує доступ до Kimi через провайдера інференсу Fireworks AI.

Оновлення інтерфейсу від Cursor
https://forum.cursor.com/t/what-is-cursor-glass/155327
https://cursor.com/glass
Glass це повністю новий інтерфейс який зараз у early access з парадігмою командно центра агентів. Дехто вже скаржиться, що оновлення «примусово» ставить Glass, поки що без перемикання назад.

https://www.youtube.com/watch?v=stRhZIrwa-w

Тепер агенти керуються в одному просторі: проектні трейди, паралельні сесії, marketplace плагінів, вбудований браузер+термінал, Git з одним кліком, Shift+Tab планування з Mermaid-діаграмами та todos.

Це добрий крок, щоб не відставати. Звісно наявний брак своїх ідей, бо має назву як інтерфейс Apple, а зовнішній вигляд як копія Codex app. Але більше зараз проблема, це що не можна тепер легко створювати/відкривати файли вручну тобто свій статус AI IDE, де можна все ще було напряму робити код (редактор для людей) Cursor втрачає.