CodeWithLLM-Updates
-
🤖 Інструменти ШІ для програмування: практичні приклади, покрокові інструкції та реальні застосування LLM. Навчіться ефективно працювати з сучасними асистентами програмування.

Якщо Anthropic йде шляхом вбудови Claude Code у свій десктопний додаток Work (от нарешті додали паралельні сесії https://claude.com/blog/claude-code-desktop-redesign), то OpenAI заходить з іншого боку: на цьому тижні вони оновили кодинговий додаток Codex і додали туди функції керування комп’ютером. Шляхі різні - результат той самий.

Codex як суперапп
https://openai.com/index/codex-for-almost-everything/
На macOS Codex тепер бачить екран, рухає власний курсор, клікає, вводить текст, відкриває будь-які застосунки і працює у фоновому режимі. На всіх платформах є вбудований браузер, генерація зображень, пам’ять (запам’ятовує ваші вподобання та попередні дії -- поки що не в EU/UK), понад 90 плагінів та інтеграцій.

https://www.youtube.com/watch?v=sdNoaztocs0

Хоча в Codex і з’явилася дуже схожа на Cursor приємна функція — в згенерованому сайті можна просто клікнути на будь-який елемент (кнопку, блок, текст, зображення) і одразу додати його до промпту як референс, — загалом для програмістів саме ця тенденція двох компаній (Anthropic і OpenAI) до розширення аудиторії своїх продуктів трохи насторожує.

Обговорення
https://news.ycombinator.com/item?id=47796469
Багато хто бачить у цьому революцію для звичайних людей (не-програмістів): агенти зможуть створювати персональні UI, автоматизувати бізнес-процеси, замінювати цілі програми й радикально підвищувати продуктивність. Програмісти водночас насторожені — безпека й приватність все ще забута: повний доступ (див навіть офіційне демо) агента перетворює комп’ютер на «ворожий пристрій», де навіть txt-файл є вектором атаки.

ChatGPT Pro за $100/міс
https://help.openai.com/en/articles/9793128-about-chatgpt-pro-tiers
На початку квітня закінчилась акція по токенам Codex, тепер з безкоштовного акаунту можна запустити десь два простих завдання й вони беруть тижневий ліміт. В Plus $20 плані тепер теж не розгорнешся, тижневий ліміт підходить для легкої роботі 1-2 години в день. Саме тому з 9 квітня додався ще проміжний між Pro $200 варіант. Новий Pro $100 має 5× вищі, ніж Plus, доступ до GPT-5.4 Pro та GPT-5.3 Instant. Також дії промо до 31 травня 2026 — вдвічі більше токенів.

Це пряма відповідь Anthropic: вони мають Claude Max за $100.

Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7
Оновився Claude Opus з 4.6 на 4.7 - все те саме, тільки ще краще на бенчмарках. Додали adaptive thinking (адаптивне мислення): модель сама вирішує, скільки «думати» перед відповіддю, приховує внутрішній reasoning (тепер за замовчуванням не показує повний ланцюжок думок).

Обговорення
https://news.ycombinator.com/item?id=47793411
Модель стала сильнішою, особливо в кодингу та великих контекстах. Але стає менш debuggable. Тепер неможливо нормально відключити adaptive thinking, що робить Claude Code ще гіршим, треба танцювати з бубном: /effort xhigh, CLAUDE_CODE_DISABLE_1M_CONTEXT=1, "display": "summarized" тощо щоб розуміти що модель генерує.

Anthropic робить круті моделі, але інструменти программування навколо них стають все гірше.

Роки три більшість програм для програмування це були клон VS Code та чат збоку. Нову хвилю схоже запустив Codex - вони випустили свою декстоп програму на Electron без VSC, так само і OpenCode.

Cursor 3
https://cursor.com/blog/cursor-3
Компанія повністю відмовилася від моделі форку VS Code і побудувала новий інтерфейс під кодовою назвою Glass. Головне нововведення — створене з нуля Agents Window, яке дозволяє запускати необмежену кількість агентів одночасно в паралелі: локально, у worktree, по SSH, у хмарі чи навіть у кількох репозиторіях водночас. Нова частина як кажуть написана на Rust+TS.

https://cursor.com/blog/agent-web
Пізніше ще зробили інтеграцію з мобільними девайсами через PWA. Cursor Agents на web і mobile — офіційна можливість запускати cloud agents прямо з телефону або браузера на мобільному пристрої. Можна почати чат з телефону, а потім продовжити на десктопі (або навпаки).

https://www.youtube.com/watch?v=HTKGyLar8AU

Фраза «Cursor 3 just killed the IDE» повторюється як головний хук.

Обговорення
https://news.ycombinator.com/item?id=47618084
Багато хто хвалить сміливість і технічний прогрес агентного майбутнього, але ще більше людей висловлює розчарування і навіть обурення через те, що Cursor радикально відходить від звичної моделі "IDE + плагіни + AI-помічник". Критикують, що компанія йде за інвесторським хайпом "AI замінить розробників", а не за реальними потребами програмістів.

Людям, які хочу писати код, а не керувати командою агентів, доведеться пошукати щось інше, наприклад VS Code чи Zed.

Програма від The Factory
https://factory.ai/news/factory-desktop
Ще одна компанія зробила такий самий клон інтерфейсу для "керування агентами". Цікаво ще мені після встановлення на Windows 11 пише "Not connected to Local Machine. Please download and start the Desktop app, or upgrade to a paid plan to unlock more features.", щоб я завантажив їх апп. Хоча дизайн в них дуже крутий, їх забагованний Electron апп я навіть затестіти не зміг.

Якщо минулого року Claude Code був беззаперечним фаворитом, по ньому було багато туторіалів та додаткових проєктів, то що відбувається з проєктом у 2026 році я до кінця зрозуміти не можу. Судячи зі зменшення кількості відео на YouTube, інші люди також.

У лютому–березні Anthropic анонсував і викотив кілька функцій, які зробили Claude Code набагато автономнішим (agentic). Йде активний перехід від «одного агента в терміналі» до керованої системи завдань та координації фонових агентів (Ctrl+B) з екосистемою інтеграцій хот-релоадед MCP, скілів, хуків та плагінів. Через /teleport можна ініціалізувати remote-сесії /remote-control, якими можна керувати з додатка в телефоні. Введено /loop для періодичного запуску промпту/команди та інструменти cron-планування всередині сесії тощо.

З реально корисного можна відзначити хіба що Auto Mode.

Auto Mode
https://claude.com/blog/auto-mode
Представлений як «середній шлях» між двома крайнощами в Claude Code. Раніше потрібно було або постійно вручну схвалювати кожну зміну файлу та bash-команду (дуже безпечно, але дратує), або використовувати прапор --dangerously-skip-permissions. Новий Auto Mode дозволяє Claude самому вирішувати, які дії є безпечними, і виконувати їх автоматично, без схвалення.

Перед кожним tool call окремий класифікатор (на базі Sonnet 4.6) швидко перевіряє дію на небезпеку. Безпечні дії проходять автоматично, ризиковані — блокуються. Якщо модель наполегливо наполягає на заблокованих діях, у підсумку все одно з'являється запит до користувача.

Обговорення анонсу Claude Mythos
https://news.ycombinator.com/item?id=47679258
Anthropic описує особистість, цілі та обмеження нової моделі в system card. Не випускає її publicly (не буде в загальному доступі) — нібито через різкий стрибок здібностей і ризики безпеки. Заявляють, що Mythos знайшов тисячі zero-day уразливостей в ОС, браузерах, віртуальних машинах тощо (включаючи дуже старі баги). Багато хто пише, що це може сильно змінити кібербезпеку — як у кращий, так і в гірший бік.

https://red.anthropic.com/2026/mythos-preview/
Анонсували й Project Glasswing, де дають доступ до Mythos обмеженому колу компаній, щоб ті фіксили критичний софт за допомогою моделі.


Останнім часом багато людей, які платили за підписку, бачать, що Claude Code стає практично непридатним через нещодавні зміни в політиці та обмеженнях Anthropic без чітких правил. Навіть якщо просто в системному промпті згадати OpenClaw, запит відхиляється з помилкою. Також система стала гірше працювати з не-кодинг завданнями.

Скоріш за все, через запуск нової моделі довелося максимально стиснути весь комп'ют, який раніше просто роздавали для залучення людей в інфраструктуру.

Вихідний код Claude Code
https://twitter.com/Fried_rice/status/2038894956459290963
31 березня хтось випадково опублікував production-build з sourcemap-файлом (~60 МБ) на npm — і весь вихідний код Claude Code став доступним публічно. Деякі вирішили, що це геніальний першоквітневий розіграш. У коді навіть знайшли згадку про rollout window саме на 1–7 квітня. Жарт це був насправді чи реальна помилка — досі сперечаються.

Що саме витекло (за обговореннями у треді):

  • Повна архітектура агента Claude Code (tool use, computer use, bash, файлові операції тощо).
  • Система дозволів та "Bypass Permissions Mode" — детальний опис того, як працюють guardrails.
  • Повний system prompt Claude Code (включаючи security rules та "cyber risk instructions").
  • Логіка телеметрії — що саме відправляється в Datadog (модель, session ID, тип підписки, чи є користувач співробітником Anthropic тощо).
  • Внутрішня інфраструктура: WebSocket-сесії, JWT для інтеграції з IDE, feature flags через GrowthBook, session-ingress тощо.
  • Приховані/невипущені фічі (багато постів із розборами "hidden features").
  • Підсистема "Undercover Mode" — призначена для того, щоб Claude не розголошував внутрішню інформацію Anthropic та не публікував production-build з sourcemap-файлом

Розбір від Alex Kim
https://alex000kim.com/posts/2026-03-31-claude-code-source-leak/
Anthropic спеціально інжектить фейкові інструменти (fake tools), щоб отруїти спроби скопіювати поведінку Claude. Існує серверне узагальнення тексту з криптографічним підписом. Спеціальний режим (undercover.ts), який змушує модель приховувати згадки внутрішніх назв (Capybara, Tengu, Slack-канали, «Claude Code» тощо). Жорстка безпека bash-команд (23 перевірки проти ін'єкцій, символів нульової ширини тощо). Система кешування промптів із «липкими засувами» та 14 векторами інвалідації.

Згадується автономний режим агента KAIROS з командою /dream, щоденними логами, GitHub-webhook’ами та оновленнями кожні 5 хвилин. Схоже, це наступний великий крок після поточного Claude Code.

Найбільш мемний момент — у файлі userPromptKeywords.ts лежить великий regex, який ловить фрази на кшталт: wtf, ffs, omfg, shit, dumbass, fuck you, this sucks, damn it, що показують, що користувач злиться і, швидше за все, модель реагує інакше (автор припускає, що це для покращення досвіду або ескалації).

Витік небезпечний не стільки самим кодом, скільки розкриттям roadmap’у та внутрішніх механізмів захисту.

Візуалізація
https://ccunpacked.dev/ та https://ccleaks.com/
Особливо корисні розробникам, які хочуть зрозуміти, як Anthropic будує агентурні системи (tool calling, multi-agent, planning loop, безпеку bash тощо).

https://www.youtube.com/watch?v=LA3l81oEzJQ

Головні відкриття — приховані функції:

  • KAIROS: постійно активний background-агент, який працює 24/7, стежить за репозиторіями та сам виправляє баги,
  • ULTRAPLAN: глибоке планування до 30 хвилин у хмарі для складних завдань,
  • BUDDY: ігровий Tamagotchi-компаньйон у терміналі з 18 видами та статистикою,
  • DREAM: автоматична система самоочищення та консолідації пам’яті

Розбір від Джо Фабісевіч
https://build.ms/2026/4/1/the-claude-code-leak/
https://news.ycombinator.com/item?id=47609294
Інді-розробник, автор Plinky, пише не про сам виток, а про те, що він говорить про сучасну розробку. Anthropic одразу почав слати DMCA на GitHub (навіть на свої власні форки зі skills і прикладами). А потім з’явились clean-room-реалізації на Python і Rust.

В обговоренні жарти про «Claude сам злив»: класичний хайп про те, що модель сама вирішила «відкрити» себе.

Розбір від Han HELOIR YAN, Ph.D.
https://medium.com/@han.heloir/everyone-analyzed-claude-codes-features-nobody-analyzed-its-architecture-1173470ab622
Стаття більш технічна і спокійна - акцентує увагу не на мемних фішах (типу Buddy, Undercover Mode чи frustration regex), а на архітектурі Claude Code як повноцінного production-grade AI-агента.

Moat (захисний рів) Anthropic — не в самій моделі (LLM), а в harness (обв’язці, системі навколо моделі). Саме завдяки цій обв’язці Claude Code відчувається значно потужнішим за конкурентів, навіть якщо модель не завжди найкраща.

Nvidia Nemotron 3 Super
https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b
Nvidia презентували свою нову модель - Nemotron 3 Super, open hybrid Mamba-Transformer MoE модель: 120B total / 12B active parameters, 1M token контекст. Зараз безкоштовно в Kilo Code https://blog.kilo.ai/p/nvidia-nemotron-3-super-launch

На Hacker News пост про реліз набрав лише 13 поінтів і 2 коменти, в цілому всім все одно. Nvidia довго це робила й Qwen 3.5 зараз "наздогнав і перегнав" багато кого.

Оновлення моделі від Cursor
https://forum.cursor.com/t/introducing-composer-2/155288
https://cursor.com/blog/composer-2
Composer це власна модель Cursor, яка дає гарні результати на простих завданнях. Версію 2 тренували спеціально на довгих кодинг-завданнях через reinforcement learning. Модель доволі дешева, є звичайний та швидкий варіанти.

а це Kimi K2.5
https://news.ycombinator.com/item?id=47452404
Користувачі помітили, що Cursor Composer 2 базується на китайській моделі з відкритими вагами Kimi K2.5 від компанії Moonshot AI, а не є повністю власною розробкою Cursor «з нуля».

 Модель Kimi K2.5 має специфічну модифіковану ліцензію MIT. Вона вимагає обов'язково вказувати назву "Kimi K2.5" в інтерфейсі, якщо дохід компанії перевищує $20 млн на місяць. Пізніше представники Moonshot та Cursor підтвердили, що між ними є офіційне партнерство. Cursor отримує доступ до Kimi через провайдера інференсу Fireworks AI.

Оновлення інтерфейсу від Cursor
https://forum.cursor.com/t/what-is-cursor-glass/155327
https://cursor.com/glass
Glass це повністю новий інтерфейс який зараз у early access з парадігмою командно центра агентів. Дехто вже скаржиться, що оновлення «примусово» ставить Glass, поки що без перемикання назад.

https://www.youtube.com/watch?v=stRhZIrwa-w

Тепер агенти керуються в одному просторі: проектні трейди, паралельні сесії, marketplace плагінів, вбудований браузер+термінал, Git з одним кліком, Shift+Tab планування з Mermaid-діаграмами та todos.

Це добрий крок, щоб не відставати. Звісно наявний брак своїх ідей, бо має назву як інтерфейс Apple, а зовнішній вигляд як копія Codex app. Але більше зараз проблема, це що не можна тепер легко створювати/відкривати файли вручну тобто свій статус AI IDE, де можна все ще було напряму робити код (редактор для людей) Cursor втрачає.

модель Leanstral
https://mistral.ai/news/leanstral
Mistral AI представляє Leanstral — відкритий код-агент для мови програмування Lean 4 (яка ще interactive theorem prover). Модель з 6B активних параметрів у розрідженій архітектурі навчається не лише виконувати завдання, а й формально доводити правильність реалізацій. Це робить її потужним інструментом для перевірки коду.

Доступна безкоштовно в Mistral Vibe https://mistral.ai/products/vibe (через API labs-leanstral-2603) та для завантаження на власне обладнання та інтеграції з lean-lsp-mcp. Це перший внесок у майбутнє, де формальна верифікація стане повсякденною, а людський ревью перестане бути вузьким місцем.

Реакція ХН
https://news.ycombinator.com/item?id=47404796
Ентузіасти бачать майбутнє в «executable specs» коли агент пише код + докази, і регресії стають неможливими. Скептики нагадують що докази гарантують лише валідність, а не що ти довів саме те, що хотів і для звичайних проєктів (не математика/критичне ПЗ) це поки «overkill».

JetBrains Air
https://air.dev/changelog
JetBrains розробляє Air як Agentic Development Environment тобто Агентне середовище розробки, все це дуже схоже на відповідь до OpenAI Codex app - тут через підписку JetBrains AI Pro/Ultimate. Наразі доступна попередня версія (Preview) під Mac OS, розробка версій для Windows та Linux триває.

Почали як обгортка для Codex та Claude. 5 березня додали ще Gemini CLI та Junie. Тепер можна обирати між різними агентами залежно від завдання або комбінувати їх — один агент може перевіряти роботу іншого.

Можна використовувати ChatGPT підписку (тоді буде тільки Codex). Вхід через Claude Pro, Max та Team скасовано через нову політику використання Anthropic - треба додавати API ключі.

T3 Code
https://t3.codes/
Чомусь Teo вирішив окрім відеоблогера побути розробником - поки що вийшла забаговна обгортка Codex (потім буде й Claude Code) з мінімальним описом та доками. Навіщо це зараз використовувати замість оригінального Codex app мені не зрозуміло.

Cursor рік тому був найвідоміший AI-орієнтований код-редактор, але надалі конкуренція значно зросла.

Запустили свою CLI - за зиму додали там режими Plan і Ask, субагенти та навички, генерацію зображень, вбудовані Mermaid ASCII-діаграми, клавіатурні скорочення.

Cursor Cloud Agents з використанням комп'ютера
https://forum.cursor.com/t/cloud-agents-with-computer-use/152829
https://cursor.com/blog/third-era
Тепер агенти запускають створений софт у власному VM (повноцінному комп'ютеру), тестують зміни, генерують PR з скріншотами та логами. Можуть записувати коротке demo-відео. Можна підключитися до VM агента і подивитися.

https://www.youtube.com/watch?v=tMflcZHo2zI

Записано прямо в новому офісі Cursor. Глибокий розбір останнього великого оновлення, називають це "третьою ерою" Cursor де перша — просто AI-доповнення в редакторі, друга — локальні агенти, третя — повноцінні хмарні агенти з власним комп'ютером. Тепер рухаються в сторону agentic платформи.

Cursor у Zed та JetBrains
https://forum.cursor.com/t/cursor-is-now-available-in-jetbrains-ides/153584
Додали підтримку Agent Client Protocol (ACP) тобто тепер можна використовувати підписку та агента Cursor у тих IDE, що його підтримують як то IntelliJ IDEA, PyCharm, WebStorm.

Zed AI тільки для повнолітніх
https://zed.dev/blog/terms-update
Zed перелічили серед інших змін що додають обмеження 18+ й воно стосується «Service» — тобто хмарної SaaS-частини: створення аккаунту, AI-фіч (Zed Pro, edit prediction тощо).

У треді на Hacker News пояснили, що якщо дозволити <18, треба було б верифікувати згоду батьків, вести окремі політики зберігання/обробки даних, робити age-gate систему. Тому простіше було заборонити.

OpenAI активно намагається перехопити ініціативу у Cluade Code - зараз вкладають в це багато грошей.

Codex безкоштовно ще місяць
https://openai.com/codex/
Продовження оригінального limited-time промо від 2 лютого 2026. Після релізу Windows-версії Codex app подовжили ще на місяць, тепер безкоштовні ChatGPT аккаунти мають можливість генерувати код до 2 квітня. Для Plus - подвійні ліміти.

Codex app під Windows та GPT‑5.4
https://openai.com/index/introducing-gpt-5-4/
OpenAI представила нарешті windows версію Codex app та GPT‑5.4 нову модель, яка поєднує coding-можливості з GPT-5.3-Codex та потужний reasoning. Як завжди модель стала ефективнішою за токенами, швидшою в ітераціях та проактивнішою.

https://www.youtube.com/watch?v=8hNcRChDrNk

Додали спеціальній скіл WinUI App для розробників під Windows. Можна вибирати різні термінали та перемикатися на WSL.

З версії 26.305 додали fast mode де GPT-5.4 працює в 1.5 раза швидше при тому ж рівні інтелекту. З мінусів - не можна редагувати список "Default open destination".

Кажуть що GPT-5.4 може бачити скріншоти, керувати мишею та клавіатурою, запускати Playwright у режимі Interactive для візуального дебагінгу в реальному часі.

WebSocket режим
https://developers.openai.com/api/docs/guides/websocket-mode/
Це постійне з’єднання для Responses API, спеціально створене для довгих агентних workflow з купою tool calls (agentic coding, автоматизація, оркестрація). Для coding-агентів значно менша затримка в ітераціях, до 40% швидше виконання при 20+ tool calls.

Режим вбудовано в Codex App (macOS/Windows). У Codex-Spark режим увімкнено за замовчуванням, а для інших моделей у конфіг ~/.codex/config.toml треба додати responses_websockets_v2 = true (у версії CLI v0.110 буде Under-development features попередження).

Деякі люди вже втомилися від дедалі важчих інструментів, таких як Claude Code або Cursor, де все більше функцій не потрібні, промпти величезні, а все приховано.

Pi агент
https://shittycodingagent.ai/ https://pi.dev/
Супермінімалістичний open-source AI-кодинг агент для термінала — всього 4 базові інструменти: read, write, edit, bash. Все інше — через розширення. Працює як CLI, headless, RPC, SDK — саме тому Pi стоїть «під капотом» OpenClaw.

Сесії у вигляді дерева — можна розгалужувати, повертатися, експортувати в HTML. Повна прозорість — видно все, що відбувається.

Pi дозволяє підключати різні LLM-провайдери для роботи агента. Налаштування зберігаються в ~/.pi/agent/ (глобально) або .pi/ (локально в проєкті). Основні файли: settings.json для загальних параметрів, а також файли на кшталт SYSTEM.md для кастомних промптів. Автентифікацію можна здійснювати двома способами: через підписку (OAuth/login) або через API-ключ.

https://www.youtube.com/watch?v=boSPk_Ig4gU

Можна налаштувати та використовувати Pi Coding Agent локально безкоштовно через Ollama.

Як автор це зробив
https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
https://news.ycombinator.com/item?id=46844822
Без вбудованих режимів планування, фонового bash, суб-агентів чи MCP. Агент уникає прихованих ін'єкцій з боку інших harness, забезпечуючи повну спостережуваність взаємодій. Уникає частих змін промптів/інструментів (на відміну від Claude Code), які ламають робочі процеси.

5–10× довші вікна контексту завдяки мінімальному промпту, є зміна моделі посеред сесії.

Працює з необмеженим доступом до файлової системи та команд, визнаючи, що захисні бар'єри часто неефективні, а продуктивна робота вимагає повних можливостей. YOLO-режим лякає коментаторів на хакреньюз: ризик exfiltration, prompt injection, випадкове видалення бази даних тощо. Деякі радять chroot / containers / VMs, інші кажуть, що sandbox у Codex — «security theater».

https://news.ycombinator.com/item?id=47143754
Користувачі пишуть, що Pi дає «рівень контролю, якого не було раніше». RPC/headless-режим супер для інтеграцій. Екосистема форків і розширень — цікавий проект oh-my-pi https://github.com/can1357/oh-my-pi (batteries-included версія), але говорять часто ламає інструменти після оновлень.

Можливий Anthropic-бан, є попередження про ризик відключення акк за альтернативні клієнти (як з OpenCode).

Якщо роки 2 тому моделі в програмуванні поводилися як джин — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.

Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл AGENTS.md не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.

Ми вчимося спрощувати архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.

NxCode Team про роботу ШІ агентів
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).

Агенти провалюються не через якість моделі, а через поганий harness.

Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.

OpenAI про harness engineering
https://openai.com/index/harness-engineering/
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.

Найважливіше тепер — не тільки якісна модель, а середовище:
– структурована папка docs/ як single source of truth,
– короткий AGENTS.md (~100 рядків) замість гігантського промпту,
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
– «doc-gardening» агент, який сам виправляє застарілу документацію.

Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.

Обговорення на ХН про harness engineering
https://news.ycombinator.com/item?id=46988596
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив лише один інструмент — формат редагування файлів, замість apply_patch / str_replace ввів Hashline (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей покращили результати.

Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.

Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.

Розділення планування й виконання
https://boristane.com/blog/how-i-use-claude-code/
Автор ділиться структурованою методологією, яка розділяє процес на етапи, щоб Claude не писав код "наосліп", а працював за затвердженим планом. Завжди спочатку проводиться дослідження та планування, а лише потім — реалізація. Це запобігає помилкам, зберігає контроль над архітектурою та мінімізує витрати токенів (одиниць обчислення в ШІ).

Етапи робочого процесу

  1. Дослідження (Research Phase): Використовуємо слова на кшталт "глибоко", "детально" в промптах щоб перевірити що вже є - це агент документує в файлі research.md.
  2. Планування (Planning Phase): Створюємо детальний план у файлі plan.md з описом підходу, сніпетами коду, шляхами файлів та компромісами.
  3. Цикл анотацій (Annotation Cycle): Відкриваємо редактор - додаємо нотатки безпосередньо в план (наприклад, "використовуй PATCH, а не PUT"), далі агенту "I added a few notes to the document, address all the notes and update the document accordingly. don’t implement yet". Це робимо ітеративно декілька разів.
  4. Список завдань (Todo List): Коли все ок агент перетворює план у детальний чек-лист завдань. Постійно видаляйте непотрібне з плану, щоб уникнути розростання проєкту.
  5. Реалізація (Implementation Phase): Після затвердження плану використовується стандартний промпт: "реалізуй все", з маркуванням завершених завдань, перевіркою типів і уникненням зайвих коментарів: "implement it all. when you’re done with a task or phase, mark it as completed in the plan document. do not stop until all tasks and phases are completed. do not add unnecessary comments or jsdocs, do not use any or unknown types. continuously run typecheck to make sure you’re not introducing new issues."

Практичні поради: Надавайте агенту посилання на відкриті проєкти де є приклади схожого коду. Посилайтесь на план коли щось іде не так.

Обговорення
https://news.ycombinator.com/item?id=47106686
Багато користувачів погоджуються з принципом розділення планування та виконання, вважаючи це ефективним для зменшення помилок. Використання детальних планів у файлах .md забезпечують чіткий трек рішень і причин. Плани допомагають виявити упередження моделі, роблячи процес прозорішим.

Критики називають такий метод програмування "сміттям" або "азартною грою", стверджуючи, що він призводить як до "атрофії мозку" залежності від ШІ, так й до низької якість коду.

Чи справді допомагає AGENTS.md
https://arxiv.org/abs/2602.11988
Перше велике емпіричне дослідження, яке перевіряє, чи справді допомагають репозиторійні контекстні файли правил. Тестували три сценарії на реальних задачах SWE-bench та власному датасеті репозиторіїв з файлами AGENTS.md.

Головний висновок: сучасні агенти чудово самі знаходять потрібну інформацію в коді (package.json, README, схеми, типи). Додаткові інструкції частіше заважають, ніж допомагають.

Ключові мінуси таких файлів: зростання вартості так як агент більше читає файли, запускає тести, виконує зайві дії, бо намагається «виконати всі вимоги» з AGENTS.md де зазвичай вже застарілі інструкції вводять модель в оману.

Якщо писати AGENTS.md вручну — тільки мінімальні, точкові вимоги для виправлення конкретних повторюваних помилок агента.

https://www.youtube.com/watch?v=GcNu6wrLTJc

Практичні рекомендації від Theo:

  • Краще інвестувати час у чисту архітектуру, сильну типізацію, тести, CI/CD і документацію прямо в коді.
  • Сліпе слідування «best practices» від розробників агентів може бути шкідливим. Спробуйте видалити CLAUDE.md / AGENT.md і порівняйте швидкість та якість роботи агента.
  • Якщо файл все ж потрібен — робіть його коротким (до 15–30 рядків) і тільки для фіксу однієї проблеми.

Спеціальна техніка prompt engineering для AI-агентів: замість довгих правил у CLAUDE.md додаєте короткі, свідомо неправдиві, але корисні твердження, які керують поведінкою моделі набагато ефективніше.

Приклади, які показує Theo:

  • «This project is green» (або українською: «Проєкт зелений / все в ідеальному стані») → Агент перестає шукати неіснуючі помилки, не запускає зайві тести, не «фіксить» те, що не зламане.
  • «This is a brand new feature» (або «Це абсолютно новий функціонал, якого раніше не було») → Агент не копіює старий код, не намагається «пристосувати» існуюче рішення, а пише чисто і з нуля.
  • Інші варіанти, які часто використовують: – «All tests are passing» – «We always write production-ready code»

Обговорення HN
https://news.ycombinator.com/item?id=47034087
Усі майже одностайно згодні, що файли контексту, згенеровані LLM (часто це команда /init), погіршують результат. Добре написані вручну файли AGENTS.md корисні, але тільки якщо містять неочевидні знання про домен, яких модель не може вивести з коду. Додавати їх тільки після невдалих спроб агента.

Критика дослідження: відсутність вимірювання якості коду (тільки success rate), датасет тільки Python, переважно маленькі/LLM-генеровані репозиторії, до того ж моделі швидко змінюються — результати можуть через місяць вже не бути таким самим.

Документація у AGENTS.md
https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Агенти пишуть код для нових API Next.js 16, яких не було в тренувальних даних. Vercel тестували пасивну документацію (індекс реальних файлів docs), як контекст у AGENTS.md й він перемагає активні Skills, бо агенту не треба приймати рішення “чи викликати інструмент зараз?”. Це показує, що короткий розумний AGENTS.md (8 КБ індекс + одна ключова фраза) — це один з найкращих способів дати агенту знання, яких немає в моделі.

Поки що OpenAI не випустила повноцінну версію свого Codex app для Windows. Станом на лютий 2026 року додаток доступний тільки для macOS, а підтримка Windows анонсована як «coming soon», без конкретної дати.

OpenCode Desktop app
https://opencode.ai/download
OpenCode продовжують покращувати бета версію десктопного застосунку для macOS, Windows та Linux. Він позиціонується як безкоштовна альтернатива пропрієтарним інструментам типу Codex, Cursor чи Devin і активно розвивається.

https://www.youtube.com/watch?v=cGA_6M9x7AM

Хоча застосунок ще знаходиться в бета‑версії, автор відео відзначає вже його швидкість, добрий дизайн та адаптивність.

https://opencode.ai/docs/windows-wsl
Якщо використовуєте десктопну версію на Windows, то backend (серверна частина) краще запускати в WSL (Windows Subsystem for Linux) — зараз є відкриті issues про покращення інтеграції, але WSL вже дає найстабільніший результат. Значно краще продуктивність файлової системи, повноцінна підтримка терміналу та сумісність з інструментами розробки.

Мінімальні оновлення моделей.
Google свою Pro-модель Gemini 3 до версії 3.1 з покращеним високорівневим агентними можливостями. Anthropic середню модель Claude Sonnet 4.5 до 4.6. Потрохи додаються у всіх основних ШІ-кодінг інструментах. Модель Qwen3.5-Plus додали у Qwen Code.

https://blog.kilo.ai/p/grok-code-fast-optimized
https://kilo.ai/landing/grok-code-fast-1-optimized
xAI закінчили роздавати Grok Code Fast 1 безкоштовно у Kilo з 20 січня, але додали (й вже тимчасово прибрали) оптимізовану безкоштовну версію.


Підписка Copilot у Zed
https://github.blog/changelog/2026-02-19-github-copilot-support-in-zed-generally-available/
GitHub офіційно дозволили використання підписок Copilot Pro, Pro+, Business або Enterprise у Zed завдяки партнерству. Автентифікація відбувається безпосередньо через обліковий запис GitHub Copilot — додаткової ліцензії чи окремого API-ключа не потрібно.

Блокування від Anthropic
https://code.claude.com/docs/en/legal-and-compliance
З січня–лютого 2026 люди зустрічали блокування своєї підписки Pro/Max у інструментах не від Anthropic.

Тепер офіційно задокументували це у розділі Legal & Compliance: OAuth-токени від планів Free, Pro та Max призначені виключно для офіційного Claude Code та Claude.ai. Використання цих токенів у будь-яких сторонніх інструментах, редакторах чи сервісах — заборонено. Обліковий запис буде заблоковано без попередження.

https://news.ycombinator.com/item?id=47069299
Приблизно 80% коментарів критичні до Anthropic. Рішення розцінюється як класичний «enshittification» та lock-in спроба штучно направити всіх користувачів у власний Claude Code, який останнім часом став менш зручним (особливо рішення скрити опис мислення моделі) порівняно з OpenCode, Cursor, Codex, Aider, тощо. Воно призведе тільки до прискорення переходу на альтернативи.

Claude Opus 4.6 Fast Mode
https://code.claude.com/docs/en/fast-mode
Anthropic додали у Opus 4.6 новий прискорений режим генерації, швидкість виводу токенів зростає приблизно в 2,5 раза. При цьому якість відповідей не падає. Коштує значно дорожче (в 6 разів) і доступний як дослідницька функція (preview). Режим доступний й у Github Copilot.

GPT‑5.3‑Codex‑Spark
https://openai.com/index/introducing-gpt-5-3-codex-spark/
GPT-5.3-Codex-Spark — це менша версія GPT-5.3-Codex та модель, оптимізована для генерації коду у реальному часі (понад 1000 токенів на секунду) за допомогаю співпраці з компанією Cerebras. Це крок до гібридного Codex з двома режимами — довгостроковими задачами (години/дні) та реального часу. API поки що тільки для партнерів, ціну не називають.

За оновленням топ закритих моделей оновилися й топ моделі, від китайських компаній.

MiniMax M2.5
https://www.minimax.io/news/minimax-m25
Нова флагманська модель від китайської компанії MiniMax працює на швидкості 100 токенів на секунду, що майже вдвічі швидше за інші передові моделі. Виконує складні завдання на 37% швидше за M2.1 і на рівні з Claude Opus 4.6. Вартість M2.5 в середньому у 10-20 разів дешевша, ніж у Claude Opus, Gemini 3 Pro та GPT-5.

Повністю розгорнута у продукті MiniMax Agent, де користувачі можуть створювати власні "Експерти" для специфічних завдань, використовуючи "Офісні Навички" (Office Skills).

Модель буде доступна 7 днів безкоштовно у OpenCode.

GLM-5
https://z.ai/blog/glm-5
Нова флагманська відкрита (open-source) модель від китайської компанії Zhipu AI (тепер бренд Z.ai), кажуть про "Agentic engineering" (агентна інженерія) — довготривалі складні задачі, кодинг на рівні frontier-моделей. Низький рівень галюцинацій, покращений reasoning, підтримка довгого контексту. Кажуть тренування було на Huawei чипах.

https://www.youtube.com/watch?v=vtWMgVCMsx8

Лідер серед open-weights моделей за Artificial Analysis. Модель сумісна з Claude Code та OpenClaw. Зараз безкоштовно у Kilo Code. Також у OpenCode.

Ollama Cloud
https://docs.ollama.com/cloud та https://ollama.com/pricing
https://ollama.com/library/glm-5
Додали ollama launch opencode --model minimax-m2.5:cloud чи ollama launch claude --model glm-5:cloud так можна запустити основі CLI для програмування підтягнувши в них нові моделі з хмари Ollama. Почати використовувати функцію можна безкоштовно, ще є тарифи за $20 та $100 на місяць.