CodeWithLLM-Updates
-
🤖 Інструменти ШІ для програмування: практичні приклади, покрокові інструкції та реальні застосування LLM. Навчіться ефективно працювати з сучасними асистентами програмування.

Новини від OpenAI.

GPT-5.5-Cyber і ініціатива Daybreak
https://openai.com/index/gpt-5-5-with-trusted-access-for-cyber/
Анонсували реліз моделі GPT-5.5-Cyber у рамках ініціативи Daybreak. Модель заточена під захисну безпеку: пошук вразливостей, threat modeling, генерація патчів для кодових баз. На бенчмарку CyberGym вона набрала 85.6% — більше за базовий GPT-5.5 (81.8%) і Anthropic Mythos 5 (83.8%). Наразі доступ — лише для верифікованих організацій.

Codex: скидання rate-limit
https://community.openai.com/t/flexible-rate-limit-resets-for-codex-and-a-method-to-get-a-reset/1383470
Головна зміна червня 2026 — banked rate-limit resets. Механізм: якщо протягом 5-годинного вікна не вибрати увесь ліміт — залишок «банкується» і зберігається як окремий reset, який можна використати пізніше. Це не API-кредити і не гроші на балансі — виключно додатковий ліміт у межах підписки ChatGPT. Він діє 30 днів від моменту нарахування.

Кожен користувач Plus/Pro отримав один безкоштовний reset, ще до трьох можна заробити рефералами до 24 червня. У деяких не з'являлися до першого рефералу. Активувати банкований reset можна через Codex desktop app у розділі Settings → Usage remaining. Є нюанс: (деякі Linux і) CLI-користувачі та VSCode-плагін-користувачі поки не мають нативного способу це зробити — тільки десктопний застосунок. У спільноті вже з'явились неофіційні скрипти для CLI-обходу.

Також з'явився екран Codex Profile — там видно usage stats і графіки активності токенів, що особливо корисно з переходом на токенний білінг.

Codex-Maxxing — гайд для довгих сесій
https://openai.com/index/codex-maxxing-long-running-work/
OpenAI опублікувала PDF офіційний гайд / white paper Codex-Maxxing. Це методичка про те, як можна використовувати Codex як постійного робочого агента, який веде довготривалі проєкти, а не просто відповідає на окремі запити. OpenAI бачить майбутнє не в тому, щоб кожного разу починати новий чат.

Термін "Codex-maxxing" тут використовується як назва підходу: не просто задавати питання Codex, а будувати навколо систему роботи:

  • Codex може й має працювати не тільки з кодом. Може керувати як комп'ютером, так і тільки браузером чи мати MCP доступ до пошти/календаря/ітд.
  • замість окремих чатів — постійні потоки роботи (Durable Threads) із накопиченою історією проекту і стиснення контексту (compaction.
  • пам'ять агента повинна бути видимою й відокремленою. Репозиторії зберігають код. Vault (окрема папка) зберігає контекст, рішення, відкрити цикли, поточний стан роботи, тощо.
  • steering — керування під час роботи. Ми не кидаємо завданнях і чекаємо щоб оцінити результат, тепер дивимося що відбувається й в реальному часі дорозповідаємо агенту правки. Взаємодія нагадує роботу з живим співробітником. Дивимося не в чат, а на саму роботу (документи, код) й коментуємо конкретно що де треба по іншому.
  • голос краще за текст + доступ з телефону. OpenAI вважає, що люди текстом часто вводять занадто "відредаговані" запити, а голос дозволяє передати емоції, сирі ідеї, уривки думок які сучасні моделі вже можуть брати до роботи. Ідеш гуляти та розмовляти з агентом з телефону, поки він працює за комп'ютером.
  • використовувати Heartbeats, вони ж Thread Automation — заплановані автоматичні перевірки які дозволяють агенту моніторити стан репозиторію або CI-пайплайну без участі людини. Агент не чекає нового повідомлення від користувача, а сам повертається до задачі за розкладом.

Задачі формулюються через чіткі верифіковані критерії виходу — наприклад, «покрити 100% тестами» або «скоротити час деплою на 30%» — і агент працює автономно до їх досягнення з перевірками. Погана сформульована задача це "Реалізуй весь план", добра це "Перенеси бібліотеку на Rust, збережи API сумісним і вважай задачу завершеною лише тоді, коли всі старі тести проходять успішно."

Китайські ШІ сервіси продовжують потрохи наздоганяти США варіанти.

TRAE Solo тепер Work
https://solo.trae.cn/
https://docs.trae.ai/solo/what-is-trae-solo?_lang=en
ByteDance перейменувала свій інструмент «Trae Solo» на Trae Work, підкреслюючи зміну позиціонування: від простого асистента розробника до повноцінного автономного «ШІ-співробітника» для виконання різних завдань (збір даних, створення контенту, веб дослідження, тощо). Code залишається як окрема вкладка, є конектор до GitHub. За інтерфейсом схоже на Codex app, наявні Skills та MCP з каталогом. Інструмент доступний у вебі, на десктопі та на мобільному телефоні. За замовчуванням для нових аккаунтів "Privacy Mode" вимкнений, тому треба самому його активувати.

Розумна GLM-5.2
https://docs.z.ai/guides/llm/glm-5.2
https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index
Zhipu AI випустила GLM-5.2 — Mixture-of-Experts (MoE) модель на 753B параметрів під ліцензією MIT, що значно покращує показники GLM-5.1. Контекстне вікно розширили до 1M токенів (проти 200k у попередника).

https://www.youtube.com/watch?v=nODxez6nZEU

Модель посіла перше місце серед open-source моделей у рейтингу Artificial Analysis Intelligence Index (v4.1) з оцінкою 51, демонструючи кодинг-навички на рівні пропрієтарної Claude Opus 4.8. В цілому вона більше заплутуєтся й споживає більше токенів, але видає результати.

Обговорення
https://news.ycombinator.com/item?id=48567759
На Hacker News модель хвалять за співвідношення ціни та можливостей на довгих циклах розробки. Водночас користувачі зазначають, що режим міркувань «Max» є вкрай повільним та витрачає багато токенів. Через великий розмір (753B) локальний запуск на звичайних MacBook Pro неможливий, але можливо купувати GPU-хмару чи через https://openrouter.ai/z-ai/glm-5.2#providers.

На сьогодні рейтингу ТОП моделей для програмування на OpenRouter за обсягом використання (кількістю токенів):

  1. MiMo-V2.5 (від xiaomi) — впевнений лідер рейтингу з обсягом 4.59T (трильйонів) токенів, що становить 22.5% від загальної частки ринку.
  2. MiniMax M3 (від minimax) — посідає друге місце з показником 2.45T токенів (12.0%).
  3. Hy3 preview (від tencent) — третє місце з обсягом 1.43T токенів (7.0%).
  4. Claude Opus 4.7 (від anthropic) — четверте місце, на яке припадає 1.17T токенів (5.7%).
  5. DeepSeek V4 Pro (від deepseek) — замикає першу п'ятірку з обсягом 1.14T токенів (5.6%).
  6. DeepSeek V4 Flash (від deepseek) — шосте місце з показником 972B (мільярдів) токенів (4.8%).
  7. GLM 5.1 (від z-ai) — сьоме місце з 952B токенів (4.7%).
  8. GLM 5.2 (від z-ai) — восьме місце з 820B токенів (4.0%).

GLM-5.2 у OpenCode
https://dev.to/danielbergholz/testing-glm-52-on-opencode-im-impressed-1780
Автор статті Даніель Бергхольц протестував її в реальних умовах розробки, інтегрувавши GLM-5.2 через OpenRouter у безкоштовний кодинг-агент OpenCode.

У практичному тесті на реальному проєкті Next.js модель мала розробити функціонал фільтрації статей із дебаунсом у 300 мс без засмічення історії браузера. GLM-5.2 показала себе як дещо повільна, але вдумлива модель: у режимі планування вона без додаткових підказок проаналізувала архітектуру проєкту, зрозуміла різницю між серверними й клієнтськими компонентами та логічно пояснила вибір саме клієнтського рендерингу для цього завдання. Вона з першої спроби («one-shot») написала чистий, робочий код і виявила рідкісну для ШІ-помічників «стриманість», не намагаючись ускладнити наявну структуру проєкту.

Весь сеанс роботи, що включав дослідження репозиторію, планування, написання коду, рев'ю та фінальне виправлення, коштував автору лише $0,265 (менше 27 центів).

Якість генерації коду продовжує зростати, але уряд США намагається не допустити до цього інших людей.

Fable 5 - прибрали за 3 дні
https://www.anthropic.com/news/claude-fable-5-mythos-5
https://support.claude.com/en/articles/14328960-identity-verification-on-claude
9 червня 2026 року Anthropic презентувала Claude Fable 5 — модель нового Mythos-класу. Тести показали рекордний рівень автономності (проходження ігор за допомогою комп'ютерного зору) в тому числі в створенні коду.

https://www.youtube.com/watch?v=LoIGVdfTq9M

Проте вже за 3 дні доступ до моделей призупинили: уряд США видав експортну директиву, яка забороняє користування моделями будь-яким іноземним громадянам (foreign nationals). Через неможливість миттєво відсіяти іноземців Anthropic вимкнула моделі для всіх клієнтів.

Щоб вирішити проблему, компанія запускає обов’язкову верифікацію особи (ID + селфі) через сервіс Persona. Сама процедура глобальна й підтримує документи більшості країн. Проте доступ до топової Fable 5 через вимоги США отримають тільки підтверджені американські громадяни та резиденти.

Обговорення
https://news.ycombinator.com/item?id=48618455
Спільнота на Hacker News сприйняла нововведення вкрай негативно. Багато розробників з інших країн зазначають, що оплачувати підписку Anthropic тепер безглуздо, оскільки вони не отримають доступу до майбутніх флагманів. Введення верифікації через Persona викликає серйозні побоювання щодо приватності, а раптове відключення Fable 5 підірвало довіру до американських SaaS як надійного фундаменту для бізнесу.

Хоча зараз ця топова модель залишається доступною лише обраному колу осіб — військовим та співробітникам самої компанії Anthropic, — я думаю це тимчасове явище. Очевидно, що OpenAI вже готує свою відповідь у вигляді GPT-6, а Google також веде активні розробки у цьому напрямі. Тому поява у широкому доступі моделей наступного покоління з якісно новим рівнем автономності та генерації коду — це лише питання найближчих місяців. Почекаємо

Китайський ШІ-гігант MiniMax анонсував нове покоління моделей М, це буде M3.

MiniMax M3
https://www.minimax.io/blog/minimax-m3
https://www.minimax.io/models/text/m3
MiniMax-M3 зроблена з акцентом на глибокий reasoning, coding та автономні пайплайни, бере текст + image + video на вході, видає текст на виході. Модель спеціально оптимізована для agentic-роботи та складних, довгострокових завдань, а не просто чат-інтеракцій.

MiniMax Sparse Attention (MSA) — нова sparse attention-механізм, який радикально знижує обчислювальні витрати на довгому контексті (приблизно 1/20 від попереднього покоління). До 1M токенів, також гарантовано мінімум 512K в більш дешевому варіанті API. Є Token Plans (від $20/міс), підкреслюють можливість варіанту $50/міс.

Тести виглядають круто. SWE-Bench Pro ~59% та Terminal-Bench 2.1 ~66% Це на рівні GPT-5.5 та Gemini 3.1 Pro, відстає тільки від Claude Opus 4.8. На хакерньюз обговорень активних немає.

Оновлення MiniMax Code
https://code.minimax.io/
З оновленням M3 MiniMax Code також отримав значне оновлення та максимально використовує можливості моделі: довгий контекст, agentic-навички та native multimodality. Программа може не тільки генерувати код, а й робити документи/PDF/слайди/таблиці/іконки. Завдяки мультимодальності, MiniMax Code підтримує computer use (управління комп’ютером).

Концепція будується навколо делегування коли ви не пишете код разом з ШІ, ви ним керуєте: Producer + Verifier adversarial loop — агенти постійно генерують, рефлексують, перевіряють і виправляють помилки в реальному часі. Є варіант Smart Authorize щоб постійно не моніторити кожну дію агентів.

https://www.youtube.com/watch?v=mBHFGeU18MI

Є нативна підтримка MCP-серверів для підключення зовнішніх баз даних та документації. Є маркетплейз скілов. Є можливість інтеграції з ботом в телеграм, WeChat, Lark, щоб керувати агентами з телефону. Можлива автономна робота протягом днів без втручання людини. Також запуск завдань за розкладом.

Microsoft на своєму травневому Build 2026 презентували ряд змін, в напрямку переходу від простого AI-асистування до автономних агентів.

Власні моделі MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/
Показали нову родину моделей MAI (Microsoft AI) це аж 7 шт, зокрема MAI-Code-1-Flash та MAI-Thinking-1. Microsoft фактично зменшує залежність від OpenAI. Компанія заявляє про frontier-рівень результатів для автономних задач.

Модель MAI-Code-1-Flash має 5B активних з 137B параметрів (тобто середнього розміру) та вікно контексту на 2 мільйони токенів (тобто дуже велике), працює з рекордно низькою затримкою. На презентаційних слайдах усе виглядає ідеально: заявляють, що обходить старі покоління флагманської GPT-4o. Її відкрито позиціонують як базовий двигун для пайплайнів, що буде інтегрований у GitHub Copilot, VS Code та інших продуктів MS.

Обговорення
https://news.ycombinator.com/item?id=48374466
Доволі активное обговоренні на Hacker News (яке зібрало понад 600 коментарів за добу) люди зазначають, що відкриті моделі на кшталт Qwen 3.6 (35B) або DeepSeek V4 Flash видають кращі результати і працюють в рази швидше, тоді як новий жорсткий токен-білінг GitHub Copilot може зробити використання MAI-Code-1-Flash економічно невигідним.

GitHub Copilot — тепер це окрема програма
https://github.blog/2026-06-02-github-copilot-app-the-agent-native-desktop-experience/
Колись Copilot був плагіном у VS Code, потім став його частиною. Тепер вслід за Codex, Curosr, Zed та іншими Microsoft вирішили робити окремий GitHub Copilot App — «agent-native» чат посередені десктопний додаток.

Це єдиний центр управління (control plane) для агентів, які паралельно працюють в ізольованих git-деревах, створюють PR та дебажать код. Вони радикально відходять від концепції редактора у бік делегування цілих воркфлоу. Є підтримка MCP-серверів.

https://www.youtube.com/watch?v=5Q5mLNYJ6Hw

Замість того, щоб губитися на сайті GitHub, у додатку є зручна вкладка On your radar (або Inbox), де зібрані всі ваші Pull Requests (PR) та Issues з обраних репозиторіїв. Можна відкрити будь-який PR, переглянути зміни в коді (diff), залишити коментар або заапрувити його. Більше того, можна тегнути @copilot прямо в коментарях, щоб він щось виправив чи пояснив.

Можна створювати "швидкі чати" для загальних питань (навіть не пов'язаних з кодом, наприклад, для ігор D&D), або сесії, прив'язані до конкретного репозиторію. У додатку можна перемикатися між різними LLM. Автор, наприклад, використовує модель Claude Opus 4.7 для генерації коду.

Ізоляція агентів: MXC (Microsoft Execution Containers)
https://www.microsoft.com/en-us/security/blog/2026/06/02/microsoft-build-2026-securing-code-agents-and-models/
Через те, що агенти тепер виконують реальний код, лазять по системах та інфраструктурі, Microsoft впроваджує MXC на рівні ядра Windows 11. Це новий рівень ізоляції та sandboxing спеціально для AI-додатків. Windows фактично перетворюється на "Agent Runtime" платформу.

На демонстрації показали як OpenClaw намагається видалити всі файли з робочого стола і як йому це не вдається.

Ще нові моделі травня.

Cursor Composer 2.5
https://cursor.com/blog/composer-2-5
18 травня 2026 року команда Cursor випустила модель Composer 2.5, яка базується на тій самій відкритій моделі Kimi K2.5 від Moonshot AI, але тепер близько 85% це власне донавчання Cursor. Головна зміна порівняно з Composer 2 — зростання автономності та оптимізація вартості.

Модель пропонує два тарифи: Standard за $0.50 за млн вхідних і $2.50 за млн вихідних токенів, та Fast за $3/$15. У тестах SWE-Bench Pro досягла 49% успішності (проти 12% у Composer 2), тобто навички кодингу та розуміння контексту зросли в рази за доволі прийнятну ціну.

Qwen 3.7 Max
https://qwen.ai/blog?id=qwen3.7
20 травня 2026 року на Alibaba Cloud Summit було анонсовано Qwen3.7-Max. На відміну від попередньої лінійки Qwen 3.6, яка орієнтувалася на загальні завдання, нова версія позиціонується виключно як агентна модель для наддовгих циклів автономної роботи. Головна зміна — стійкість на довгих завданнях.

Alibaba продемонструвала кейс, де модель повністю автономно оптимізувала GPU-ядро протягом 35 годин без жодної участі людини, виконавши понад 1100 викликів інструментів. Контекстне вікно розширили до 1 млн токенів (проти 256k у попередника), а також підвищили "щільність" міркувань на токен.

Qwen3.7-Max може генерувати складні інтерактивні вебзастосунки з одного запиту — включаючи 3D-сцени на Three.js, анімації Canvas, повносторінкові макети та динамічні SVG.

https://openrouter.ai/qwen/qwen3.7-max
Зараз 50% знижка на модель у OpenRouter ($1.25/$3.75), що робить Qwen 3.7 Max поки що чи не найкращим вибором за співвідношенням ціна/можливості для довгих запусків.

Claude Opus 4.8 — менше галюцинацій та більше контролю
https://www.anthropic.com/news/claude-opus-4-8
28 травня 2026 року Anthropic представили Claude Opus 4.8 (ціна така ж як була у 4.7 $5/$25 за млн токенів) й знову очолили глобальний рейтинг Artificial Analysis з оцінкою 61.4, обійшовши GPT-5.5.

Замість фокуса на абстрактних бенчмарках Anthropic зробили ставку на "чесність" системи: модель навчилася прямо говорити "я не знаю" або просити уточнення, а також у 4 рази рідше пропускає приховані баги у власному коді порівняно з Opus 4.7.

В Claude Code з'явилися dynamic workflows. Тепер Opus 4.8 може самостійно планувати масштабне завдання, запускати паралельних субагентів і перевіряти результат перед здачею роботи.

Google на травневому I/O 2026 вже почав «закручувати гайки» та радикально перекроювати свою інфраструктуру для розробників.

Gemini 3.5 Flash
https://deepmind.google/models/gemini-3-5-flash/
Головним "двигуном" анонсу стала модель Gemini 3.5 Flash, яка передує майбутній 3.5 Pro. Google заявляє, що модель працює значно швидше за попередні покоління та показує frontier-рівень результатів у задачах agentic coding: ~76.2% на Terminal Bench 2.1 та ~55.1% на SWE-Bench Pro.

Нова Flash в рази дорожча за попередню, а масове використання агентів швидко спалює токени та compute.

Тариф за $100.
https://blog.google/innovation-and-ai/technology/ai/google-io-2026-all-our-announcements/
Google вводить новий тарифний план — Google AI Ultra за $100 на місяць, який дає вищі ліміти на використання агентів в Antigravity. Також оновлюється дорожчий enterprise-рівень: замість простих лімітів на повідомлення все більше використовується модель «compute-used» — фактична оплата за ресурси агентів та execution.

Все буде Antigravity
https://antigravity.google/blog/introducing-google-antigravity-2-0
Раніше Project IDX базувався на Code OSS (відкритому VS Code). Тепер стратегія змінилася: Google активно переводить фокус з IDX та Firebase Studio у бік Antigravity.

Замість розрізнених інструментів тепер просувається Antigravity 2.0 — «agent-first» платформа для розробки за популярним останніми місяцями підходом чат-посередені. Це пряма відповідь на Codex app та Cursor 3, але з повним контролем з боку Google над execution environment, sandboxing та orchestration агентів. Вони теж відходять від редакторів "як VS Code", але радикально прибрали редактор тексту зовсім.

https://www.youtube.com/watch?v=3arUEZlv9mc

Судячи з малоактивного обговорення на Hacker News і перших відгуків про Antigravity 2, виглядає так, що багато розробників взагалі не перейшли до активного використання інструменту після запуску — він сприймається радше як ще один експериментальний AI-IDE, ніж як стабільний робочий інструмент.

Від Gemini CLI до Antigravity CLI
https://developers.googleblog.com/an-important-update-transitioning-gemini-cli-to-antigravity-cli/
Google офіційно оголосив про закриття старих інструментів. Особливо швидко зникне з 18 червня 2026 року Gemini CLI (відкритий код, щоденні квоти) та розширення Gemini Code Assist - вони припиняють обслуговувати запити для безкоштовних користувачів та навіть для підписників AI Pro/Ultra, залишиться тільки для Enterprise.

Google фактично переводить фокус з Gemini CLI та Gemini Code Assist на новий Antigravity CLI (закритий код), який стає основним термінальним інструментом для agentic workflows. Квоти тепер більше схожі не на «кількість промптів», а на модель compute usage — скільки агентів та ресурсів реально використовуєш. Зараз вона працює дуже погано й скоріше збирає баг-репорти, ніж є інструментом розробника.

Окрім моделей Google, у наявності також дві моделі Claude від Anthropic і чомусь GPT-OSS 120B від OpenAI. Все.

Нативний Android в Google AI Studio
https://android-developers.googleblog.com/2026/05/build-android-apps-google-ai-studio.html
В Google AI Studio тепер можна з промпту згенерувати нативний Android-додаток (Kotlin/Jetpack Compose) і запустити його в емуляторі прямо в браузері.

Якщо проект стає складним — Google пропонує «безшовний» експорт в Android Studio для подальшої agentic-розробки.

Кілька цікавих апдейтів за травень. На фоні новин про xAI, Anthropic теж здивували, оголосивши 6 травня про партнерство зі SpaceX для розширення своїх обчислювальних потужностей.

Знижки від Anthropic та перехід на нове ціноутворення
https://www.anthropic.com/news/higher-limits-spacex
Anthropic оголосила про тимчасову "весняну знижку" на використання API своїх моделей. Також перестали блокувати використання у стилі OpenClaw. Але це радше спроба загладити кути перед великими змінами: компанія все частіше натякає на перегляд класичної моделі «фіксована підписка — безлімітний чат».

Замість оплати "за токени" впроваджується динамічний прайсинг (Compute-based pricing). Вартість запиту залежатиме від того, скільки обчислювальних ресурсів модель витратила на "міркування" (reasoning).

Оновлення Claude Code
https://code.claude.com/docs/en/whats-new#week-18
У windows нарешті Claude Code більше не вимагає встановленого Git Bash, якщо він відсутній, інструмент тепер нативно використовує PowerShell.

Робота у хмарі. Відкрили публічний доступ (research preview) до нової команди /ultrareview яка піднімає декілька автономних ШІ-агентів у хмарі, які паралельно перевіряють репозиторій на вразливості та баги. До цього ще запустили команду /ultraplan - велике завдання планування пушится на сервери Anthropic, де під нього піднімається ізольована віртуальна машина (4 ядра CPU, 16 ГБ RAM, зі встановленими Node.js, Python, Rust, Docker тощо), а після видає посилання на веб-інтерфейс з результатами.

Керування OpenAI Codex з мобільного
https://openai.com/news/codex-mobile-app/
У відповідь на схожу функцію у Cluade Code OpenAI випустила оновлення для Codex, яке дозволяє керувати AI-агентами зі смартфона. Тепер розробникам не обов'язково бути біля ноутбука: можна апрувити pull requests, запускати пайплайни тестування, вирішувати конфлікти злиття або давати промпти на фікс дрібних багів на ходу. Інтерфейс максимально оптимізовано під голос та швидкі команди — по суті, це кишеньковий пульт до агента на комп'ютері.

Gemma-моделі у Gemini CLI
https://cloud.google.com/blog/products/gcp-cli-gemma
Оновлення термінального клієнта Gemini CLI (v0.40.0) додало експериментальну інтеграцію локальних моделей Gemma. У v0.41.0 з’явилась підтримка Gemma 4 models (experimental). Поки що для інтелектуального роутингу запитів (Model Routing) й повністю offline agent execution поки немає, але команда вже готує повноцінне виконання завдань локально.

Ще покращили роботи за пам'яттю. Tiered Memory (багаторівнева пам'ять) дозволяє агенту зберігати контекст прямо в Markdown-файлах на чотирьох рівнях: від глобальних стилів розробника (у ~/.gemini/GEMINI.md) до правил конкретної директорії проекту. А нова функція Auto Memory фоново аналізує старі сесії, знаходить вдалі рішення і пропонує зберегти їх як багаторазові навички у SKILL.md. Auto Memory Inbox (з v0.42) це система, яка автоматично збирає, класифікує та пропонує важливі фрагменти інформації для довготривалої пам’яті AI-асистента.

Також покращили голосовий режим.

Якщо казати про всіх великих гравців LLM, то тільки xAI на сьогодні не заробляють на розробниках та програмістах. Схоже почали це виправляти.

Cursor та xAI
https://techsifted.com/posts/spacex-cursor-acquisition-april-2026/
SpaceX/xAI отримує опціон на купівлю Cursor за $60 млрд, якщо купівля не відбудеться — Cursor все одно отримає $10 млрд за партнерство та спільну R&D-роботу. Це право купити компанію пізніше за зафіксованою ціною.

В березні кілька ключових інженерів Cursor переходять працювати в xAI. У травні Cursor починає масштабну міжнародну експансію та найм. Якщо інфраструктура xAI зробить наступні версії ще потужнішими, більшість користувачів Cursor, ймовірно, залишаться.

Реакція розробників неоднозначна. Частина аудиторії Cursor обирала його саме через незалежність — не OpenAI, не Microsoft і не Google, а будь яка їх модель за бажанням. Тепер сервіс потенційно опиняється в екосистемі Ілона Маска чи це вплине на пріоритет моделі Grok поки не зрозуміло.

Дотренування Grok на даних Cursor
https://x.com/elonmusk/status/2055914584373141906
17 травня xAI завершила первинне тренування величезної моделі Grok V9 (1.5 трильйона параметрів). Наступний етап — supplemental training з використанням даних від Cursor. Це дозволить моделям Grok значно покращити кодинг-навички, адже Cursor зібрало величезну базу якісного коду від розробників.

Запуск Grok Build CLI
https://x.ai/news/grok-build-cli https://x.ai/cli
14 травня xAI випустила раню beta версію Grok Build — агента для генерації коду: планування задач, підагенти для паралельної роботи, headless режим для скриптів, підтримка AGENTS.md, diff, плагінів тощо. Все як у дорослих. Це прямий конкурент Claude Code та подібних інструментів.

Але доступний на зараз тільки для підписки SuperGrok Heavy (план за 300$ - є три дні тріал), працює в терміналі тільки Linux/macOS. В windows тільки через WSL. Оновлення виходять майже щодня, користувачі вже хвалять швидкість і якість. Elon Musk особисто просить фідбек.

https://www.youtube.com/watch?v=l_dAOKHLiYw

xAI зараз пропонує акційну підписку на SuperGrok Heavy: замість $300 на місяць тариф тимчасово коштує близько $99 протягом перших шести місяців. Але користувачі скаржаться, що навіть Heavy не відчувається “безлімітним”, а реальні ліміти можуть змінюватись залежно від навантаження на систему.

БД видалив не ШІ
https://idiallo.com/blog/ai-didnt-delete-your-database-you-did
Став популярним твіт: засновник стартапу заявив, що ШІ-агент за кілька секунд повністю видалив їхню продакшн-базу даних. Він обурювався, допитував модель і шукав винних у «поганому AI». Але автор статті каже: це не ШІ винен. Проблема в тому, що в продакшені існував публічний API-ендпоінт, який міг одним запитом знищити всю базу.

Це як поставити кнопку самознищення на видному місці й дивуватися, коли хтось її натиснув. Ibrahim Diallo каже, що не ШІ видалив базу — це зробили самі розробники небезпечною архітектурою, відсутністю захисту й безвідповідальністю. ШІ просто виявив те, що вони недбало залишили.

Обговорення
https://news.ycombinator.com/item?id=48022742
Більшість людей повністю згодні зі статтею: не ШІ винен, а той, хто дав агенту необмежений доступ до продакшену, не обмежив права API-токена і не поставив захистів. Інструмент може бути небезпечним, але відповідальність завжди на операторі. Багато хто критикує «AI-maximalism» — коли розробники з ентузіазмом дають агентам повний доступ замість sandbox і review.

10 уроків кодінгу з агентом
https://www.dbreunig.com/2026/05/04/10-lessons-for-agentic-coding.html
Завдяки сучасним ШІ-агентам код став надзвичайно дешевим у створенні, але дорогим в підтримці, безпеці та супроводі. Це повністю змінює підхід до розробки: тепер головне — не економити на написанні коду, а грамотно використовувати цю дешевизну.

  1. Впроваджуй, щоб навчатися. За допомогою Spec-Driven Development можна зайти далеко, але сам процес написання коду виявляє рішення, про які ви не подумали, і робить ваш spec кращим. Коли код дешевий – впроваджуй, щоб навчатися.
  2. Перебудовуй часто. Впроваджуй рано і часто, щоб дізнатися більше. Форкай і переписуй божевільні експерименти. Дізнавайся, як далеко можна завести фічу. Звісно, хочеться ітерувати та накопичувати зусилля, але дешевий код означає, що ви можете розвідувати та переосмислювати такими способами, які раніше були неможливими.
  3. Інвестуй у наскрізні тести. Коли ми можемо дешево переосмислювати свій код, варто витрачати час на написання тестів, які вимірюють функції нашого продукту, а не те, як він їх виконує. Нам потрібні поведінкові контракти, які дають свободу перебудовувати та перевпроваджувати.
  4. Документуй наміри. Тести деталізують наші цілі, а код кодує наші методи, але жоден із них не фіксує «чому». Ваш намір мотивує ваші рішення, і збереження його поряд із кодом допомагає вам і вашому агенту накопичувати ці рішення в послідовному напрямку.
  5. Тримай свої spec-и синхронізованими. Оновлюй свої spec-и (markdown-файли з вашими цілями та планами) у міру того, як просувається ваш код і ваші тести. Якщо ставитися до spec-у як до замороженого артефакту, написаного до початку роботи, ви втратите можливість фіксувати навчання під час впровадження. Підтримка його актуальності дозволяє постійно впливати на ваші рішення та рішення ваших агентів, а також полегшує часті перебудови.
  6. Знаходь складні речі. Працюй над проєктом досить довго – і речі перестануть бути легкими. Ви швидко пролітаєте шаблонну роботу, очевидні дизайнерські рішення і починаєте натикатися на потворну, важку роботу: інтуїтивний дизайн, продуктивність, безпека, стійкість і системна архітектура. Будь-хто може «профінтити» легкі речі. Цінність – у важкій роботі. Знайди її і занурюйся.
  7. Автоматизуй усе, що легко. Щоб більше часу приділяти складним речам, мінімізуй час на легкі. Перетворюй навчання на навички, будуй цикли, автоматизуй рев'ю коду, дозволь інструментам накопичувати ефект. Але обережно: не застрягай у «Таємничому будинку».
  8. Розвивай свій смак. Коли код приходить швидко, а зворотний зв'язок – ні, єдиним джерелом зворотного зв'язку, яке встигає, є ви самі. Чим краще ви знаєте свою доменну область, своїх користувачів та їхні проблеми, тим далі ви зможете зайти без узгодження.
  9. Агенти підсилюють досвід. Талановиті розробники недооцінюють, скільки інтуїції вони вкладають у свої промпти: правильні терміни, правильне формулювання, правильний рівень конкретики. Якщо ви знаєте свій стек, ви можете заощадити безліч циклів як під час впровадження, так і під час налагодження, а також скоротити непотрібне дослідження агента. Поєднуйте технічну експертизу з чудовим смаком для непереможної переваги.
  10. Код дешевий, але супровід, підтримка та безпека – ні. Агентний код є «безкоштовним, як цуценята». Підтримка не дешева, і безпека теж. Будуй швидко, але пам'ятай про супровід, який ти береш на себе.

Обговорення
https://news.ycombinator.com/item?id=48019025
активне й переважно позитивне — багато хто вважає її однією з найпрактичніших і тверезих публікацій про роботу з ШІ-агентами. Більшість людей згодні з автором: код став надзвичайно дешевим, тому фокус має зміститися на архітектуру, безпеку, end-to-end тести, підтримку та «смак» (taste). Є й скептики: деякі вважають, що кодинг — лише мала частина роботи, бізнес- та організаційні bottleneck нікуди не дінуться, а в великих компаніях швидкість розробки не є головним обмеженням.

Zed вийшов у версії 1.0
https://zed.dev/blog/zed-1-0
Як Cursor після зміни інтерфейсу змінили мажорну версію, так само 29 квітня 2026 року редактор коду від творців Atom офіційно став 1.0. Пишуть "we've reached a tipping point where most developers can quickly feel at home in Zed (ми досягли переломного моменту, коли більшість розробників можуть швидко відчути себе як вдома в Zed)".

Зроблений на Rust, є GPU-прискорення, колаборативний режим, вбудований Git, дебагер і AI нативно та через Agent Client Protocol. Доступний на macOS, Windows та Linux. Разом з релізом отримав можливість запускати кілька агентів одночасно в одному вікні.

Обговорення
https://news.ycombinator.com/item?id=47949027
Багато хто хвалить швидкість, колаборацію, нативне відчуття та прогрес. Є критика щодо конфігурації під конкретні проекти, AI-фіч (але їх можна вимкнути), доступності та деяких дрібних нюансів. Багато практичних відгуків від тих, хто перейшов/спробував.

Warp повністю відкрили код
https://www.warp.dev/blog/warp-is-now-open-source
28 квітня ШІ клієнт термінала Warp став open-source (AGPL для основного коду + MIT для UI-фреймворка). Тепер спільнота може контриб’ютити, включаючи розробку agent-first workflow через їхнього хмарного агента / оркестратора Oz.

Після того, як Warp відкрив вихідний код клієнта, з’явився популярний community fork під назвою OpenWarp (https://openwarp.zerx.dev, zerx-lab). Проект швидко набрав популярність. Зберігає весь звичний функціонал Warp (блоки, workflows, швидкість, UI), але головне — повністю відкриває AI-шар: можна підключати будь-який OpenAI-сумісний провайдер (DeepSeek, Qwen, Ollama, OpenRouter, LM Studio тощо), задавати кастомні system prompts через шаблони, тримати всі ключі локально і не залежати від хмарного акаунту Warp та платних планів.

GitHub Copilot переходить на оплату за використання
https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage-based-billing/
З 1 червня 2026 року всі плани переходять на usage-based модель з GitHub AI Credits (1 кредит = $0.01). Code completions залишаються безлімітними, а чат, агенти, CLI та інші важкі функції споживають кредити залежно від токенів.

GitHub пояснює перехід тим, що Copilot вже не той простий інструмент автодоповнення, яким був рік тому — тепер це потужні agentic-воркфлоу, чати, code review та складні агенти, які споживають значно більше обчислювальних ресурсів. Фіксована підписка перестала покривати витрати.

Обговорення
https://news.ycombinator.com/item?id=47923357
Багато хто розуміє причини (дорогі агенти й inference), але сильно скаржаться на втрату передбачуваності, зростання витрат для важких користувачів і multipliers для потужних моделей. Є інструменти для підрахунку майбутнього рахунку.

Vibe з новою моделлю та хмарою
https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
Mistral представили нову агентну модель Medium 3.5 (128B, 256k контекст) та зробили її основною у CLI Vibe. Також тепер є remote agents, які працюють асинхронно в ізольованих sandbox хмари (аналогічно як в Codex чи Claude Code) над довгими завданнями. Можна запускати з CLI або веб інтерфейсу Le Chat зі збереженням історії.

Агентний інтерфейс у Zed
https://zed.dev/blog/parallel-agents
Zed слід за Cursor адаптує свій інтерфейс для керування агентами відразу у декілька чатів. Головним нововведенням є бічна панель Threads Sidebar, що допомагає групувати потоки за проєктами, гнучко налаштовувати доступ агентів до репозиторіїв та відстежувати їхню роботу. Панелі роботи з ШІ перемістили ліворуч, а файли й Git — праворуч.

https://www.youtube.com/watch?v=OLit5C1XE0k

Обговорення
https://news.ycombinator.com/item?id=47866750
Багато програмістів незадоволені зміною інтерфейсу, зазначають, що на практиці запуск кількох агентів одночасно створює величезне «когнітивне навантаження» та ускладнює перевірку коду, бо ШІ все ще пише забагато "сміттєвого" коду. Люди згадують про недопрацьований інтерфейс Git, відсутність нормальних інструментів для рев'ю коду - це треба доробити раніше.

Найбільшим болем залишається ізоляція баз даних, налаштувань (конфігів), портів та тестових даних. Розробники активно обговорюють, як це автоматизувати: дехто пише власні shell-скрипти, дехто використовує Devcontainers, а інші хвалять сторонні інструменти на кшталт Conductor чи Ouijit для управління життєвим циклом таких середовищ.

Claude Design
https://www.anthropic.com/news/claude-design-anthropic-labs
Anthropic представила спеціалізований ШІ-інструмент на базі нової моделі Claude Opus 4.7 та дизайн системи (файл DESIGN.md), створений для процесу продуктового дизайну: створює повністю функціональні інтерактивні прототипи, презентації, лендінги та UI-компоненти, видаючи готовий HTML, CSS та JavaScript-код у режимі реального часу.

Експорт дозволяє одним кліком передати готовий дизайн в середовище Claude Code.

Оновилися моделі, всі обіцяють агентність:

  • DeepSeek V3.2 -> V4. Дві версії V4-Pro і V4-Flash. open-source. Контекст вхід 1М, вихід 384K. Китай. Дешевші сценарії для довгих документів, агентів і автоматизації. Якість коду нижча за інші анонсовані моделі.
  • GPT-5.4 -> GPT-5.5. Презентували як агента, якому можна довірити роботу, де модель має планувати кілька кроків наперед. Код генерує за тестами ще краще, а токенів споживає стільки же. Найкраща на зараз модель на ринку якщо вірити OpenAI.
  • Kimi K2.5 -> K2.6. open-source. Китай. Moonshot AI позиціонує модель як агента для довготривалих завдань з програмування.
  • GLM-5 -> 5.1. open-source. Китай. Кажуть що значно дотягнули саме генерацію коду, кібер безпеку.
  • Qwen 3.5 -> 3.6. Qwen3.6-Plus вийшла як закрита модель, за нею флагман Qwen3.6-Max-Preview.
  • MiniMax M2.5 -> M2.7. open-weights. Китай. Теж довгі завдання, кажуть гарний емоційний інтелект. Також стабільність на скілах у OpenClaw.
  • Важливі open-source / open-weight релізи малих Qwen3.6 для коду: Qwen3.6-35B-A3B — MoE-модель 35B total / 3B active, а Qwen3.6-27Bdense 27B. Це цікаво саме практично, щоб запускати у себе на залізі.

Різниця між GPT-5.5, Kimi K2.6, GLM-5.1, Qwen3.6 Plus, MiniMax M2.7 і DeepSeek-V4-Pro-Max на SWE-Bench Pro тесті лежить у діапазоні приблизно 55–59%, тобто це вже щільна група сильних coding/agent моделей.

Кінець безкоштовного Qwen Code
https://www.reddit.com/r/Qwen_AI/comments/1skeeu5/goodbye_qwen_you_tried_but_you_failed/
Qwen OAuth free tier для Qwen Code вимкнули 15 квітня 2026, тому старий сценарій “залогінитися через браузер і користуватися безкоштовно” більше не працює або дає помилки на кшталт 401 invalid access token, token expired, Internal error, free tier quota exceeded.

Тест відключення Cluade Code за $20
https://www.reddit.com/r/ClaudeAI/comments/1ss3asp/does_claudes_20_plan_no_longer_include_claude_code/
21 квітня 2026 люди помітили, що на сторінці тарифів Anthropic Claude Code зник із Pro-плану за $20 і залишився тільки в дорожчих Max-планах. Anthropic пояснила, що це був A/B-тест / pricing experiment, який зачіпав приблизно 2% нових користувачів.

Схоже, дешевий AI-кодинг поступово закінчується.

Якщо Anthropic йде шляхом вбудови Claude Code у свій десктопний додаток Work (от нарешті додали паралельні сесії https://claude.com/blog/claude-code-desktop-redesign), то OpenAI заходить з іншого боку: на цьому тижні вони оновили кодинговий додаток Codex і додали туди функції керування комп’ютером. Шляхі різні - результат той самий.

Codex як суперапп
https://openai.com/index/codex-for-almost-everything/
На macOS Codex тепер бачить екран, рухає власний курсор, клікає, вводить текст, відкриває будь-які застосунки і працює у фоновому режимі. На всіх платформах є вбудований браузер, генерація зображень, пам’ять (запам’ятовує ваші вподобання та попередні дії -- поки що не в EU/UK), понад 90 плагінів та інтеграцій.

https://www.youtube.com/watch?v=sdNoaztocs0

Хоча в Codex і з’явилася дуже схожа на Cursor приємна функція — в згенерованому сайті можна просто клікнути на будь-який елемент (кнопку, блок, текст, зображення) і одразу додати його до промпту як референс, — загалом для програмістів саме ця тенденція двох компаній (Anthropic і OpenAI) до розширення аудиторії своїх продуктів трохи насторожує.

Обговорення
https://news.ycombinator.com/item?id=47796469
Багато хто бачить у цьому революцію для звичайних людей (не-програмістів): агенти зможуть створювати персональні UI, автоматизувати бізнес-процеси, замінювати цілі програми й радикально підвищувати продуктивність. Програмісти водночас насторожені — безпека й приватність все ще забута: повний доступ (див навіть офіційне демо) агента перетворює комп’ютер на «ворожий пристрій», де навіть txt-файл є вектором атаки.

ChatGPT Pro за $100/міс
https://help.openai.com/en/articles/9793128-about-chatgpt-pro-tiers
На початку квітня закінчилась акція по токенам Codex, тепер з безкоштовного акаунту можна запустити десь два простих завдання й вони беруть тижневий ліміт. В Plus $20 плані тепер теж не розгорнешся, тижневий ліміт підходить для легкої роботі 1-2 години в день. Саме тому з 9 квітня додався ще проміжний між Pro $200 варіант. Новий Pro $100 має 5× вищі, ніж Plus, доступ до GPT-5.4 Pro та GPT-5.3 Instant. Також дії промо до 31 травня 2026 — вдвічі більше токенів.

Це пряма відповідь Anthropic: вони мають Claude Max за $100.

Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7
Оновився Claude Opus з 4.6 на 4.7 - все те саме, тільки ще краще на бенчмарках. Додали adaptive thinking (адаптивне мислення): модель сама вирішує, скільки «думати» перед відповіддю, приховує внутрішній reasoning (тепер за замовчуванням не показує повний ланцюжок думок).

Обговорення
https://news.ycombinator.com/item?id=47793411
Модель стала сильнішою, особливо в кодингу та великих контекстах. Але стає менш debuggable. Тепер неможливо нормально відключити adaptive thinking, що робить Claude Code ще гіршим, треба танцювати з бубном: /effort xhigh, CLAUDE_CODE_DISABLE_1M_CONTEXT=1, "display": "summarized" тощо щоб розуміти що модель генерує.

Anthropic робить круті моделі, але інструменти программування навколо них стають все гірше.

Роки три більшість програм для програмування це були клон VS Code та чат збоку. Нову хвилю схоже запустив Codex - вони випустили свою декстоп програму на Electron без VSC, так само і OpenCode.

Cursor 3
https://cursor.com/blog/cursor-3
Компанія повністю відмовилася від моделі форку VS Code і побудувала новий інтерфейс під кодовою назвою Glass. Головне нововведення — створене з нуля Agents Window, яке дозволяє запускати необмежену кількість агентів одночасно в паралелі: локально, у worktree, по SSH, у хмарі чи навіть у кількох репозиторіях водночас. Нова частина як кажуть написана на Rust+TS.

https://cursor.com/blog/agent-web
Пізніше ще зробили інтеграцію з мобільними девайсами через PWA. Cursor Agents на web і mobile — офіційна можливість запускати cloud agents прямо з телефону або браузера на мобільному пристрої. Можна почати чат з телефону, а потім продовжити на десктопі (або навпаки).

https://www.youtube.com/watch?v=HTKGyLar8AU

Фраза «Cursor 3 just killed the IDE» повторюється як головний хук.

Обговорення
https://news.ycombinator.com/item?id=47618084
Багато хто хвалить сміливість і технічний прогрес агентного майбутнього, але ще більше людей висловлює розчарування і навіть обурення через те, що Cursor радикально відходить від звичної моделі "IDE + плагіни + AI-помічник". Критикують, що компанія йде за інвесторським хайпом "AI замінить розробників", а не за реальними потребами програмістів.

Людям, які хочу писати код, а не керувати командою агентів, доведеться пошукати щось інше, наприклад VS Code чи Zed.

Програма від The Factory
https://factory.ai/news/factory-desktop
Ще одна компанія зробила такий самий клон інтерфейсу для "керування агентами". Цікаво ще мені після встановлення на Windows 11 пише "Not connected to Local Machine. Please download and start the Desktop app, or upgrade to a paid plan to unlock more features.", щоб я завантажив їх апп. Хоча дизайн в них дуже крутий, їх забагованний Electron апп я навіть затестіти не зміг.

Якщо минулого року Claude Code був беззаперечним фаворитом, по ньому було багато туторіалів та додаткових проєктів, то що відбувається з проєктом у 2026 році я до кінця зрозуміти не можу. Судячи зі зменшення кількості відео на YouTube, інші люди також.

У лютому–березні Anthropic анонсував і викотив кілька функцій, які зробили Claude Code набагато автономнішим (agentic). Йде активний перехід від «одного агента в терміналі» до керованої системи завдань та координації фонових агентів (Ctrl+B) з екосистемою інтеграцій хот-релоадед MCP, скілів, хуків та плагінів. Через /teleport можна ініціалізувати remote-сесії /remote-control, якими можна керувати з додатка в телефоні. Введено /loop для періодичного запуску промпту/команди та інструменти cron-планування всередині сесії тощо.

З реально корисного можна відзначити хіба що Auto Mode.

Auto Mode
https://claude.com/blog/auto-mode
Представлений як «середній шлях» між двома крайнощами в Claude Code. Раніше потрібно було або постійно вручну схвалювати кожну зміну файлу та bash-команду (дуже безпечно, але дратує), або використовувати прапор --dangerously-skip-permissions. Новий Auto Mode дозволяє Claude самому вирішувати, які дії є безпечними, і виконувати їх автоматично, без схвалення.

Перед кожним tool call окремий класифікатор (на базі Sonnet 4.6) швидко перевіряє дію на небезпеку. Безпечні дії проходять автоматично, ризиковані — блокуються. Якщо модель наполегливо наполягає на заблокованих діях, у підсумку все одно з'являється запит до користувача.

Обговорення анонсу Claude Mythos
https://news.ycombinator.com/item?id=47679258
Anthropic описує особистість, цілі та обмеження нової моделі в system card. Не випускає її publicly (не буде в загальному доступі) — нібито через різкий стрибок здібностей і ризики безпеки. Заявляють, що Mythos знайшов тисячі zero-day уразливостей в ОС, браузерах, віртуальних машинах тощо (включаючи дуже старі баги). Багато хто пише, що це може сильно змінити кібербезпеку — як у кращий, так і в гірший бік.

https://red.anthropic.com/2026/mythos-preview/
Анонсували й Project Glasswing, де дають доступ до Mythos обмеженому колу компаній, щоб ті фіксили критичний софт за допомогою моделі.


Останнім часом багато людей, які платили за підписку, бачать, що Claude Code стає практично непридатним через нещодавні зміни в політиці та обмеженнях Anthropic без чітких правил. Навіть якщо просто в системному промпті згадати OpenClaw, запит відхиляється з помилкою. Також система стала гірше працювати з не-кодинг завданнями.

Скоріш за все, через запуск нової моделі довелося максимально стиснути весь комп'ют, який раніше просто роздавали для залучення людей в інфраструктуру.