CodeWithLLM-Updates
-

Посилення команди OpenAI Codex
https://www.webpronews.com/openais-strategic-acqui-hire-how-poaching-clines-engineering-team-signals-a-new-phase-in-ai-development-race/
Codex OpenAI поки ще програє конкуренту боротьбу з Claude Code. Можливо тому компанія найняла до себе на роботу щонайменше семеро провідних розробників одно з найвідоміших VSC плагінів для генерації коду - Cline (це неформальні дані з соцмереж).

Представники Cline офіційно заявили, що компанія продовжує працювати і жодної офіційної угоди (продажу) з OpenAI не було. Це приклад так званого «акві-найму» (acqui-hire) — стратегії, коли велика корпорація поглинає таланти та експертизу команди без офіційного викупу самої компанії. Так Google зробили з Windsurf.

Kilo хоче перехопити розробників
https://blog.kilo.ai/p/cline-just-acqui-hired
Ситуація з Cline (а по суті Kilo є його форком) це погано для спільноти - після «акві-найму» живість проекту зазвичай зникає: оновлення сповільнюються, рішення приймаються за зачиненими дверима. Майбутнє Cline стало туманним.

Тому кожному, хто раніше робив внесок у код Cline, дають $100 на використання сервісів Kilo. П’ятьом найкращим розробникам оплатять поїздку в офіс компанії в Амстердамі для спільної роботи.

Підписка ChatGPT у Cline
https://blog.kilo.ai/p/use-chatgpt-subscription-inside-kilo
https://cline.bot/blog/introducing-openai-codex-oauth
Вслід за OpenCode та Kilo Code у Cline тепер теж можна авторизуватися через підписку ChatGPT та використовувати квоти 5годин/тижня GPT моделей.

Покращення моделі до Kimi K2.5
https://www.kimi.com/blog/kimi-k2-5.html
Це відкрита модель (open-source, хоча вона дуже велика — потребує сотні ГБ VRAM), яка задає нові стандарти в мультимодальності, програмуванні та автономній роботі агентів. Головна гордість розробників — режим Agent Swarm. Замість одного агента, який виконує завдання послідовно, K2.5 може самостійно створювати та координувати цілий «рій» із 100 субагентів.

https://www.youtube.com/watch?v=eQyAzZboDbw

Високі бали на SWE-Bench (76.8%), близька до GPT-5.2 і Claude Opus 4.5. Добре справляється з реальними задачами генерації коду.

Kimi K2.5 — це не просто текстова модель, а «нативно мультимодальний» інтелект. Вона пройшла донавчання на гігантському масиві даних у 15 трильйонів змішаних візуальних і текстових токенів. Завдяки цьому модель одночасно покращує свої навички як у розумінні тексту, так і в аналізі зображень та відео.

Тому Kimi K2.5 демонструє гарні результати у фронтенд-розробці. Модель може «бачити» власні помилки у візуальному інтерфейсі та автономно виправляє їх (autonomous visual debugging). Модель може конвертувати відео-в-сайт.

Kimi Code CLI 1.0
https://moonshotai.github.io/kimi-cli/en/
Китайська компанія Moonshot AI розробляє власний інтерфейс командного рядка, кросплатформне рішення (Windows, macOS, Linux) — Kimi Code CLI. Останнім часом проєкт пройшов шлях від простого інтерактивного шелла до складної системи. Хоча все ще Technical Preview. В найкращих традиціях Китаю інтерфейс це копія Cluade Code.

CLI вже підтримує Agent Client Protocol (ACP) для інтеграції у Zed IDE, MCP, сторонніх провайдерів та login/logout власного OAuth. Є запуск веб-інтерфейсу через команду kimi web.

Скіли тут мають назву Flow skills. Користувачі можуть описувати сценарії у файлах SKILL.md (з підтримкою діаграм Mermaid/D2) і викликати їх командою /flow.

Підписка за $19
https://www.kimi.com/code
Підписка орієнтована на програмування, доступ с CLI та IDE. Ціни тут ($19 / $39 / $199) на рівні з американськими лідерами ринку, ось що думає Кімі про конкурентоспроможність своїх моделей.

Не можна зареєструватися за номером телефону з України, хоча є Уганда та Уругвай, Білорусь.

Було відомо, що анонси оновлень моделей двох топ‑компаній заплановані на один і той самий час 5 лютого 2026, але потім Аnthropic опублікувалися на 15 хвилин раніше. А при анонсі ОpenAI їхня модель стала доступна лише в Codex, без доступу через API, що не дозволило всім стороннім проєктам (наприклад Cursor, Cline) одразу надати до неї доступ.

https://www.youtube.com/watch?v=9f2egsZZjnw

Оновлення до Claude Opus 4.6
https://www.anthropic.com/news/claude-opus-4-6
Аnthropic покращили Opus 4.5. Покращені навички планування, автономної роботи, рев'ю коду, з документами, пошуку онлайн. У бета-версії 1M токенів контекстне вікно та автоматичне підсумовування старого контексту для довших завдань (Context Compaction). Головне - здатність виконувати триваліші та складніші завдання автономно.

https://code.claude.com/docs/en/agent-teams
У Claude Code додано агентні команди (Agent Teams) для автономної координації кількох агентів. На відміну від субагентів, які працюють в рамках однієї сесії й взаємодія з ними лише через головного агента, тут можна безпосередньо взаємодіяти з окремими членами команди, не проходячи через лідера.

Обговорення HN
https://news.ycombinator.com/item?id=46902223
Скептицизм переважає над ентузіазмом. Багато користувачів не помічають суттєвої різниці між 4.5 та 4.6, деякі навіть пишуть  "10x дорожче за Sonnet, але без різниці". Загальна думка: "всі моделі мають свої проблеми". Масштабна критика Claude Code за повільність, високе споживання пам'яті, використання React для терміналу.


Оновлення до GPT-5.3-Codex
https://openai.com/index/introducing-gpt-5-3-codex/
Покращили GPT-5.2-Codex. Це спеціальна модель для генерації коду складних проєктів та автоматизації. Повинна бути на 25% швидше за 5.2-Codex зберігаючи таку саму точність.

Головний фокус анонсу - Інтерактивна співпраця, можна "steer" під час роботи тобто не зупиняючи модель, допромтити й вона відразу змінить свою стратегію. Це протилежно Opus 4.6, яка намагається сама довго працювати без людини.

Codex як апп
https://openai.com/index/introducing-the-codex-app/
Окрім CLI та розширення до IDE тепер під цією назвою буде й окремий додаток. Він написаний на electron, але на анонсі була тільки mac arm версія з вейт-лістом для інших. Це ще одна спроба створити "центр керування" агентами, такій вже є й у Cursor й у Antigravity. Ця схоже вдала.

https://www.youtube.com/watch?v=ICYbOfW5RoQ

Це графічний інтерфейс (GUI) для Codex CLI, який дозволяє керувати кількома проектами, агентами та розмовами в одному вікні. Швидке перемикання між проектами та додатками. Голосове керування + відкриття у IDE + автоматичні білди + diff-перегляд.

Обговорення HN
https://news.ycombinator.com/item?id=46902638
Користувачі виділяють різні стратегії, які топ-гравці обрали. У Codex - "Steering mid-execution" - можливість керувати під час роботи. Людина залишається "в петлі" контролю. Швидше відновлення після помилок. - Краща робота з backend та "hard". У Claude збільшення автономії для рою агентів й їх довгої роботи, але люди зазначають що "Fire and forget" підхід часто приводить до хаосу й неякісного коду.


Я думаю, що компанія OpenAI прийняла ряд хороших рішень, якщо ми говоримо про генерацію коду для професійних програмістів, а не вайб-кодерів чи прототиперів. Їм більше підходить Opus 4.6 яка роєм у Claude Code скушає багато токенів, але у фіналі згенерує робочу версію.

Мені подобається, що з певного моменту моделі Codex стали писати після мого запиту як вони мене зрозуміли, і на кожному кроці повідомляють, що саме будуть робити. Генерацію можна швидко зупинити, якщо сталося непорозуміння - дописати нові інструкції та роз'яснення. Я бачу в новому Codex app, судячи з відео, за замоченням навіть буде схован показ коду, який редагується, і лише ці текстові повідомлення.

Крім того, працюючи з CLI, я сам собі створив веб‑апп, у якому керую усіма моїми чатами за всіма моїми проєктами, бо робити це зсередини CLI дуже незручно. Новий Codex app, судячи з відео, саме це й робить — буду чекати його версію під Windows.

Claude Opus 4.6 Fast Mode
https://code.claude.com/docs/en/fast-mode
Anthropic додали у Opus 4.6 новий прискорений режим генерації, швидкість виводу токенів зростає приблизно в 2,5 раза. При цьому якість відповідей не падає. Коштує значно дорожче (в 6 разів) і доступний як дослідницька функція (preview). Режим доступний й у Github Copilot.

GPT‑5.3‑Codex‑Spark
https://openai.com/index/introducing-gpt-5-3-codex-spark/
GPT-5.3-Codex-Spark — це менша версія GPT-5.3-Codex та модель, оптимізована для генерації коду у реальному часі (понад 1000 токенів на секунду) за допомогаю співпраці з компанією Cerebras. Це крок до гібридного Codex з двома режимами — довгостроковими задачами (години/дні) та реального часу. API поки що тільки для партнерів, ціну не називають.

За оновленням топ закритих моделей оновилися й топ моделі, від китайських компаній.

MiniMax M2.5
https://www.minimax.io/news/minimax-m25
Нова флагманська модель від китайської компанії MiniMax працює на швидкості 100 токенів на секунду, що майже вдвічі швидше за інші передові моделі. Виконує складні завдання на 37% швидше за M2.1 і на рівні з Claude Opus 4.6. Вартість M2.5 в середньому у 10-20 разів дешевша, ніж у Claude Opus, Gemini 3 Pro та GPT-5.

Повністю розгорнута у продукті MiniMax Agent, де користувачі можуть створювати власні "Експерти" для специфічних завдань, використовуючи "Офісні Навички" (Office Skills).

Модель буде доступна 7 днів безкоштовно у OpenCode.

GLM-5
https://z.ai/blog/glm-5
Нова флагманська відкрита (open-source) модель від китайської компанії Zhipu AI (тепер бренд Z.ai), кажуть про "Agentic engineering" (агентна інженерія) — довготривалі складні задачі, кодинг на рівні frontier-моделей. Низький рівень галюцинацій, покращений reasoning, підтримка довгого контексту. Кажуть тренування було на Huawei чипах.

https://www.youtube.com/watch?v=vtWMgVCMsx8

Лідер серед open-weights моделей за Artificial Analysis. Модель сумісна з Claude Code та OpenClaw. Зараз безкоштовно у Kilo Code. Також у OpenCode.

Ollama Cloud
https://docs.ollama.com/cloud та https://ollama.com/pricing
https://ollama.com/library/glm-5
Додали ollama launch opencode --model minimax-m2.5:cloud чи ollama launch claude --model glm-5:cloud так можна запустити основі CLI для програмування підтягнувши в них нові моделі з хмари Ollama. Почати використовувати функцію можна безкоштовно, ще є тарифи за $20 та $100 на місяць.

Мінімальні оновлення моделей.
Google свою Pro-модель Gemini 3 до версії 3.1 з покращеним високорівневим агентними можливостями. Anthropic середню модель Claude Sonnet 4.5 до 4.6. Потрохи додаються у всіх основних ШІ-кодінг інструментах. Модель Qwen3.5-Plus додали у Qwen Code.

https://blog.kilo.ai/p/grok-code-fast-optimized
https://kilo.ai/landing/grok-code-fast-1-optimized
xAI закінчили роздавати Grok Code Fast 1 безкоштовно у Kilo з 20 січня, але додали (й вже тимчасово прибрали) оптимізовану безкоштовну версію.


Підписка Copilot у Zed
https://github.blog/changelog/2026-02-19-github-copilot-support-in-zed-generally-available/
GitHub офіційно дозволили використання підписок Copilot Pro, Pro+, Business або Enterprise у Zed завдяки партнерству. Автентифікація відбувається безпосередньо через обліковий запис GitHub Copilot — додаткової ліцензії чи окремого API-ключа не потрібно.

Блокування від Anthropic
https://code.claude.com/docs/en/legal-and-compliance
З січня–лютого 2026 люди зустрічали блокування своєї підписки Pro/Max у інструментах не від Anthropic.

Тепер офіційно задокументували це у розділі Legal & Compliance: OAuth-токени від планів Free, Pro та Max призначені виключно для офіційного Claude Code та Claude.ai. Використання цих токенів у будь-яких сторонніх інструментах, редакторах чи сервісах — заборонено. Обліковий запис буде заблоковано без попередження.

https://news.ycombinator.com/item?id=47069299
Приблизно 80% коментарів критичні до Anthropic. Рішення розцінюється як класичний «enshittification» та lock-in спроба штучно направити всіх користувачів у власний Claude Code, який останнім часом став менш зручним (особливо рішення скрити опис мислення моделі) порівняно з OpenCode, Cursor, Codex, Aider, тощо. Воно призведе тільки до прискорення переходу на альтернативи.

Поки що OpenAI не випустила повноцінну версію свого Codex app для Windows. Станом на лютий 2026 року додаток доступний тільки для macOS, а підтримка Windows анонсована як «coming soon», без конкретної дати.

OpenCode Desktop app
https://opencode.ai/download
OpenCode продовжують покращувати бета версію десктопного застосунку для macOS, Windows та Linux. Він позиціонується як безкоштовна альтернатива пропрієтарним інструментам типу Codex, Cursor чи Devin і активно розвивається.

https://www.youtube.com/watch?v=cGA_6M9x7AM

Хоча застосунок ще знаходиться в бета‑версії, автор відео відзначає вже його швидкість, добрий дизайн та адаптивність.

https://opencode.ai/docs/windows-wsl
Якщо використовуєте десктопну версію на Windows, то backend (серверна частина) краще запускати в WSL (Windows Subsystem for Linux) — зараз є відкриті issues про покращення інтеграції, але WSL вже дає найстабільніший результат. Значно краще продуктивність файлової системи, повноцінна підтримка терміналу та сумісність з інструментами розробки.

Чи справді допомагає AGENTS.md
https://arxiv.org/abs/2602.11988
Перше велике емпіричне дослідження, яке перевіряє, чи справді допомагають репозиторійні контекстні файли правил. Тестували три сценарії на реальних задачах SWE-bench та власному датасеті репозиторіїв з файлами AGENTS.md.

Головний висновок: сучасні агенти чудово самі знаходять потрібну інформацію в коді (package.json, README, схеми, типи). Додаткові інструкції частіше заважають, ніж допомагають.

Ключові мінуси таких файлів: зростання вартості так як агент більше читає файли, запускає тести, виконує зайві дії, бо намагається «виконати всі вимоги» з AGENTS.md де зазвичай вже застарілі інструкції вводять модель в оману.

Якщо писати AGENTS.md вручну — тільки мінімальні, точкові вимоги для виправлення конкретних повторюваних помилок агента.

https://www.youtube.com/watch?v=GcNu6wrLTJc

Практичні рекомендації від Theo:

  • Краще інвестувати час у чисту архітектуру, сильну типізацію, тести, CI/CD і документацію прямо в коді.
  • Сліпе слідування «best practices» від розробників агентів може бути шкідливим. Спробуйте видалити CLAUDE.md / AGENT.md і порівняйте швидкість та якість роботи агента.
  • Якщо файл все ж потрібен — робіть його коротким (до 15–30 рядків) і тільки для фіксу однієї проблеми.

Спеціальна техніка prompt engineering для AI-агентів: замість довгих правил у CLAUDE.md додаєте короткі, свідомо неправдиві, але корисні твердження, які керують поведінкою моделі набагато ефективніше.

Приклади, які показує Theo:

  • «This project is green» (або українською: «Проєкт зелений / все в ідеальному стані») → Агент перестає шукати неіснуючі помилки, не запускає зайві тести, не «фіксить» те, що не зламане.
  • «This is a brand new feature» (або «Це абсолютно новий функціонал, якого раніше не було») → Агент не копіює старий код, не намагається «пристосувати» існуюче рішення, а пише чисто і з нуля.
  • Інші варіанти, які часто використовують: – «All tests are passing» – «We always write production-ready code»

Обговорення HN
https://news.ycombinator.com/item?id=47034087
Усі майже одностайно згодні, що файли контексту, згенеровані LLM (часто це команда /init), погіршують результат. Добре написані вручну файли AGENTS.md корисні, але тільки якщо містять неочевидні знання про домен, яких модель не може вивести з коду. Додавати їх тільки після невдалих спроб агента.

Критика дослідження: відсутність вимірювання якості коду (тільки success rate), датасет тільки Python, переважно маленькі/LLM-генеровані репозиторії, до того ж моделі швидко змінюються — результати можуть через місяць вже не бути таким самим.

Документація у AGENTS.md
https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Агенти пишуть код для нових API Next.js 16, яких не було в тренувальних даних. Vercel тестували пасивну документацію (індекс реальних файлів docs), як контекст у AGENTS.md й він перемагає активні Skills, бо агенту не треба приймати рішення “чи викликати інструмент зараз?”. Це показує, що короткий розумний AGENTS.md (8 КБ індекс + одна ключова фраза) — це один з найкращих способів дати агенту знання, яких немає в моделі.

Розділення планування й виконання
https://boristane.com/blog/how-i-use-claude-code/
Автор ділиться структурованою методологією, яка розділяє процес на етапи, щоб Claude не писав код "наосліп", а працював за затвердженим планом. Завжди спочатку проводиться дослідження та планування, а лише потім — реалізація. Це запобігає помилкам, зберігає контроль над архітектурою та мінімізує витрати токенів (одиниць обчислення в ШІ).

Етапи робочого процесу

  1. Дослідження (Research Phase): Використовуємо слова на кшталт "глибоко", "детально" в промптах щоб перевірити що вже є - це агент документує в файлі research.md.
  2. Планування (Planning Phase): Створюємо детальний план у файлі plan.md з описом підходу, сніпетами коду, шляхами файлів та компромісами.
  3. Цикл анотацій (Annotation Cycle): Відкриваємо редактор - додаємо нотатки безпосередньо в план (наприклад, "використовуй PATCH, а не PUT"), далі агенту "I added a few notes to the document, address all the notes and update the document accordingly. don’t implement yet". Це робимо ітеративно декілька разів.
  4. Список завдань (Todo List): Коли все ок агент перетворює план у детальний чек-лист завдань. Постійно видаляйте непотрібне з плану, щоб уникнути розростання проєкту.
  5. Реалізація (Implementation Phase): Після затвердження плану використовується стандартний промпт: "реалізуй все", з маркуванням завершених завдань, перевіркою типів і уникненням зайвих коментарів: "implement it all. when you’re done with a task or phase, mark it as completed in the plan document. do not stop until all tasks and phases are completed. do not add unnecessary comments or jsdocs, do not use any or unknown types. continuously run typecheck to make sure you’re not introducing new issues."

Практичні поради: Надавайте агенту посилання на відкриті проєкти де є приклади схожого коду. Посилайтесь на план коли щось іде не так.

Обговорення
https://news.ycombinator.com/item?id=47106686
Багато користувачів погоджуються з принципом розділення планування та виконання, вважаючи це ефективним для зменшення помилок. Використання детальних планів у файлах .md забезпечують чіткий трек рішень і причин. Плани допомагають виявити упередження моделі, роблячи процес прозорішим.

Критики називають такий метод програмування "сміттям" або "азартною грою", стверджуючи, що він призводить як до "атрофії мозку" залежності від ШІ, так й до низької якість коду.