CodeWithLLM-Updates
-
🤖 Інструменти ШІ для програмування: практичні приклади, покрокові інструкції та реальні застосування LLM. Навчіться ефективно працювати з сучасними асистентами програмування.

Cursor рік тому був найвідоміший AI-орієнтований код-редактор, але надалі конкуренція значно зросла.

Запустили свою CLI - за зиму додали там режими Plan і Ask, субагенти та навички, генерацію зображень, вбудовані Mermaid ASCII-діаграми, клавіатурні скорочення.

Cursor Cloud Agents з використанням комп'ютера
https://forum.cursor.com/t/cloud-agents-with-computer-use/152829
https://cursor.com/blog/third-era
Тепер агенти запускають створений софт у власному VM (повноцінному комп'ютеру), тестують зміни, генерують PR з скріншотами та логами. Можуть записувати коротке demo-відео. Можна підключитися до VM агента і подивитися.

https://www.youtube.com/watch?v=tMflcZHo2zI

Записано прямо в новому офісі Cursor. Глибокий розбір останнього великого оновлення, називають це "третьою ерою" Cursor де перша — просто AI-доповнення в редакторі, друга — локальні агенти, третя — повноцінні хмарні агенти з власним комп'ютером. Тепер рухаються в сторону agentic платформи.

Cursor у Zed та JetBrains
https://forum.cursor.com/t/cursor-is-now-available-in-jetbrains-ides/153584
Додали підтримку Agent Client Protocol (ACP) тобто тепер можна використовувати підписку та агента Cursor у тих IDE, що його підтримують як то IntelliJ IDEA, PyCharm, WebStorm.

Zed AI тільки для повнолітніх
https://zed.dev/blog/terms-update
Zed перелічили серед інших змін що додають обмеження 18+ й воно стосується «Service» — тобто хмарної SaaS-частини: створення аккаунту, AI-фіч (Zed Pro, edit prediction тощо).

У треді на Hacker News пояснили, що якщо дозволити <18, треба було б верифікувати згоду батьків, вести окремі політики зберігання/обробки даних, робити age-gate систему. Тому простіше було заборонити.

OpenAI активно намагається перехопити ініціативу у Cluade Code - зараз вкладають в це багато грошей.

Codex безкоштовно ще місяць
https://openai.com/codex/
Продовження оригінального limited-time промо від 2 лютого 2026. Після релізу Windows-версії Codex app подовжили ще на місяць, тепер безкоштовні ChatGPT аккаунти мають можливість генерувати код до 2 квітня. Для Plus - подвійні ліміти.

Codex app під Windows та GPT‑5.4
https://openai.com/index/introducing-gpt-5-4/
OpenAI представила нарешті windows версію Codex app та GPT‑5.4 нову модель, яка поєднує coding-можливості з GPT-5.3-Codex та потужний reasoning. Як завжди модель стала ефективнішою за токенами, швидшою в ітераціях та проактивнішою.

https://www.youtube.com/watch?v=8hNcRChDrNk

Додали спеціальній скіл WinUI App для розробників під Windows. Можна вибирати різні термінали та перемикатися на WSL.

З версії 26.305 додали fast mode де GPT-5.4 працює в 1.5 раза швидше при тому ж рівні інтелекту. З мінусів - не можна редагувати список "Default open destination".

Кажуть що GPT-5.4 може бачити скріншоти, керувати мишею та клавіатурою, запускати Playwright у режимі Interactive для візуального дебагінгу в реальному часі.

WebSocket режим
https://developers.openai.com/api/docs/guides/websocket-mode/
Це постійне з’єднання для Responses API, спеціально створене для довгих агентних workflow з купою tool calls (agentic coding, автоматизація, оркестрація). Для coding-агентів значно менша затримка в ітераціях, до 40% швидше виконання при 20+ tool calls.

Режим вбудовано в Codex App (macOS/Windows). У Codex-Spark режим увімкнено за замовчуванням, а для інших моделей у конфіг ~/.codex/config.toml треба додати responses_websockets_v2 = true (у версії CLI v0.110 буде Under-development features попередження).

Деякі люди вже втомилися від дедалі важчих інструментів, таких як Claude Code або Cursor, де все більше функцій не потрібні, промпти величезні, а все приховано.

Pi агент
https://shittycodingagent.ai/ https://pi.dev/
Супермінімалістичний open-source AI-кодинг агент для термінала — всього 4 базові інструменти: read, write, edit, bash. Все інше — через розширення. Працює як CLI, headless, RPC, SDK — саме тому Pi стоїть «під капотом» OpenClaw.

Сесії у вигляді дерева — можна розгалужувати, повертатися, експортувати в HTML. Повна прозорість — видно все, що відбувається.

Pi дозволяє підключати різні LLM-провайдери для роботи агента. Налаштування зберігаються в ~/.pi/agent/ (глобально) або .pi/ (локально в проєкті). Основні файли: settings.json для загальних параметрів, а також файли на кшталт SYSTEM.md для кастомних промптів. Автентифікацію можна здійснювати двома способами: через підписку (OAuth/login) або через API-ключ.

https://www.youtube.com/watch?v=boSPk_Ig4gU

Можна налаштувати та використовувати Pi Coding Agent локально безкоштовно через Ollama.

Як автор це зробив
https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
https://news.ycombinator.com/item?id=46844822
Без вбудованих режимів планування, фонового bash, суб-агентів чи MCP. Агент уникає прихованих ін'єкцій з боку інших harness, забезпечуючи повну спостережуваність взаємодій. Уникає частих змін промптів/інструментів (на відміну від Claude Code), які ламають робочі процеси.

5–10× довші вікна контексту завдяки мінімальному промпту, є зміна моделі посеред сесії.

Працює з необмеженим доступом до файлової системи та команд, визнаючи, що захисні бар'єри часто неефективні, а продуктивна робота вимагає повних можливостей. YOLO-режим лякає коментаторів на хакреньюз: ризик exfiltration, prompt injection, випадкове видалення бази даних тощо. Деякі радять chroot / containers / VMs, інші кажуть, що sandbox у Codex — «security theater».

https://news.ycombinator.com/item?id=47143754
Користувачі пишуть, що Pi дає «рівень контролю, якого не було раніше». RPC/headless-режим супер для інтеграцій. Екосистема форків і розширень — цікавий проект oh-my-pi https://github.com/can1357/oh-my-pi (batteries-included версія), але говорять часто ламає інструменти після оновлень.

Можливий Anthropic-бан, є попередження про ризик відключення акк за альтернативні клієнти (як з OpenCode).

Якщо роки 2 тому моделі в програмуванні поводилися як джин — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.

Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл AGENTS.md не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.

Ми вчимося спрощувати архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.

NxCode Team про роботу ШІ агентів
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).

Агенти провалюються не через якість моделі, а через поганий harness.

Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.

OpenAI про harness engineering
https://openai.com/index/harness-engineering/
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.

Найважливіше тепер — не тільки якісна модель, а середовище:
– структурована папка docs/ як single source of truth,
– короткий AGENTS.md (~100 рядків) замість гігантського промпту,
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
– «doc-gardening» агент, який сам виправляє застарілу документацію.

Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.

Обговорення на ХН про harness engineering
https://news.ycombinator.com/item?id=46988596
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив лише один інструмент — формат редагування файлів, замість apply_patch / str_replace ввів Hashline (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей покращили результати.

Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.

Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.

Розділення планування й виконання
https://boristane.com/blog/how-i-use-claude-code/
Автор ділиться структурованою методологією, яка розділяє процес на етапи, щоб Claude не писав код "наосліп", а працював за затвердженим планом. Завжди спочатку проводиться дослідження та планування, а лише потім — реалізація. Це запобігає помилкам, зберігає контроль над архітектурою та мінімізує витрати токенів (одиниць обчислення в ШІ).

Етапи робочого процесу

  1. Дослідження (Research Phase): Використовуємо слова на кшталт "глибоко", "детально" в промптах щоб перевірити що вже є - це агент документує в файлі research.md.
  2. Планування (Planning Phase): Створюємо детальний план у файлі plan.md з описом підходу, сніпетами коду, шляхами файлів та компромісами.
  3. Цикл анотацій (Annotation Cycle): Відкриваємо редактор - додаємо нотатки безпосередньо в план (наприклад, "використовуй PATCH, а не PUT"), далі агенту "I added a few notes to the document, address all the notes and update the document accordingly. don’t implement yet". Це робимо ітеративно декілька разів.
  4. Список завдань (Todo List): Коли все ок агент перетворює план у детальний чек-лист завдань. Постійно видаляйте непотрібне з плану, щоб уникнути розростання проєкту.
  5. Реалізація (Implementation Phase): Після затвердження плану використовується стандартний промпт: "реалізуй все", з маркуванням завершених завдань, перевіркою типів і уникненням зайвих коментарів: "implement it all. when you’re done with a task or phase, mark it as completed in the plan document. do not stop until all tasks and phases are completed. do not add unnecessary comments or jsdocs, do not use any or unknown types. continuously run typecheck to make sure you’re not introducing new issues."

Практичні поради: Надавайте агенту посилання на відкриті проєкти де є приклади схожого коду. Посилайтесь на план коли щось іде не так.

Обговорення
https://news.ycombinator.com/item?id=47106686
Багато користувачів погоджуються з принципом розділення планування та виконання, вважаючи це ефективним для зменшення помилок. Використання детальних планів у файлах .md забезпечують чіткий трек рішень і причин. Плани допомагають виявити упередження моделі, роблячи процес прозорішим.

Критики називають такий метод програмування "сміттям" або "азартною грою", стверджуючи, що він призводить як до "атрофії мозку" залежності від ШІ, так й до низької якість коду.

Чи справді допомагає AGENTS.md
https://arxiv.org/abs/2602.11988
Перше велике емпіричне дослідження, яке перевіряє, чи справді допомагають репозиторійні контекстні файли правил. Тестували три сценарії на реальних задачах SWE-bench та власному датасеті репозиторіїв з файлами AGENTS.md.

Головний висновок: сучасні агенти чудово самі знаходять потрібну інформацію в коді (package.json, README, схеми, типи). Додаткові інструкції частіше заважають, ніж допомагають.

Ключові мінуси таких файлів: зростання вартості так як агент більше читає файли, запускає тести, виконує зайві дії, бо намагається «виконати всі вимоги» з AGENTS.md де зазвичай вже застарілі інструкції вводять модель в оману.

Якщо писати AGENTS.md вручну — тільки мінімальні, точкові вимоги для виправлення конкретних повторюваних помилок агента.

https://www.youtube.com/watch?v=GcNu6wrLTJc

Практичні рекомендації від Theo:

  • Краще інвестувати час у чисту архітектуру, сильну типізацію, тести, CI/CD і документацію прямо в коді.
  • Сліпе слідування «best practices» від розробників агентів може бути шкідливим. Спробуйте видалити CLAUDE.md / AGENT.md і порівняйте швидкість та якість роботи агента.
  • Якщо файл все ж потрібен — робіть його коротким (до 15–30 рядків) і тільки для фіксу однієї проблеми.

Спеціальна техніка prompt engineering для AI-агентів: замість довгих правил у CLAUDE.md додаєте короткі, свідомо неправдиві, але корисні твердження, які керують поведінкою моделі набагато ефективніше.

Приклади, які показує Theo:

  • «This project is green» (або українською: «Проєкт зелений / все в ідеальному стані») → Агент перестає шукати неіснуючі помилки, не запускає зайві тести, не «фіксить» те, що не зламане.
  • «This is a brand new feature» (або «Це абсолютно новий функціонал, якого раніше не було») → Агент не копіює старий код, не намагається «пристосувати» існуюче рішення, а пише чисто і з нуля.
  • Інші варіанти, які часто використовують: – «All tests are passing» – «We always write production-ready code»

Обговорення HN
https://news.ycombinator.com/item?id=47034087
Усі майже одностайно згодні, що файли контексту, згенеровані LLM (часто це команда /init), погіршують результат. Добре написані вручну файли AGENTS.md корисні, але тільки якщо містять неочевидні знання про домен, яких модель не може вивести з коду. Додавати їх тільки після невдалих спроб агента.

Критика дослідження: відсутність вимірювання якості коду (тільки success rate), датасет тільки Python, переважно маленькі/LLM-генеровані репозиторії, до того ж моделі швидко змінюються — результати можуть через місяць вже не бути таким самим.

Документація у AGENTS.md
https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Агенти пишуть код для нових API Next.js 16, яких не було в тренувальних даних. Vercel тестували пасивну документацію (індекс реальних файлів docs), як контекст у AGENTS.md й він перемагає активні Skills, бо агенту не треба приймати рішення “чи викликати інструмент зараз?”. Це показує, що короткий розумний AGENTS.md (8 КБ індекс + одна ключова фраза) — це один з найкращих способів дати агенту знання, яких немає в моделі.

Поки що OpenAI не випустила повноцінну версію свого Codex app для Windows. Станом на лютий 2026 року додаток доступний тільки для macOS, а підтримка Windows анонсована як «coming soon», без конкретної дати.

OpenCode Desktop app
https://opencode.ai/download
OpenCode продовжують покращувати бета версію десктопного застосунку для macOS, Windows та Linux. Він позиціонується як безкоштовна альтернатива пропрієтарним інструментам типу Codex, Cursor чи Devin і активно розвивається.

https://www.youtube.com/watch?v=cGA_6M9x7AM

Хоча застосунок ще знаходиться в бета‑версії, автор відео відзначає вже його швидкість, добрий дизайн та адаптивність.

https://opencode.ai/docs/windows-wsl
Якщо використовуєте десктопну версію на Windows, то backend (серверна частина) краще запускати в WSL (Windows Subsystem for Linux) — зараз є відкриті issues про покращення інтеграції, але WSL вже дає найстабільніший результат. Значно краще продуктивність файлової системи, повноцінна підтримка терміналу та сумісність з інструментами розробки.

Мінімальні оновлення моделей.
Google свою Pro-модель Gemini 3 до версії 3.1 з покращеним високорівневим агентними можливостями. Anthropic середню модель Claude Sonnet 4.5 до 4.6. Потрохи додаються у всіх основних ШІ-кодінг інструментах. Модель Qwen3.5-Plus додали у Qwen Code.

https://blog.kilo.ai/p/grok-code-fast-optimized
https://kilo.ai/landing/grok-code-fast-1-optimized
xAI закінчили роздавати Grok Code Fast 1 безкоштовно у Kilo з 20 січня, але додали (й вже тимчасово прибрали) оптимізовану безкоштовну версію.


Підписка Copilot у Zed
https://github.blog/changelog/2026-02-19-github-copilot-support-in-zed-generally-available/
GitHub офіційно дозволили використання підписок Copilot Pro, Pro+, Business або Enterprise у Zed завдяки партнерству. Автентифікація відбувається безпосередньо через обліковий запис GitHub Copilot — додаткової ліцензії чи окремого API-ключа не потрібно.

Блокування від Anthropic
https://code.claude.com/docs/en/legal-and-compliance
З січня–лютого 2026 люди зустрічали блокування своєї підписки Pro/Max у інструментах не від Anthropic.

Тепер офіційно задокументували це у розділі Legal & Compliance: OAuth-токени від планів Free, Pro та Max призначені виключно для офіційного Claude Code та Claude.ai. Використання цих токенів у будь-яких сторонніх інструментах, редакторах чи сервісах — заборонено. Обліковий запис буде заблоковано без попередження.

https://news.ycombinator.com/item?id=47069299
Приблизно 80% коментарів критичні до Anthropic. Рішення розцінюється як класичний «enshittification» та lock-in спроба штучно направити всіх користувачів у власний Claude Code, який останнім часом став менш зручним (особливо рішення скрити опис мислення моделі) порівняно з OpenCode, Cursor, Codex, Aider, тощо. Воно призведе тільки до прискорення переходу на альтернативи.

Claude Opus 4.6 Fast Mode
https://code.claude.com/docs/en/fast-mode
Anthropic додали у Opus 4.6 новий прискорений режим генерації, швидкість виводу токенів зростає приблизно в 2,5 раза. При цьому якість відповідей не падає. Коштує значно дорожче (в 6 разів) і доступний як дослідницька функція (preview). Режим доступний й у Github Copilot.

GPT‑5.3‑Codex‑Spark
https://openai.com/index/introducing-gpt-5-3-codex-spark/
GPT-5.3-Codex-Spark — це менша версія GPT-5.3-Codex та модель, оптимізована для генерації коду у реальному часі (понад 1000 токенів на секунду) за допомогаю співпраці з компанією Cerebras. Це крок до гібридного Codex з двома режимами — довгостроковими задачами (години/дні) та реального часу. API поки що тільки для партнерів, ціну не називають.

За оновленням топ закритих моделей оновилися й топ моделі, від китайських компаній.

MiniMax M2.5
https://www.minimax.io/news/minimax-m25
Нова флагманська модель від китайської компанії MiniMax працює на швидкості 100 токенів на секунду, що майже вдвічі швидше за інші передові моделі. Виконує складні завдання на 37% швидше за M2.1 і на рівні з Claude Opus 4.6. Вартість M2.5 в середньому у 10-20 разів дешевша, ніж у Claude Opus, Gemini 3 Pro та GPT-5.

Повністю розгорнута у продукті MiniMax Agent, де користувачі можуть створювати власні "Експерти" для специфічних завдань, використовуючи "Офісні Навички" (Office Skills).

Модель буде доступна 7 днів безкоштовно у OpenCode.

GLM-5
https://z.ai/blog/glm-5
Нова флагманська відкрита (open-source) модель від китайської компанії Zhipu AI (тепер бренд Z.ai), кажуть про "Agentic engineering" (агентна інженерія) — довготривалі складні задачі, кодинг на рівні frontier-моделей. Низький рівень галюцинацій, покращений reasoning, підтримка довгого контексту. Кажуть тренування було на Huawei чипах.

https://www.youtube.com/watch?v=vtWMgVCMsx8

Лідер серед open-weights моделей за Artificial Analysis. Модель сумісна з Claude Code та OpenClaw. Зараз безкоштовно у Kilo Code. Також у OpenCode.

Ollama Cloud
https://docs.ollama.com/cloud та https://ollama.com/pricing
https://ollama.com/library/glm-5
Додали ollama launch opencode --model minimax-m2.5:cloud чи ollama launch claude --model glm-5:cloud так можна запустити основі CLI для програмування підтягнувши в них нові моделі з хмари Ollama. Почати використовувати функцію можна безкоштовно, ще є тарифи за $20 та $100 на місяць.

Було відомо, що анонси оновлень моделей двох топ‑компаній заплановані на один і той самий час 5 лютого 2026, але потім Аnthropic опублікувалися на 15 хвилин раніше. А при анонсі ОpenAI їхня модель стала доступна лише в Codex, без доступу через API, що не дозволило всім стороннім проєктам (наприклад Cursor, Cline) одразу надати до неї доступ.

https://www.youtube.com/watch?v=9f2egsZZjnw

Оновлення до Claude Opus 4.6
https://www.anthropic.com/news/claude-opus-4-6
Аnthropic покращили Opus 4.5. Покращені навички планування, автономної роботи, рев'ю коду, з документами, пошуку онлайн. У бета-версії 1M токенів контекстне вікно та автоматичне підсумовування старого контексту для довших завдань (Context Compaction). Головне - здатність виконувати триваліші та складніші завдання автономно.

https://code.claude.com/docs/en/agent-teams
У Claude Code додано агентні команди (Agent Teams) для автономної координації кількох агентів. На відміну від субагентів, які працюють в рамках однієї сесії й взаємодія з ними лише через головного агента, тут можна безпосередньо взаємодіяти з окремими членами команди, не проходячи через лідера.

Обговорення HN
https://news.ycombinator.com/item?id=46902223
Скептицизм переважає над ентузіазмом. Багато користувачів не помічають суттєвої різниці між 4.5 та 4.6, деякі навіть пишуть  "10x дорожче за Sonnet, але без різниці". Загальна думка: "всі моделі мають свої проблеми". Масштабна критика Claude Code за повільність, високе споживання пам'яті, використання React для терміналу.


Оновлення до GPT-5.3-Codex
https://openai.com/index/introducing-gpt-5-3-codex/
Покращили GPT-5.2-Codex. Це спеціальна модель для генерації коду складних проєктів та автоматизації. Повинна бути на 25% швидше за 5.2-Codex зберігаючи таку саму точність.

Головний фокус анонсу - Інтерактивна співпраця, можна "steer" під час роботи тобто не зупиняючи модель, допромтити й вона відразу змінить свою стратегію. Це протилежно Opus 4.6, яка намагається сама довго працювати без людини.

Codex як апп
https://openai.com/index/introducing-the-codex-app/
Окрім CLI та розширення до IDE тепер під цією назвою буде й окремий додаток. Він написаний на electron, але на анонсі була тільки mac arm версія з вейт-лістом для інших. Це ще одна спроба створити "центр керування" агентами, такій вже є й у Cursor й у Antigravity. Ця схоже вдала.

https://www.youtube.com/watch?v=ICYbOfW5RoQ

Це графічний інтерфейс (GUI) для Codex CLI, який дозволяє керувати кількома проектами, агентами та розмовами в одному вікні. Швидке перемикання між проектами та додатками. Голосове керування + відкриття у IDE + автоматичні білди + diff-перегляд.

Обговорення HN
https://news.ycombinator.com/item?id=46902638
Користувачі виділяють різні стратегії, які топ-гравці обрали. У Codex - "Steering mid-execution" - можливість керувати під час роботи. Людина залишається "в петлі" контролю. Швидше відновлення після помилок. - Краща робота з backend та "hard". У Claude збільшення автономії для рою агентів й їх довгої роботи, але люди зазначають що "Fire and forget" підхід часто приводить до хаосу й неякісного коду.


Я думаю, що компанія OpenAI прийняла ряд хороших рішень, якщо ми говоримо про генерацію коду для професійних програмістів, а не вайб-кодерів чи прототиперів. Їм більше підходить Opus 4.6 яка роєм у Claude Code скушає багато токенів, але у фіналі згенерує робочу версію.

Мені подобається, що з певного моменту моделі Codex стали писати після мого запиту як вони мене зрозуміли, і на кожному кроці повідомляють, що саме будуть робити. Генерацію можна швидко зупинити, якщо сталося непорозуміння - дописати нові інструкції та роз'яснення. Я бачу в новому Codex app, судячи з відео, за замоченням навіть буде схован показ коду, який редагується, і лише ці текстові повідомлення.

Крім того, працюючи з CLI, я сам собі створив веб‑апп, у якому керую усіма моїми чатами за всіма моїми проєктами, бо робити це зсередини CLI дуже незручно. Новий Codex app, судячи з відео, саме це й робить — буду чекати його версію під Windows.

Покращення моделі до Kimi K2.5
https://www.kimi.com/blog/kimi-k2-5.html
Це відкрита модель (open-source, хоча вона дуже велика — потребує сотні ГБ VRAM), яка задає нові стандарти в мультимодальності, програмуванні та автономній роботі агентів. Головна гордість розробників — режим Agent Swarm. Замість одного агента, який виконує завдання послідовно, K2.5 може самостійно створювати та координувати цілий «рій» із 100 субагентів.

https://www.youtube.com/watch?v=eQyAzZboDbw

Високі бали на SWE-Bench (76.8%), близька до GPT-5.2 і Claude Opus 4.5. Добре справляється з реальними задачами генерації коду.

Kimi K2.5 — це не просто текстова модель, а «нативно мультимодальний» інтелект. Вона пройшла донавчання на гігантському масиві даних у 15 трильйонів змішаних візуальних і текстових токенів. Завдяки цьому модель одночасно покращує свої навички як у розумінні тексту, так і в аналізі зображень та відео.

Тому Kimi K2.5 демонструє гарні результати у фронтенд-розробці. Модель може «бачити» власні помилки у візуальному інтерфейсі та автономно виправляє їх (autonomous visual debugging). Модель може конвертувати відео-в-сайт.

Kimi Code CLI 1.0
https://moonshotai.github.io/kimi-cli/en/
Китайська компанія Moonshot AI розробляє власний інтерфейс командного рядка, кросплатформне рішення (Windows, macOS, Linux) — Kimi Code CLI. Останнім часом проєкт пройшов шлях від простого інтерактивного шелла до складної системи. Хоча все ще Technical Preview. В найкращих традиціях Китаю інтерфейс це копія Cluade Code.

CLI вже підтримує Agent Client Protocol (ACP) для інтеграції у Zed IDE, MCP, сторонніх провайдерів та login/logout власного OAuth. Є запуск веб-інтерфейсу через команду kimi web.

Скіли тут мають назву Flow skills. Користувачі можуть описувати сценарії у файлах SKILL.md (з підтримкою діаграм Mermaid/D2) і викликати їх командою /flow.

Підписка за $19
https://www.kimi.com/code
Підписка орієнтована на програмування, доступ с CLI та IDE. Ціни тут ($19 / $39 / $199) на рівні з американськими лідерами ринку, ось що думає Кімі про конкурентоспроможність своїх моделей.

Не можна зареєструватися за номером телефону з України, хоча є Уганда та Уругвай, Білорусь.

Посилення команди OpenAI Codex
https://www.webpronews.com/openais-strategic-acqui-hire-how-poaching-clines-engineering-team-signals-a-new-phase-in-ai-development-race/
Codex OpenAI поки ще програє конкуренту боротьбу з Claude Code. Можливо тому компанія найняла до себе на роботу щонайменше семеро провідних розробників одно з найвідоміших VSC плагінів для генерації коду - Cline (це неформальні дані з соцмереж).

Представники Cline офіційно заявили, що компанія продовжує працювати і жодної офіційної угоди (продажу) з OpenAI не було. Це приклад так званого «акві-найму» (acqui-hire) — стратегії, коли велика корпорація поглинає таланти та експертизу команди без офіційного викупу самої компанії. Так Google зробили з Windsurf.

Kilo хоче перехопити розробників
https://blog.kilo.ai/p/cline-just-acqui-hired
Ситуація з Cline (а по суті Kilo є його форком) це погано для спільноти - після «акві-найму» живість проекту зазвичай зникає: оновлення сповільнюються, рішення приймаються за зачиненими дверима. Майбутнє Cline стало туманним.

Тому кожному, хто раніше робив внесок у код Cline, дають $100 на використання сервісів Kilo. П’ятьом найкращим розробникам оплатять поїздку в офіс компанії в Амстердамі для спільної роботи.

Підписка ChatGPT у Cline
https://blog.kilo.ai/p/use-chatgpt-subscription-inside-kilo
https://cline.bot/blog/introducing-openai-codex-oauth
Вслід за OpenCode та Kilo Code у Cline тепер теж можна авторизуватися через підписку ChatGPT та використовувати квоти 5годин/тижня GPT моделей.

Оновлення ollama
https://github.com/ollama/ollama/releases
Ollama це проект для автоматизації та спрощення розгортання відкритих моделей локально. Він дозволяє зробити так, щоб генерація відбувалася безпосередньо на власном залізі, що дозволяє захищати приватні данні та не залежити від доступу до мережі.

v0.14 - додалил сумісніть з Anthropic API. Тепер будь-яку відкриту модель можна підключити до Claude Code.

https://docs.ollama.com/integrations/claude-code
v0.15 - Нова зручна команда запуску ollama launch для використання моделей Ollama з Claude Code, Codex, OpenCode та Droid без окремого налаштування.

https://www.youtube.com/watch?v=3x2q6-5XbQ8

Звісно якість генерації буде нижче ніж через моделі Anthropic, але 100% приватно та без інтернету.

https://docs.ollama.com/integrations/clawdbot
Потім додали ollama launch clawdbot щоб запускати Clawdbot/Moltbot/OpenClaw з локальними моделями.

Адаптація Agents Skills
https://agentskills.io/home
На те що Anthropic запустила Skills API (skills-2025-10-02) та відкрила стандарт 18 грудня 2025, OpenAI з GPT-5.2 Thinking тихо відповіли майже відразу додавши /home/oai/skills до ChatGPT та підтримку skills.md у Codex. MS інтегрували підтримку у VS Code теж у грудні. Сursor теж.

https://opencode.ai/docs/skills/ у OpenCode CLI v1.0.186, 22 грудня 2025 р.
https://qwenlm.github.io/qwen-code-docs/en/users/features/skills/ у Qwen code v0.6.0, 26 грудня 2025 р.
https://geminicli.com/docs/cli/skills/ у Gemini CLI v0.23.0, 7 січня 2026 р.

Clawdbot
https://molt.bot/ та https://www.clawhub.ai/
Саме Skills роблять Clawdbot/Moltbot таким потужним інструментом.

Atlassian, Figma, Canva, Stripe, Notion, Zapier як це булу з Model Context Protocol (MCP) рік тому також випустили свої skills.

Почали з'являтися каталоги

https://github.com/runkids/skillshare - синхронизація skills між Claude Code, ClawdBot, OpenCode та інш

Початок роботи з Codex
https://www.youtube.com/watch?v=px7XlbYgk7I
OpenAI зробили детальний воркшоп на 53 хвилини про те, як почати працювати з Codex, їх інструментом генерації коду. Презентація охоплює всі етапи: від встановлення до просунутих сценаріїв використання.

Різниця між Codex у терміналі (CLI), як розширення для VS Code та у хмарі. Що робить файл AGENTS.md. Як підключати зовнішні сервіси (наприклад, Jira, Figma, бази даних документації) через MCP-сервери.

https://www.youtube.com/watch?v=px7XlbYgk7I

Ефективний промптинг: Використання @ для посилання на конкретні файли. Можливість додавати скріншоти (наприклад, макети UI) для генерації коду. Відновлення сесій (codex resume) для продовження роботи над складним завданням.

Просунуті сценарії: Code Review. Написання юніт-тестів та документації. Автоматичне виправлення тестів, що впали, у CI/CD пайплайнах. Генерація діаграм (Mermaid sequence diagrams) для пояснення роботи коду.

Як працює Codex
https://openai.com/index/unrolling-the-codex-agent-loop/
Останнім часом зростає недовіра до Anthropic. Багато хто підкреслює що Claude code не є open‑source проєктом. На фоні цього у OpenAI з їхнім Codex з’явилася можливість просування. Вони випустили статтю, де, перш за все, підкреслили, що їхній проєкт open‑source, будь‑хто може перевірити код і пояснили, як він працює.

В основі роботи Codex CLI лежить «цикл агента» (agent loop), який координує взаємодію між користувачем, AI-моделлю та інструментами. Цей цикл повторюється, доки модель не надасть фінальну текстову відповідь користувачеві. Побудова початкового промпту є складною процедурою: він формується з системних інструкцій, списку доступних інструментів (як вбудованих, так і зовнішніх через MCP-сервери) та опису локального середовища.

З точки зору архітектури, Codex використовує підхід без збереження стану (stateless), відмовляючись від параметра previous_response_id. Це означає, що вся необхідна інформація передається заново в кожному запиті, що дозволяє підтримувати політику «Нульового збереження даних» (Zero Data Retention) для корпоративних клієнтів. Можна використовувати gpt-oss⁠ модель за допомогою ollama 0.13.4+⁠ чи LM Studio 0.3.39+⁠ повністью локально.

https://news.ycombinator.com/item?id=46737630
Багатьох приємно здивував перехід на Rust (проєкт codex-rs), який став основним варіантом, хоча декого плутає спосіб встановлення через npm. Високо оцінили механізм компактизації контексту (/responses/compact), називаючи його найкращим порівняно з конкурентами.

Експеримент з автономного кодінгу
https://cursor.com/blog/scaling-agents
Cursor запустили сотні ШІ-агентів одночасно для роботи над одним спільним проєктом протягом тижнів без втручання людини. Суть полягає в тому, щоб перейти від формату «один чат-бот вирішує одну задачу» до формату «віртуальної IT-компанії», де агенти працюють паралельно, не заважаючи один одному.

Головний висновок — просте збільшення кількості агентів ефективне для вирішення складних завдань, якщо правильно налаштувати промпти та моделі (Opus 4.5 схильна «зрізати кути», GPT-5.2 краще у довготривалому плануванні). Рішенням став ієрархічний підхід «Планувальники та Виконавці» (Planners and Workers). Планувальники безперервно досліджують код і створюють задачі, а Виконавці реалізують їх, не відволікаючись на загальну координацію.

Агенти написали понад мільйон рядків коду, створивши з нуля веббраузер, емулятор Windows 7 та клон Excel.

https://www.youtube.com/watch?v=U7s_CaI93Mo

Агенти створили браузер, алі він не працює
https://emsh.cat/cursor-implied-success-without-evidence/
Блогу embedding-shapes розвінчує цей "успіх". Автор стверджує, що експеримент Cursor — це маркетингова ілюзія та фікція, а результат роботи агентів — неробоче сміття: проєкт неможливо зібрати. Команда cargo build видає десятки помилок. Агенти тижнями писали код, але, схоже, жодного разу не перевіряли його на працездатність і ігнорували помилки компіляції.

Це "AI slop" тобто згенерований текст, який виглядає як код, але не має за собою реальної логіки чи робочої структури. Агенти просто "нагнали" обсяг (мільйон рядків), але не виконали базовий мінімум: створити програму, яка хоча б запускається і відкриває простий HTML-файл. Тобто вони створили код, а не програму.

https://news.ycombinator.com/item?id=46646777
Користувачі (зокрема nindalf) заглянули у файл залежностей (Cargo.toml) і виявили, що "браузер" використовує готові компоненти від Servo (двигун від Mozilla/Igalia) для парсингу HTML та CSS, а також бібліотеку QuickJS для JavaScript. Заява Cursor про те, що агенти написали все це "з нуля" (from scratch), була визнана брехнею. Код, який згенерували агенти, — це переважно "клей", що з'єднує чужі готові бібліотеки.

Спільнота підтвердила висновки автора статті embedding-shapes: код не компілюється, тести провалені, а історія комітів показує, що агенти просто генерували гігабайти тексту без перевірки працездатності. Заяви про "мільйони рядків коду" та "автономних агентів" розраховані на менеджерів та інвесторів, які не будуть перевіряти репозиторій. Ситуацію порівнюють із шахрайством (fraud).