CodeWithLLM-Updates
-
🤖 Інструменти ШІ для програмування: практичні приклади, покрокові інструкції та реальні застосування LLM. Навчіться ефективно працювати з сучасними асистентами програмування.

DeepSeek оновили свою R1 модель

https://api-docs.deepseek.com/news/news250528
Окрім зменшення галюцинацій та покращення швидкості вони додали виклик функцій та вивід у JSON. Модель open-source та за їх замірами працює на рівні ТОП закритих моделей.

Крім того доробили якість генерації front-end - тепер код ще краще. Приклади у відео, особливо фізика кульок:

https://www.youtube.com/watch?v=lWd1UFtbSZ0

Поки не бачив тестування наскільки добре вона буде працювати як фоновій агент, але думаю це ж все таки модель для парного програмування.

Ціна на АПІ така сама та все ще є знижки в ночі (по Китаю). У веб-версії https://chat.deepseek.com/ використання безкоштовне, але це єдина з SOTA моделей у якої зараз немає в чаті canvas-інтерфейсу. До речі, нарешті додали можливість у налаштування (Improve the model for everyone) відключити збір даних для тренування їх моделей.

Можна використовувати й підняту у сторонніх провайдерів:
https://openrouter.ai/deepseek/deepseek-r1-0528
https://openrouter.ai/deepseek/deepseek-r1-0528:free від https://chutes.ai/tos

Vercel презентував свою модель
https://vercel.com/docs/v0/api

Модель v0-1.0-md розроблена для створення сучасних веб-застосунків. Вона підтримує введення тексту та зображень, забезпечує швидкі потокові відповіді та сумісна з форматом OpenAI Chat Completions API, тобто її можно підключити в Cursor в налаштування доступних моделей.

https://www.youtube.com/watch?v=0KYWJWY62d4

Модель також вміє визивати функції, добре розбирається в сучасних frontend та full-stack фреймворках (як то Next.js) і може виправляти свої помилки. Контекстне вікно 128к на вхід, 32к на віхід.

Наразі перебуває на стадії бета-тестування і вимагає тарифного плану Premium або Team з увімкненою оплатою за використання. Діє обмеження 200 повідомлень на день.

Ого...

https://x.com/AnthropicAI/status/1925926102725202163
Новина "THE WAY OF CODE, a project by @rickrubin in collaboration with Anthropic" -- Рік Рубін разом з Anthropic випустив книгу по вайб-кодінгу...

Рубін, відомий своїм нетехнічним підходом до музичного виробництва, розглядає цей метод як спосіб демократизувати створення програмного забезпечення, дозволяючи людям без навичок прогамування втілювати свої ідеї в життя.

https://www.thewayofcode.com/
«Шлях Коду» (The Way of Code) – експериментальна цифрова книга, що поєднує даоську філософію зі штучним інтелектом. Проєкт містить 81 медитативну главу, натхненну Дао Де Цзін, кожна з яких супроводжується генеративним мистецтвом, створеним моделлю Anthropic’s Claude AI.

Читачі можуть бачити код та змінювати ці фрагменти за допомогою Claude. Робота досліджує, як AI-assisted vibe coding – де користувачі описують ідеї природною мовою, а ШІ генерує код – узгоджується з акцентом Рубіна на інтуїції та простоті у творчому процесі.

Наступною цього тижня була презентація від Anthropic.

Івент називався "Code w/ Claude" тобто вони прямо зробили акцент на програмування.

Google, посилаючись на статистику Cursor, казали, що за останні місяці дуже багато людей перейшло у ньому на Gemini 2.5 Pro. Цікаво, чи оновлення поверне людей до Sonnet (модель вже є у налаштуваннях Cursor).

https://www.anthropic.com/news/claude-4
Презентували 4 версію Opus та Sonnet. Моделі мають всі сучасні фічі - мислення, пошук в інтернеті, запуск коду, використання інструментів та MCP, правки локальних файлів (які Opus може використовувати як пам'ять). Кеш запитів розширили з секунд до години. Контекстне вікно за замовчування (200k) меньше, але за додаткову плату дотягує до Gemini де 1 млн токенів. Кажуть, що Opus може 7 годин працювати як фоновий автономний агент.

У світлі випуску спеціалізованих моделей для фонової агентної поведінки важливо зазначити, що ці нові моделі, по суті, ними й є. Тільки вони не є версіями інших моделей, як у OpenAI Codex від o3. Компанія Anthropic схоже змістила фокус, оскільки явно програла боротьбу з ChatGPT, Gemini, Grok за споживчий ринок чат-аппів кожного дня. Тож вона просто випустила лише такі моделі та сфокусувалася на программувані.

Також оновили свій Claude Code інструмент. Тепер підтримує фонові завдання через GitHub Actions та нативні інтеграції з VS Code і JetBrains, відображаючи зміни безпосередньо у IDE.

Тобто вони теж зробили фонового агента, якому можна давати завдання з репозиторіїв і потім перевірити зроблене: "Позначайте Claude Code у пулл-реквестах, щоб відповідати на відгуки рецензентів, виправляти помилки CI або змінювати код. Щоб встановити, запустіть /install-github-app з Claude Code."

Цікаво, що виступав представник GitHub і, схоже, їх фоновий агент на сайті теж працює на моделі від Anthropic, а не OpenAI Codex як я спочатку подумав на їх анонсі. У GitHub Copilot у безкоштовному плані все ще тільки Claude 3.5 Sonnet, а ось у Pro додали Claude 4.0 Sonnet (Preview). Щоб використовувати Opus треба бути на Pro+ підписці.

Пам'ятаю, за часів GPT-4 з'являлися багато кастомних моделей, спеціально "заточених" під програмування. Були навіть окремі моделі під Python. phind.com робив круті штуки. Далі це все якось стихло, більшість універсальних моделей і так стали добре писати код.

https://windsurf.com/blog/windsurf-wave-9-swe-1
Windsurf нещодавно випустили свої моделі SWE-1, але я думаю це скоріше крок щоб скоротити витрати на зовнішні API.

Компанія Mistral досі надає API доступ до закритої моделі Codestral, останнє оновлення січень 2025.


І ось у нас новий виток, тепер моделі налаштовують на фонове самостійне вирішення низки завдань з git-репозиторію. OpenAI тільки но перевипустили Codex, тепер заснувавши модель на o3. Github оновили агента, додавши функцію фонової роботи.

https://mistral.ai/news/devstral
Відповідь від Mistral — це модель Devstral, розроблена спільно з All-hands (опен-сорс клон ШІ розробника Devin). На відміну від Codestral ліцензія тут Apache 2.0, тобто вільне використання та модефікація. Модель також доступна через API під назвою devstral-small-2505.

Що краще робить модель:

  • розбирає велики репозиторії
  • знаходить зв'язки між компонентами
  • сканує код на помилки
  • Модель навчена розв'язувати реальні проблеми з GitHub

За даними All Hands AI 🙌Devstral перевершує значно більші моделі, такі як Deepseek-V3-0324 (671B) та Qwen3 232B-A22B. При цьому Devstral достатньо легка, щоб працювати на одній RTX 4090 або Mac з 32 ГБ оперативної пам'яті, що робить її ідеальним вибором для фонового локального використання.

GitHub Copilot теж не дуже добре справляється з неймінгом, тепер під назвою агента буде й хмарний агент у відповідь на агента від OpenAI.

https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/
Хмарний агент може автоматично вирішувати завдання у репозиторії: призначте issue (або декілька) — проаналізує код, внесе зміни, перевірить тестами та відправить PR на рев'ю. Copilot працює у фоновому режимі, використовуючи безпечне хмарне оточення (на базі GitHub Actions). Доступний лише для Copilot Pro+ та Enterprise, витрачає хвилини GitHub Actions.

Судячи з усього, GitHub Copilot для VSCode не настільки швидко і добре розвивається, як конкуренти, тому MS вирішив відкрити його код для всіх, але я поки що репозиторій не знайшов. Також додали модель Grok 3.

https://jules.google/
У Google в анонсі теж є такий хмарний агент Jules, але на сайті лише waitlist й такі ж обіцянки як у всіх. Також чомусь дизайн зроблений як піксельна гра.
UPD: Підчас I/O анонсували бета-доступ для юзерів з США (5 завдань на день).

https://docs.anthropic.com/en/docs/claude-code/sdk
Claude Code SDK. Anthropic анонсували SDK для своєї системи агентного програмування з консолі. Насправді він не схожий на звичний, де ми можемо до нашого коду підключити якийсь продукт і взаємодіяти з ним. Точніше, поки що не схоже, написано "The SDK currently support command line usage". Тобто скоріше розширили можливості взаємодії з ним з консолі.

OpenAI зробили це
https://openai.com/index/introducing-codex/

Презентували хмарного агента з інженерії програмного забезпечення Codex, який працює на базі Codex-1 (спеціалізована версія o3) який не слід плутати з codex моделлю 2021 року або Codex інструментом для CLI агентного програмування, що випустили минулого місяця.

Якщо серйозно, нещодавно я писав, що зараз дуже важливо вирішити проблему оркестрації завдань ШІ-агентів програмування, і схоже, з відеопрезентації це вони і зробили. Поки що недоступно у звичайному Plus плані, а лише у Pro ($200/місяць), тож не кожен зможе спробувати.

Codex добре справляється з невеликими, чітко визначеними завданнями, але, судячи з відгуків, поки що погано обробляє наступні запити в чаті. Тобто потрібно спочатку розбити роботу на набір завдань, які потім не змінюватимуться.

Codex не призначений для "vibe coding" та найкраще підходить для досвідчених інженерів, які працюють з сталими репозиторіями: додають функції або виправляють помилки. Він має простий інтерфейс, схожий на звичний ChatGPT, з текстовим полем для опису завдання та кнопками "Ask" і "Code".

https://www.youtube.com/watch?v=utujQfglbk8

Є кнопка, схожа на "грати", що надсилає завдання у фон агенту в хмарі. Ставить завдання в чергу, після показує детальний лог виконання. На відео-перезентації виглядає як важливе досягнення для сфери ШІ-агентів програмування.

До речі Cursor теж у новій версії 0.50 додали як прив'ю для обмеженої кількості юзерів функцію фонових агентів.

Amp доступний всім з 15 травня
https://ampcode.com/how-i-use-amp

Sourcegraph вирішили піти цікавим маркетинговим шляхом. У них вже є VSC-плагін ШІ-агент для написання коду (Cody) з позиціювання на бізнес - тепер же вони зробили новий окремий сайт у дивному, неформальному та розмовному стилі і так продають ШІ-агент плагін, який назвали AMP.

У нього є така інструкція, яка вже виглядає як інший сайт https://ampcode.com/manual - там пишуть про принципи, один з яких "Без вибору моделі, завжди найкращі моделі. Ви не обираєте моделі, ми це робимо" та зараз використовують Claude 3.7 Sonnet Extended thinking, яка звісно гарна, але з лідер-бордів найкраща то Gemini 2.5 Pro.

Зараз дають 1000 безкоштовних кредитів (з мого використання це десь 700к токенів), потім пакети $5 за 500.

Файл системних інструкцій тут AGENT.md - невідомо коли ми прийдемо всі до однієї назви, а поки в репозиторіях буде по 10 копій для кожного ШІ-агента.

За моїми відчуттями, ще наприкінці 2024 мало хто серйозно ставився до Codeium Windsurf.

Ось 70 днів тому тред на Hacker News порівняння Windsurf та Cursor, який не дуже багато людей залучив https://news.ycombinator.com/item?id=43288745. Cursor згадується як один з перших AI IDE, які спробували користувачі, він добре налаштований та "просто працює". Windsurf в плюс наявність безкоштовної функції автодоповнення та більша універсальність. Github Copilot відстає за функціоналом порівняно з Cursor та Windsurf.

Коли зайшла тема вайб-кодингу, Windsurf як система, простіша порівняно з Cursor, стала приваблювати більше користувачів. Згодом зробили і ребрендинг, і покращився фокус компанії. Вже кілька тижднів ходить новина про можливу купівлю їх компанією OpenAI, що ще більше підігріло інтерес.

У новому опитуванні порівняння на Hacker News https://news.ycombinator.com/item?id=43959710 взяло участь значно значно значно більше людей. Люди відзначають, що ринок AI IDE швидко змінюється. Розробники постійно випускають нові функції, і інструменти запозичують ідеї один в одного. Це призводить до того, що "лідер" часто змінюється.

Дискусія про "Agentic / Vibe Coding":

  • люди бачать потенціал у "agentic mode" для автоматизації рутинних завдань (наприклад, додавання типів, створення boilerplate), але наголошують на необхідності ретельного перегляду згенерованого коду.
  • є значний діапазон думок щодо ефективності та безпеки "agentic coding", коли AI самостійно вносить зміни у будь-які файлі репозиторію.
  • деякі досвідчені розробники вважають, що AI більше допомагає неекспертам, тоді як для досвідчених це швидше "розумніше автодоповнення".

Плюс Cursor:

  • відмінне автодоповнення ("tab-complete"), яке краще за конкурентів
  • функція Cmd-K (вбудоване редагування) в цілому зробила IDE відомою й продовжую людям подобатися
  • зрозуміле ціноутворення ($20 на місяць) яке доволі дешево за доступ до найкращих моделей

Неоднозначності Cursor:

  • проблема з обмеженням контексту в Cursor для економії коштів - система намагаюся використовувати якнайменше токенів
  • режим "Agent mode" доволі недосконалий та занадто "стрибучий" вперед

Плюс Windsurf:

  • розуміння кодової бази ("repo code awareness") здається краще
  • у деяких аспектах відчувається швидшим

Неоднозначності Windsurf:

  • проблеми з великими файлами та так саме обмеженням контексту коли на модель відправляють тільки невеликий шматок коду
  • інтерфейс більше підходить для вайб-кодінгу, в ньому важче працювати "вручну"
  • Ціноутворення Windsurf - деякі вважають дорожчим за Cursor в режимі агента, бо при активному використанні до $15 на місяць ще треба докупати пакети $10/250 кредитів.

Учасники треду висловлюють позитивні відгуки про Zed як швидкий, ефективний та "незасмічений" редактор. Але автодоповнення та "розумність" AI в Zed ще не на рівні Cursor. До того ж він не підтримує Windows.

Також їх порівнють з Aider, Cline, GitHub Copilot, JetBrains IDEs (IntelliJ, PyCharm, Rider тощо). Ще згадується доволі багато інших ШІ інструментів: Claude Code (дуже дорогий), Amazon Q (добре під AWS), Machtiani, Brokk (альтернатива Aider), Repomix, Void (open-source альтернатива Cursor), Nonbios.ai, Amp.

Багато учасників рекомендують спробувати кілька інструментів, оскільки ситуація швидко змінюється, і те, що працює сьогодні, може змінитися завтра.

https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

Google DeepMind AlphaEvolve
Доступний для академічних дослідників AI-агент проектування алгоритмів на основі Gemini (комбінация Flash та Pro), який поєднує креативність великих мовних моделей (LLM) з автоматичними оцінювачами за допомогою метрик для відкриття та оптимізації алгоритмів. Він використовує еволюційний підхід, щоб покращувати найкращі ідеї.

Де вже використовується?

1. Оптимізація дата-центрів Google 🖥️

  • AlphaEvolve знайшов ефективніший алгоритм для розподілу ресурсів у Borg (системі керування дата-центрами).
  • Результат: +0.7% світових обчислювальних ресурсів Google тепер використовуються ефективніше.

2. Дизайн апаратного забезпечення 💻

  • Оптимізував матричні множення у TPU (спеціальних чипах Google для AI).
  • Прискорив роботу арифметичних схем, зберігаючи коректність.

3. Прискорення навчання AI ⚡

  • Зменшив час тренування Gemini на 1% завдяки оптимізації матричних операцій.
  • Прискорив FlashAttention (ядерний алгоритм для трансформерів) на 32.5%.

Поліпшив алгоритм Штрассена (1969 р.) для 4×4 матриць, зменшивши кількість операцій. Покращив найкращі рішення для 20% відкритих задач з математичного аналізу, геометрії та комбінаторики.

Цікаво, що AlphaEvolve використовувався для оптимізації компонентів, що входять до навчання самих моделей Gemini. Це викликає питання про можливий потенціал рекурсивного самовдосконалення ШІ та наближення до "сингулярності".

Здається, що використання Claude code, Cursor та інших стало здебільшого повторюваним. Робочий процес зазвичай виглядає так: планування завдання (файл roadmap), потім команди агенту реалізувати план у код.

Тим самим оркестрація завдань є наступною потрібною річчю для кожного агентного AI-рішення.

Про https://www.task-master.dev/ я вже згадував, це зараз популярне рішення через MCP.


aider
https://aider.chat/docs/scripting.html
aider нативно дозволяє використовувати простий скриптинг із терміналу, щоб виконувати повторювані дії. Також є додаткова функція Python API для скриптингу, але офіційно не підтримується та не документована.

Roo Code | Boomerang Orchestrator (з ver 3.14.3)
https://docs.roocode.com/features/boomerang-tasks
Додали "🪃 Orchestrator" як вбудований режим. Дозволяє розбити складні проєкти на менші, керовані частини. Потім кожне підзавдання виконується у власному контексті, часто використовуючи інший режим, адаптований для цього конкретного завдання.


Code Claude Code
https://github.com/RVCA212/codesys
Проект, який розробляє Python SDK для взаємодії з Claude CLI tool. Найефективніший спосіб використання полягає в імітації вашого фактичного робочого процесу. Підтримка відновлення конкретних розмов за ID.

Cloud Code SDK
https://cloudcoding.ai/
Програмоване AI Coder SDK на Python - як локально, так й у Sandbox хмарі. Можна уявити це як спосіб взаємодіяти з Cursor або Claude code, на низькому рівні з великим контролем. Але замість використання цих застосунків, проект використовує власного агента, який може змінювати код та використовувати власні вбудовані інструменти. Наразі підтримує лише моделі OpenAI та Anthropic. Працює з або без Git-репозиторіїв.

Github виклав великий туторіал по новому Github Copilot.

https://www.youtube.com/watch?v=0Oz-WQi51aU

Три режими (тепер тут як в Cursor):

  • Ask Mode 💬 – для обговорення змін та отримання відповідей.
  • Edit Mode ✏️ – для точних правок та рефакторингу.
  • Agent Mode 🤖 – автоматизоване виконання завдань (наприклад, генерація коду за README).

Приклад: Створення застосунку для бронювання готелів за допомогою різних моделей (Claude 3.5, Gemini 2.5 Pro, GPT-4).

🔧 Техніки роботи

Структурований README файл 📄: Чіткий опис проєкту, стеку технологій та структури файлів допомагає агенту точніше генерувати код.

Copilot Instructions 📌: Файл з глобальними вказівками (наприклад, вимоги до стилю коду, безпека, логи).

Візуальний промптінг 🖼️: Деякі моделі підтримують завантаження скріншотів для аналізу UI.

🛠️ Вирішення проблем

  • Кешування у браузері: Copilot може запропонувати очищення кешу або фікс для шаблонів.
  • Тестування: Автогенерація тестів (наприклад, для Flask-ендпоінтів) за допомогою команди /test.
  • Документація: Оновлення файлу README через Gemini 2.5 Pro з діаграмами Mermaid.

🚀 Поради

Claude 3.5 – баланс швидкості та якості.
Gemini 2.5 Pro – потужна генерація документації.
GPT-4 – для складних завдань з контекстом.

Безпека: Завжди запитуйте у Copilot аудит коду (наприклад, How can I make this app more secure?).

Windsurf веде переговори щодо придбання компанією OpenAI приблизно за 3 мільярди доларів.

Apple та Anthropic об'єднуються для створення програмної платформи «vibe-coding», яка використовуватиме генеративний ШІ для написання, редагування та тестування коду для програмістів.

https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/

Google випустив Gemini 2.5 Pro Preview (версія I/O). Це оновлення має ще потужніші можливості генерації коду. Покращення для фронтенд- та UI-розробки, поряд із покращеннями в базових завданнях генерації коду, таких як зміна та редагування коду, а також створення складних агентських робочих процесів.

https://windsurf.com/
https://lovable.dev/

Windsurf та Lovable покращили дизайн своїх продуктів та цінову стратегію.

Windsurf має новий логотип та більш прозоре використання "кредитів" чатом. Безкоштовний план тепер має нові, вищі обмеження, необмежений Fast Tab та Cascade Base.

Lovable 2.0 представляє ключові нововведення: перемикання агента в режим чату для кращого розуміння та планування, введення робочих просторів для спільної розробки, а також функцію сканування безпеки для виявлення вразливостей.

Окрім основних функціональних оновлень, Lovable 2.0 оновив свій бренд та інтерфейс, додав можливість візуального редагування стилів та спростив процес підключення власних доменів.

Зміни в тарифних планах, що тепер включають Pro та Teams, спрямовані на краще задоволення потреб як індивідуальних розробників, так і команд.

https://docs.cursor.com/guides/advanced/large-codebases

Розробники Cursor поділилися порадами та техніками для ефективної роботи з великими та складними кодовими базами.

Вони виділили ключові аспекти, які допомагають швидше орієнтуватися в незнайомому коді. Основні рекомендації включають:

  • Використання Chat для розуміння коду: За допомогою діалогового режиму можна швидко отримати пояснення щодо роботи певних частин коду. Рекомендовано також активувати функцію "Include Project Structure" для покращення розуміння структури проекту.
  • Написання правил: Створення правил дозволяє підкреслити важливу інформацію про проект та забезпечує краще розуміння для агента Cursor.
  • Детальне планування змін: Для великих завдань варто витратити час на створення точного та добре структурованого плану послідовності дій.
  • Вибір правильного інструменту: Cursor пропонує різні інструменти (Tab, Cmd K, Chat), кожен з яких має свої переваги для певних завдань – від швидких правок до масштабних змін у кількох файлах.

Наголошують на важливості розбиття великих завдань на менші частини, включення релевантного контексту та частого створення нових чатів для підтримки фокусу.

https://memex.tech/blog/introducing-memex-the-everything-builder-for-your-computer

Компанія Memex офіційно оголосила про запуск своєї платформи, що дозволяє створювати будь-яке програмне забезпечення, від веб-додатків до 3D-дизайнів. Слушно зауважити, що назву вони собі обрали дуже невдалу, адже по-перше це термін винахідника Веннівера Буша, а по друге вже багато проектів з нею.

Memex позиціонується як "Конструктор усього" (The Everything Builder) для комп'ютера. Платформа підтримує будь-які технологічні стеки та мови програмування.

Memex працює у Windows/Mac/Linux (це Tauri фреймворк) і дозволяє всім, незалежно від їх технічного досвіду, досліджувати, будувати та розгортати програмні рішення за допомогою розмови з ШІ.

Агент використовує моделі Cluade - поєднання Sonnet 3.7 + Haiku, та має доступ в інтернет. Створює чекпоїнти через вбудований git. У планах підтримка Gemini 2.5 та MCP.