CodeWithLLM-Updates
-
🤖 Інструменти ШІ для програмування: практичні приклади, покрокові інструкції та реальні застосування LLM. Навчіться ефективно працювати з сучасними асистентами програмування.

Atlassian Rovo Dev CLI
https://community.atlassian.com/forums/Rovo-Dev-AI-Agents-Beta-articles/Introducing-Rovo-Dev-CLI-AI-Powered-Development-in-your-terminal/ba-p/3043623
RovoDev - новий ШІ інструменту від Atlassian (творців Jira, Bitbucket, Confluence), який є відповіддю на Claude Code від Anthropic.

https://www.youtube.com/watch?v=MjOJE7WbvfE

Завантажити CLI можна з офіційного допису в блозі Atlassian або сторінки спільноти. Потрібно створити безкоштовний обліковий запис Atlassian. Встановлення виконується за допомогою Windows PowerShell (для x86-64 версії). З windows працює нативно (на відміну від Claude Code де WSL). Аутентифікація відбувається через команду acli.exe rodev login (потрібно ввести електронну пошту та API ключ).

Демонстрація показала, як агент може аналізувати код (наприклад, симулятор "дилеми в'язня") та виконувати завдання на кшталт "оптимізувати продуктивність".

Головна перевага: під час бета-тестування Atlassian надає 20 мільйонів безкоштовних токенів щодня. Це є значною перевагою порівняно з Claude Code, який, коштує 5-10 доларів за кожне використання.

Оновлення агента від Google
https://jules.google/docs/changelog/

  • Якщо додали скрипт налаштування середовища, Jules тепер запускає його послідовно.
  • Контекст. Jules читає та використовує AGENTS.md, якщо він є у вашому репозиторії.
  • Більше тестування. Jules частіше пише та запускає тести самостійно.
  • Значно зменшено ухиляння агента. Посилили цикл, щоб Jules продовжував рухатися вперед.

Лекція від Andrej Karpathy

https://www.youtube.com/watch?v=LCEmiRjPEtQ

1. Три епохи програмного забезпечення

  • Software 1.0 👨‍💻: Традиційний код (наприклад, C++, Python), написаний людьми.
  • Software 2.0 🧠: Нейромережі (ваги моделей), які навчаються на даних.
  • Software 3.0 🤖: LLM (ChatGPT та ін.), де програми — це промпти природною мовою (англійська).

"Ми тепер програмуємо комп'ютери англійською — це божевілля!"

2. LLM — це нова ОС?

  • Аналогія з операційними системами:
    • LLM = процесор 🖥️
    • Контекстне вікно = оперативна пам'ять
    • Мультимодальність та інструменти = API
  • 1960-ті в ШІ: Зараз LLM дорогі та працюють як мейнфрейми, але скоро будуть локальними.
  • Проблеми LLM: Галюцинації, "рваний інтелект" (сверхрозумні в одному, дурні в іншому), вразливості.

3. Як працювати з LLM?

  • Часткова автономність:
    • Приклади: Cursor (автокод-помічник), Perplexity (пошук з ШІ).
    • "Повзунок автономності": Від підказок до повного агента.
    • GUI критичний: Візуалізація змін прискорює перевірку.
  • Найкращі практики:
    • Чіткі промпти → менше помилок.
    • Тримати ШІ "на повідку" (занадто великі зміни важко перевіряти).

4. Vibe Coding — програмування для всіх

  • Тепер кожен може кодити, просто описуючи завдання англійською.
  • Приклад: Карпаті за день зробив iOS-додаток, не знаючи Swift. Але розгортання та DevOps поки вимагають ручної роботи (і це біль 😅).

5. Майбутнє: інфраструктура для агентів

  • Потрібні "документи для ІІ":
    • lm.txt замість robots.txt — інструкції для LLM.
    • Markdown-документація (як у Vercel та Stripe).
    • GitHub → Ingest (конвертує репозиторій у текст для LLM). https://gitingest.com/

6. Підсумок

  • Перехід від "милиць" до агентів займе роки.
  • Аналогія з костюмом Залізної людини: Зараз це посилення людини, але рухаємося до повної автономності. Майбутнє за гібридом людей та ШІ.

Обговорення на HN
https://news.ycombinator.com/item?id=44314423

LLM як нова парадигма програмування

Аргументи "ЗА":

  • "Англійська — нова мова програмування": Це фундаментальний зсув від детермінованих, формальних мов до імовірнісних, що дозволяє створювати ПЗ не-програмістам ("vibe coding").

  • Новий інструмент: LLM — це ще один інструмент в арсеналі розробника, який доповнює, а не замінює існуючі підходи.

  • Робота з невизначеністю: Програмісти завжди мали справу з недетермінізмом (відповіді API, ввід користувача), тому робота з LLM — це лише розширення цієї практики.

Аргументи "ПРОТИ" (Скептицизм):

  • Формальні мови — це перевага, а не недолік: Вони забезпечують точність, надійність та верифікованість, які є основою інженерії. Відмова від них на користь природної мови — це крок назад до "магічного мислення".

  • Недетермінізм LLM небезпечний: На відміну від помилки API, LLM може видавати "сміття, що виглядає як золото" — правдоподібну, але абсолютно неправильну відповідь, яку важко виявити.

  • Hype vs. реальність: Багато хто вважає, що можливості LLM сильно перебільшені, порівнюючи поточний ажіотаж із "бульбашкою криптовалют".

Роль розробника трансформується:

  • Від написання коду рядок за рядком до "керування контекстом" (context wrangling) та промпт-інженерії.
  • Людина стає верифікатором та куратором — тим, хто задає швидку "петлю зворотного зв'язку" (генерація → перевірка → корекція).
  • Деякі побоюються, що це знецінить професію, перетворивши інженерів на "QA-тестувальників для ШІ". Інші ж бачать у цьому можливість для експертів з інших галузей створювати власні інструменти.

Практичні інструменти та виклики

  • Структурований вивід (Structured Outputs): Використання JSON-режиму це "суперсила", яка робить вивід LLM передбачуваним та придатним для програмної обробки. Це часто недооцінений інструмент.

  • Детермінізм vs. Хаотичність: LLM не є абсолютно випадковими. При температурі 0 вони детерміновані, але "хаотичні" (маленькі зміни у вхідних даних можуть призвести до великих змін у виводі).

Прозорість використання токенів Claude Code є проблемною.

https://github.com/Maciek-roboblog/Claude-Code-Usage-Monitor
Проєкт, який вирішує цю проблему, надаючи чітку картину використання токенів та часу. Є локальні логі Claude Code (~/.claude/projects/*/*.jsonl), які він використовує.

Дані оновлюються кожні 3 секунди, інструмент розраховує, коли можуть закінчитися токени, базуючись на поточній швидкості їх використання. Працює з планами Pro, Max5, Max20 та може автоматично розпізнавати ваш поточний план. Дозволяє встановити власний час і часовий пояс для скидання лімітів відповідно до ваших потреб.

Надалі автор планує використовувати DuckDB для більш складного аналізу логів.

Windsurf Wave 10
Презентацію цього оновлення розтягнули на кілька днів, це дозволило зробити більше блог-постів та відео на ютуб - так робили на хвилі 8 і, мабуть, з точки зору маркетингу це працює.

https://windsurf.com/blog/windsurf-wave-10-planning-mode
З'явилася кнопка "Режиму планування" - це правильний і очевидний крок (відповідь на MCP https://www.task-master.dev/). Спочатку задача розбивається на підзадачі за допомогою моделі, що "думає", а потім кодер (більш проста модель) не плутається, що зробити, а йде за пунктами (так і їм дешевше). Добре працює в поєднанні з пам'яттю.

https://www.youtube.com/watch?v=BmRJ_yH6BpU

https://windsurf.com/blog/windsurf-wave-10-browser
Знову ж таки були MCP. Тепер зробили для тих, кто не хоче налаштовувати таке одну кнопку для запуску керованого інстансу Chromium, щоб чат напряму бачив, що в ньому відбувається.

https://windsurf.com/blog/windsurf-wave-10-ux-enterprise
Один кластер запустили в Європі. Тепер метрика PCW використовується не тільки для автодоповнень в редакторі, а й для оцінки того, як агенти з чату справляються.

Percentage of Code Written (PCW)
https://windsurf.com/blog/percentage-code-written
PCW — це відсоток коду, написаного за допомогою ШІ-інструментів. Допомагає оцінити реальну користь ШІ у розробці та виключає накрутку метрик (на відміну від "відсотка прийняття" у конкурентів). - Враховується тільки код, що потрапив у комміт (невдалі правки не враховуються), при цьому метрика не враховує архітектуру, дебаг, рев'ю.

  • W — байти коду від Windsurf (Tab, Cascade).
  • D — байти коду, написані вручну.
  • PCW = (100 × W) / (W + D).

Команда Cursor продовжує маркетінгові поневірення на ютуб - пішли до Anthropic щоб на їх каналі теж засвітитися:

https://www.youtube.com/watch?v=BGgsoIgbT_Y

Cursor швидко зростає завдяки інтеграції AI, особливо моделей Claude. За рік компанія досягла $300 млн доходу, а мільйони розробників почали використовувати їхні інструменти. Спочатку AI допомагав лише з автодоповненням або редагуванням одного файлу, але завдяки Claude 3.5 Sonnet з’явилися складніші функції, як мультифайлові зміни чи фоновий агент, який паралельно виконує завдання. Команда Cursor сама використовує свій продукт для розробки, що дозволяє швидко тестувати ідеї та відкидати непрацюючі рішення.

Однак робота з великими кодовими базами залишається викликом — AI часто не розуміє внутрішніх нюансів, як DSL або неочевидних правил, які передаються усно. Тому перевірка коду залишається ключовим етапом, навіть якщо AI пише більшу його частину. У майбутньому можливі підходи, як псевдокод для стислого опису змін або інтеграція з іншими системами (наприклад, Slack), щоб AI міг враховувати контекст. Водночас Claude 3.5 Sonnet і новіші версії вже значно покращили якість сгенерованого коду.

ШІ не замінить розробників, але змінить їхню роль. Вже зараз він дозволяє навіть нефахівцям (наприклад, працівникам відділу продажів) створювати прості інструменти, а інженерам — зосередитися на архітектурі та UX. До 2027 року майже 100% коду буде створюватися за участі ШІ, але розуміння контексту залишатимуться ключовими навичками.

На конференції WWDC ще більше було про Xcode 26 та можливості програмування за допомогою ШІ.

https://developer.apple.com/documentation/xcode/writing-code-with-intelligence-in-xcode
Можна обирати ChatGPT (чомусь вони пишуть саме так, а не модель чи OpenAI) чи додати провайдера моделі як з інтернету, так й локального.

  • Вивчення коду: "Що робить цей код?" → Xcode дасть розгорнуту відповідь.
  • Генерація та виправлення коду: Можна просити додати властивості, створити список, змінити інтерфейс тощо. Приклад: "Створи таблицю з усіма властивостями об'єкта".
  • Автоматичне застосування змін: Увімкніть "Automatically Apply Changes" або перевіряйте запропоновані правки вручну.
  • Фікси помилок: Xcode пропонує виправлення для помилок компіляції.

Можна відкочувати правки через "History", але потрібен Git-репозиторій.

Виглядає так:
https://www.youtube.com/watch?v=OV38tVwySE0

Доволі схоже за функціоналом на більшість плагінів "додай чатжпт" для VSC у 2023 році, але візуально дизайн звісно в рази краще їх.

Продовження маркетингових поневірянь Cursor - переназвали версію 0.51 у 1.0.0 щоб "люди розуміли" що це справжня програма. Виклали у себе на ютуб опис.

https://www.cursor.com/changelog/1-0
Продовжують розгортати фонового агента, але треба вимкнути "режим приватності" (!) щоб почати ділитися своїм кодом з курсор. Хто цього не хоче, поки не зможи їм користуватися.

Також додали BugBot для GitHub який теж фоново працює. Знову переробили режим пам'яті між чатами (Windsurf таке давно робить), додали нарешті обробку markdown таблиць та Mermaid діаграм.

Як й більшість інших ШІ-кодінг інструментів зібрали MCP у каталог, він https://docs.cursor.com/tools - зараз 8 шт. Це перевірені.


Обговорення на HN
https://news.ycombinator.com/item?id=44185256
Значна частина обговорення зосереджена на порівнянні його з Claude Code від Anthropic. Багато користувачів, особливо ті, хто платив значні суми за Cursor Pro (наприклад, $100-$800/міс), перейшли на Claude Code (з планами $100 або $200/міс) і відзначають значно кращий досвід роботи з агентом: менше помилок у виклику інструментів, передчасного завершення, проблем із застосуванням змін. Буквально за день до обговорення Claude Code додали до Pro-плану Anthropic за $20/міс, що робить його значно доступнішим

Існує думка, що поточні ціни на AI-інструменти (включно з Cursor) субсидуються VC-грошима, і компанії поки що не є прибутковими.

Переваги Claude Code (на думку деяких користувачів):

  • Краща робота агента, менше помилок.
  • Висока продуктивність при паралельних сесіях.
  • Добре працює з командним рядком (наприклад, може підключатися по SSH та виконувати команди, запитуючи дозвіл).
  • Вважається "розумнішим" через інший системний промпт та поведінку порівняно з використанням тієї ж моделі Claude через Cursor.

Недоліки Claude Code та переваги Cursor:

  • Claude Code: Може швидко "спалювати" токени, іноді робить дивні помилки. Не вистачає деяких функцій Cursor, як-от "чекпоінти" для відкату змін (хоча є обхідні шляхи).
  • Cursor: Відзначають швидку функцію автодоповнення "Tab" для невеликих змін. Доступніший базовий Pro-план ($20/міс).

Інші інструменти та підходи:

  • Aider: Згадується як більш "точний інструмент", краще інтегрується з git (робить комміти, що Cursor/Claude Code не роблять за замовчуванням), більш контрольований.
  • Zed: Деякі користувачі переходять на Zed через кращу продуктивність порівняно з Cursor.

https://www.youtube.com/@cursor_ai
У Cursor, мабуть, закінчився приріст користувачів, оскільки вони замість того, щоб робити свій хороший продукт, створили ютуб канал і почали розповідати, який у них хороший продукт.

Зараз два відео. Анонс та розмова про їх модель.

https://www.youtube.com/watch?v=sLaxGAL_Pl0

Ключові моменти:

  • Мета Cursor — створення ШІ-асистента для розробників, який розуміє код краще за людину.
  • Підхід: Навчають моделі на величезних обсягах даних (включно з приватними репозиторіями). Застосовують "curriculum learning" — від простого до складного.
  • Результати: Моделі Cursor перевершують Copilot та ChatGPT у тестах на розуміння коду. Вміють редагувати код, а не тільки генерувати (наприклад, вносити зміни за інструкцією).
  • Особливості: "Code infilling" — передбачення пропущених частин коду. "Long-range dependencies" — розуміння зв'язків у великих файлах.

Mistral Agents API
https://mistral.ai/news/agents-api

Mistral AI представляє Agents API — інструмент для створення автономних AI-агентів, які: виконують дії (код, пошук, генерація зображень), при цьому зберігають контекст між запитами та координуються між собою.

У прикладі наведено Помічника для розробників - інтеграція з GitHub.

https://www.youtube.com/watch?v=1Tt9Fq1pUPQ

Factory Droids (з точки пошуку погана назва)
https://www.factory.ai/news/ga
Стартап Factory оголосив про запуск своєї платформи Droids — чергових "перших у світі" автономних агентів для повного циклу розробки ПЗ (SDLC).

Роблять усе те, що зараз роблять фонові ШІ кодери:

  1. Автономна розробка — створюють готові до виробництва функції за ТЗ або запитом. Автоматично розставляють пріоритети та призначають тікети.
  2. Вирішення інцидентів — аналізують алерти, знаходять першопричини та виправляють баги. Проводять контекстно-залежні перевірки PR
  3. Глибокий аналіз коду — шукають відповіді у кодовій базі, документації та інтернеті.

Інтерфейс можна подивитися у відео:
https://www.youtube.com/watch?v=GkFd3d8suLM

Коштує на місяць $40+$10.

DeepSeek оновили свою R1 модель

https://api-docs.deepseek.com/news/news250528
Окрім зменшення галюцинацій та покращення швидкості вони додали виклик функцій та вивід у JSON. Модель open-source та за їх замірами працює на рівні ТОП закритих моделей.

Крім того доробили якість генерації front-end - тепер код ще краще. Приклади у відео, особливо фізика кульок:

https://www.youtube.com/watch?v=lWd1UFtbSZ0

Поки не бачив тестування наскільки добре вона буде працювати як фоновій агент, але думаю це ж все таки модель для парного програмування.

Ціна на АПІ така сама та все ще є знижки в ночі (по Китаю). У веб-версії https://chat.deepseek.com/ використання безкоштовне, але це єдина з SOTA моделей у якої зараз немає в чаті canvas-інтерфейсу. До речі, нарешті додали можливість у налаштування ("Improve the model for everyone") відключити збір даних для тренування їх моделей.

Можна використовувати й підняту у сторонніх провайдерів:
https://openrouter.ai/deepseek/deepseek-r1-0528
https://openrouter.ai/deepseek/deepseek-r1-0528:free від https://chutes.ai/tos

Vercel презентував свою модель
https://vercel.com/docs/v0/api

Модель v0-1.0-md розроблена для створення сучасних веб-застосунків. Вона підтримує введення тексту та зображень, забезпечує швидкі потокові відповіді та сумісна з форматом OpenAI Chat Completions API, тобто її можно підключити в Cursor в налаштування доступних моделей.

https://www.youtube.com/watch?v=0KYWJWY62d4

Модель також вміє визивати функції, добре розбирається в сучасних frontend та full-stack фреймворках (як то Next.js) і може виправляти свої помилки. Контекстне вікно 128к на вхід, 32к на віхід.

Наразі перебуває на стадії бета-тестування і вимагає тарифного плану Premium або Team з увімкненою оплатою за використання. Діє обмеження 200 повідомлень на день.

Ого...

https://x.com/AnthropicAI/status/1925926102725202163
Новина "THE WAY OF CODE, a project by @rickrubin in collaboration with Anthropic" -- Рік Рубін разом з Anthropic випустив книгу по вайб-кодінгу...

Рубін, відомий своїм нетехнічним підходом до музичного виробництва, розглядає цей метод як спосіб демократизувати створення програмного забезпечення, дозволяючи людям без навичок прогамування втілювати свої ідеї в життя.

https://www.thewayofcode.com/
«Шлях Коду» (The Way of Code) – експериментальна цифрова книга, що поєднує даоську філософію зі штучним інтелектом. Проєкт містить 81 медитативну главу, натхненну Дао Де Цзін, кожна з яких супроводжується генеративним мистецтвом, створеним моделлю Anthropic’s Claude AI.

Читачі можуть бачити код та змінювати ці фрагменти за допомогою Claude. Робота досліджує, як AI-assisted vibe coding – де користувачі описують ідеї природною мовою, а ШІ генерує код – узгоджується з акцентом Рубіна на інтуїції та простоті у творчому процесі.

Наступною цього тижня була презентація від Anthropic.

Івент називався "Code w/ Claude" тобто вони прямо зробили акцент на програмування.

Google, посилаючись на статистику Cursor, казали, що за останні місяці дуже багато людей перейшло у ньому на Gemini 2.5 Pro. Цікаво, чи оновлення поверне людей до Sonnet (модель вже є у налаштуваннях Cursor).

https://www.anthropic.com/news/claude-4
Презентували 4 версію Opus та Sonnet. Моделі мають всі сучасні фічі - мислення, пошук в інтернеті, запуск коду, використання інструментів та MCP, правки локальних файлів (які Opus може використовувати як пам'ять). Кеш запитів розширили з секунд до години. Контекстне вікно за замовчування (200k) меньше, але за додаткову плату дотягує до Gemini де 1 млн токенів. Кажуть, що Opus може 7 годин працювати як фоновий автономний агент.

У світлі випуску спеціалізованих моделей для фонової агентної поведінки важливо зазначити, що ці нові моделі, по суті, ними й є. Тільки вони не є версіями інших моделей, як у OpenAI Codex від o3. Компанія Anthropic схоже змістила фокус, оскільки явно програла боротьбу з ChatGPT, Gemini, Grok за споживчий ринок чат-аппів кожного дня. Тож вона просто випустила лише такі моделі та сфокусувалася на программувані.

Також оновили свій Claude Code інструмент. Тепер підтримує фонові завдання через GitHub Actions та нативні інтеграції з VS Code і JetBrains, відображаючи зміни безпосередньо у IDE.

Тобто вони теж зробили фонового агента, якому можна давати завдання з репозиторіїв і потім перевірити зроблене: "Позначайте Claude Code у пулл-реквестах, щоб відповідати на відгуки рецензентів, виправляти помилки CI або змінювати код. Щоб встановити, запустіть /install-github-app з Claude Code."

Цікаво, що виступав представник GitHub і, схоже, їх фоновий агент на сайті теж працює на моделі від Anthropic, а не OpenAI Codex як я спочатку подумав на їх анонсі. У GitHub Copilot у безкоштовному плані все ще тільки Claude 3.5 Sonnet, а ось у Pro додали Claude 4.0 Sonnet (Preview). Щоб використовувати Opus треба бути на Pro+ підписці.

Пам'ятаю, за часів GPT-4 з'являлися багато кастомних моделей, спеціально "заточених" під програмування. Були навіть окремі моделі під Python. phind.com робив круті штуки. Далі це все якось стихло, більшість універсальних моделей і так стали добре писати код.

https://windsurf.com/blog/windsurf-wave-9-swe-1
Windsurf нещодавно випустили свої моделі SWE-1, але я думаю це скоріше крок щоб скоротити витрати на зовнішні API.

Компанія Mistral досі надає API доступ до закритої моделі Codestral, останнє оновлення січень 2025.


І ось у нас новий виток, тепер моделі налаштовують на фонове самостійне вирішення низки завдань з git-репозиторію. OpenAI тільки но перевипустили Codex, тепер заснувавши модель на o3. Github оновили агента, додавши функцію фонової роботи.

https://mistral.ai/news/devstral
Відповідь від Mistral — це модель Devstral, розроблена спільно з All-hands (опен-сорс клон ШІ розробника Devin). На відміну від Codestral ліцензія тут Apache 2.0, тобто вільне використання та модефікація. Модель також доступна через API під назвою devstral-small-2505.

Що краще робить модель:

  • розбирає велики репозиторії
  • знаходить зв'язки між компонентами
  • сканує код на помилки
  • Модель навчена розв'язувати реальні проблеми з GitHub

За даними All Hands AI 🙌Devstral перевершує значно більші моделі, такі як Deepseek-V3-0324 (671B) та Qwen3 232B-A22B. При цьому Devstral достатньо легка, щоб працювати на одній RTX 4090 або Mac з 32 ГБ оперативної пам'яті, що робить її ідеальним вибором для фонового локального використання.