CodeWithLLM-Updates
-

Чи справді допомагає AGENTS.md
https://arxiv.org/abs/2602.11988
Перше велике емпіричне дослідження, яке перевіряє, чи справді допомагають репозиторійні контекстні файли правил. Тестували три сценарії на реальних задачах SWE-bench та власному датасеті репозиторіїв з файлами AGENTS.md.

Головний висновок: сучасні агенти чудово самі знаходять потрібну інформацію в коді (package.json, README, схеми, типи). Додаткові інструкції частіше заважають, ніж допомагають.

Ключові мінуси таких файлів: зростання вартості так як агент більше читає файли, запускає тести, виконує зайві дії, бо намагається «виконати всі вимоги» з AGENTS.md де зазвичай вже застарілі інструкції вводять модель в оману.

Якщо писати AGENTS.md вручну — тільки мінімальні, точкові вимоги для виправлення конкретних повторюваних помилок агента.

https://www.youtube.com/watch?v=GcNu6wrLTJc

Практичні рекомендації від Theo:

Спеціальна техніка prompt engineering для AI-агентів: замість довгих правил у CLAUDE.md додаєте короткі, свідомо неправдиві, але корисні твердження, які керують поведінкою моделі набагато ефективніше.

Приклади, які показує Theo:

Обговорення HN
https://news.ycombinator.com/item?id=47034087
Усі майже одностайно згодні, що файли контексту, згенеровані LLM (часто це команда /init), погіршують результат. Добре написані вручну файли AGENTS.md корисні, але тільки якщо містять неочевидні знання про домен, яких модель не може вивести з коду. Додавати їх тільки після невдалих спроб агента.

Критика дослідження: відсутність вимірювання якості коду (тільки success rate), датасет тільки Python, переважно маленькі/LLM-генеровані репозиторії, до того ж моделі швидко змінюються — результати можуть через місяць вже не бути таким самим.

Документація у AGENTS.md
https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Агенти пишуть код для нових API Next.js 16, яких не було в тренувальних даних. Vercel тестували пасивну документацію (індекс реальних файлів docs), як контекст у AGENTS.md й він перемагає активні Skills, бо агенту не треба приймати рішення “чи викликати інструмент зараз?”. Це показує, що короткий розумний AGENTS.md (8 КБ індекс + одна ключова фраза) — це один з найкращих способів дати агенту знання, яких немає в моделі.