2025-01-05 13:09 - CodeWithLLM

Aider LLM Leaderboards
https://aider.chat/docs/leaderboards/
Polyglot тест вимірює здатність LLM програмувати популярними мовами.

Aider найкраще працює з LLM, які добре вміють редагувати код, а не просто добре генерують код. Щоб оцінити навички редагування LLM, Aider використовує тести, які оцінюють здатність моделі послідовно дотримуватися системних підказок, щоб успішно редагувати код.

На початку 2025 року несподівано китайський DeepSeek V3 (671B MoE) дуже добре себе показує. Зараз ще у них знижки до 8 лютого на токени, ну і ціна $0.14/M input $0.28/M output [але контекстне вікно зарізане] (можна купувати на openrouter ) ні в яке порівняння з о1 та claude-3.5-sonnet не йде.

#newllmmodel

2026

2025

2024