CodeWithLLM-Updates
-

Хочу поділитися своїми думками про LLM лідерборди. Справа в тому, що точно протестувати та оцінити моделі досить складно. Продуктивність може варіюватися залежно від типу завдання, контексту.

Вважаю, що немає сенсу надто заглиблюватися в детальне порівняння позицій моделей у лідербордах. Натомість краще поділити їх на декілька груп: лідери, середнячки та відстаючі. Це дасть більш реалістичне уявлення про їхні можливості та допоможе уникнути надмірної фіксації на незначних відмінностях у балах.

🤗 На bigcode-models-leaderboardлише відкриті моделі, на скріні відфільтрував instruct з якими можна взаємодіяти як у чаті, надаючи інструкції.

Загалом DeepSeek та Phind-CodeLlama розмірів 33B та 34B, продемонстрували найкращу продуктивність. В таблиці поки що немає Phind-CodeLlama 70B та ще невідомо чи викладуть її розробники у відкритий доступ