DeepSeek надгражда модел V3 с повече параметри и смяна на отворен код

DeepSeek пусна актуализирана версия на своя модел DeepSeek-V3 на 24 март. Новата версия, DeepSeek-V3-0324, има 685 милиарда параметри, леко увеличение спрямо 671 милиарда на оригиналния модел V3. Компанията все още не е пуснала системна карта за актуализирания модел. DeepSeek също промени лиценза за отворен код на модела на лиценз на MIT, привеждайки го в съответствие с модела DeepSeek-R1.

Оригиналът DeepSeek-V3 спечели световно внимание със своята рентабилност. В множество сравнителни тестове той превъзхожда други модели с отворен код като Qwen2.5-72B и Llama-3.1-405B, като същевременно осигурява производителност, сравнима с най-добрите собствени модели като GPT-4o и Claude-3.5-Sonnet. Инвеститорът на DeepSeek High-Flyer Quant подчерта в публикувана статия, че моделът е обучен на изключително ниски разходи. Чрез оптимизиране на алгоритми, рамки и хардуер, общите разходи за обучение на DeepSeek-V3 бяха само $5,576 милиона – при наемане на H800 GPU цена от $2 за GPU на час. [Cailian, in Chinese]

Свързани

Нашия източник е Българо-Китайска Търговско-промишлена палaта