

Предложението на DeepSeek “mHC” архитектура може да трансформира обучението на големи езикови модели (LLM) – технологията зад чатботове с изкуствен интелект – докато разработчиците търсят начини за мащабиране на модели, без просто да добавят повече изчислителна мощност.
Експертите обаче предупредиха, че въпреки че подходът може да се окаже широкообхватен, все още може да се окаже труден за прилагане на практика.
В а техническа хартия издаден миналата седмица, съавтор на основателя и главен изпълнителен директор на DeepSeek Liang Wenfeng, компанията предложи Manifold-Constrained Hyper-Connections (mHC), метод, предназначен да се справи с нестабилността на обучението на Hyper-Connections (HC), мрежова структура, въведена от китайския технологичен гигант ByteDance през 2024 г.
HC е разработен за справяне с ограниченията на остатъчните мрежи (ResNet), архитектура, която е в основата на много съвременни модели за задълбочено обучение, включително LLM.
ResNet беше предложен преди около десетилетие от четирима изследователи в Microsoft Research Asia, включително известния компютърен учен Kaiming He.
Докладът на DeepSeek отбелязва най-новото усилие на китайския стартиращ AI да подобри ефективността на обучението на модели с ограничени изчислителни ресурси, подхранвайки спекулациите, че следващите му модели могат да включват новата архитектура.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта
