ホーム 業界ニュース

AMD、初のAI小型言語モデルをリリース:6900億トークン、推論デコード速度が3.88倍向上

kyojuro 2024年10月2日水曜日

AMDは“AMD-135 M”という最初の小型言語モデル(SLM)をリリースしています。

ますます大きな大型言語モデル(LLM)と比較して、AMD-135 Mはよりコンパクトで柔軟であり、特定の目標に特化し、プライベートおよび専門企業配備に最適な選択となります。

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

AMD-135 Mモデルは「ラクダ」シリーズの一部であり、2つのバージョンが提供されます。

1つ目はベースモデルである**“AMD-Llama-135 M”**です。最大6700億トークンを持ち、8つのInstinct MI250 64GBアクセラレータを用いて6日間トレーニングされました。

2つ目は拡張版である**“AMD-LAMA-135 M-CODE”**で、追加の200億トークンを含み、プログラミング向けに特化されています。同じハードウェアで4日間のトレーニングが行われました。

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

プロセスの作成と導入

AMDは**“推定復号”**と呼ばれる方法を使用しています。この方法では、小型の草稿モデルによって一度の前方伝搬で複数の候補トークンを生成し、その後より大きく正確なターゲットモデルによって検証または修正が行われます。

この手法は、データトランザクションが増えることで消費電力が増加するものの、性能に影響を与えることなく複数のトークンを同時に生成し、メモリ使用量を低減するのに役立ちます。

AMDは草稿モデルとしてCodeLlama-7Bを使用し、AMD-Llama-135 M-CODEにより推論復号の性能改善をテストしました。

例えば、MI 250アクセラレータでは約2.8倍、Ryzen AI CPUでは約3.88倍、Ryzen AI NPUでは約2.98倍の性能向上が確認されました。

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

AMD-135 Mモデルのトレーニングコード、データセット、およびその他のリソースはApache 2.0のもとでオープンソースとなっています。

AMDによれば、その性能は他のオープンソースモデルとほぼ同等か若干上回っています。例えば、HellaSwag、SciQ、ARC-EasyといったタスクではLlama-68 MやLlama-160 Mよりも優れ、HellaSwag、WinoGrande、SciQ、MMLU、ARC-EasyといったタスクではGPT-2 124MやOPT-125Mに匹敵するパフォーマンスを示しています。

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

関連ニュース

© 2024 - TopCPU.net   お問い合わせ プライバシーポリシー