← ニュースAll
ソフトバンクとAmpere、CPUで小規模AIモデルの運用検証
要約
ソフトバンクと米Ampereが共同検証を開始し、CPUを用いて小規模言語モデル(SLM)やMoEの推論を分散運用することで計算資源の利用効率を高める取り組みを進めています。Ampere向けに最適化したllama.cppで消費電力低減やモデル切替えの高速化も確認しています。
本文
ソフトバンクは米国の半導体設計企業・Ampereと共同で、CPUを活用したAIモデルの運用効率化に向けた検証を始めました。複数の小規模AIモデルを分散してCPUで動かすことを想定し、計算資源の利用効率や運用性の向上をねらいとしています。ソフトバンク側が開発するオーケストレーターと、推論向けに設計されたAmpere製CPUの組み合わせで、CPUを推論用資源として利用できることを確認したとしています。背景には、AIエージェントや業務自動化で低遅延かつ高い電力効率が求められている点があります。
検証で確認された点:
・ソフトバンクのオーケストレーターとAmpere製CPUの組み合わせで、CPUをAI推論用に利用できることを確認している。
・対象は小規模言語モデル(SLM)や、必要な専門家部分のみを動かすMixture of Experts(MoE)に相当するモデルである。
・分散型の計算環境で性能、スケーラビリティー、運用性を評価したとされています。
・CPUのみのノードやCPUとGPUを併用するマルチノード環境で、最適なモデル配置・管理が可能であることを確認している。
・llama.cppをAmpere向けに最適化した実装で、消費電力の低減、同時実行数の増加、モデル読み込み時間の短縮が確認されたとしています。
・今後は複数モデルを動的に切り替えつつ、TPS(秒当たりトークン数)を安定的に維持するプラットフォーム化を目指すとしています。
まとめ:
今回の検証は、CPUを含む多様なノード構成で小規模モデルを効率的に運用する手法の可能性を示しています。業務自動化や常時稼働が想定されるAIエージェントの実用化に向け、消費電力と応答性の両立が注目点です。今後の正式な導入時期や詳細なスケジュールは現時点では未定とされています。
