- ローカルLLMは、デスクトップPCや小型ワークステーションといった制限的な環境で高い性能を発揮することが焦点となっている。
- <Google>が開発した「TurboQuant」は、KVキャッシュを圧縮することでメモリ消費を抑える技術。
- 推論速度を向上させる技術として投機的デコーディングが注目されており、「DFlash」や<Google>の「MTP」が<Gemma>の推論を高速化している。
- <llama.cpp>、<vLLM>、<SGLang>など既存の推論エンジンに加え、<LightSeek Foundation>の「TokenSpeed」や<Redis>開発者の「DS4」など新しいエンジンが登場している。
- これらの最適化は、AIデータセンターの消費電力問題や計算リソース問題にも直結する。