DeepSpeedって何……(全然時代についていけていない
Hugging Face にある日本語モデル ( https://huggingface.co/docs/transformers/model_doc/gpt_neox_japanese) を読み込んだ瞬間メモリ 10GB くらい持っていかれて震えあがった