9. LLMの革命:量が質を凌駕
Copyright@ Koji fukuoka 9
https://arxiv.org/pdf/2001.08361.pdf
https://openreview.net/forum?id=yzkSU5zdwD
https://togetter.com/li/2069466
スケーリング則(OpenAI 2020年)
大規模言語モデル(LLM)では損失 L
と3つのパラメーター間に
相関(べき乗関係)がある。
C : amount of compute
D : dataset size
N : number of model parameters