repetition penalty=1.05或frequency penalty=0.5起步presence penalty=0.3确保主题多样no_repeat_ngram=3-4,再酌情增加repetition penaltylength_penalty在0.6-1.0之间调节句长输入token序列,输出下一个token





将生成的token序列解码成文本


第一个"下一个token"生成: 输入token序列"经过"(调用forward方法)N层Decoder layer后,的到结果
细看其中一层Decoder layer,frward方法会返回若干中间输出,被称之为激活(activation)


Self-attn模块计算开销:
MLP模块计算开销:
Decoder layer模块计算开销:
以上为一次推理的计算开销,开销为sequence的平方级别

https://marp.app/