目录
在解码器推理加速的时候,由于解码过程是一个token一个token的生成,如果每一次解码都从输入开始拼接好解码的token,生成输入数据,然后预测下一个token,那么会有非常多的重复计算。
为了解决这个问题,Transformers利用缓存
文章出处登录后可见!
已经登录?立即刷新
目录
在解码器推理加速的时候,由于解码过程是一个token一个token的生成,如果每一次解码都从输入开始拼接好解码的token,生成输入数据,然后预测下一个token,那么会有非常多的重复计算。
为了解决这个问题,Transformers利用缓存
文章出处登录后可见!