如何测量预训练的 HuggingFace 语言模型的性能?
pytorch 272
原文标题 :How to measure performance of a pretrained HuggingFace language model?
我正在预训练aGPT2LMHeadModel
使用Trainer
如下:
training_args = TrainingArguments(
output_dir=str(project_root / 'models/bn-gpt2/'),
overwrite_output_dir=True,
num_train_epochs=1,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=4,
fp16=True,
optim="adafactor",
eval_steps=400,
save_steps=800,
warmup_steps=500,
evaluation_strategy="steps",
)
trainer = Trainer(
model=model,
args=training_args,
data_collator=data_collator,
train_dataset=tokenized_dataset['train'],
eval_dataset=tokenized_dataset['test'],
)
trainer.train()
我想在训练期间和之后使用困惑度或准确性指标来衡量我的预训练模型的性能。我找到了一些方法来测量单个句子的这些,但我找不到为完整模型执行此操作的方法。我的目标是从头开始使用 GPT2 训练为我的母语创建下一个单词预测模型。