Cursor太强了，从零开始写ChatGLM大模型的微调代码

初次体验对话实录
- - 问：怎么使用lora对大模型进行微调
  - 问：怎么用lora对chatglm模型进行微调
  - 问：chatglm是清华开源的大语言模型
  - 问：LoRA的全称是Low-Rank Adaptation of Large Language Models
  - 问：如何使用LoRA对ChatGLM-6B进行微调？
  - 问：上面微调用到的训练数据有没有示例？
  - 问：以后都用中文回复我
  - 问：上面代码中的data_loader要怎么写？
  - 问：把前面的代码合并一下写到编辑器中
  - 问：把你刚才回答的代码合并，写到编辑器中
  - 问：input_ids, attention_mask, labels要怎么定义？
  - 问：把你前面回复的代码合并到一起
  - 问：微调后的模型好像没有保存？要怎么保存
  - 问：上面代码中使用LoRA和不使用LoRA会有什么区别？
  - 问：怎么查看训练过程中的学习情况？
  - 问：怎么知道训练过程是过拟合还是没有收敛？
  - 问：怎么将每次迭代的训练情况用折线图的方式展示出来？
  - 问：学习率要设为多少合适？
  - 问：继续写完上面的代码
  - 问：optimizer怎么分别被LoRA和optim定义了一遍，以哪个为准？
  - 问：optimizer.zero_grad()这行代码是做什么的？
  - 问：model.eval()是做什么的？
  - 问：with torch.no_grad():是做什么的
  - 问：outputs.loss是怎么被计算出来的？
  - 问：loss.backward()和optimizer.step()分别是做什么的
  - 问：也就是说如果没有写optimizer.step()，那么每次迭代都是无用功了？
  - 问：每次迭代的loss保存下来有意义吗？
  - 问：记录每次迭代的loss和每轮的平均loss相比，哪个作用更大？
  - 问：我记得torch有个专门的库是用来记录训练过程的吧？
  - 问：上面的代码没写完，请写完
  - 问：这段代码中没有记录下每次迭代的loss，梯度吧？
  - 问：你是说writer = SummaryWriter()以后会自动记录每次迭代的情况吗？
  - 问：如果我要训练的文本中有的token不在预训练模型的token列表中会出现什么情况？
  - 问：怎么检测是否有token不在ChatGLM的token列表中？
  - 问：不在token列表中的token要怎么加到列表中呢？
  - 问：是loss大表示收敛还是loss小表示收敛？
  - 问：T5模型是用Adafactor好还是用LoRA好？

官网是cursor.so，下载后安装即可使用，无需科学上网。
现在速度又快还免费，只希望收费晚点来。
使用过程中如果一次回复的字数太多了会戛然而止，这时候跟他说“上面的代码没写完，请写完”就可以了。
省流，最终得到的代码放在最前面了。
现在还没测试，下一篇文章写他的代码运行的效果。（2023-3-19）
测试过了，可能是最新的东西它都还没学，所以跟Lora有关的代码全是乱写的，最基本的安装包要装哪个它答的都是错的。pypi中目前没有现成的Low-Rank Adaptation of Large Language Models，但是找到一个开源项目中有实现lora：github中搜ssbuild/chatglm_finetuning，他也开源了chatyuan的。我正在测chatyuan的微调代码。（2023-3-20）

import torch
from torch.utils.data import TensorDataset, DataLoader
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora
from torch.utils.tensorboard import SummaryWriter

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Define your input text
input_text = "Hello, how are you?"

# Tokenize the input text
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)
attention_mask = torch.ones_like(input_ids)

# Define your output text
output_text = "I'm doing well, thank you for asking."

# Tokenize the output text
labels = torch.tensor(tokenizer.encode(output_text)).unsqueeze(0)

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load
# the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Define your validation data
val_input_text = "How are you doing?"
val_output_text = "I'm doing well, thank you for asking."
val_input_ids = torch.tensor(tokenizer.encode(val_input_text)).unsqueeze(0)
val_attention_mask = torch.ones_like(val_input_ids)
val_labels = torch.tensor(tokenizer.encode(val_output_text)).unsqueeze(0)
val_dataset = TensorDataset(val_input_ids, val_attention_mask, val_labels)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=True)

# Define your training and validation losses
train_losses = []
val_losses = []

# Initialize the SummaryWriter
writer = SummaryWriter()

# Fine-tune the model
for epoch in range(10):
    total_train_loss = 0
    total_val_loss = 0
    model.train()
    for batch in train_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        total_train_loss += loss.item()
    avg_train_loss = total_train_loss / len(train_loader)
    train_losses.append(avg_train_loss)

    total_val_loss = 0
    model.eval()
    with torch.no_grad():
        for batch in val_loader:
            input_ids, attention_mask, labels = batch
            outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            total_val_loss += loss.item()
    avg_val_loss = total_val_loss / len(val_loader)
    val_losses.append(avg_val_loss)

    print(f"Epoch {epoch+1} train loss: {avg_train_loss:.4f} val loss: {avg_val_loss:.4f}")

    # Write the training and validation losses to TensorBoard
    writer.add_scalar("Training loss", avg_train_loss, epoch)
    writer.add_scalar("Validation loss", avg_val_loss, epoch)

# Close the SummaryWriter
writer.close()

初次体验对话实录

问：怎么使用lora对大模型进行微调

To fine-tune a large model using Lora, you can use the PyTorch library. Here is an example of a feedforward neural network in PyTorch:

import torch.nn as nn
import torch.optim as optim

class FeedforwardNN(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNN, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_dim, output_dim)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)
        out = self.sigmoid(out)
        return out

model = FeedforwardNN(input_dim=10, hidden_dim=5, output_dim=1)
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Fine-tune the model
for epoch in range(100):
    optimizer.zero_grad()
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()

You can replace the FeedforwardNN class with your own model and adjust the hyperparameters as needed. As for using Lora specifically, I’m not sure what you mean by that. Can you provide more context or information?

问：怎么用lora对chatglm模型进行微调

I’m not familiar with the lora library or the chatglm model. Can you provide more information or context about what you’re trying to do?

问：chatglm是清华开源的大语言模型

To fine-tune the chatglm model using Lora, you can use the PyTorch library. First, you’ll need to download the chatglm model and load it into PyTorch. Here’s an example of how to do that:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Download and load the chatglm model
model_name = "TsinghuaAI/ChatL-GPT2_LCCC-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Freeze all layers except the last one
for param in model.parameters():
    param.requires_grad = False
model.transformer.h[-1].requires_grad = True

# Fine-tune the model
optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
for epoch in range(10):
    for batch in data_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

In this example, we’re using the transformers library to download and load the chatglm model. We then freeze all layers except the last one, which we’ll fine-tune. Finally, we use an Adam optimizer to fine-tune the model for 10 epochs.

Note that this is just an example and you may need to adjust the hyperparameters or fine-tuning process to fit your specific use case.

问：LoRA的全称是Low-Rank Adaptation of Large Language Models

Yes, that’s correct! LoRA stands for Low-Rank Adaptation of Large Language Models. It’s a method for fine-tuning large language models that reduces the computational cost and memory requirements of fine-tuning.

问：如何使用LoRA对ChatGLM-6B进行微调？

To fine-tune the ChatGLM-6B model using LoRA, you can use the lora library. Here’s an example of how to do that:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Fine-tune the model
for epoch in range(10):
    for batch in data_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

In this example, we’re using the transformers library to download and load the ChatGLM-6B model. We then initialize the Lora optimizer with a rank of 16, which reduces the computational cost and memory requirements of fine-tuning. Finally, we use the Lora optimizer to fine-tune the model for 10 epochs.

Note that this is just an example and you may need to adjust the hyperparameters or fine-tuning process to fit your specific use case.

问：上面微调用到的训练数据有没有示例？

Unfortunately, I don’t have any example training data for fine-tuning the ChatGLM-6B model. However, you can use any text data that’s relevant to your use case. For example, if you’re fine-tuning the model for a chatbot application, you could use a dataset of chat logs. If you’re fine-tuning the model for a customer service application, you could use a dataset of customer service transcripts. The key is to use data that’s similar to the data you’ll be using the model on in production.

问：以后都用中文回复我

好的，以后我会用中文回复你的。如果你有任何其他问题，请随时问我！

问：上面代码中的data_loader要怎么写？

data_loader是一个用于加载训练数据的DataLoader对象。你需要将你的训练数据转换成TensorDataset对象，并使用DataLoader将其加载。这里是一个示例：

from torch.utils.data import TensorDataset, DataLoader

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

在这个示例中，我们将训练数据转换成了一个TensorDataset对象，并使用DataLoader将其加载。batch_size参数指定了每个batch的大小，shuffle参数指定了是否打乱数据的顺序。你可以根据自己的需求调整这些参数。

问：把前面的代码合并一下写到编辑器中

你提供的前置代码是空的，所以我无法将其合并。如果你能提供更多的代码或上下文，我可以帮你更好地解决问题。

问：把你刚才回答的代码合并，写到编辑器中

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Fine-tune the model
for epoch in range(10):
    for batch in train_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

这是将之前的代码合并后的结果。请注意，这只是一个示例，你需要根据自己的需求调整代码和超参数。如果你有任何其他问题，请随时问我！

问：input_ids, attention_mask, labels要怎么定义？

input_ids是一个包含输入文本的token ID的tensor，attention_mask是一个指示哪些token是padding token的tensor，labels是一个包含输出文本的token ID的tensor。你需要根据你的训练数据将这些tensor定义好。这里是一个示例：

import torch
from transformers import AutoTokenizer

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained("TsinghuaAI/ChatL-GPT2_6B")

# Define your input text
input_text = "Hello, how are you?"

# Tokenize the input text
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)
attention_mask = torch.ones_like(input_ids)

# Define your output text
output_text = "I'm doing well, thank you for asking."

# Tokenize the output text
labels = torch.tensor(tokenizer.encode(output_text)).unsqueeze(0)

在这个示例中，我们首先加载了ChatGLM-6B模型的tokenizer。然后，我们定义了输入文本和输出文本，并使用tokenizer将它们转换成了input_ids和labels。attention_mask被设置为一个与input_ids相同大小的tensor，其中所有的值都是1，表示所有的token都是有效的。你需要根据你的训练数据和tokenizer来调整这些代码。

问：把你前面回复的代码合并到一起

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora
from torch.utils.data import TensorDataset, DataLoader

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Define your input text
input_text = "Hello, how are you?"

# Tokenize the input text
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)
attention_mask = torch.ones_like(input_ids)

# Define your output text
output_text = "I'm doing well, thank you for asking."

# Tokenize the output text
labels = torch.tensor(tokenizer.encode(output_text)).unsqueeze(0)

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Fine-tune the model
for epoch in range(10):
    for batch in train_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

这是将之前的代码合并后的结果。请注意，这只是一个示例，你需要根据自己的需求调整代码和超参数。如果你有任何其他问题，请随时问我！

问：微调后的模型好像没有保存？要怎么保存

要保存微调后的模型，你可以使用PyTorch的save方法将模型保存到磁盘上。这里是一个示例：

torch.save(model.state_dict(), "path/to/save/directory")

在这个示例中，我们使用state_dict方法获取模型的参数，并使用torch.save方法将其保存到磁盘上。你需要将path/to/save/directory替换成你想要保存模型的目录。如果你想要加载模型，可以使用torch.load方法将模型加载回来：

model.load_state_dict(torch.load("path/to/save/directory"))

问：上面代码中使用LoRA和不使用LoRA会有什么区别？

使用LoRA和不使用LoRA的区别在于fine-tuning的速度和内存占用。使用LoRA可以减少fine-tuning的计算和内存开销，从而加快fine-tuning的速度并减少内存占用。具体来说，LoRA使用低秩分解来近似模型参数，从而减少了参数的数量和计算量。这使得LoRA可以在相同的时间和内存限制下处理更大的模型和数据集。

问：怎么查看训练过程中的学习情况？

要查看训练过程中的学习情况，你可以在每个epoch结束时打印出模型的损失值。这可以告诉你模型在训练数据上的表现如何。这里是一个示例：

在这个示例中，我们在每个epoch结束时打印出模型的平均损失值。你可以根据自己的需求调整这些代码。如果你有任何其他问题，请随时问我！ <

问：怎么知道训练过程是过拟合还是没有收敛？

要判断模型是否过拟合或者没有收敛，你可以观察模型在训练集和验证集上的表现。如果模型在训练集上的表现很好，但在验证集上的表现很差，那么就说明模型过拟合了。如果模型在训练集和验证集上的表现都很差，那么就说明模型没有收敛。如果模型在训练集和验证集上的表现都很好，那么就说明模型训练得很好。你可以使用PyTorch的DataLoader和TensorDataset来加载训练集和验证集，并在每个epoch结束时计算模型在训练集和验证集上的损失值。这里是一个示例：

问：怎么将每次迭代的训练情况用折线图的方式展示出来？

Assistant: 要将每次迭代的训练情况用折线图的方式展示出来，你可以使用Matplotlib库。具体来说，你可以在每个epoch结束时记录模型在训练集和验证集上的损失值，并将这些值绘制成折线图。这里是一个示例：

问：学习率要设为多少合适？

学习率的选择取决于你的模型和数据集。如果你的模型和数据集很大，那么你可能需要使用较小的学习率，以避免模型过拟合或者没有收敛。如果你的模型和数据集很小，那么你可能需要使用较大的学习率，以加快模型的训练速度。通常来说，学习率的初始值可以设置为1e-5或1e-4，然后根据模型在训练集和验证集上的表现来调整学习率。如果模型在训练集上的表现很好，但在验证集上的表现很差，那么你可能需要降低学习率。如果模型在训练集和验证集上的表现都很差，那么你可能需要增加学习率。你可以使用PyTorch的optim模块来设置学习率。这里是一个示例：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora
from torch.utils.data import TensorDataset, DataLoader

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Define your input text
input_text = "Hello, how are you?"

# Tokenize the input text
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)
attention_mask = torch.ones_like(input_ids)

# Define your output text
output_text = "I'm doing well, thank you for asking."

# Tokenize the output text
labels = torch.tensor(tokenizer.encode(output_text)).unsqueeze(0)

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load

问：继续写完上面的代码

# the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Define your validation data
val_input_text = "How are you doing?"
val_output_text = "I'm doing well, thank you for asking."
val_input_ids = torch.tensor(tokenizer.encode(val_input_text)).unsqueeze(0)
val_attention_mask = torch.ones_like(val_input_ids)
val_labels = torch.tensor(tokenizer.encode(val_output_text)).unsqueeze(0)
val_dataset = TensorDataset(val_input_ids, val_attention_mask, val_labels)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=True)

# Define your training and validation losses
train_losses = []
val_losses = []

# Define your optimizer
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)

# Fine-tune the model
for epoch in range(10):
    total_train_loss = 0
    total_val_loss = 0
    model.train()
    for batch in train_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        total_train_loss += loss.item()
    avg_train_loss = total_train_loss / len(train_loader)
    train_losses.append(avg_train_loss)

    total_val_loss = 0
    model.eval()
    with torch.no_grad():
        for batch in val_loader:
            input_ids, attention_mask, labels = batch
            outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            total_val_loss += loss.item()
    avg_val_loss = total_val_loss / len(val_loader)
    val_losses.append(avg_val_loss)

    print(f"Epoch {epoch+1} train loss: {avg_train_loss:.4f} val loss: {avg_val_loss:.4f}")

# Plot the training and validation losses
plt.plot(train_losses, label="Training loss")
plt.plot(val_losses, label="Validation loss")
plt.legend()
plt.show()

这里是完整的代码，包括了设置学习率和使用AdamW优化器的部分。你可以根据自己的需求调整这些代码。如果你有任何

问：optimizer怎么分别被LoRA和optim定义了一遍，以哪个为准？

在这个示例中，我们使用了Lora优化器来优化模型的参数。Lora是一个自定义的优化器，它继承自PyTorch的Optimizer类，并实现了一些特殊的优化算法。我们在初始化Lora优化器时，将模型的参数传递给了它。这样，Lora优化器就可以更新模型的参数了。

在后面的代码中，我们又使用了PyTorch的AdamW优化器来优化模型的参数。AdamW是一种常用的优化算法，它可以自适应地调整学习率，并使用权重衰减来防止过拟合。我们在初始化AdamW优化器时，也将模型的参数传递给了它。这样，AdamW优化器就可以更新模型的参数了。

在这个示例中，我们使用了Lora和AdamW两种优化器来优化模型的参数。实际上，我们只需要使用其中一种优化器即可。如果你想使用Lora优化器，那么就不需要使用AdamW优化器；如果你想使用AdamW优化器，那么就不需要使用Lora优化器。你可以根据自己的需求选择一种优化器来使用。

问：optimizer.zero_grad()这行代码是做什么的？

optimizer.zero_grad()这行代码是用来清空模型的梯度的。在每次迭代中，我们需要计算模型的梯度，并使用优化器来更新模型的参数。但是，在计算新的梯度之前，我们需要先清空之前的梯度。否则，新的梯度会与之前的梯度相加，导致模型的参数更新不正确。因此，我们需要在每次迭代之前调用optimizer.zero_grad()来清空模型的梯度。

问：model.eval()是做什么的？

model.eval()是用来将模型设置为评估模式的。在评估模式下，模型的行为会有所不同。具体来说，评估模式下，模型不会计算梯度，也不会更新模型的参数。这是因为，在评估模式下，我们只需要使用模型来进行预测，而不需要对模型进行训练。因此，为了提高模型的预测性能，我们需要将模型设置为评估模式。在这个示例中，我们在计算验证集上的损失值时，将模型设置为评估模式，以确保模型的参数不会被更新。

问：with torch.no_grad():是做什么的

with torch.no_grad():是一个上下文管理器，它可以临时禁用PyTorch的自动求导功能。在这个上下文中，所有的计算都不会被记录在计算图中，也不会影响模型的梯度。这个上下文通常用于评估模型或者进行推理时，因为在这些情况下，我们不需要计算梯度，也不需要更新模型的参数。禁用自动求导功能可以提高计算效率，并减少内存消耗。在这个示例中，我们在计算验证集上的损失值时，使用了with torch.no_grad():上下文，以提高计算效率。

问：outputs.loss是怎么被计算出来的？

outputs.loss是模型在当前batch上的损失值。在这个示例中，我们使用了AutoModelForCausalLM模型，它是一个自回归语言模型，可以根据输入文本生成输出文本。在每个batch中，我们将输入文本和输出文本传递给模型，模型会根据输入文本生成输出文本，并计算输出文本与真实输出文本之间的交叉熵损失。这个交叉熵损失就是outputs.loss。我们可以使用这个损失来更新模型的参数，以使模型的输出更接近于真实输出。

问：loss.backward()和optimizer.step()分别是做什么的

loss.backward()是用来计算模型的梯度的。在每次迭代中，我们需要计算模型的梯度，并使用优化器来更新模型的参数。loss.backward()会自动计算模型的梯度，并将梯度保存在模型的参数中。这样，我们就可以使用优化器来更新模型的参数了。

optimizer.step()是用来更新模型的参数的。在每次迭代中，我们需要使用优化器来更新模型的参数，以使模型的输出更接近于真实输出。optimizer.step()会根据模型的梯度和优化器的参数来更新模型的参数。具体来说，它会根据模型的梯度和学习率来计算参数的更新量，并将更新量加到模型的参数中。这样，模型的参数就会被更新了。

问：也就是说如果没有写optimizer.step()，那么每次迭代都是无用功了？

是的，如果没有调用optimizer.step()，那么模型的参数就不会被更新，每次迭代都是无用功。在每次迭代中，我们需要计算模型的梯度，并使用优化器来更新模型的参数。loss.backward()会自动计算模型的梯度，并将梯度保存在模型的参数中。但是，如果没有调用optimizer.step()，那么模型的参数就不会被更新，模型的输出也不会得到改善。因此，我们必须在每次迭代中调用optimizer.step()，以更新模型的参数。

问：每次迭代的loss保存下来有意义吗？

如果你想记录每次迭代的损失值，可以在每次迭代结束后，将当前的损失值保存到一个列表中。具体来说，你可以在每次迭代结束后，将当前的训练损失值和验证损失值保存到两个列表中，然后在训练结束后，将这两个列表绘制成折线图。这里是一个示例代码：

问：记录每次迭代的loss和每轮的平均loss相比，哪个作用更大？

记录每次迭代的loss和每轮的平均loss都是很有用的。每次迭代的loss可以帮助我们更好地了解模型的训练过程，以及每个batch的训练效果。而每轮的平均loss则可以帮助我们更好地了解模型的整体训练效果，以及模型是否出现了过拟合或欠拟合的情况。因此，这两个指标都是很重要的，它们可以帮助我们更好地了解模型的训练过程和训练效果。

问：我记得torch有个专门的库是用来记录训练过程的吧？

是的，PyTorch有一个叫做torch.utils.tensorboard的库，可以用来记录模型的训练过程。使用tensorboard可以方便地可视化模型的训练过程，包括损失值、准确率、梯度等信息。具体来说，你可以在每次迭代结束后，将当前的训练损失值和验证损失值保存到两个列表中，然后使用tensorboard将这两个列表可视化成折线图。这里是一个示例代码：

import torch
from torch.utils.data import TensorDataset, DataLoader
from transformers import AutoTokenizer, AutoModelForCausalLM
from lora import Lora
from torch.utils.tensorboard import SummaryWriter

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Initialize the Lora optimizer
optimizer = Lora(model.parameters(), lr=1e-5, rank=16)

# Define your input text
input_text = "Hello, how are you?"

# Tokenize the input text
input_ids = torch.tensor(tokenizer.encode(input_text)).unsqueeze(0)
attention_mask = torch.ones_like(input_ids)

# Define your output text
output_text = "I'm doing well, thank you for asking."

# Tokenize the output text
labels = torch.tensor(tokenizer.encode(output_text)).unsqueeze(0)

# Convert your training data to a TensorDataset
train_dataset = TensorDataset(input_ids, attention_mask, labels)

# Create a DataLoader to load
# the data in batches
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Define your validation data
val_input_text = "How are you doing?"
val_output_text = "I'm doing well, thank you for asking."
val_input_ids = torch.tensor(tokenizer.encode(val_input_text)).unsqueeze(0)
val_attention_mask = torch.ones_like(val_input_ids)
val_labels = torch.tensor(tokenizer.encode(val_output_text)).unsqueeze(0)
val_dataset = TensorDataset(val_input_ids, val_attention_mask, val_labels)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=True)

# Define your training and validation losses
train_losses = []
val_losses = []

# Initialize the SummaryWriter
writer = SummaryWriter()

# Fine-tune the model
for epoch in range(10):
    total_train_loss = 0
    total_val_loss = 0
    model.train()
    for batch in train_loader:
        optimizer.zero_grad()
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        total_train_loss += loss.item

问：上面的代码没写完，请写完

       total_train_loss += loss.item()
    avg_train_loss = total_train_loss / len(train_loader)
    train_losses.append(avg_train_loss)

    total_val_loss = 0
    model.eval()
    with torch.no_grad():
        for batch in val_loader:
            input_ids, attention_mask, labels = batch
            outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            total_val_loss += loss.item()
    avg_val_loss = total_val_loss / len(val_loader)
    val_losses.append(avg_val_loss)

    print(f"Epoch {epoch+1} train loss: {avg_train_loss:.4f} val loss: {avg_val_loss:.4f}")

    # Write the training and validation losses to TensorBoard
    writer.add_scalar("Training loss", avg_train_loss, epoch)
    writer.add_scalar("Validation loss", avg_val_loss, epoch)

# Close the SummaryWriter
writer.close()

问：这段代码中没有记录下每次迭代的loss，梯度吧？

在这段代码中，没有记录每次迭代的损失值和梯度。不过，这段代码使用了PyTorch内置的SummaryWriter来记录训练过程中的损失值和梯度。具体来说，每次迭代结束后，代码会将当前的训练损失值和验证损失值写入到SummaryWriter中，然后使用tensorboard将这两个列表可视化成折线图。你可以在终端中使用以下命令来启动tensorboard：

tensorboard
然后在浏览器中打开http://localhost:6006，就可以看到可视化的训练过程了。

问：你是说writer = SummaryWriter()以后会自动记录每次迭代的情况吗？

是的，SummaryWriter会自动记录每次迭代的情况，包括损失值、梯度、权重等信息。你可以使用add_scalar()方法将这些信息写入到SummaryWriter中，然后使用tensorboard将这些信息可视化成折线图。在这个示例代码中，我们使用add_scalar()方法将训练损失值和验证损失值写入到SummaryWriter中，然后使用tensorboard将这两个列表可视化成折线图。

问：如果我要训练的文本中有的token不在预训练模型的token列表中会出现什么情况？

如果你要训练的文本中有的token不在预训练模型的token列表中，那么这些token会被视为未知的token，也就是说，它们的嵌入向量会被初始化为随机值。这可能会导致模型的性能下降，因为模型无法从这些未知的token中学习到有用的信息。为了解决这个问题，你可以使用预训练模型的tokenizer来将文本转换为模型可以理解的token，然后将这些token输入到模型中进行训练。如果你的文本中有很多未知的token，你可以考虑使用更大的预训练模型，或者使用更多的训练数据来训练模型。

问：怎么检测是否有token不在ChatGLM的token列表中？

如果你要检测一个token是否在ChatGLM的token列表中，可以使用tokenizer的get_vocab()方法来获取模型的token列表，然后使用Python的in运算符来检查一个token是否在这个列表中。具体来说，你可以使用以下代码来检测一个token是否在ChatGLM的token列表中：

from transformers import AutoTokenizer

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Get the model's vocabulary
vocab = tokenizer.get_vocab()

# Check if a token is in the vocabulary
token = "hello"
if token in vocab:
    print(f"{token} is in the vocabulary")
else:
    print(f"{token} is not in the vocabulary")

在这个示例代码中，我们首先使用AutoTokenizer.from_pretrained()方法下载和加载ChatGLM-6B模型的tokenizer。然后，我们使用tokenizer.get_vocab()方法获取模型的token列表，并将其保存到vocab变量中。最后，我们使用Python的in运算符来检查一个token是否在这个列表中。如果这个token在列表中，代码会输出{token} is in the vocabulary，否则会输出{token} is not in the vocabulary。

问：不在token列表中的token要怎么加到列表中呢？

如果你要将一个新的token添加到ChatGLM的token列表中，可以使用tokenizer的add_tokens()方法来添加。具体来说，你可以使用以下代码将一个新的token添加到ChatGLM的token列表中：

from transformers import AutoTokenizer

# Download and load the ChatGLM-6B model
model_name = "TsinghuaAI/ChatL-GPT2_6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Add a new token to the vocabulary
new_token = "mynewtoken"
tokenizer.add_tokens([new_token])

# Encode a text containing the new token
text = "This is a text containing mynewtoken."
encoded_text = tokenizer.encode(text)

# Decode the encoded text
decoded_text = tokenizer.decode(encoded_text)

print(decoded_text)

在这个示例代码中，我们首先使用AutoTokenizer.from_pretrained()方法下载和加载ChatGLM-6B模型的tokenizer。然后，我们使用tokenizer.add_tokens()方法将一个新的token添加到模型的token列表中。接下来，我们使用tokenizer.encode()方法将一个包含新token的文本编码成模型可以理解的token序列。最后，我们使用tokenizer.decode()方法将编码后的token序列解码成原始文本。如果一切正常，代码会输出This is a text containing mynewtoken.。

问：是loss大表示收敛还是loss小表示收敛？

通常情况下，loss小表示模型更接近最优解，也就是说，模型的性能更好。因此，我们通常会将loss作为模型性能的指标，希望在训练过程中尽可能地将loss降到最小。当loss趋近于0时，模型已经收敛，训练过程结束。

问：T5模型是用Adafactor好还是用LoRA好？

这个问题没有一个固定的答案，因为不同的模型和任务可能需要不同的优化器。Adafactor和LoRA都是比较新的优化器，它们都有一些优点和缺点。Adafactor是一种自适应学习率优化器，可以自动调整每个参数的学习率，从而提高模型的收敛速度和稳定性。LoRA是一种低秩Riemannian优化器，可以在保持模型性能的同时减少模型的参数数量，从而提高模型的泛化能力。如果你的模型比较大，可以考虑使用LoRA来减少模型的参数数量。如果你的模型比较小，可以考虑使用Adafactor来提高模型的收敛速度和稳定性。当然，这只是一种建议，具体的选择还需要根据你的具体情况来决定。

文章出处登录后可见！

已经登录？立即刷新

Cursor太强了，从零开始写ChatGLM大模型的微调代码

Cursor太强了，从零开始写ChatGLM大模型的微调代码

初次体验对话实录

问：怎么使用lora对大模型进行微调

问：怎么用lora对chatglm模型进行微调

问：chatglm是清华开源的大语言模型

问：LoRA的全称是Low-Rank Adaptation of Large Language Models

问：如何使用LoRA对ChatGLM-6B进行微调？

问：上面微调用到的训练数据有没有示例？

问：以后都用中文回复我

问：上面代码中的data_loader要怎么写？

问：把前面的代码合并一下写到编辑器中

问：把你刚才回答的代码合并，写到编辑器中

问：input_ids, attention_mask, labels要怎么定义？

问：把你前面回复的代码合并到一起

问：微调后的模型好像没有保存？要怎么保存

问：上面代码中使用LoRA和不使用LoRA会有什么区别？

问：怎么查看训练过程中的学习情况？

问：怎么知道训练过程是过拟合还是没有收敛？

问：怎么将每次迭代的训练情况用折线图的方式展示出来？

问：学习率要设为多少合适？

问：继续写完上面的代码

问：optimizer怎么分别被LoRA和optim定义了一遍，以哪个为准？

问：optimizer.zero_grad()这行代码是做什么的？

问：model.eval()是做什么的？

问：with torch.no_grad():是做什么的

问：outputs.loss是怎么被计算出来的？

问：loss.backward()和optimizer.step()分别是做什么的

问：也就是说如果没有写optimizer.step()，那么每次迭代都是无用功了？

问：每次迭代的loss保存下来有意义吗？

问：记录每次迭代的loss和每轮的平均loss相比，哪个作用更大？

问：我记得torch有个专门的库是用来记录训练过程的吧？

问：上面的代码没写完，请写完

问：这段代码中没有记录下每次迭代的loss，梯度吧？

问：你是说writer = SummaryWriter()以后会自动记录每次迭代的情况吗？

问：如果我要训练的文本中有的token不在预训练模型的token列表中会出现什么情况？

问：怎么检测是否有token不在ChatGLM的token列表中？

问：不在token列表中的token要怎么加到列表中呢？

问：是loss大表示收敛还是loss小表示收敛？

问：T5模型是用Adafactor好还是用LoRA好？

相关推荐