创建一个好的训练数据集的最佳方法是什么?

青葱年少 tensorflow 208

原文标题Best way to create a good training dataset?

我有一个带有文本输入和标签作为输出的训练数据集。目前大约有 50 种不同的标签。我想知道创建一个好的火车数据集的理想方法是什么。

我创建的当前训练数据集非常有偏差。例如。对于标签 1,大约有 200 个输入数据点,对于标签 13,只有 5 个输入数据点,因此输出受到影响。什么是创建的好方法一个健壮的模型?

原文链接:https://stackoverflow.com//questions/71995097/best-way-to-create-a-good-training-dataset

回复

我来回复
  • John Doe的头像
    John Doe 评论

    您可以尝试从 scikit-multilearn 进行迭代分层,它将数据集拆分为多个折叠,以保持关于有序标签组合的平衡表示。在此处查看示例。

    2年前 0条评论