如何在使用数据集时提取唯一的单词并在单独的列中存在 pos 标签

乘风 nlp 188

原文标题How to extract out unique words and there pos tags in separate columns while working with Dataset

我正在通过印度尼西亚数据使用 NER 数据,据我所知,没有预训练的 NLTK 模型可以帮助这种语言。因此,要手动执行此操作,我尝试提取整个数据框中使用的所有唯一单词,我仍然不知道如何将标签应用于单词,但这就是我到目前为止所做的。

第一步,

第二步,

第三步,

第四步

请让我知道是否有任何其他方便的方法可以做到这一点,我在下面的代码中做了什么。另外,让我知道如何为每一行添加标签(如果可能)以及如何为此进行 NER。

(我是编码新手,这就是为什么我不知道如何提问,但我正在尽我所能提供尽可能多的信息。)

原文链接:https://stackoverflow.com//questions/71882619/how-to-extract-out-unique-words-and-there-pos-tags-in-separate-columns-while-wor

回复

我来回复
  • ewz93的头像
    ewz93 评论

    如果结果是最重要的,则取决于您想要做什么,您可以使用来自 huggingface 而不是 NLTK 的预训练变压器模型。这将在计算上更加繁重,但也会为您提供更好的性能。

    我可以找到一个合适的模型(我显然不会说印尼语,所以请原谅示例句子中的最终错误):

    https://huggingface.co/cahya/xlm-roberta-large-indonesian-NER?text=Nama+saya+Peter+dan+saya+tinggal+di+Berlin。

    使用它的最简单方法可能是 API 或使用仅推理管道,请查看本指南,为印度尼西亚模型运行此操作所需要做的就是将以前的模型路径 (dslim/bert-base-NER) 替换为cahya/xlm-roberta-large-indonesian-NER .

    请注意,这个印度尼西亚模型非常大,因此您需要一些不错的硬件。如果您不这样做,您也可以使用一些(免费)云计算服务,例如 Google Colab。

    2年前 0条评论