如何在使用数据集时提取唯一的单词并在单独的列中存在 pos 标签
nlp 188
原文标题 :How to extract out unique words and there pos tags in separate columns while working with Dataset
我正在通过印度尼西亚数据使用 NER 数据,据我所知,没有预训练的 NLTK 模型可以帮助这种语言。因此,要手动执行此操作,我尝试提取整个数据框中使用的所有唯一单词,我仍然不知道如何将标签应用于单词,但这就是我到目前为止所做的。
第一步,
第二步,
第三步,
第四步
请让我知道是否有任何其他方便的方法可以做到这一点,我在下面的代码中做了什么。另外,让我知道如何为每一行添加标签(如果可能)以及如何为此进行 NER。
(我是编码新手,这就是为什么我不知道如何提问,但我正在尽我所能提供尽可能多的信息。)
回复
我来回复-
ewz93 评论
如果结果是最重要的,则取决于您想要做什么,您可以使用来自 huggingface 而不是 NLTK 的预训练变压器模型。这将在计算上更加繁重,但也会为您提供更好的性能。
我可以找到一个合适的模型(我显然不会说印尼语,所以请原谅示例句子中的最终错误):
使用它的最简单方法可能是 API 或使用仅推理管道,请查看本指南,为印度尼西亚模型运行此操作所需要做的就是将以前的模型路径 (
dslim/bert-base-NER
) 替换为cahya/xlm-roberta-large-indonesian-NER
.请注意,这个印度尼西亚模型非常大,因此您需要一些不错的硬件。如果您不这样做,您也可以使用一些(免费)云计算服务,例如 Google Colab。
2年前