如何在使用数据集时提取唯一的单词并在单独的列中存在 pos 标签

乘风 2年前 nlp 188

原文标题 ：How to extract out unique words and there pos tags in separate columns while working with Dataset

我正在通过印度尼西亚数据使用 NER 数据，据我所知，没有预训练的 NLTK 模型可以帮助这种语言。因此，要手动执行此操作，我尝试提取整个数据框中使用的所有唯一单词，我仍然不知道如何将标签应用于单词，但这就是我到目前为止所做的。

第一步，

第二步，

第三步，

第四步

请让我知道是否有任何其他方便的方法可以做到这一点，我在下面的代码中做了什么。另外，让我知道如何为每一行添加标签（如果可能）以及如何为此进行 NER。

（我是编码新手，这就是为什么我不知道如何提问，但我正在尽我所能提供尽可能多的信息。）

我来回复