从科学文本中生成关键字的方法?

xiaoxingxing nlp 451

原文标题Method to generate keywords out of a scientific text?

如果我需要获取多个多词关键字,例如(最多)每个文本 5 个,分析一定长度的科学文本,我应该使用哪种文本分析方法?特别是,文本可以是

  1. 标题,
  2. 或摘要。

最好是已经在 Python 上编写过脚本的方法。谢谢!

原文链接:https://stackoverflow.com//questions/71662385/method-to-generate-keywords-out-of-a-scientific-text

回复

我来回复
  • ewz93的头像
    ewz93 评论

    您可以研究关键字提取,搭配查找或文本摘要。根据您想要使用它的目的,您还可以查看通用术语提取。这些只是一些方法,还有其他方法,如主题建模等。

    搭配查找/术语提取更多是关于查找特定领域的术语,并且需要大量的语料库,但它们可以帮助统一生成的标签。基本上,您首先会运行这种分析以查找特定领域的 ngram,因此在指示该主题的科学文献中,您将在第二步中标记这些提取的 ngram 在原始文本中的出现。

    关键字提取和文本摘要更倾向于应用于单个文本,但显然生成的标签将不那么统一。

    很难说哪种方法对您最有意义,因为这取决于您拥有的数据量、您拥有的数据中主题的多样性、您计划对关键字/标签做什么以及您想要多少时间花费来优化这种提取。

    2年前 0条评论