从科学文本中生成关键字的方法?
nlp 561
原文标题 :Method to generate keywords out of a scientific text?
如果我需要获取多个多词关键字,例如(最多)每个文本 5 个,分析一定长度的科学文本,我应该使用哪种文本分析方法?特别是,文本可以是
- 标题,
- 或摘要。
最好是已经在 Python 上编写过脚本的方法。谢谢!
回复
我来回复-
ewz93 评论
您可以研究关键字提取,搭配查找或文本摘要。根据您想要使用它的目的,您还可以查看通用术语提取。这些只是一些方法,还有其他方法,如主题建模等。
搭配查找/术语提取更多是关于查找特定领域的术语,并且需要大量的语料库,但它们可以帮助统一生成的标签。基本上,您首先会运行这种分析以查找特定领域的 ngram,因此在指示该主题的科学文献中,您将在第二步中标记这些提取的 ngram 在原始文本中的出现。
关键字提取和文本摘要更倾向于应用于单个文本,但显然生成的标签将不那么统一。
很难说哪种方法对您最有意义,因为这取决于您拥有的数据量、您拥有的数据中主题的多样性、您计划对关键字/标签做什么以及您想要多少时间花费来优化这种提取。
2年前