哈工大2022秋自然语言处理NLP期末考试回忆版试题

刚考完NLP，趁着还没忘记，写一个回忆版试题。

题型及得分：选择题20道，每道1分；填空题10道，每道1分；判断题15道，每道1分；简答题4道，每道5分；推理题2道，每道10分；综合题1道，15分。合计100分。

选择题主要考察知识点的记忆，考了“编辑距离”，“词向量one-hot表示”，“SGNS中负样本k的选取是大于1还是小于1”，“宏平均和微平均”，“HMM中后向算法的时间复杂度”，“主题模型算法是什么（LDA）”等等，基本上都是一些必要的知识点，大部分都是送分题，不用太担心。

填空题跟选择题差不多，也是考察一些小知识点，第一道是“语言系统中的两种基本关系是( )和( )”，答案是组合关系和聚合关系。第二道是“移进-归约中遇到冲突该怎么办( )”，这个我不太确定，我写的是“保存断点，回溯”。第三道题给了互信息的定义然后问你是什么，答案是互信息。最后一道是问机器学习中需要将数据切分为哪几个集合，答案是训练集，测试集，验证集。诸如此类，剩下的我忘记了，基本上都比较简单。

判断题有些题不太好确定，基本上就是给一句描述，然后问你对不对。有一道题问的是“语法结构的最大单位是句子”，还有一道题问的是“机器翻译从机器学习角度看的本质是排序问题”，还有一道题直接给了语言的定义，还有一题说的是“WSD中基于词典和基于义类词典的方法都是从资源的角度进行划分的”。判断题挺难的，纠结了很久，有些陈述需要对NLP深入理解或者认真听课才能确定正误，PPT上没有答案。

简答题：

第一道：词向量的评价方法有“语义相关性”和“类比推理”两种。请论述这两种评价方法以及相关的评价指标。

（答：这题的答案在“文档表示与相似度计算”那节，评价方法论述课上有讲，评价指标分别是“斯皮尔曼等级相关系数”和“余弦相似度”）

第二道：题干给出两个语料库的描述。第一问：结合上述语料库的描述，从计算对角度浅谈对语言性质的理解。第二问：有些语言处理系统是建立在语料库上的，请结合上述描述谈一下这些系统的局限性。

（这题考试看的时候完全蒙了，那个语言的性质根本没背，感觉自己在考马原…）

第三道：题干给了一句话：“做核酸的队长死了”，还有一个词典：{做，核酸，的，队，长，队长，死，了}。第一问：结合词典用正反向最大匹配分词对这句话进行分词。第二问：结合分词结果，谈一谈歧义的类型。

（分词不必多说，歧义是组合歧义和交叉歧义，分词结果中只有组合歧义一种，不过我把两种都写上去了）

第四道：这道题有4.5学分和5学分两个版本，我选的是5学分的，问的是Transformer相比于RNN的优点在哪里

（答案在补充8学时的ppt上~）

推理题：

第一道：这道题考的是用HMM做词性标注，题干给了一句已经分好词的话（“教授”“正在”“教授”），还有这句话的词性的搜索空间，以及HMM的各种参数（转移概率，发射概率等等），让你算一下最大概率词性序列。

（维特比或者穷举都可以，HMM考的比较简单）

第二道：给了一句嵌套的CFG句法结构，大概长这个样子：(S(我 NP)(VP(是 V)(NP(CS(上级 NP)(V`(派 V)(来 V)))(的 de)))))。第一问：写出上述句法的树结构，第二问：统计上述结构中涉及的所有CFG产生式规则，第三问：谈一下什么是PCFG，相比CFG有什么特点

（原题给的嵌套句子特别长！！！写到右边都写不下了）

综合题：题干说的是采用最大熵方法做实体识别，利用BIO标记标注语料，给定如下标注语料：美国/B-ORG 外长/I-ORG 奥/B-PER 斯/I-PER 汀/I-PER 在/O 菲/B-LOC 律/I-LOC 宾/I-LOC

第一问：最大熵方法的实体识别需要用到特征，选取的特征的包括目标词、目标词的前一个词、目标词的后一个词，写出目标词“奥”对应的特征：

第二问：在最大熵模型中，如果“目标词的前一个词的标记”也作为特征，请问在训练阶段和测试阶段分别应该怎么做？

第三问：有4.5学分和5学分两个版本，5学分版本：描述一下利用BERT如何做实体识别

第四问：描述实体链接的一般步骤，并且每步给出简短说明。

终于写完了！

总结一下：考试覆盖范围大部分都是PPT上的固定内容，计算和公式的部分非常简单，甚至没有。CYK算法、chart算法、翻译模型、中心理论基本都没考。复习的话建议提前一周或者两周开始背PPT，理解+记忆。

文章出处登录后可见！

已经登录？立即刷新

哈工大2022秋自然语言处理NLP期末考试回忆版试题

相关推荐