刚考完NLP,趁着还没忘记,写一个回忆版试题。
题型及得分:选择题20道,每道1分;填空题10道,每道1分;判断题15道,每道1分;简答题4道,每道5分;推理题2道,每道10分;综合题1道,15分。合计100分。
选择题主要考察知识点的记忆,考了“编辑距离”,“词向量one-hot表示”,“SGNS中负样本k的选取是大于1还是小于1”,“宏平均和微平均”,“HMM中后向算法的时间复杂度”,“主题模型算法是什么(LDA)”等等,基本上都是一些必要的知识点,大部分都是送分题,不用太担心。
填空题跟选择题差不多,也是考察一些小知识点,第一道是“语言系统中的两种基本关系是( )和( )”,答案是组合关系和聚合关系。第二道是“移进-归约中遇到冲突该怎么办( )”,这个我不太确定,我写的是“保存断点,回溯”。第三道题给了互信息的定义然后问你是什么,答案是互信息。最后一道是问机器学习中需要将数据切分为哪几个集合,答案是训练集,测试集,验证集。诸如此类,剩下的我忘记了,基本上都比较简单。
判断题有些题不太好确定,基本上就是给一句描述,然后问你对不对。有一道题问的是“语法结构的最大单位是句子”,还有一道题问的是“机器翻译从机器学习角度看的本质是排序问题”,还有一道题直接给了语言的定义,还有一题说的是“WSD中基于词典和基于义类词典的方法都是从资源的角度进行划分的”。判断题挺难的,纠结了很久,有些陈述需要对NLP深入理解或者认真听课才能确定正误,PPT上没有答案。
简答题:
第一道:词向量的评价方法有“语义相关性”和“类比推理”两种。请论述这两种评价方法以及相关的评价指标。
(答:这题的答案在“文档表示与相似度计算”那节,评价方法论述课上有讲,评价指标分别是“斯皮尔曼等级相关系数”和“余弦相似度”)
第二道:题干给出两个语料库的描述。第一问:结合上述语料库的描述,从计算对角度浅谈对语言性质的理解。第二问:有些语言处理系统是建立在语料库上的,请结合上述描述谈一下这些系统的局限性。
(这题考试看的时候完全蒙了,那个语言的性质根本没背,感觉自己在考马原…)
第三道:题干给了一句话:“做核酸的队长死了”,还有一个词典:{做,核酸,的,队,长,队长,死,了}。第一问:结合词典用正反向最大匹配分词对这句话进行分词。第二问:结合分词结果,谈一谈歧义的类型。
(分词不必多说,歧义是组合歧义和交叉歧义,分词结果中只有组合歧义一种,不过我把两种都写上去了)
第四道:这道题有4.5学分和5学分两个版本,我选的是5学分的,问的是Transformer相比于RNN的优点在哪里
(答案在补充8学时的ppt上~)
推理题:
第一道:这道题考的是用HMM做词性标注,题干给了一句已经分好词的话(“教授”“正在”“教授”),还有这句话的词性的搜索空间,以及HMM的各种参数(转移概率,发射概率等等),让你算一下最大概率词性序列。
(维特比或者穷举都可以,HMM考的比较简单)
第二道:给了一句嵌套的CFG句法结构,大概长这个样子:(S(我 NP)(VP(是 V)(NP(CS(上级 NP)(V`(派 V)(来 V)))(的 de)))))。第一问:写出上述句法的树结构,第二问:统计上述结构中涉及的所有CFG产生式规则,第三问:谈一下什么是PCFG,相比CFG有什么特点
(原题给的嵌套句子特别长!!!写到右边都写不下了)
综合题:题干说的是采用最大熵方法做实体识别,利用BIO标记标注语料,给定如下标注语料:美国/B-ORG 外长/I-ORG 奥/B-PER 斯/I-PER 汀/I-PER 在/O 菲/B-LOC 律/I-LOC 宾/I-LOC
第一问:最大熵方法的实体识别需要用到特征,选取的特征的包括目标词、目标词的前一个词、目标词的后一个词,写出目标词“奥”对应的特征:
第二问:在最大熵模型中,如果“目标词的前一个词的标记”也作为特征,请问在训练阶段和测试阶段分别应该怎么做?
第三问:有4.5学分和5学分两个版本,5学分版本:描述一下利用BERT如何做实体识别
第四问:描述实体链接的一般步骤,并且每步给出简短说明。
终于写完了!
总结一下:考试覆盖范围大部分都是PPT上的固定内容,计算和公式的部分非常简单,甚至没有。CYK算法、chart算法、翻译模型、中心理论基本都没考。复习的话建议提前一周或者两周开始背PPT,理解+记忆。
文章出处登录后可见!