本文为2022秋网安学院的自然语言处理课程期末复习知识点整理，水平有限，整理的答案可能有错误或遗漏，欢迎大家指正。

文章的第二部分内容参考了学校学姐的文章，文章写的很好，大家可以关注她：(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*：考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-CSDN博客

第一部分 2022秋季课程期末知识点复习

第一章第二章不考

第三章神经网络

激活函数有哪些，对应的作用
1. tanh
2. sigmoid
3. Relu
4. 作用：增加网络的表达能力，给网络增加非线性因素
神经网络的参数学习方法，各自特点、区别，能解决什么样的问题
1. 梯度下降：每次更新时使用所有样本，每次都朝着全局最优方向迭代，适用于样本不多的情况
2. 随机梯度下降：每次更新只用1各样本，每次迭代不一定朝着全局最优，但最终结果往往是在全局最优解附近
3. mini-batch梯度下降：每次更新时用b个样本（前两者的折中）
卷积神经网络的组成部分？各部分的作用
1. 卷积层：减少模型参数，进行卷积运算
2. 池化层：减少模型规模
3. 全连接层：将池化层的单元平化
递归神经网络
1. 网络结构包括哪些部分
  1. 输入层、隐藏层、输出层
  2. 参数包括：输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b
2. 典型的参数学习方法
  1. BPTT
3. BPTT算法的原理
  1. 基本思想和BP算法类似，都是将输出误差以某种形式反传给各层所有单元，各层按照本层误差修正个单元的连接权重
  2. 但BPTT的参数是共享的，每个时刻训练的都是相同的参数W和b。
  3. 且BPTT损失函数定义为每一个时刻的损失函数之和，它会在每一个时间步长内叠加所有对应权重的梯度
RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进？以及做了哪些改进？
1. LSTM是用来解决RNN的长距离依赖问题，它通过在循环单元内添加门结构来控制单元细胞状态来实现的
2. GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题，可理解为LSTM的简化，它把LSTM的输入门和遗忘门合并为更新门，删除输出门新增了重置门。
3. LSTM只能根据之前时刻的时序信息预测下一时刻的输出，但有些问题当前时刻的输出不仅与之前的状态有关，与未来的状态也有关系，Bi-LSTM就是为了解决这一问题，做到基于上下文判断。Bi-LSTM可看作两层神经网络，第一层第一层从句子的开头开始输入，第二层则从句子的最后一个词语输入，两层进行相同处理，并对得到的结果共同分析。

第四章语言模型词向量

统计语言模型建模方法（怎么用统计学习的方法构建语言模型）
1. 统计语言模型的基本思想：用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性
2. 使用最大似然估计进行参数学习
3. 用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题
4. 用数据平滑解决样本少引起的零概率问题
几种神经网络语言模型（DNN-NNLM、RNN-RNNLM）
1. 模型架构
2. 相比的优势和不足
  1. RNNLM的优势
    1. RNNLM 模型可以保留每个词的全部历史信息，不需简化为n-gram
    2. 引入词向量作为输入后不需要数据平滑
    3. 神经网络一般用RNN语言模型
3. 输入、输出、要预测哪些参数、参数学习方法要掌握
  1. NNLM
    1. 输入：上文词向量拼接
    2. 输出：目标词概率
    3. 参数学习方法：BP
    4. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
  2. RNNLM
    1. 直接输入：目标词的前一个词的词向量
    2. 间接输入：网络中的前文信息
    3. 输出：目标词概率
    4. 参数学习方法：BPTT
    5. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
词向量
1. 典型的词向量：CBOW、skip-gram、C&W要掌握学习方法和区别（输入、输出、学习方法）
  1. CBOW
    1. 输入：上下文词向量平均值
    2. 输出：目标词概率
    3. 参数学习方法：梯度下降法
  2. skip-gram
    1. 输入：目标词词向量
    2. 输出：上下文词概率
    3. 参数学习方法：梯度下降法
  3. C&W
    1. 输入：上下文及目标词词向量拼接
    2. 输出：上下文及目标词联合打分（正样本打高分、负样本打低分（负样本是将正样本序列中的中间词替换成其它词））
    3. 参数学习方法：采用pairwise的方式对文本片段进行优化

第五章注意力机制

传统注意力机制
1. 结构包括哪些模块
  1. 输入：K（集合）、Q
  2. 输出：V
  3. 三个阶段：
    1. 注意力打分函数
    2. softmax
    3. 加权求和
2. 有哪些计算方法（有哪些注意力计算模式）
  1. 键值对模式 K！=V 是用V去加权求和计算输出值的
  2. 普通模式 K=V
3. 不同类型的注意力机制是如何计算的？
  1. 软注意力对输入句子的任意单词都计算概率，输出的是概率分布
  2. 硬注意力直接从输入句子中找到某个单词，将其他单词硬性地认为对齐概率为0
  3. 全局注意力计算attention时考虑encoding端序列中所有的词
  4. 局部注意力软注意力和硬注意力的折中，在一个大小为D的窗口输出概率分布，窗口外的认为对齐概率为0
4. 注意力机制在nlp领域的应用场景
  1. 在任何有“求和”的地方都能使用
  2. 宏观如机器翻译、图卷积的邻接节点聚集
注意力编码机制
1. 对不同序列的不同编码方式
  1. 单一向量编码：将输入序列编码成单一向量表示（句表示、篇章表示、词的上下文表示）
  2. 不同序列间编码：将2个序列编码成二者融合的向量表示（匹配任务、阅读理解的混合层表示）
  3. 同一序列自编码：使用多头注意力编码对一个句子编码，起到句法分析器的作用
2. 不同编码方式的计算方式
  1. 单一向量编码：句子各元素K序列与Q的关联关系
  2. 不同序列间编码：对K序列和Q序列编码
  3. 同一序列自编码：采用多头注意力机制，每头的Q=K=V且参数不共享，最后把各头的结果拼接

第六章基础任务

文本分类和匹配了解基本技术思路即可
序列标注
1. 马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制
  1. 马尔可夫模型
    1. 组成M ＝（ S, π ，A) （三元组）
      1. S:模型中状态的集合
      2. A：与时间无关的状态转移概率矩阵
      3. p：初始状态空间的概率分布
  2. 隐马尔可夫模型
    1. 组成λ ＝（ S, O, π ，A，B）或简写为 λ = (π ，A，B) （五元组）
      1. 状态序列Q：表示起决定作用的后台本质（天气）
      2. 观察序列O：表示观察到的前台现象（潮湿。。）
      3. B：给定状态下，观察值概率分布
2. 隐马尔可夫的重要问题
  1. 评估问题的向前、向后算法的计算题
  2. 解码问题的维特比算法的计算题
3. 隐马尔可夫+CRF
  1. 做序列标注的基本原理
  2. CRF的作用、和隐马尔可夫之间的关系
    1. 隐马尔可夫模型因为输出独立性假设，无法考虑上下文特征，故需要最大熵模型来解决该问题，但最大熵模型又有输出元素之间独立的问题，故使用CRF来使输出元素相关联，避免不合理输出
序列生成
1. 3种序列生成网络的典型网络方法、网络设计、特点、解决的问题、网络的结构
  1. 生成式-序列生成模型
    1. 特点：输出词表大小固定，且不会随输入变化
    2. 典型模型
      1. 基于RNN结构生成模型
        
        存在曝光偏差问题
      2. RNN+Attention架构生成模型
        
        使用attention来使RNN在机器翻译时，找到中英文对应词的关联关系
        
        典型网络设计：BiLSTM + Attention 模型结构
        
        Encoding端采用双向RNN，Decoding端采用单向RNN
        
        输入：X（源语句子）
        
        输出：Y（目标语句子）
      3. 🍑Transformer架构生成模型
        
        特点
        
        全部采用Attention机制
        
        克服了RNN无法并行计算的缺点，可以高度并行，训练速度快；
        
        具有捕捉long distance dependency的能力，有较高的建模能力
        
        训练：并行
        
        预测：编码端并行，解码端串行
        
        网络结构
        
        编码端：6层Attention堆叠，包含2个子层（Multi-head attention 和Feed Forward Network）
        
        解码端：6层Attention堆叠，包含3个子层（Multi-head attention ，cross-attention和 Feed Forward Network）
        
        交叉注意力部分：解码端的每一层与编码端的最后输出层做 cross-attention
        
        训练过程
        
        把X输入到encoder里去，最后一层encoder最终输出作为decoder里每一层的K和V；
        
        将 < Go >作为decoder的初始输入，将decoder最后层最大概率输出词 y1和答案y1’ 做cross entropy计算error。
        
        将< Go >和 i 个𝒚1’ ~𝒚i’ 作decoder的输入生成yi+1并和yi+1’ 做cross entropy计算error
        
        重复步骤 3. 直至最后一个输出与终止符做cross entropy计算error
        
        Transformer在训练中采用MASK 技术（有两种）来实现并行操作
        
        Padding Mask
        
        训练样本的原始句子长度不一样，需要padding。对于那些补零的数据，为了让attention机制不把注意力放在这些位置上，把这些位置的值加上一个非常大的负数(负无穷)，经过softmax后，这些位置的权重就会接近0。
        
        Sequence Mask
        
        屏蔽句子中当前词之后的词，使预测当前词时只能看到之前的词
        
        预测过程
        
        正在上传…重新上传取消
        
        训练好的模型在预测时将源句子X在编码端输入， encoder对其并行编码后得到编码端的输出tensor (不直接作decoder输入)，然后Decode端进行解码。
        
        用起始符< Go >当作decoder的输入，得到输出的第1个词
        
        用< Go > + 已输出的词解码得到后继的输出词
        
        重复2. 直至输出为结束符号
        
        生成模型能完成什么下游任务
        
        机器翻译
  2. 选择式-序列生成模型
    1. 特点：输出词表与输入词表相同，大小固定。无法解决输出词表需按输入情况动态变化的问题
    2. 指针网络
      1. 模型结构
        
        输入：X序列 (x1, x2, x3, x4)
        
        输出：从输入序列中选出的序列（ x1,x4,x2,x1, ）
      2. 应用：
        
        文本摘要
        
        阅读理解
      3. 可以解决OOV问题
  3. 选择-生成式序列生成模型
    1. 典型网络
      1. 指针生成器网络（PGnet）
        
        解决的问题
        
        指针网络的输出词表与输入词表相同，无法处理输出需要产生输出词表以外词的情况。
        
        改进思路：将指针网和编码解码生成网结合，构建可生成可选择的指针生成器网络
        
        模型结构
        
        Sequence-to-sequence attentional model
        
        pointer-generator network
        
        Coverage mechanism
        
        目的就是希望各个时刻attention分布不同 ,避免重复
        
        每次在计算attention时，需要考虑之前的attention分布。
        
        基本思想：将编码-解码+注意力模型和指针网结合，生成既可产生也可选择的输出。
        
        特点：Yi 既可以从输入端X 的标识词典中产生也可以从输出端Y 的标识词典中产生，这样既可以生成高质量的摘要，也可以处理原文中的未登录词(OOV)。
      2. 拷贝网络
        
        解决的问题
        
        传统seq2seq高度的依赖词的表征，当遇到OOV（Outof-vocabulary）会出现表达不准确。而在实际应用中，有些场合仅仅需对该生僻词逐字保留即可。
        
        解决方法：通过 Copy mechanism可以将输入序列中的词拷贝到输出序列中，较好的处理 OOV 问题
2. 生成模型的评估指标
  1. 正确率
    1. 测试结果中正确切分的个数占系统所有输出结果的比例。P=n/N
  2. 召回率
    1. 测试结果中正确结果的个数占标准答案总数的比例。R=n/M
  3. BLUE
    1. 计算不同长度的 N 元组合的精度
  4. ROUGE
    1. 和bleu值相似，但是rouge计算的是召回率而不是精度

第七章预训练语言模型

预训练语言模型分类：
1. 自回归——根据上文内容预测下一个单词或更具下文内容预测前面的单词（GPT）
2. 自编码——根据上下文来预测被MASK掉的单词（BERT）
3. 广义自回归——采用特殊的生成顺序根据上下文内容预测下个可能的单词（XLNet）
emlo、gpt、bert、bart等预训练语言模型
1. 结构（除了emlo，其他几个都是基于transformer基础block的架构，要搞清楚他们与transformer的关系（有几个什么的））、输入输出形式是什么样的、预训练的目标
  1. EMLO
    1. 预训练目标：学习深层的上下文表示知识，并用此来更好的增强各类NLP服务
    2. 预训练方法：梯度下降法
  2. GPT
    1. 结构：采用了 Transformer 的 Decoder 部分，并且每层只有Masked Multi Self-Attention和 Feed Forward两个子层，共叠加使用了 12 层的 Decoder
    2. 输入：当前词的前k个token，进行token embedding、position embedding
  3. BERT
    1. 预训练目标：Transformer比LSTM能学到更丰富的语言结构知识，本文用Transformer的Eecode 联合上下文语境训练双向语言模型（相比ELMO），并在输出端附加一个简单的输出层就可方便的将所学的深层语言结构知识迁移到各类语言任务，用以增强各类NLP任务
    2. 结构：
      1. 使用堆叠的双向Transfomer Encoder，基础班是12个Encoder（12层），高级版是24个Encoder
      2. 输入：一个句子或一个句对（任意长度的连续文本片段），每个输入以[CLS]开头，句子对之间加一个[SEP]，进行token embedding、position embedding、segment embedding
      3. 输出：各输入位对应的 Transformer 编码位
    3. Pre-training阶段存在”自己看见自己问题“现象（因为是双向Encoder），可用MLM（Masked Language Model）解决
  4. BART
    1. BERT只使用了Transformer的Encoder，GPT只使用了Transformer的Decoder，因此造成两个鸿沟：
      1. BERT具备双向语言理解能力却不能具备做生成任务的能力
      2. GPT拥有自回归特性却不能更好的从双向理解语言
      解决方法：使用标准的Transformer结构为基础，吸纳BERT和GPT的优点，使用多种噪声破坏原文本，再将残缺文本通过序列到序列的任务重新复原（降噪自监督）
    2. 结构：
      1. 使用标准的Transformer结构
    3. 训练：
      1. 输入:加噪声干扰的原文
      2. 输出：恢复后的原文序列
2. 互相的区别和联系
prompt方法（第四范式）
1. 核心思想
  1. 改变下游任务形式用预训练模型完成任务
2. 典型方法及相应适合的学习任务
NLP四大范式
1. 第四范式与第三范式的区别联系：第三范式是预训练模型“迁就”各种下游任务，而第三范式是下游任务“迁就”预训练模型。但本质上两者都是使预训练模型和下游任务越来越靠近

第八章情感分析（不考）

第九章信息抽取 *

实体和关系抽取的基本过程
1. 实体抽取方法
  1. 限定域：基于神经网络方法（CNN+RNN，RNN+CRF ，BERT）
2. 限定域和非限定域的关系抽取方法都要掌握 基本过程
  1. 限定域
    1. 规则方法：人工编制各种识别关系的规则，利用规则来识别。成本高，覆盖面底。
    2. 基于统计的抽取方法：将关系实例转换成高维空间中的特征向量或直接用离散结构来表示，在标注语料库上训练生成分类模型，然后再识别实体间关系
    3. 基于核函数方法：挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
    4. 基于神经网络的抽取方法：设计合理的网络结构，从而捕捉更多的特征信息，进而准确的进行关系分类
    5. 单一关系抽取
      1. 任务流程：
        
        命名实体识别
        
        关系抽取
      2. 使用的模型
        
        CNN
        
        BiLSTM+attention
        
        BERT
    6. 联合抽取
      1. 联合关系抽取指同时进行实体识别和关系的抽取
  2. 非限定域
    1. Bootstrapping
    2. 远程监督
3. 非限定域远程监督方法重点掌握原理、优势、局限及改进方法
  1. 限定域的实体关系抽取任务需要预先定义关系类型体系，然而定义一个全面的实体关系类型体系是很困难的。非限定域实体关系抽取技术不先定义关系类别，关系类别自动获取
  2. 远程监督方法
    1. 原理：
      1. 远程监督基于一个假设——对于一个已有的知识图谱中的一个三元组，假设外部文档库中任何包含这对实体的句子，在一定程度上都反映了这种关系。
      2. 基于此假设，远程监督算法可以基于一个标注好的小型知识图谱，给外部文档库中的句子标注关系标签
    2. 优点
      1. 远程监督的提出使得快速、大规模构建关系抽取数据集变为了可能
    3. 缺点最大问题在于样本噪声：
      1. 远程监督强假设引入了许多假正例噪声（本身不包含关系但被标注了）
      2. 由于知识库不完备，造成了很多假负例噪声（本身包含关系但知识库中没有）
    4. 远程监督方法目前的几种思路（改进方法）
      1. 隐式处理噪声：在训练过程中，通过对bag中的样本进行软加权等方式来降低标签噪声样本的影响，这类方法一般需要特殊设计的模型，但效果普遍较好。
      2. 显式处理噪声：在进行模型训练前，先通过一定的方式来检测噪声样本并进行处理，得到一个处理后的数据集，并用这个数据集训练一个关系抽取模型。这类方法一般比较难，普遍采用强化学习等方式进行。但这类方法的优点在于应用性比较强，可以将处理好的数据集应用于任何一个模型中，从而提升模型的关系抽取效果。
      3. 外部信息辅助：可以认为远程监督的标签是一种比较弱的监督信息，在此基础上可以加入一些外部的辅助信息，如将图谱补全任务加入进行联合学习；或者加入一些无监督、弱监督的信息等，来辅助进行关系抽取，消除噪声的影响
事件抽取掌握基本概念
1. 概念
  1. 事件是发生在某个特定的时间点或时间段、某个特定的地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变
2. 抽取哪些关键要素、抽取的基本过程、每个过程抽取哪些基本要素
  1. 关键要素
    1. 时间，地点，人物，原因，结果、
  2. 任务步骤
    1. 事件检测（Event Detection）
      1. 触发词识别（Trigger Identification）
      2. 触发词类型分类（Trigger Type Classification）
    2. 元素抽取（Argument Extraction）
      1. 元素识别（Argument Identification）
      2. 元素角色分类（Argument Role Classification）

第十章问答系统

了解有几类典型的问答任务、各自特点、输入、输出
1. 专家系统
  1. 特点：问题限定领域；数据基于结构化领域知识数据。它们的后台有一个数据库，保存系统可提供的各种数据。而在用户提问时，系统把用户的问题转换成 SQL查询语句，从数据库中查询到数据提供给用户
  2. 输入：问题(sql语句)
  3. 输出：答案
2. 检索式问答
  1. 特点：问题领域开放，基于非结构化Web数据；检索内容为简短的词或词组
  2. 输入：问题(简短的词)
  3. 输出：答案
3. 社区问答
  1. 特点：根据用户所提问题，找到社区中与之相应的答案。在社区问答数据中有大量的主观类型的问题，主观问题没有标准答案，而且答案可以多个
4. 知识问答
  1. 特点：给定自然语言问题，通过对问题进行语义理解和解析，利用知识库进行查询、推理得出答案。
  2. 输入：对答案的模糊描述
  3. 输出：推断出的答案
知识库问答基本技术思路、解决什么样的问题
1. 基本技术思路：
  1. 给定自然语言问题，通过对问题进行语义理解和解析，利用知识库进行查询、推理得出答案。
2. 技术挑战
  1. 语言多样性
  2. 知识图谱搜索规模大
  3. 大量复合性问题
3. 挑战的解决方法
  1. . 语义解析（Semantic Parsing）偏语言学的方法，主体思想是将自然语言转化为一系列形式化的逻辑形式（logic form），通过对逻辑形式进行自底向上的解析，得到一种可以表达整个问题语义的逻辑形式，通过相应的查询语句在知识库中进行查询，从而得出答案。
  2. 信息抽取（Information Extraction）通过提取问题中的实体，通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图，子图中的每一个节点或边都可以作为候选答案，通过观察问题依据某些规则或模板进行信息抽取，得到问题特征向量，建立分类器通过输入问题特征向量对候选答案进行筛选，从而得出最终答案
  3. 向量建模（Vector Modeling）根据问题得出候选答案，把问题和候选答案都映射为分布式表达（Distributed Embedding），通过训练数据对该分布式表达进行训练，使得问题和正确答案的向量表达的得分（通常以点乘为形式）尽量高，模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选，得出最终答案。
  4. 表示学习法：问题主题抽取→ 知识子图抽取 → 知识子图表示 → 问题-知识相关性计算

第十一章阅读理解

阅读理解（MRC）和问答系统（QA）有什么典型区别
1. 问答系统(QA)考察系统的文本匹配、信息抽取能力；
2. MRC考察系统对于文本细致化的语言理解能力和推理能力，核心问题是理解和推理，并不是简单的文本匹配或者相似度计算
正在上传…重新上传取消
阅读理解基本框架
1. 四个模块组成
  1. 嵌入编码 Embeddings
  2. 特征提取 Feature Extraction / Encoding
  3. 文章-问题交互 Context-Question Interaction
  4. 答案预测 Answer Prediction

第十二章对话系统（不考）

第二部分 2021秋期末考中考察的知识点

填空题（20题）

bert输入为什么要进行位置标注
1. 词在语句中的位置非常重要。使用同样的词语，排列位置不同，语义可能不同
2. bert使用堆叠的双向Transformer Encoder,Transformer主要核心是attention注意力机制，attention机制无法捕捉词顺序，类似一个升级版的“词袋”模型。故需要进行位置标注添加位置信息
梯度下降与随机梯度下降的区别
1. 梯度下降法是在一组参数更新之前对所有训练样本进行评估，而随机梯度下降是在一组参数更新之前对一个训练样本进行评估。
attention输出键值对和输出值有什么区别
1. 普通模式下，key=value=X，softmax函数输出的ai直接与Ki相乘得到输出Att-V
2. 键值对模式下，key!=value，softmax函数输出的ai与Ki对应的Vi相乘得到输出Att-V
软注意力机制的概念
1. 软注意⼒机制就是虽然词语权重不同，但是在训练模型的时候⾬露均沾，每个词语都⽤到，焦点词语的权重⼤。在选择信息的时候，不是从N个信息中只选择1个，⽽是计算N个输⼊信息的加权平均，再输⼊到神经⽹络中计算
2. 硬注意⼒机制是从存储的多个信息中只挑出⼀条信息来，可能是概率最⼤的那个词向量
RNN的参数训练方法：BPTT

简答题（6题）

attention的结构，应用，优势
1. 结构
  1. 输入：Q，K（集合）
  2. 输出：Att-V
  3. 三个阶段
    1. 计算f（Q，Ki）
    2. ai=softmax（f（Q，Ki））
    3. 计算输出Att-V=aiKi或Att-V=aiVi
2. 应用
  1. 网络中有“求和”的地方都可以用，如图卷积，机器翻译等
3. 优势
  1. 根据不同场景动态选择不同的关注对象
  2. 不考虑词之间的距离直接计算依赖关系，提升任务性能
指针网络和指针生成网络的区别
1. 指针网络是选择式序列生成模型，其输出端词表与输入端词表相同，只生成可选择的输出。
2. 指针生成网络是选择-生成式序列生成模型，其将指针网和编码解码生成网结合，输出词表与输入词表可以不相同，生成即可产生也可选择的输出。
词向量的产生原因，优势
1. 向机器学习模型直接输入字符串不便于模型进行计算和文本之间的比较。因此，我们需要一种方式来表示一个文本，这种文本表示方式要能够便于进行文本之间的比较，计算等。词向量由此诞生
2. 词向量优势：
  1. 解决了one-hot表示的词汇鸿沟和维数灾难问题
第三范式和第四范式的区别
1. 第三范式的fine-tuning过程是调整预训练模型，使其更加匹配下游任务，第四范式正好相反，prompt过程则是调整下游任务，使其更加匹配预训练模型。也就是第三范式是预训练模型迁就下游任务，而第四范式是下游任务迁就预训练模型。
bert和GPT的相同点和不同点
1. 共同点
  1. Bert和GPT-2都采用的是transformer作为底层结构~
  2. 效果都很好
2. 不同点
  1. 语言模型：Bert和GPT-2虽然都采用transformer，但是Bert使用的是transformer的encoder，即：Self Attention，是双向的语言模型；而GPT-2用的是transformer中去掉中间Encoder-Decoder Attention层的decoder，即：Masked Self Attention，是单向语言模型。
  2. 结构：Bert是pre-training + fine-tuning的结构；而GPT-2只有pre-training。
  3. 输入向量：GPT-2是token embedding + prosition embedding；Bert是 token embedding + position embedding + segment embedding。
  4. 参数量：Bert是3亿参数量；而GPT-2是15亿参数量。
  5. Bert引入Masked LM和Next Sentence Prediction；而GPT-2只是单纯的用单向语言模型进行训练，没引入这两个。
  6. Bert不能做生成式任务，而GPT-2可以。
激活函数有什么作用？应该具有哪些性质
1. 作用：增强网络表达能力，加入非线性因素✅
2. 性质：连续可导，激活函数和导函数简单，导函数值域范围合理。
什么是梯度消失问题？如何解决？
1. 梯度消失：在误差反向传播时，每一层都要乘以激活函数的导数，若该导数值小于1，将导致误差愈来愈小，甚至消失。（如果导数很大将导致梯度爆炸）✅
2. 解决办法：选择合适的激活函数（Relu），用复杂的门结构代替激活函数，残差结构。
CNN各层的作用是什么？
1. 卷积层：通过卷积操作减少参数
2. 池化层：通过采样减少网络规模
3. 全连接层：将池化层的单元平化
什么是词向量？
1. 一些词表示方法（one-hot）导致模型耗空间大，且稀疏，需要构造低维稠密的词向量作为词的分布式表示
词向量的特征？✅
- 语义相似的词，其词向量在空间距离更相近
- 相似关系对的词向量之差也相似
CBOW与skip-gram的区别？✅
1. CBOW用上下文预测中心词
2. skip-gram用中心词预测上下文

综合题（计算题+模型结构分析题+模型设计题，3题）

维比特、前向、后向计算题
写出各种模型的输入输出。比如CBOW输入（x1x2x4x5）输出x3
设计题：设计一个带有Attention机制的神经网络序列生成模型，要求可完成机器翻译任务也可完成自动文摘任务。画出模型结构，写出输入，输出，函数关系，解释模型原理，介绍模型如何训练，说明加入attention有哪些好处。（要同时完成生成任务和选择任务）
模型结构分析题
模型设计题

文章出处登录后可见！

已经登录？立即刷新

[知识点整理]中科院/国科大 自然语言处理nlp 期末考试知识点整理

第一部分 2022秋季课程期末知识点复习

第一章第二章 不考

第三章 神经网络

第四章 语言模型 词向量

第五章 注意力机制

第六章 基础任务

第七章 预训练语言模型

第八章 情感分析（不考）

第九章 信息抽取 *

第十章 问答系统

第十一章 阅读理解

第十二章 对话系统（不考）

第二部分 2021秋期末考中考察的知识点

填空题（20题）

简答题（6题）

综合题（计算题+模型结构分析题+模型设计题，3题）

相关推荐

[知识点整理]中科院/国科大自然语言处理nlp 期末考试知识点整理

第一章第二章不考

第三章神经网络

第四章语言模型词向量

第五章注意力机制

第六章基础任务

第七章预训练语言模型

第八章情感分析（不考）

第九章信息抽取 *

第十章问答系统

第十一章阅读理解

第十二章对话系统（不考）