本内容主要介绍构建词向量的 GloVe 模型。

1 前言

在 GloVe 模型被提出之前，学习词向量的模型主要有两大类：

全局矩阵分解方法，例如潜在语义分析（Latent semantic analysis，LSA）。
局部上下文窗口方法，例如 Mikolov 等人提出的 skip-gram 模型。

但是，这两类方法都有明显的缺陷。虽然向 LSA 这样的方法有效地利用了统计信息，但他们在单词类比任务上表现相对较差，这表明不是最优的向量空间结构。像 skip-gram 这样的方法可能在类比任务上做得更好，但是他们很少利用语料库的统计数据，因为它们在单独的局部上下文窗口上训练，而不是在全局共现计数上训练。

2 GloVe 模型

GloVe 的全称叫 Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具。

GloVe 的实现主要分为三步：（1）构建共现矩阵；（2）词向量和共现矩阵的近似关系；（3）构造损失函数。

2.1 构建共现矩阵

假设我们有一个语料库，包含以下三个句子：

i like deep learning
i like NLP
i enjoy flying

这个语料库涉及 7 个词：i，like，enjoy，deep，learning，NLP，flying。

假设我们采用一个大小为 3（左右长度为 1）的统计窗口，以第一个语句 “i like deep learning” 为例，则会生成以下窗口内容：

窗口标号	中心词	窗口内容
0	i	i love
1	love	i love deep
2	deep	love deep learning
3	learning	deep learning

以窗口 1 为例，中心词为 love，上下文词为 i、deep，则更新共现矩阵中的元素：

词向量：GloVe 模型详解

使用以上方法，将整个语料库遍历一遍，即可得到共现矩阵词向量：GloVe 模型详解：

i	like	enjoy	deep	learning	NLP	flying
i	0	2	1	0	0	0	0
like	2	0	0	1	0	1	0
enjoy	1	0	0	0	0	0	1
deep	0	1	0	0	1	0	0
learning	0	0	0	1	0	0	0
NLP	0	1	0	0	0	0	0
flying	0	0	1	0	0	0	0

其中，第一列表示中心词词，第一行表示上下文词。

2.2 词向量和共现矩阵的近似关系

在开始前，我们先定义一些变量：

表示词在词上下文中出现的次数。
表示任何词出现在词上下文中的次数。
表示词出现在词上下文中的概率。

我们来看一下论文作者提供的一个表格：

表 1 目标词 ice 和 steam 与从 60 亿语料库中选定的上下文词的共现概率。只有在这个比率中，来自非区别词的噪音才会被抵消，因此大值（远大于 1）与 ice 的特性相关，小值（远小于 1）与 steam 的特性相关。

表 1 显示了一个大型语料库的概率及其比率结果，其中取词向量：GloVe 模型详解和。对于与 ice 有关但与 steam 无关的词，比如，远大于 1。类似地，对于与 steam 有关但与 ice 无关的词，比如，比率远小于 1。对于像 water 或 fashion 这样的词，要么与 ice 和 steam 都有关，要么与两者都无关，其比率接近 1。与原始概率相比，该比率能够更好地区分相关词（solid 和 gas）和不相关词（water 和 fashion），并且能够更好地区分两个相关词。