Table of Contents

算法概述

Deep Interest Evolution Network(DIEN)是在Deep Interest Network(DIN)基础上的改进方法，其初衷是为了解决当前CTR预估中存在的一些问题：

1.大多数的方法缺少兴趣模型，直接把用户的行为当作用户的兴趣，缺少对具体行为背后隐含的兴趣做模型化处理；

2.用户的兴趣在不断发生变化，之前的大多数方法缺少对用户兴趣变化趋势的思考。

DIEN通过设计兴趣提取层（Interest Extractor Layer）来获取用户历史行为的兴趣，通过在这一层添加一个额外的损失函数来监督每一步的兴趣提取。

在电商系统中，用户的兴趣非常广泛，DIEN通过加入兴趣进化层(Interest Evolving Layer)来获取与目标推荐相关的兴趣进化过程。

基本的网络结构

深度兴趣网络详解中已经给出了基本模型结构的介绍，DIEN和DIN的基本模型结构是类似的，下面还是具体介绍一下。

特征表示（Feature Representation）

文章中的线上系统有四类特征：User Profile（性别、年龄等）, User Behavior（访问过的商品id）, Ad(推荐的商品（target item）id)and Context(时间等特征)。每一个类里面的每一个具体特征都是一个one-hot编码，注意这和之前的DIN是不一样的，之前的DIN可能有muti-hot编码。四类特征所有具体特征的one-hot编码拼接到一起分别得到向量： $\textbf{x}_p$ , $\textbf{x}_b$ ， $\textbf{x}_a$ 和 $\textbf{x}_c$ 。

对于序列化的CTR模型，每一个具体特征都包含一个行为的列表，每一个行为对应一个one-hot编码（比如浏览过的商品每一个商品就是一个one_hot编码，所有浏览过的商品构成一个列表List），可以被表示为：

$\textbf{x}_b=[\textbf{b}_1;\textbf{b}_2;...\textbf{b}_T] \in \mathbb{R}^{K \times T} \textbf{b}_t \in \{0,1\}^K$

$\textbf{b}_t$ 是one-hot编码向量，对应的是用户的第 $t$ 个行为， $T$ 是用户的历史行为数， $K$ 为用户所有可能点击的商品数总和。

基本的模型结构

大多数Deep CTR模型都是基于embedding&MLP这一基本结构构建的，下面介绍下基本结构的主要组成部分：

embedding 层：每一个具体特征对应一个嵌入矩阵(embedding matrix)，例如访问商品的嵌入矩阵可以表示为： $\text{E}_{goods} = [\textbf{m}_1;\textbf{m}_2;...,\textbf{m}_K] \in \mathbb{R}^{n_E \times K}$ ，即每一个商品对应一个 $n_E$ 纬的嵌入向量。具体的来说，对于行为特征 $\textbf{b}_t[j_t] = 1$ ，其对应的嵌入式向两为 $\textbf{m}_{j_t}$ ，那么按照时间序排列的嵌入向量列表可以表示为： $\textbf{e}_b = [\textbf{m}_{j_1};\textbf{m}_{j_2};...,\textbf{m}_{j_T}]$ 。同理，推荐物品相关特征的嵌入向量列表可以表示为： $\textbf{e}_a$ 。

MLP

首先，同一类特征的嵌入式向量首先进行池化操作，随后将不同类的所有池化向量连接到一起，最后连到到一起的向量被送入接下来的MLP层来做最后的预测。

损失函数

深度CTR模型中，广泛应用的损失函数使用的是目标item的label预测：

$L_{target} = - \frac{1}{N} \sum_{(\textbf{x},y) \in D}^N(y\log{p(\textbf{x})} + (1 -y)(1 -\log{p(\textbf{x})}))$

其中， $\textbf{x} = [\textbf{x}_p,\textbf{x}_a,\textbf{x}_c,\textbf{x}_b] \in D$ ， $D$ 为有 $N$ 个样本的训练集合， $y \in \{0,1\}$ 。

DIEN的网络结构

DIEN旨在获取获取用户的兴趣以及模型化用户的兴趣进化过程，其结构如下图

DIEN由几部分组成：

1.各类特征均通过embedding层进行转换；

2.DIEN通过两步来获取兴趣进化：1）兴趣提取层（interest extractor layer）基于用户的行为序列提取兴趣序列；2）兴趣进化层(interest evolving layer)模型化与目标推荐物品相关的兴趣的进化过程；

3.最后兴趣表示向量和嵌入向量被拼接到一起。

兴趣提取层（Interest Extractor Layer）

在兴趣提取层，从用户行为习惯序列中提取一系列的兴趣状态。为了平衡效率和性能，采用了GRU（Gate Recurrent Unit）网络结构(具体GRU结构介绍可参考GRU详解)：

$\sigma$ 为sigmoid激活函数， $\circ$ 是内积。 $W^u$ , $W^r$ 和 $W^h$ $\in R^{n_H \times n_I}$ 。 $U^u$ , $U^r$ 和 $U^h$ $\in R^{n_H \times n_H}$ 。 $n_H$ 是隐藏层的尺寸， $n_I$ 是输入的尺寸。 $\textbf{i}_t$ 为GRU的输入， $\textbf{i}_t = \textbf{e}_b[t]$ 代表用户采取的第 $t$ 个行为， $\textbf{h}_t$ 为第 $t$ 个隐藏状态。

然而，隐藏层 $\textbf{h}_t$ 只能获取行为间的依赖性，无法高效地表示兴趣。由于目标商品的点击行为由最后的兴趣来触发，label只包含监管最终兴趣预测的真实信息，而历史状态 $\textbf{h}_t (t < T)$ 不包含合适的监督。显而易见，每一步的兴趣状态直接导致了随后的行为，所以提出了辅助损失（auxiliary loss），auxiliary loss使用行为 $\textbf{b}_{t+1}$ 去监管兴趣状态 $\textbf{h}_t$ 的学习。而且，除了取出下一步的真实行为作为正样本，也通过从未点击商品集合采样来去除一些负样本。考虑有 $N$ 对行为嵌入序列： $\{{\textbf{e}_b^i}, \hat{\textbf{e}}_b^i\} \in D, i \in 1,2,...,N$ ，其中 ${\textbf{e}_b^i} \in R^{T \times n_E}$ 代表点击过的行为序列，而 $\hat{\textbf{e}}_b^i \in R^{T \times n_E}$ 表示负样本序列。 ${\textbf{e}}_b^i [t] \in G$ 表示用户 $i$ 在第 $t$ 次点击商品的嵌入向量， $G$ 为所有商品的集合。 $\hat{\textbf{e}}_b^i \in G - {\textbf{e}}_b^i [t]$ 为从商品集合随机抽取的且不是用户 $i$ 在第 $t$ 次点击过的商品。auxiliary loss的表达式为：

为sigmoid激活函数， $\textbf{h}_t^i$ 表示GRU对于用户 $i$ 的第 $t$ 个隐藏状态，那么整个全局loss为：

$\alpha$ 为超参数，用来平衡兴趣表示和CTR预测。在auxiliary loss的帮助下，在用户发生行为 $\textbf{i}_t$ 时，每个隐藏层 $\textbf{h}_t$ 足够表示当前用户兴趣的状态，把所有 $T$ 个兴趣点连在一起 $[\textbf{h}_1,\textbf{h}_2,...,\textbf{h}_T]$ 构成兴趣序列能够模型化兴趣的变化过程。

总的来说，引入 auxiliary loss有如下优势：

1.兴趣学习的角度，可以帮助GRU的隐藏层更好的表达用户的兴趣；

2.对于长序列GRU模型的训练，降低了BP算法的难度；

3.给予embedding层学习更多的语义信息，可以训练出更好的embedding矩阵。

兴趣进化层（Interest Evolving Layer）

由于外部环境和内部感知的影响，不同用户的兴趣随时间在不断变化。兴趣的变化有两个特点：兴趣的多样性，一段时间喜欢书籍，一段时间喜欢衣服；兴趣有可能相互影响，但变化过程（例如书记的种类、衣服的品类等）几乎是独立变化的，通常只关心与推荐商品相关就可以。

在兴趣提取层的帮助下，可以拿到兴趣序列的有效表示。通过分析兴趣变化的特征，兴趣进化层结合了注意力机制的本地激活能力以及GRU模型化兴趣变化的序列学习能力。GRU每一步中的局部激活可以增强相关用户兴趣的影响,同时减弱兴趣飘变的干扰，对于模型化目标推荐物品相关的兴趣变化过程是很有帮助的。

兴趣进化层的核心同样是一个GRU， ${\textbf{i}_t}'$ 和 ${\textbf{h}_t}'$ 分别表示兴趣进化模型的输入和隐藏状态，兴趣进化模型的GRU输入为对应兴趣提取层的兴趣状态： ${\textbf{i}_t}' = {\textbf{h}_t}$ 。最后的隐藏状态 ${\textbf{h}_T}'$ 表示最后的兴趣状态。

在兴趣进化模型中，注意力函数的表达式为：

$\textbf{e}_a$ 推荐商品的嵌入向量的连接， $W \in \mathbb{R}^{n_H \times n_A}$ ， $n_H$ 为隐藏状态的纬度， $n_A$ 为推荐商品的嵌入向量维度。Attention的分数反映了推荐物品 $\textbf{e}_a$ 和输入 $\textbf{h}_t$ 的关系，更强的相关性会导致更高的注意力分数。几种结合注意力机制和GRU模型化兴趣变化过程的几种方法：