推荐系统简介+算法详解+项目介绍

目录标题

推荐系统算法详解

常用推荐算法分类：

基于人口统计学的推荐与用户画像（基于用户数据）
基于内容的推荐与特征工程（基于物品数据）
基于协同过滤的推荐（基于交互行为数据）

1、基于人口统计学的推荐

基于人口统计学的推荐机制 (Demographic-based Recommend at ion) 是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户
对于没有明确含义的用户信息（比如登录时间、地域等上下文信息），可以通过聚类等手段，给用户打上分类标签
对于特定标签的用户，又可以根据预设的规则（知识）或者模型，推荐出对应的物品
用户信息标签化的过程—般又称为用户画像 (User Profiling)

缺点：用户的个人信息很难收集，让用户填选问卷很影响用户体验。可以让用户选择喜爱标签

用户画像

用户画像 (User Profi le) 就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出—个用户的商业全貌作是企业应用大数据技术的基本方式
用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息
作为大数据的根基，它完美地抽象出—个用户的信息全貌，为进—步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础

喜马拉雅，支付宝中发出的个人的年度汇报，也属于简单的用户画像

2、基于内容的推荐算法

Content-based Recommendations (CB) 根据推荐物品或内容的元数据，发现物品的相关性，再基于用户过去的喜好记录，为用户推荐相似的物品。
通过抽取物品内在或者外在的特征值，实现相似度计算。
– 比如—个电影，有导演、演员、用户标签UGC、用户评论、时长、风格等等，都可以算是特征。
将用户 (user) 个人信息的特征（基于喜好记录或是预设兴趣标签），和物品 (it em) 的特征相匹配，就能得到用户对物品感兴趣的程度
– 在—些电影、音乐、图书的社交网站有很成功的应用，有些网站还请专业的人员对物品进行基因编码／打标签(PGC).PGC–专家生产内容

相似度

推荐算法里的相似度评判，采用的是余弦相似度，而不是欧氏距离

欧式距离

余弦相似度：点积，模长
对于物品的特征提取 —— 打标签（tag）
– 专家标签（PGC）
– 用户自定义标签（UGC）
– 降维分析数据，提取隐语义标签
对于文本信息的特征提取 —— 关键词
– 分词、语义处理和情感分析（NLP）
– 潜在语义分析（LSP）

数据源，内容分析，特征工程处理，特征学习器（构建模型）

特征工程

特征：作为判断条件的一组输入变量，是做出判断的依据
目标：判断和预测的目标，模型的输出变量，是特征所产生的结果

特征 (feat ure) : 数据中抽取出来的对结果预测有用的信息。
特征的个数就是数据的观测维度
特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程
特征工程—般包括特征清洗（ETL、采样、清洗异常样本），特征处理和特征选择
特征按照不同的数据类型分类，有不同的特征处理方法
– 数值型
– 类别型
– 时间型
– 统计型

总结：特征工程，是建模之前的数据处理。以便更好地建模

数值型特征处理

用连续数值表示当前维度特征，通常会对数值型特征进行数学上的处理，主要是归一化和离散化，又称为幅度调整/归一化

归一化：

特征与特征之间应该是平等的，区别应该体现在特征内部
栗子：房屋价格3000000~15000000（万），住房面积40 ~300（平方米）。由于本身的量级不同导致产生的效果不同。

离散化：

将原始连续值切断，转化为离散值
栗子：电商中，每个人对于价格的喜好程度不同，但它不一定是严格的正相关或负相关，很可能是喜欢某一个价格段内的商品
让座问题：假设我们要训练—个模型判断在公交车上应不应该给—个人让座，按照常理，应该是给年龄很大和年龄很小的人让座

离散化的两种方式：
等步长—简单但不一定有效
等频—min 25% 50% 75% max

等步长VS等频：

等步长不一定有效，非常便宜非常贵的商品少量，大部分商品在中间价格
等频精准，但不固定。商品价格变化就需要重新划分切割

类别型特征处理

类别型数据本身没有大小关系，需要将它们编码为数字，但它们之间不能有预先设定的大小关系，因此既要做到公平，又要区分开它们，那么直接开辟多个空间。

One-Hot 编码／哑变量所做的就是将类别型数据平行地展开，也就是说，经过One-Hot 编码／哑变量后，这个特征的空间会膨胀

时间型特征处理

时间型特征即可以做连续值，又可以做离散值
连续值：持续时间、间隔时间等
离散值：一天中哪个时间段、星期几、工作日

统计型特征处理

加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过多少。
分位线：商品属于售出商品价格的分位线处。
次序性：商品处于热门商品第几位。
比例类：电商中商品的好／中／差评比例。

特征处理后得到的数据，可以训练模型了。得到推荐结果后，还会收集反馈数据

基于 UGC 的推荐

用户用标签来描述对物品的看法，所以用户生成标签（UGC）是联系用户和物品的纽带

一个用户打标签数据集，三元组的集合来表示（用户，物品，标签）-（u,i,b）
一个最简单的算法：

统计每个用户最常用的标签 – 用户对此标签感兴趣
对于每个标签，统计被打过这个标签次数最多的物品 – 物品与标签的关联度
对于一个用户，首先找到他常用的标签，找到具有这些标签的最热门的物品，推荐给他
所以用户u对物品i的兴趣公式：

p(u,i)越大，即用户对此物品越可能感兴趣

问题：倾向于给热门标签（例：“大片”，“搞笑”等）、热门物品（打标签的人数多）。这样会导致，热门标签+热门物品会霸榜，推荐的个性化、新颖度会降低
如何解决？— 对热门词汇进行一定程度的惩罚：TF-IDF

TF-IDF

词频－逆文档频率 (Term Frequency-Inverse Document Frequency, TF-IDF) 是一种用于资讯检索与文本挖掘的常用加权技术
TF-IDF 是—种统计方法，用以评估—个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降
语料库：所有文章

TFIDF = TF x IDF

TF-IDF 的主要思想是：如果某个词或短语在—篇文章中出现的频率 TF 高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类
TF-IDF 加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级

词频（Term Frequency，TF）：

指某一个给定的词语在该文件中出现的频率。（归一化）

逆向文件频率（Inverse Document Frequency，IDF）：

是一个词语普遍性重要性的度量。某一特定词语的IDF，可以由总文档数除以包含该词语的文档数目，再取对数
加1是防止为0

TF-IDF对基于 UGC 推荐的改进

改进：加入对热门标签和热门物品的惩罚项

代码

3、基于协同过滤的推荐算法

协同过滤（Collaborative Filtering，CF）
利用类似这样矩阵来判断：

U1、U2、、用户
I1、I2、、物品
中间数据：评分

分成两大类：基于近邻和基于模型

基于近邻的协同过滤
– 基于用户（User-CF）的协同过滤
– 基于物品（Item-CF）的协同过滤
基于模型的协同过滤
– 奇异值分解（SVD）
– 潜在语义分析（LSA）
– 支撑向量机（SVM）

CF特点：

相比与CB，CF数据更好获得，只要用户与物品进行了交互，日志中就会保存有用户行为数据
缺点：得到的矩阵不完整的，是稀疏矩阵。比较依赖历史交互数据，对新上线的物品不够友好

基于近邻的协同过滤

User-CF基于用户的协同过滤：

与基于用户数据的对比：没有用户的基本信息，依据的是用户的行为相似度

在—般的应用中是采用计算 ” K- 近邻＂的算法；基于这 K 个邻居的历史偏好信息，为当前用户进行推荐
Item-CF基于物品的协同过滤：

与基于物品数据CB的对比：没有物品的基本信息，依据的是物品被喜欢群体的相似度

同样是协同过滤，基于用户VS基于物品：

电商、电影、音乐网站，用户数量远多于物品数量 — 物品固定，用Item-CF
新闻网站，物品数量大于用户数量—-用户群体稳定，用User-CF
推荐策略的选择其实和具体的应用场景有很大的关系

基于协同过滤的推荐优缺点

保证了推荐的个性度，新颖度
不需要对物品或者用户进行严格建模
基于历史数据，“冷启动”问题
用户历史偏好使用的是稀疏矩阵，会对计算带来问题

基于模型的协同过滤思想

对物品和用户同时打标签，有显性特征时（比如用户标签、物品分类标签）我们可以直接匹配做出推荐；没有时，可以根据已有的偏好数据，去发掘出隐藏的特征，这需要用到隐语义模型 (LFM)

基于近邻的推荐VS基于模型的推荐：

基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好（类似分类）
而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测（类似回归）

隐语义模型（LFM）

揭示隐藏的特征，类特征可能是无法直接用语言解释描述的，类似“玄学”
栗子：啤酒尿布

通过矩阵分解进行降维分析

偏好矩阵往往是稀疏的；这就需要对原始数据做降维处理
分解之后的矩阵，方便寻找用户和物品的隐藏特征

隐语义模型的实例

基于概率的隐语义分析（PLSA）
隐式迪利克雷分布模型（LDA）
矩阵因子分解模型（基于奇异值分解的模型，SVD）

LFM 降维方法 —— 矩阵因子分解

假设用户物品评分矩阵为R，现在有m个用户，n个物品
目的：发现k个隐类，找到两个矩阵P和Q，使得这两个矩阵的乘积等于R，即R可以分解为两个低维度矩阵相乘

应该有—些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不— 定是人直接可以理解的隐藏因子
找到隐荡因子，可以对 user 和 item 进行关联，就可以推测用户是否会喜欢某—部未看过的电影

得到 P和 Q的乘积R不再是稀疏的，之前 R中没有的项也可以由 P，Q 的乘积算出，这就得到了一个预测评分矩阵

如果得到的预测评分矩阵 R 与原评分矩阵 R 在已知评分位置上的值都近似，那么我们认为它们在预测位置上的值也是近似的

模型的求解 —— 损失函数

矩阵分解得到的预测评分矩阵R，与原评分矩阵R在已知的评分项上可能有误差，目标是找到一个使得误差最小的分解方式。

损失函数：选择平方损失函数，并加入正则化项，以防止过拟合

P特征值k越多，P,Q越复杂，越可能过拟合，所以正则化项选择P，Q的平方项和

模型的求解算法 —— ALS

现在，矩阵因子分解问题已经转化为一个优化问题。
求解P，Q，使得目标损失函数取最小值

交替最小二乘法（Alternating Least Squares，ALS）
ALS思想：由于两个矩阵P和Q都未知，且通过矩阵乘法耦合在一起，为了使得他们解耦，可以先固定Q，把P当作变量，通过损失函数最小化求出P，这是一个经典的最小二乘问题，再反过来固定求出的P，把Q当作变量，求解出Q。交替执行，直到误差满足阈值条件，或者到达迭代上限。

求解过程：（以固定Q，求解P为例）

每个用户u的特征是相互独立的，当Q独立时，用户特征向量Pu与其他用户特征向量无关，所以求P可以单独求Pu，再拼接
优化目标minC转化为：

第一步先不管Q 的平方和，第二步把u求和提出来，现在目标变为：求每一个用户特征向量Pu，使得L(Pu)取最小值
L(Pu)中唯一可变的是Pu，求最小值—-偏导

求偏导，向量积是个数，所以可以转置也可以交换位置，然后提取Pu，单位矩阵

展开：
逆矩阵
Ru指u那一行的评分
P公式得到了，但其中含有逆不好求，可以用梯度下降法进行迭代
梯度下降法:

不要让偏导等于0，而是作为偏导值，乘以步长，做迭代。

代码

Sparrow Recsys项目介绍

王喆老师的RecSysServer项目
 查看项目运行结果
数据：来⾃于电影开源数据集movieLens。

movies.csv（电影基本信息数据）：包含了电影ID（movieId）、电影名（title）、发布年份以及电影类型（genres）等基本信息。
ratings.csv（⽤⼾评分数据）：ratings表包含了⽤⼾ID（userId）、电影ID（movieId）、评分（rating）和时间戳（timestamp）等信息。
links.csv（外部链接数据）：links表包含了电影ID（movieId）、IMDB对应电影ID（imdbId）、TMDB对应电影ID（tmdbId）等信息。其中，imdb和tmdb是全球最⼤的两个电影数据库。

为你推荐⻚。是⽤⼾的个性化推荐⻚⾯。这个⻚⾯会根据⽤⼾的点击、评价历史进⾏个性化推荐。

文章出处登录后可见！

已经登录？立即刷新

推荐系统简介+算法详解+项目介绍

目录标题