[机器学习、Spark]Spark MLlib分类

👨‍🎓👨‍🎓博主:发量不足

📑📑本期更新内容:Spark MLlib分类🔥🔥

📑📑下篇文章预告:Hadoop全分布部署🔥🔥🔥

简介:耐心,自信来源于你强大的思想和知识基础!!

 

目录

一、线性支持向量机

二、逻辑回归

 

854b79060b363355a334ab9b2fea1ba5.jpeg

 

MLB支持多种分类分新方法。如一元分类、多元分类

分析方法

相关算法

二元分类

线性支持向量机、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯

多元分类

逻辑回归、决策树、随机森林朴素贝叶斯

本文章主要介绍Spark MLlib的两种线性分类方法:线性支持向量机(SVM)和逻辑回归

一、线性支持向量机

线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析

通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。
MLlib中对支持向量机算法有较好的支持,用来解决一般线性回归和逻辑回归不好处理的数据分类内容,结果验证其准确性较好。

1.导入线性支持向量机所需包

fb370910183f4232b5de351594f5e48b.png

 

2.导入二元分类评估类

ead7325e981e4b9bb7c218ff0c6a4b06.png

 

3.MLUtils提供了一些辅助方法,用于加载,保存和预处理MLLib中使用的数据

f303570fe6344fa9b97cb13d10eea6dc.png

 

4.加载Spark官方提供数据集

7705d3721c504ee5949ca20421814fcc.png

 

5.将数据的60%分为训练数据,40%分为测试数据

8f09eee8bfe84f8aa78d4888fbbf4296.png

 f01c452c2bea4ee68cf7a41ba001407d.png

 6fa4b4bca2044c4fac38afac264f6c6f.png

 

 

 

6.设置迭代次数

bc438b31b2464d6eb46115ed3d94d424.png

 

7.执行算法来构建模型

d358e2236f05443f96eba30a9bea27ff.png

 

8.用测试数据评估模型

475a342107714042a27f4452122b9578.png

 

9.获取评估指标

f9564358d6ba4e98aec63ce6e9f91778.png

 

10.计算二元分类的PR和ROC曲线下的面积

c719c484cfbb4257ba0d51d1be838a0d.png

 

11.保存并加载模型

 

ee204149875a4323999c90082ad49fd0.png

 1820a9ce5d5046b68bb501ebd32cafc3.png

 

二、逻辑回归

逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。

逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同,因此其解法和生成曲线也不尽相同。逻辑回归也是无监督学习的一个重要算法,特别是用在二分分类中。
逻辑回归实际上就是对已有数据进行分析从而判断其结果可能是多少,它可以通过数学公式来表达。MLlib中MulticlassMetrics类是对数据进行分类的类,其中包括各种方法。

1.导人逻辑回归所需包

9af774d703794b16bfc26c9f6a56402d.png

 

2.导入分类评估器

 

 

 ea8c4ea7fd0b4f73b324dc0a227a99b3.png23f48113083a4f7c90c550fd0215be06.png

 bace41d9ecf849a69759a4c5e3bc0428.png

 

3.加载spark官方提供数据集

7ecfdc3f41af48b98791262decd9151c.png

 

4.将数据的60%分为训练数据,40%分为测试数据

7985b3d088b946a084cd13d70496e45b.png

 fd9ddb74dcd6415b9a1efcefba649042.png

 c72c50737387420a88fd0717418da98e.png

 

 

 

5.运行训练算法来构建模型

51482655094846298947974a1b88789a.png

 

6.用测试数据评估模型

e3c5d08a88234b2498c88c483828c38b.png

 

7.获取评估指标

870a2a94df934ac1adecd5196eb45b82.png

 

8.保存并加载模型

 

b366da4ca3db417fb99c97934e0a4b1b.png

 

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2023年2月5日 下午6:20
下一篇 2023年2月8日 下午9:27

相关推荐