词云图：由python 机器学习和Jieba +spsspro绘图实现

xiaoxingxing • 2022年5月17日上午11:11 • 技术文章 • 阅读 577

1.使用的软件

python

Python 3.9.12

Pycharm

PyCharm Community Edition 2020.2.1（其他版本pycharm也行）

Spsspro

spsspro（这个是一个免费的网站软件：网站链接）

2.python所需安装包

sklearn包
作用：用于提取文本特征值
下载：可以在cmd命令行输入pip install sklearn 进行下载
jieba包
作用：用于切分中文文本
下载：在cmd中输入 pip install jieba
pandas包
作用：处理数据
下载：在cmd中输入pip install pandas

3.具体完整代码：

用一篇我~~水水水的要死~~ 的形势政策论文为例，提取其中特征，进行词云图可视化

# coding=gbk
# 开发时间:2022/5/12 11:52
from sklearn.feature_extraction.text import CountVectorizer
import sklearn as sk
import jieba
import pandas as pd
import  numpy as np
def text_chinese_demo():
    def cut_word(data):
        # 对中文切分
        return " ".join(list(jieba.cut(data)));
    #中文文本特征提取
    with open('形势政策.txt','r') as file:
        data=file.read();
    ciyun=[]
    data_new=[];
    data=[data];
    print(data)
    for i in data:#对文本元素进行迭代切分，得到新的数据data_new
        data_new.append(cut_word(i));
    print(data_new)

    transfer = CountVectorizer(stop_words=["\n","，","。"])  # 创建一个对象
    data_new1= transfer.fit_transform(data_new);  # 转化提取特征值
    print("data_new:\n", data_new1.toarray())#输出特征值数组
    print(transfer.get_feature_names_out())#输出特征名称
    It=data_new1.toarray()
    name=transfer.get_feature_names_out();
    i=-1;
    for n in name:
        i=i+1;
        for x in range(It[0][i]):
            ciyun.append(n);
    ciyun=pd.DataFrame(ciyun)

    ciyun.to_excel(r'C:\Users\86188\Desktop\数据\词云图2.xlsx');
if __name__ == '__main__':
    text_chinese_demo()
#提示：只需把文本数据换成自己的文本即可

4.将提取处理后得到的数据导入到spsspro并绘图

效果：

这里是落墨，把自己学到的有用的分享给大家，希望大家用的开心！如果有问题，请多多指教，毕竟我也是没学多久的菜鸡~，谢谢大家！

文章出处登录后可见！

已经登录？立即刷新

词云图：由python 机器学习和Jieba +spsspro绘图实现

1.使用的软件

2.python所需安装包

3.具体完整代码：

4.将提取处理后得到的数据导入到spsspro并绘图

相关推荐