python-wordcloud词云

导入模块

from wordcloud import WordCloud
import jieba
import imageio
import matplotlib.pyplot as plt
from PIL import ImageGrab
import numpy as np

wordcloud以空格为分隔符号，来将文本分隔成单词

PIL pillow模块

img = imageio.imread('image.png')

这行代码使用imageio库读取一个名为“image.png”的图像文件，并将图像作为numpy数组存储在变量“img”中

在这里插入图片描述
dir可以查看一些东西

WordCloud对象创建的常用参数

font_path：字体文件的路径 - - - 默认None
width，height：词云生成图片的宽高 - - - 默认宽400px，高200px
mask：词云形状 - - -默认None（方形图）
min_font_size，max_font_size：词云中最大最小的字体字号 - - - 最小4号最大根据高度自动调节
font_step：字号步进间隔 - - - 默认1
max_words：最大次数 - - - 200
stopwords：被排除的词列表，排除词不在词云中显示 - - - stopwords={‘python’}
background_color：图片背景色 - - - 黑色
repeat=True：词太少时可以让词重复出现在词云中
contour_width，contour_color：添加词云边框和边框颜色
colormap：修改字体颜色
Matplotlib附带的色彩映射参考

WordCloud类的常用方法

generate(text)：由text文本生成词云
to_file(filename)：将词云图保存为名为filename的文件
to_image() ：可以直接在jupyter里面看到词云的图片

案例

from wordcloud import WordCloud

w = WordCloud()
w.generate('hi hi hello hi hi hello world!')
w.to_file('hi.png')

在这里插入图片描述

import wordcloud

w = wordcloud.WordCloud(background_color='white',repeat=True)
text = 'hi,hello world!'

w.generate(text) 
w.to_image()

在这里插入图片描述

w = wordcloud.WordCloud(background_color='white',repeat=True,colormap='PuRd_r')

在这里插入图片描述

mask = np.array(PIL.Image.open('aixin.png'))
w = wordcloud.WordCloud(mask=mask,background_color='white',repeat=True,colormap='PuRd_r')

默认mask表示为binary(二进制)
对应参数是numpy 中的 array数组，将图片用PIL库打开使用矩阵表示出来（图像本质就是矩阵）
在这里插入图片描述

mask = np.array(PIL.Image.open('aixin.png'))
w = wordcloud.WordCloud(mask=mask,background_color='white',repeat=True,colormap='RdBu',contour_color='black',contour_width=5)

在这里插入图片描述

w = wordcloud.WordCloud(mode='RGBA',mask=mask,background_color='white',repeat=True,colormap='RdBu')

mode=‘RGBA’ 保存的图片不能为.jpg后缀，可以使用png

from wordcloud import WordCloud
import imageio
import matplotlib.pyplot as plt

mk = imageio.imread('aixin.png')  # 打开图片文件
w = WordCloud(mask=mk,background_color='lightpink',font_path='msyh.ttc',colormap='Accent',min_font_size=2,stopwords={'就在这时'}) # msyh微软雅黑字体
f = open('data.txt','r',encoding='utf-8')
w.generate(f.read())
plt.imshow(w)   # 显示词云
plt.axis('off') # 隐藏坐标轴
plt.show()
w.to_file('aixincy.png') # 保存的词云图片大小和mask图片的大小一样

在这里插入图片描述

w.generate(" ".join(jieba.lcut(txt)))即为用空格的方法去分隔jieba库精确模式下形成的字符串。

jieba自带的词库包括：

dict.txt.big - 大型词库，包含约2.7万个词汇和常用词语
dict.txt.small - 小型词库，包含约1.4万个词汇和常用词语
user.dict - 用户自定义词库，用户可以将自己的词汇添加到此文件中
stop_words.txt - 停用词词典，包含约1000个常用停用词
idf.txt - 关键词权重词典，用于提取文本中的关键词
stop_words_cn.txt - 中文停用词词典，包含约1500个常用停用词
stopwords.txt - 英文停用词词典，包含约400个常用停用词jieba自带的词库包括：

python-wordcloud词云

导入模块

WordCloud对象创建的常用参数

WordCloud类的常用方法

案例

jieba自带的词库包括：

更多推荐

S7通信协议的挑高点

面向对象的分析与设计（精品课程）第一章作业

Centos 7 部署SVN服务器

5-3 pytorch中的损失函数

如何通过AI视频智能分析，构建着装规范检测/工装穿戴检测系统？

【启发式搜索】

Linux命令教程：使用cat命令查看和处理文件

设计模式：备忘录模式

[X3m]ros交叉编译

数据驱动 vs 关键字驱动：对搭建UI自动化测试框架的探索

我的创作纪念日

热文推荐

网络安全（黑客）自学

Spring WebSocket 认证与授权：掌控安全通道，迈向巅峰之旅！

ARM DAY3

华为MTL流程的六个模块初步解析

【Android】线程下载资源保证资源到位采用了 OkHttp的三方网络下载 & 文件缓存策略

ETHERCAT转MODBUS TCP/IP协议网关

ASIC-WORLD Verilog（11）过程时序控制

深入浅出学Verilog--基础语法

新手如何学习RPA，怎么学，从哪下手，学习资源哪里来？