python-wordcloud词云

2023-09-04 19:19:33

导入模块

from wordcloud import WordCloud
import jieba
import imageio
import matplotlib.pyplot as plt
from PIL import ImageGrab
import numpy as np

wordcloud以空格为分隔符号,来将文本分隔成单词

PIL pillow模块

img = imageio.imread('image.png')

这行代码使用imageio库读取一个名为“image.png”的图像文件,并将图像作为numpy数组存储在变量“img”中

在这里插入图片描述
dir可以查看一些东西

WordCloud对象创建的常用参数

  • font_path:字体文件的路径 - - - 默认None
  • widthheight:词云生成图片的宽高 - - - 默认宽400px,高200px
  • mask:词云形状 - - -默认None(方形图)
  • min_font_sizemax_font_size:词云中最大最小的字体字号 - - - 最小4号 最大根据高度自动调节
  • font_step:字号步进间隔 - - - 默认1
  • max_words:最大次数 - - - 200
  • stopwords:被排除的词列表,排除词不在词云中显示 - - - stopwords={‘python’}
  • background_color:图片背景色 - - - 黑色
  • repeat=True:词太少时可以让词重复出现在词云中
  • contour_widthcontour_color:添加词云边框和边框颜色
  • colormap:修改字体颜色
    Matplotlib附带的色彩映射参考
    在这里插入图片描述

WordCloud类的常用方法

  • generate(text):由text文本生成词云
  • to_file(filename):将词云图保存为名为filename的文件
  • to_image() :可以直接在jupyter里面看到词云的图片

案例

from wordcloud import WordCloud

w = WordCloud()
w.generate('hi hi hello hi hi hello world!')
w.to_file('hi.png')

在这里插入图片描述

import wordcloud

w = wordcloud.WordCloud(background_color='white',repeat=True)
text = 'hi,hello world!'

w.generate(text) 
w.to_image()

在这里插入图片描述

w = wordcloud.WordCloud(background_color='white',repeat=True,colormap='PuRd_r')

在这里插入图片描述

mask = np.array(PIL.Image.open('aixin.png'))
w = wordcloud.WordCloud(mask=mask,background_color='white',repeat=True,colormap='PuRd_r')

默认mask表示为binary(二进制)
对应参数是numpy 中的 array数组,将图片用PIL库打开 使用矩阵表示出来(图像本质就是矩阵)
在这里插入图片描述

mask = np.array(PIL.Image.open('aixin.png'))
w = wordcloud.WordCloud(mask=mask,background_color='white',repeat=True,colormap='RdBu',contour_color='black',contour_width=5)

在这里插入图片描述

w = wordcloud.WordCloud(mode='RGBA',mask=mask,background_color='white',repeat=True,colormap='RdBu')

mode=‘RGBA’ 保存的图片不能为.jpg后缀,可以使用png

from wordcloud import WordCloud
import imageio
import matplotlib.pyplot as plt

mk = imageio.imread('aixin.png')  # 打开图片文件
w = WordCloud(mask=mk,background_color='lightpink',font_path='msyh.ttc',colormap='Accent',min_font_size=2,stopwords={'就在这时'}) # msyh微软雅黑字体
f = open('data.txt','r',encoding='utf-8')
w.generate(f.read())
plt.imshow(w)   # 显示词云
plt.axis('off') # 隐藏坐标轴
plt.show()
w.to_file('aixincy.png') # 保存的词云图片大小和mask图片的大小一样

在这里插入图片描述

w.generate(" ".join(jieba.lcut(txt)))即为用空格的方法去分隔jieba库精确模式下形成的字符串。

jieba自带的词库包括:

  1. dict.txt.big - 大型词库,包含约2.7万个词汇和常用词语

  2. dict.txt.small - 小型词库,包含约1.4万个词汇和常用词语

  3. user.dict - 用户自定义词库,用户可以将自己的词汇添加到此文件中

  4. stop_words.txt - 停用词词典,包含约1000个常用停用词

  5. idf.txt - 关键词权重词典,用于提取文本中的关键词

  6. stop_words_cn.txt - 中文停用词词典,包含约1500个常用停用词

  7. stopwords.txt - 英文停用词词典,包含约400个常用停用词jieba自带的词库包括:

更多推荐

S7通信协议的挑高点

目录1.S7协议之布尔操作2.S7协议之PDU读取3S7协议之多组读取在电气学习的路上,西门子PLC应该是每个人的启蒙PLC,从早期的S7-300/400PLC搭建Profibus-DP网络开始接触,到后来的S7-200SmartPLC,再到现在的S7-1200/1500PLC博途软件。西门子S7协议是非常强大的一个协

面向对象的分析与设计(精品课程)第一章作业

面向对象的分析与设计(精品课程)第一章作业一.单选题(共2题,18分)二.多选题(共3题,27分)三.填空题(共5题,45分)四.简答题(共1题,10分)一.单选题(共2题,18分)(单选题)如果想对一个类的意义进行描述,那么应该采用()。A标记值B规格描述C注释D构造型(单选题)()模型的缺点是缺乏灵活性,特别是无法

Centos 7 部署SVN服务器

一、安装SVN1、安装Subversionsudoyum-yinstallsubversion2、验证是否安装成功(查看svn版本号)svnserve--version二、创建版本库1、先建立目录,目录位置可修改mkdir-p/var/svncd/var/svn2、创建版本库,添加权限svnadmincreate/va

5-3 pytorch中的损失函数

一般来说,监督学习的目标函数由损失函数和正则化项组成。(Objective=Loss+Regularization)Pytorch中的损失函数一般在训练模型时候指定。注意Pytorch中内置的损失函数的参数和tensorflow不同,是y_pred在前,y_true在后,而Tensorflow是y_true在前,y_p

如何通过AI视频智能分析,构建着装规范检测/工装穿戴检测系统?

众所周知,规范着装在很多场景中起着重要的作用。违规着装极易增加安全隐患,并且引发安全事故和质量问题,例如,在化工工厂中,倘若员工没有穿戴符合要求的特殊防护服和安全鞋,将有极大可能受到有害物质的侵害,对身体健康和生命安全带来严重的威胁。TSINGSEE青犀视频AI算法平台的着装规范检测/工装穿戴检测算法,是基于AI深度学

【启发式搜索】

运用启发式策略的两种基本情况:(1)一个问题由于存在问题陈述和数据获取的模糊性,可能会使它没有一个确定的解。(2)虽然一个问题可能有确定解,但是其状态空间特别大,搜索中生成扩展的状态数会随着搜索的深度呈指数级增长。启发式信息用来简化搜索过程有关具体问题领域的特性的信息叫做启发信息。估价函数估价函数(evaluation

Linux命令教程:使用cat命令查看和处理文件

文章目录教程:使用cat命令在Linux中查看和处理文件1.引言2.cat命令的基本概述3.查看文件内容4.创建文件5.文件重定向和管道6.格式化和编辑文件7.实际应用示例7.1使用cat命令浏览日志文件7.2利用cat命令合并多个配置文件7.3使用cat命令将文件内容发送到其他命令进行处理8.注意事项和常见问题9.结

设计模式:备忘录模式

目录组件代码示例源码中使用优缺点总结备忘录模式(MementoPattern)是一种行为型设计模式,用于在不破坏封装性的前提下,捕获和恢复对象的内部状态。备忘录模式可以将对象的状态保存到备忘录对象中,并在需要时从备忘录对象中恢复状态,实现对象状态的保存和回滚。组件在备忘录模式中,通常包含以下角色:发起人(Origina

[X3m]ros交叉编译

ros需要安装以下包PYTHON_PACKAGE_LIST="larklark-parsernetifacespyyamlifcfgpyunicodedata"TogetheROS.Bot|TogetheROS.Bot用户手册编译tros.b​1使用docker文件​该部分操作均在开发机的docker内完成。##创建目

数据驱动 vs 关键字驱动:对搭建UI自动化测试框架的探索

UI自动化测试用例剖析让我们先从分析一端自动化测试案例的代码开始我们的旅程。以下是我之前写的一个自动化测试的小Demo。这个Demo基于Selenium与Java。由于现在Selenium在自动化测试的统治地位,并且随着Selenium4的即将发布,在未来很长的一段时间里这种统治地位应该还会持续,所以我的这篇文章还都是

我的创作纪念日

机缘第一次写博客我记得是写了个原生ajax的文章,因为突然用这个确实写不出来我写博客纯属为了记录项目经验有的bug可能这个项目解决了下个项目又噶了哈哈,我觉得跟博友们好好交流一下还是可以的,互相进步收获获得了88粉丝的关注有些文章的阅读量还是很高的,嘿嘿,收获最大的就是在工作中遇到的bug解决的更快了哈哈认识十几个志同

热文推荐