通过词云图快速了解十九届四中全会公报

qlmx
qlmx
qlmx
50
文章
2
评论
2020年2月15日00:23:07 评论 1,378阅读4分31秒

通过技术手段快速了解十九届四中全会公报

本文简单粗暴,只有代码和图片,快速了解十九届四中全会公报的主要内容,点击阅读原文可获得原文。

# -*- coding: utf-8 -*-
from pyltp import SentenceSplitter
from pyltp import Segmentor
import collections
import numpy as np
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import os
import re
from PIL import Image


#文本预处理
data_txt = open('news.txt','r',encoding='utf-8').read()
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')
data_txt = re.sub(pattern, '', data_txt)

#选用了ltp模型,效果比jieba好
#cut_txt = jieba.cut(data_txt) #jieba文本分词

LTP_DATA_DIR = '/Users/wenrui/anaconda3/ltp_data'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径,模型名称为`cws.model`

segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
cut_txt = segmentor.segment(data_txt)  # 分词
segmentor.release()  # 释放模型

object_list = []
remove_words = [u"的",u'对','全会',u'等',u'能','两', \
                u'都',u'。',u' ',u'和',u'、',u'中',u'在',u'了',u',',u'“',\
                u'”',u'一个',u'是',u'人民日报']

#词频统计
for word in cut_txt:
    if word not in remove_words:
        object_list.append(word)
word_counts = collections.Counter(object_list)

path_image = 'timg.jpeg' #定义词频背景
background_image = np.array(Image.open(path_image))
font_path="simhei.ttf"
wd = WordCloud(
    font_path=font_path,  #设置字体格式,不然会乱码
    background_color="black",  #设置背景颜色
    mask=background_image   #设置背景图
).generate_from_frequencies(word_counts)

#保存词云图
wd.to_file('result.png')
#显示词云图
fig = plt.figure(figsize=(20, 15))
plt.imshow(wd,interpolation="bilinear")
plt.axis("off")
plt.show()

运行结果可得如下高频词云图

通过词云图快速了解十九届四中全会公报

继续阅读
  • 我的微信小程序
  • 这是我的微信小程序扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
qlmx
  • 本文由 发表于 2020年2月15日00:23:07
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接
邓小平传读书笔记 技术杂谈

邓小平传读书笔记

读书感悟 他的名字出生父亲起的邓先圣、先生起了邓希贤,留学还有两个名字,1927年改为邓小平。 想要自己优秀,需要保持一个学习的态度,做好身边的每一件事情,让别人看到你的优秀,同时也要向优秀的人靠拢,...
乔布斯传读书笔记 技术杂谈

乔布斯传读书笔记

我们都有个有钱的邻居,叫做施乐,我闯进他们家准备偷电视的时候,发现你已经把它偷走了 致疯狂的人。他们特立独行,他们桀骜不驯,他们惹是生非,他们格格不入,他们用与众不同的眼光看待事物,他们不喜欢墨守成规...
文本数据增强技术 技术杂谈

文本数据增强技术

文本增强技术学习:链接 数据类别不均衡,导致模型对于小样本类别往往处于欠拟合状态 针对小样本进行数据扩充 处理方式方面分为两个方面: 不变语义,更改表达方式 对原文进行策略调整,如同义词替换 回译技术...
高质量数据科学竞赛平台汇总 技术杂谈

高质量数据科学竞赛平台汇总

前言 学习过机器学习算法的小伙伴大多数都听说过“打比赛”,一些同学自己参与过一些比赛项目,从中获益匪浅。今天来详细罗列一下国内外的比赛平台,方便即时找到自己感兴趣的项目。 1. kaggle 一个比较...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: