如何利用R软件简单处理文本数据？

本文介绍如何利用R中tm包分析文本数据，以及用wordcloud绘制词云图的具体方法。

工具/原料

wordcloud

方法/步骤

将要分析的文本文档存在一个目录里。加载程序包tm，利用函数Corpus处理文档。代码如下：library(tm)#读取文件夹名 filename<-'C:/Users/jsb/Desktop/txt'#语料库,DirSource处理目录text<-Corpus(DirSource(filename),readerControl = list(language='lat'))summary(text)要处理的目录中有两个文档，文档名称和类别。

读取文档目录后，可以用函数inspect查看文档，查看单个文档要加双括号。#语料库的提取inspect(text[1:2])#提取单个文档identical(text[[1]],text[['text.txt']])text[[1]]

利用tm_map函数对文本进行一些处理。#去除空白text<- tm_map(text, stripWhitespace)#小写变换text<-tm_map(text,tolower)#停止词去除text<-tm_map(text,removeWords,stopwords('english'))

wordcloud包中的wordcloud函数绘制词云图。#词云图> library(wordcloud)> wordcloud(text)

利用DocumentTermMatrix 生成文档关系矩阵，这是建立模型的基础。#文档关系矩阵dtm<-DocumentTermMatrix(text) inspect(dtm[1:2,1:20])结果中可以看到前两个文档中20个词语出现的频次表。

从文档关系矩阵出找出我们关心的词。例如：#找出出现6次以上的条目findFreqTerms(dtm,6)#找到与'program'的相关系数在0.8以上的条目findAssocs(dtm, 'program', 0.8)

注意事项

如果文档是中文本文，需要将编码设置为“UTF-8”的格式,否则读出的文本会出现乱码

上一篇：2018年如何走心聊天（沟通）？

下一篇：天天爱消除707关怎么过

欧尼酱

如何利用R软件简单处理文本数据？

如何在轩辕传奇中做一名游戏商人

离职后,如何领取失业保险金

失业了如何申领失业金

2023年失业保险金如何申领呢

周大福积分如何抵现金

如何解决孩子内热问题

失业保险金如何一次性领取

如何解决突然无法切换输入法的问题？

省外户籍人员如何在网上一次性领取失业保险金？

如何加盟一点点

花亦山心之月中如何得知攻伐之书

原发性癫痫应当如何护理

如何检查原发性三叉神经痛

原发性癫痫应该如何去护理才好

原发性三叉神经痛需要如何检查

如何护理原发性皮肤淀粉样变

如何学习优秀的英语演讲稿？

2018年如何走心聊天（沟通）？

如何利用R软件简单处理文本数据？

如何提高学生的写作能力

室内甲醛检测治理流程与条件

室内空气甲醛采样分析流程

室内甲醛检测的方法

室内甲醛检测

怎样检测室内甲醛含量

检测甲醛有哪些方法

室内空气甲醛检测方法

会议桌尺寸大小的计算

电脑开机后进不了系统显示英文怎么办？

打箍筋定尺寸技巧？

如何对大于90度的钝角进行尺寸标注

良好的习惯有利于英语口语发音学习

文本框怎么设置尺寸

怎样调整PPT的尺寸大小？

系统右下角音量不见了怎么办

如何用软件快速在图片上标注尺寸

初一英语阅读理解做题技巧

高一英语语法知识点汇总

英文音频如何转文字

提高求职面试英语口语水平的方法