多语言展示
当前在线:1412今日阅读:91今日分享:37

如何利用R软件简单处理文本数据?

本文介绍如何利用R中tm包分析文本数据,以及用wordcloud绘制词云图的具体方法。
工具/原料
1

R

2

tm

3

wordcloud

方法/步骤
1

将要分析的文本文档存在一个目录里。加载程序包tm,利用函数Corpus处理文档。代码如下:library(tm)#读取文件夹名 filename<-'C:/Users/jsb/Desktop/txt'#语料库,DirSource处理目录text<-Corpus(DirSource(filename),readerControl = list(language='lat'))summary(text)要处理的目录中有两个文档,文档名称和类别。

2

读取文档目录后,可以用函数inspect查看文档,查看单个文档要加双括号。#语料库的提取inspect(text[1:2])#提取单个文档identical(text[[1]],text[['text.txt']])text[[1]]

3

利用tm_map函数对文本进行一些处理。#去除空白text<- tm_map(text, stripWhitespace)#小写变换text<-tm_map(text,tolower)#停止词去除text<-tm_map(text,removeWords,stopwords('english'))

4

wordcloud包中的wordcloud函数绘制词云图。#词云图> library(wordcloud)> wordcloud(text)

5

利用DocumentTermMatrix 生成文档关系矩阵,这是建立模型的基础。#文档关系矩阵dtm<-DocumentTermMatrix(text) inspect(dtm[1:2,1:20])结果中可以看到前两个文档中20个词语出现的频次表。

6

从文档关系矩阵出找出我们关心的词。例如:#找出出现6次以上的条目findFreqTerms(dtm,6)#找到与'program'的相关系数在0.8以上的条目findAssocs(dtm, 'program', 0.8)

注意事项

如果文档是中文本文,需要将编码设置为“UTF-8”的格式,否则读出的文本会出现乱码

推荐信息