多语言展示
当前在线:1753今日阅读:39今日分享:10

Treetagger的语料数据转换神技:5种特效

作者:李亮(2015年7月23日 写于吉林师范大学)在线版Treetagger能进行英语词性标注、屈折还原及自动断句。但是标注结果抹除了段落,而且是纯粹的单词清单样式的三列,这很不方便,让不会编程却涉足语料库语言学的英语师生无法发挥其潜力。针对这个难题,应该如何耍出一番“自动化的批量重新排版”技巧,高速灵活地实现自己想要的“5种转换效果”。
工具/原料
1

在线版Treetagger

2

UltraEdit

3

NotePad++

4

EditPlus

5

Word 2003/2007

方法/步骤
1

本教程谈论的是在线网页版Treetagger,对于本地运行版Treetagger也能“如法炮制”,Treetagger是德国人“Helmut Schmid”所开发。其功能是“自动断句、词性标注(POS tagging)、词形屈折还原”。自动断句就是把每个句子单独列成一行,这样有利于以句子为单位进行搜索与统计;词性标注就是把important标注为JJ(形容词)之类的;把girls标注为girl就是屈折还原。其“语料词性标签集”是宾西法尼亚州立大学树库,网址是 https://www.sketchengine.co.uk/documentation/wiki/tagsets/penn其本质是“给程序员进一步编程提供方便,并非让不会编程的人直接使用,可视为middleware(中间件)”,这就是为什么挺多的英语师生对之又爱又恨的缘故。其官方网址是 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

2

Treetagger在线版网址是 http://web4u.setsunan.ac.jp/Website/TreeOnline.htm其在线版的一次性能处理的语料容量为2MB(大约34万英语单词)。其在线版的优势是“无需安装软件,仅用电脑或手机的浏览器即可对大量英语段落进行处理”。其在线版的缺陷是“处理结果是三列的格式,第一列是原文单词屈折形态、第二列是词性标签、第三列是原文单词原形,原有段落都在处理结果中被抹除”。其在线版的潜力巨大,如果你掌握了本教程所传授的快速转换方法,就能让Treetagger成为“简洁可爱的自动断句器、自动词性标注器、自动屈折还原器”,而你并不需要学会编程,虽然编程能让一切变得更加高效愉快!

3

其在线版的操作方式是“拷贝若干段落的英语到文本框,点submit这个按钮,稍等片刻,就看到结果了”,下图是操作界面:

4

下图是结果画面(可以用鼠标选中全部内容而拷贝,三列之间是制表符间隔的,制表符就是键盘上的TAB键,句末标点都是被标注为“SENT”,就是sentence的缩写):

5

为了让段落排版效果在处理结果中依然“风韵犹存”,我们需要把每个段落的末尾添加一个“ DUANWEI”,注意哈,双引号之内是一个空格和“段尾”的汉语拼音哟!为了实现这个目标,我们可以用Notepad++(完全免费的软件)、UltraEdit(收费软件但能找到破解版)、EditPlus(收费软件但能找到破解版)、或者Office 2003/2007/2010版来进行批量操作,本质上都是“嚓嚓嚓的替换、全部替换”而已,见下面的待处理效果图:

6

下面是已处理的效果图:

7

Notepad++中的替换画面如下:

8

UltraEdit中的替换画面如下:

9

EditPlus中的替换画面如下:

10

Office 2003/2007/2010中的替换画面如下(字母之前是插入符,就是一个向上的小箭头):

11

添加了“ DUANWEI”的语料(语言材料)被在线处理之后,可以通过批量替换的特殊操作而得到5种格式的新效果:(1)“屈折_词性标签”;(2)“屈折_原形”;(3)“词性标签_原形”;(4)“自动断句”;(5)“原形 原形”。

12

“屈折_词性标签”的最终效果如下图:

13

“屈折_原形”的最终效果如下图:

14

“词性标签_原形”的最终效果如下图:

15

“自动断句”的最终效果如下图(每个句子占一行):

16

“原形 原形”的最终效果如下图:

17

欲得到“屈折_词性标签”的最终效果,UltraEdit中的替换画面如下(第1个画面是替换制表符为下划线,第2个画面是替换回车为一个空格,第4个画面的替换为是“一个空格”,请注意都是用的反斜线):

18

欲得到“屈折_原形”的最终效果,UltraEdit中的替换画面如下(第3个画面的“替换为”是一个空格):

19

欲得到“词性标签_原形”的最终效果,UltraEdit中的替换画面如下(第2个画面并不能替换全篇的第一个词,所以请手工处理第一个词):

20

欲得到“自动断句”的最终效果,UltraEdit中的替换画面如下:

21

欲得到“原形 原形”的最终效果,UltraEdit中的替换画面如下(第2个画面的“替换为”是空):

22

其实上面的方法,如果你细心观察会发现有一个缺陷,缺陷是“句首单词没有被正确地屈折还原”,要想克服这个缺陷就需要把“ DUANWEI”改为“ DUANWEI.”,那么,上面的操作方法就更复杂一些了,但是,如果你已经掌握了上面的做法,就能实现更完美的操作效果的,这点就看你自己了。下图是添加“ DUANWEI.”到每个段尾之后的标注效果,由此可见,更完美的效果(tricks和girls都变为小写的原形了)就在近处……

23

上述软件都有“宏功能”,可以录制你的多个操作为“一键执行”,所以能更快速轻松地进行“多次替换”,本教程就不赘述了,具体操作是超级简单的:启动宏录制,然后做多个动作,停止宏录制,(当你需要启动自己录制的宏,就点自己设置的快捷键或自定义按钮)。

推荐信息