在线版Treetagger
UltraEdit
NotePad++
EditPlus
Word 2003/2007
本教程谈论的是在线网页版Treetagger,对于本地运行版Treetagger也能“如法炮制”,Treetagger是德国人“Helmut Schmid”所开发。其功能是“自动断句、词性标注(POS tagging)、词形屈折还原”。自动断句就是把每个句子单独列成一行,这样有利于以句子为单位进行搜索与统计;词性标注就是把important标注为JJ(形容词)之类的;把girls标注为girl就是屈折还原。其“语料词性标签集”是宾西法尼亚州立大学树库,网址是 https://www.sketchengine.co.uk/documentation/wiki/tagsets/penn其本质是“给程序员进一步编程提供方便,并非让不会编程的人直接使用,可视为middleware(中间件)”,这就是为什么挺多的英语师生对之又爱又恨的缘故。其官方网址是 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
Treetagger在线版网址是 http://web4u.setsunan.ac.jp/Website/TreeOnline.htm其在线版的一次性能处理的语料容量为2MB(大约34万英语单词)。其在线版的优势是“无需安装软件,仅用电脑或手机的浏览器即可对大量英语段落进行处理”。其在线版的缺陷是“处理结果是三列的格式,第一列是原文单词屈折形态、第二列是词性标签、第三列是原文单词原形,原有段落都在处理结果中被抹除”。其在线版的潜力巨大,如果你掌握了本教程所传授的快速转换方法,就能让Treetagger成为“简洁可爱的自动断句器、自动词性标注器、自动屈折还原器”,而你并不需要学会编程,虽然编程能让一切变得更加高效愉快!
其在线版的操作方式是“拷贝若干段落的英语到文本框,点submit这个按钮,稍等片刻,就看到结果了”,下图是操作界面:
下图是结果画面(可以用鼠标选中全部内容而拷贝,三列之间是制表符间隔的,制表符就是键盘上的TAB键,句末标点都是被标注为“SENT”,就是sentence的缩写):
为了让段落排版效果在处理结果中依然“风韵犹存”,我们需要把每个段落的末尾添加一个“ DUANWEI”,注意哈,双引号之内是一个空格和“段尾”的汉语拼音哟!为了实现这个目标,我们可以用Notepad++(完全免费的软件)、UltraEdit(收费软件但能找到破解版)、EditPlus(收费软件但能找到破解版)、或者Office 2003/2007/2010版来进行批量操作,本质上都是“嚓嚓嚓的替换、全部替换”而已,见下面的待处理效果图:
下面是已处理的效果图:
Notepad++中的替换画面如下:
UltraEdit中的替换画面如下:
EditPlus中的替换画面如下:
Office 2003/2007/2010中的替换画面如下(字母之前是插入符,就是一个向上的小箭头):
添加了“ DUANWEI”的语料(语言材料)被在线处理之后,可以通过批量替换的特殊操作而得到5种格式的新效果:(1)“屈折_词性标签”;(2)“屈折_原形”;(3)“词性标签_原形”;(4)“自动断句”;(5)“原形 原形”。
“屈折_词性标签”的最终效果如下图:
“屈折_原形”的最终效果如下图:
“词性标签_原形”的最终效果如下图:
“自动断句”的最终效果如下图(每个句子占一行):
“原形 原形”的最终效果如下图:
欲得到“屈折_词性标签”的最终效果,UltraEdit中的替换画面如下(第1个画面是替换制表符为下划线,第2个画面是替换回车为一个空格,第4个画面的替换为是“一个空格”,请注意都是用的反斜线):
欲得到“屈折_原形”的最终效果,UltraEdit中的替换画面如下(第3个画面的“替换为”是一个空格):
欲得到“词性标签_原形”的最终效果,UltraEdit中的替换画面如下(第2个画面并不能替换全篇的第一个词,所以请手工处理第一个词):
欲得到“自动断句”的最终效果,UltraEdit中的替换画面如下:
欲得到“原形 原形”的最终效果,UltraEdit中的替换画面如下(第2个画面的“替换为”是空):
其实上面的方法,如果你细心观察会发现有一个缺陷,缺陷是“句首单词没有被正确地屈折还原”,要想克服这个缺陷就需要把“ DUANWEI”改为“ DUANWEI.”,那么,上面的操作方法就更复杂一些了,但是,如果你已经掌握了上面的做法,就能实现更完美的操作效果的,这点就看你自己了。下图是添加“ DUANWEI.”到每个段尾之后的标注效果,由此可见,更完美的效果(tricks和girls都变为小写的原形了)就在近处……
上述软件都有“宏功能”,可以录制你的多个操作为“一键执行”,所以能更快速轻松地进行“多次替换”,本教程就不赘述了,具体操作是超级简单的:启动宏录制,然后做多个动作,停止宏录制,(当你需要启动自己录制的宏,就点自己设置的快捷键或自定义按钮)。