多语言展示
当前在线:1488今日阅读:60今日分享:41

如何从美剧字幕中提取单词

如下图所示,如果下载的是.srt格式的字幕,一行中文,一行英文的字幕文件中,如何仅删除中文信息,保留英文?
工具/原料

office word

方法/步骤
1

首先观察源文件,查找规律我找到的规律是:英文字幕结束后跟着一个“换行符”(我提前把标点符号 删及连续多个多余的换行符除了),然后是中文字幕,然后再一个“换行符”如果我能够搜索 “任意英文字母”+“换行符”+任意0个或者多个字符+“换行符”,就可以定位文中的所有中文字幕,而且躲开英文字幕。

2

下一步看如何实现上述想法。查看 替换框内可以用哪些 特殊字符注意:是否勾选“使用通配符”,可以使用的特殊字符是不一样的因为中文字幕长度不确定,所以我必须要用到“*”这个可以定位“0个或者多个任意字符”的功能,故要想实现上述构想,我只能勾选“使用通配符”

3

但是勾选“使用通配符”后,特殊字符 内没有“段落标志”选项,即无法使用^P来查找文中的换行符……进一步查找发现,在勾选“使用通配符”的情况下,可以使用^13来查找段落标志。

4

构建搜索式在查找框内输入如下公式:[a-z]^13*^13上式中“[a-z]”表示查找a-z中任意一个字符(英文都跑不出这26个字母)“^13”表示换行符“*”表示0个或者多个任意字符“^13”表示换行符完全满足以上组合次序要求的就是每一行中文字幕用“空白”进行替换即可删除所有中文字幕,但是有个后遗症:最后一个单词的最后一个字母会被删除……

5

解决上述问题的办法比较笨了,用a 替换 [a]^13*^13用b 替换 [b]^13*^13用c 替换 [c]^13*^13用d 替换 [d]^13*^13用e 替换 [e]^13*^13用f 替换 [f]^13*^13用g 替换 [g]^13*^13…………以此类推麻烦?可以用宏命令对上述重复性的步骤进行自动替换了

推荐信息