hopradio 发表于 2017-8-22 17:13:05

班门弄斧~硬字幕转SRT/ASS字幕

本帖最后由 hopradio 于 2020-5-2 23:14 编辑

好耐无来啦~逛咗技术区几圈,发觉无乜人气:lol
早个一两年仲会研究乜MeGUI、ffmpeg点样压制,而家发觉压制基本上浪费时间,10T硬盘计埋条数先1K RMB:loveliness:
而家录嘎TS都喺Smart Cutter剪辑完就收工;P转码都懒得转,除非音轨延迟过大就用SolveigMM Video剪音轨,在ffmpeg合并:D
ffmpeg -i in.ts -c copy out.mp4ffmpeg -i in.ts -i in.aac -c copy out.ts
20200502


=========================
呢几日唔知发乜神经,想将之前下个D电视节目内挂sub字幕转成ASS:lol老实讲sub勉强睇得入眼但喺个D字体实在:shutup:
睇咗版块置顶个篇技术帖,然后扑咗jie……

IdxSubOcr提示缺少MODI组件,安装咗MODI OCR组件都喺扑*街:@重装系统就咪搞我啦!唔信邪又Google咗一大轮……
发觉来来去去都喺个几种方法:L
(1).IdxSubOcr 直接暴力OCR缺点就喺好多字认唔到……仲要无提示个只:L
http://i.niupic.com/images/2017/08/22/c0viPl.jpg

(2).用subRip分段OCR然后SubToSrt出字幕
由于IdxSubOcr扑咗街,所以只好用subRip~
但喺第二步SubToSrt 实在……
http://i.niupic.com/images/2017/08/22/GsoLkV.jpg
大佬!只只字都要手打!我下个大字库罗来托嘎!:'(
天无绝人之路,谂翻起以前提取RMVB硬字幕用过啊爷级别嘎神器……esrXP:D
反正都喺OCR嘎~试下点:lol
先subRip导出srt图片时间轴,再导入esrXP
http://i.niupic.com/images/2017/08/22/3Pg7pX.jpg
效果自己睇:victory:当然你得闲无事做都可以喺隔离练下打字;P
http://i.niupic.com/images/2017/08/22/YZILAO.jpg
esrXP导出OCR设置方面,输出张数可根据行数调整,1-200行差唔多啦,至于字幕分成两行唔知道点用……试过一次字体直接被拦腰截断一半:L

至此基本完成50%进度,跟住就喺识别嘎问题啦~其他版本唔清楚,office 2013嘎OCR功能喺OneNote个度
http://i.niupic.com/images/2017/08/22/QvFgWU.jpg
http://i.niupic.com/images/2017/08/22/jZJ7kE.jpg
至于效果嘛……其实就等同于IdxSubOcr:shutup:求其揾咗下都一大堆乱码同识别错误{:6_177:}


又重回起点?OCR又唔喺得office独孤一味{:6_148:}
FineReader
http://i.niupic.com/images/2017/08/22/8mlB8N.jpg

卖几钱唔知道啊……我D玩下盗*版嘎唔会上门拉我嘛{:6_191:}
http://i.niupic.com/images/2017/08/22/dSFDPZ.jpg

识别率比起OneNote直接爆表!仲要有埋疑似字标记{:6_150:}唯一嘎缺点就喺分行有D问题……不过基本上都有留空格,一睇就晓得呢度喺段落
http://i.niupic.com/images/2017/08/22/xJKMl1.jpg

识别率方面,1364字,有1个识别错误,可能系统繁体字体唔全嘎关系,用嘎都喺自带嘎MingLiu字体{:6_174:}
http://i.niupic.com/images/2017/08/22/JQBsNr.jpg


导出文本后直接Ctrl+v至esrXP……再转srt……搞掂收工
整个流程就喺
subRip - errXP - FineReader- errXP

本次sub转srt文本字幕尝试过的{:6_184:}
http://i.niupic.com/images/2017/08/22/IMxC4V.jpg
最后效果,外挂SSA求其揾个字体{:6_171:}
http://i.niupic.com/images/2017/08/22/PYle90.jpg
上图喺内嵌sub,下图喺外挂ssa
http://i.niupic.com/images/2017/08/22/eo0b1s.jpg

FineReader文本分行问题唔记得咗讲,以Notepad++ 为例直接替换就OK……{:6_174:}
http://i.niupic.com/images/2017/08/22/rPcfD4.jpg

http://i.niupic.com/images/2017/08/22/5bleh5.jpg
http://i.niupic.com/images/2017/08/22/ipho6H.jpg


ps2123456 发表于 2017-8-22 18:10:28

这个厉害了。

yungchu 发表于 2017-8-22 18:14:21

konny 发表于 2017-8-22 18:39:49

本帖最后由 konny 于 2017-8-22 18:41 编辑

IdxSubOcr的作者已经换了新博客,楼主可以百度下{:9_374:}在里面你应该会有新发现

e87522nk 发表于 2017-8-22 18:39:51

我係用Readiris Pro 16 日文都可以 不過 要做成SRT 好花時間

alex131 发表于 2017-8-22 18:44:01

一定要收藏!!!

stevencif 发表于 2017-8-22 18:45:51

本帖最后由 stevencif 于 2017-8-22 18:47 编辑

IdxSubOcr 是用office 的OCR Engine,我覺得準確度都算不錯,而且簡單
但你要選清楚繁體 或 簡體 OCR

MODI 只要安裝SharePoint Designer 2007中的Document Imaging
這個可在Microsoft主頁免費下載

hopradio 发表于 2017-8-22 19:56:08

konny 发表于 2017-8-22 18:39
IdxSubOcr的作者已经换了新博客,楼主可以百度下在里面你应该会有新发现

我就喺喺佢blog下载嘎最新版{:6_191:}

hopradio 发表于 2017-8-22 19:58:01

stevencif 发表于 2017-8-22 18:45
IdxSubOcr 是用office 的OCR Engine,我覺得準確度都算不錯,而且簡單
但你要選清楚繁體 或 簡體 OCR



咁理论上来讲IdxSubOcr同OneNote无乜区别咯,都喺调用office嘎{:6_171:}

stevencif 发表于 2017-8-22 20:03:12

hopradio 发表于 2017-8-22 19:58
咁理论上来讲IdxSubOcr同OneNote无乜区别咯,都喺调用office嘎

所以覺得佢個OCR都唔差
页: [1] 2 3 4 5 6 7 8
查看完整版本: 班门弄斧~硬字幕转SRT/ASS字幕