班门弄斧~硬字幕转SRT/ASS字幕
本帖最后由 hopradio 于 2020-5-2 23:14 编辑好耐无来啦~逛咗技术区几圈,发觉无乜人气:lol
早个一两年仲会研究乜MeGUI、ffmpeg点样压制,而家发觉压制基本上浪费时间,10T硬盘计埋条数先1K RMB:loveliness:
而家录嘎TS都喺Smart Cutter剪辑完就收工;P转码都懒得转,除非音轨延迟过大就用SolveigMM Video剪音轨,在ffmpeg合并:D
ffmpeg -i in.ts -c copy out.mp4ffmpeg -i in.ts -i in.aac -c copy out.ts
20200502
=========================
呢几日唔知发乜神经,想将之前下个D电视节目内挂sub字幕转成ASS:lol老实讲sub勉强睇得入眼但喺个D字体实在:shutup:
睇咗版块置顶个篇技术帖,然后扑咗jie……
IdxSubOcr提示缺少MODI组件,安装咗MODI OCR组件都喺扑*街:@重装系统就咪搞我啦!唔信邪又Google咗一大轮……
发觉来来去去都喺个几种方法:L
(1).IdxSubOcr 直接暴力OCR缺点就喺好多字认唔到……仲要无提示个只:L
http://i.niupic.com/images/2017/08/22/c0viPl.jpg
(2).用subRip分段OCR然后SubToSrt出字幕
由于IdxSubOcr扑咗街,所以只好用subRip~
但喺第二步SubToSrt 实在……
http://i.niupic.com/images/2017/08/22/GsoLkV.jpg
大佬!只只字都要手打!我下个大字库罗来托嘎!:'(
天无绝人之路,谂翻起以前提取RMVB硬字幕用过啊爷级别嘎神器……esrXP:D
反正都喺OCR嘎~试下点:lol
先subRip导出srt图片时间轴,再导入esrXP
http://i.niupic.com/images/2017/08/22/3Pg7pX.jpg
效果自己睇:victory:当然你得闲无事做都可以喺隔离练下打字;P
http://i.niupic.com/images/2017/08/22/YZILAO.jpg
esrXP导出OCR设置方面,输出张数可根据行数调整,1-200行差唔多啦,至于字幕分成两行唔知道点用……试过一次字体直接被拦腰截断一半:L
至此基本完成50%进度,跟住就喺识别嘎问题啦~其他版本唔清楚,office 2013嘎OCR功能喺OneNote个度
http://i.niupic.com/images/2017/08/22/QvFgWU.jpg
http://i.niupic.com/images/2017/08/22/jZJ7kE.jpg
至于效果嘛……其实就等同于IdxSubOcr:shutup:求其揾咗下都一大堆乱码同识别错误{:6_177:}
又重回起点?OCR又唔喺得office独孤一味{:6_148:}
FineReader
http://i.niupic.com/images/2017/08/22/8mlB8N.jpg
卖几钱唔知道啊……我D玩下盗*版嘎唔会上门拉我嘛{:6_191:}
http://i.niupic.com/images/2017/08/22/dSFDPZ.jpg
识别率比起OneNote直接爆表!仲要有埋疑似字标记{:6_150:}唯一嘎缺点就喺分行有D问题……不过基本上都有留空格,一睇就晓得呢度喺段落
http://i.niupic.com/images/2017/08/22/xJKMl1.jpg
识别率方面,1364字,有1个识别错误,可能系统繁体字体唔全嘎关系,用嘎都喺自带嘎MingLiu字体{:6_174:}
http://i.niupic.com/images/2017/08/22/JQBsNr.jpg
导出文本后直接Ctrl+v至esrXP……再转srt……搞掂收工
整个流程就喺
subRip - errXP - FineReader- errXP
本次sub转srt文本字幕尝试过的{:6_184:}
http://i.niupic.com/images/2017/08/22/IMxC4V.jpg
最后效果,外挂SSA求其揾个字体{:6_171:}
http://i.niupic.com/images/2017/08/22/PYle90.jpg
上图喺内嵌sub,下图喺外挂ssa
http://i.niupic.com/images/2017/08/22/eo0b1s.jpg
FineReader文本分行问题唔记得咗讲,以Notepad++ 为例直接替换就OK……{:6_174:}
http://i.niupic.com/images/2017/08/22/rPcfD4.jpg
http://i.niupic.com/images/2017/08/22/5bleh5.jpg
http://i.niupic.com/images/2017/08/22/ipho6H.jpg
这个厉害了。 本帖最后由 konny 于 2017-8-22 18:41 编辑
IdxSubOcr的作者已经换了新博客,楼主可以百度下{:9_374:}在里面你应该会有新发现 我係用Readiris Pro 16 日文都可以 不過 要做成SRT 好花時間 一定要收藏!!! 本帖最后由 stevencif 于 2017-8-22 18:47 编辑
IdxSubOcr 是用office 的OCR Engine,我覺得準確度都算不錯,而且簡單
但你要選清楚繁體 或 簡體 OCR
MODI 只要安裝SharePoint Designer 2007中的Document Imaging
這個可在Microsoft主頁免費下載
konny 发表于 2017-8-22 18:39
IdxSubOcr的作者已经换了新博客,楼主可以百度下在里面你应该会有新发现
我就喺喺佢blog下载嘎最新版{:6_191:} stevencif 发表于 2017-8-22 18:45
IdxSubOcr 是用office 的OCR Engine,我覺得準確度都算不錯,而且簡單
但你要選清楚繁體 或 簡體 OCR
咁理论上来讲IdxSubOcr同OneNote无乜区别咯,都喺调用office嘎{:6_171:} hopradio 发表于 2017-8-22 19:58
咁理论上来讲IdxSubOcr同OneNote无乜区别咯,都喺调用office嘎
所以覺得佢個OCR都唔差