硬字幕提取用到的两个软件-OCR识别有时间码的图像从而提取字幕
最近在合成遗留搜查S5,奈何没有软字幕,所以得想办法弄字幕,昨天有谈友留言,为何不用J2版片源识别字幕而要用字幕组的?
这里统一回复一下,粤语版的大多数有删减,可能有的坛友没有试过合成,不知道删减对合成的影响
如果有删减,则会给校对增加不少时间,简单而言,就是字幕对不上日语片源的音轨,对齐需要花时间,而且删减的部分可能有台词的,那么自己手打补上也需要时间
总之字幕制作是很耗费时间的一件事情。
软件:Subtitle Edit与硬字幕提取工具10.0
之前有坛友问过硬字幕提取的是什么软件,这次发个图,这个工具名字就是叫“硬字幕提取工具”:handshake
其实之前发过帖子了,这次讲的是讲带有时间码的图像导入到硬字幕提取工具里提取字幕,废话不多说,开始实战!
将粤语版的视频拉入Subtitle Edit(后续都用SE代替)
软件会自动弹出截图的框,我们如图操作,将带有时间码的图像导出即可
导出后图像,我们打开硬字幕提取工具,选择刚才图像存放的文件夹,点击“去OCR”
OCR识别完成后,就可以生成SRT了
SRT文件可以另存为其他地方,自己能找到就行。
最后看看识别字幕组和识别粤语版字幕的结果对比:
基本上准确率还是挺高的,要想百分之百准确,估计没可能。但识别粤语版的字幕是带有时间码图像的白底黑字,这会给识别增加了些准确度。
刚才编辑的时候,手机收到了百度来的短信,说是我免费配额用完了……
所以说这个合成真是费时费力又费钱……
我看情况要不要继续购买API吧……不行就暂时停止更新吧……
(其实我还没搞懂那个百度API的计价方式,根据介绍和硬字幕工具说明书里提到,识别一张图片就要0.03元,那么识别一集电视剧1千多张图,差不多就要30多块了)
也就是说,我如果继续识别下去,每集就要花30多块了……
识别的时候叠图嘛,软件有设置的,5条或10条字幕并成一张提交识别就只消耗一次识别额度,而且准确率几乎一样,我上次识别柯南的字幕一个半月左右吧,五六十集的没问题的 楼主忘了最重要一步:叠图
叠图会把一页的字幕图片合并在一起给百度识别,不勾选的话是逐条识别,不勾选很快就会用完免费那点ocr次数。
这没必要花钱去OCR,目前那么多免费OCR,直接用就好,花钱的OCR也不是百分百准确的,还不如免费➕自己人工校对! 多谢分享教程~ Sawyer 发表于 2024-5-9 09:55
这没必要花钱去OCR,目前那么多免费OCR,直接用就好,花钱的OCR也不是百分百准确的,还不如免费➕自己人工 ...
确实,刚才已经欠费了,心疼我几十块:shutup: ocr的话,百度確實準確率高,不過可以用IdxSubOcr,這個準確率雖然冇百度咁高,不過都可以嘅,仲係免費。 zero4 发表于 2024-5-9 09:59
多谢分享教程~
我都想試下 對OCR 無興趣 删减剧情,还是台词字幕? 一天搞一两集,就不会欠费了 有教程真好