硬字幕提取用到的两个软件-OCR识别有时间码的图像从而提取字幕

jixunuli 发表于 2024-5-9 09:46:02

最近在合成遗留搜查S5,奈何没有软字幕，所以得想办法弄字幕，昨天有谈友留言，为何不用J2版片源识别字幕而要用字幕组的？

这里统一回复一下，粤语版的大多数有删减，可能有的坛友没有试过合成，不知道删减对合成的影响
如果有删减，则会给校对增加不少时间，简单而言，就是字幕对不上日语片源的音轨，对齐需要花时间，而且删减的部分可能有台词的，那么自己手打补上也需要时间
总之字幕制作是很耗费时间的一件事情。

软件：Subtitle Edit与硬字幕提取工具10.0

之前有坛友问过硬字幕提取的是什么软件，这次发个图，这个工具名字就是叫“硬字幕提取工具”:handshake

其实之前发过帖子了，这次讲的是讲带有时间码的图像导入到硬字幕提取工具里提取字幕，废话不多说，开始实战！

将粤语版的视频拉入Subtitle Edit（后续都用SE代替）

软件会自动弹出截图的框，我们如图操作，将带有时间码的图像导出即可

导出后图像，我们打开硬字幕提取工具，选择刚才图像存放的文件夹,点击“去OCR”

OCR识别完成后，就可以生成SRT了

SRT文件可以另存为其他地方，自己能找到就行。

最后看看识别字幕组和识别粤语版字幕的结果对比：

基本上准确率还是挺高的，要想百分之百准确，估计没可能。但识别粤语版的字幕是带有时间码图像的白底黑字，这会给识别增加了些准确度。

刚才编辑的时候，手机收到了百度来的短信，说是我免费配额用完了……

所以说这个合成真是费时费力又费钱……

我看情况要不要继续购买API吧……不行就暂时停止更新吧……
（其实我还没搞懂那个百度API的计价方式，根据介绍和硬字幕工具说明书里提到，识别一张图片就要0.03元，那么识别一集电视剧1千多张图，差不多就要30多块了）

也就是说，我如果继续识别下去，每集就要花30多块了……

浮遊泉 发表于 2024-5-9 16:30:46

识别的时候叠图嘛，软件有设置的，5条或10条字幕并成一张提交识别就只消耗一次识别额度，而且准确率几乎一样，我上次识别柯南的字幕一个半月左右吧，五六十集的没问题的

meto 发表于 2024-5-9 12:08:22

楼主忘了最重要一步：叠图

叠图会把一页的字幕图片合并在一起给百度识别，不勾选的话是逐条识别，不勾选很快就会用完免费那点ocr次数。

Sawyer 发表于 2024-5-9 09:55:48

这没必要花钱去OCR，目前那么多免费OCR，直接用就好，花钱的OCR也不是百分百准确的，还不如免费➕自己人工校对！

zero4 发表于 2024-5-9 09:59:33

多谢分享教程~

jixunuli 发表于 2024-5-9 10:00:43

Sawyer 发表于 2024-5-9 09:55
这没必要花钱去OCR，目前那么多免费OCR，直接用就好，花钱的OCR也不是百分百准确的，还不如免费➕自己人工 ...

确实，刚才已经欠费了，心疼我几十块:shutup:

缘分发表于 2024-5-9 10:05:10

ocr的话，百度確實準確率高，不過可以用IdxSubOcr，這個準確率雖然冇百度咁高，不過都可以嘅，仲係免費。

lck 发表于 2024-5-9 10:11:17

zero4 发表于 2024-5-9 09:59
多谢分享教程~

我都想試下

wai008 发表于 2024-5-9 10:17:00

對OCR 無興趣

82540064 发表于 2024-5-9 10:18:53

删减剧情，还是台词字幕？

小魔女 发表于 2024-5-9 10:23:44

一天搞一两集，就不会欠费了

lewislee 发表于 2024-5-9 10:29:24

有教程真好

页: [1] 2 3 4 5 6 7 8 9 10

粤梦缘's Archiver

硬字幕提取用到的两个软件-OCR识别有时间码的图像从而提取字幕