V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YanSeven
V2EX  ›  程序员

如何高效率高质量利用 LLM 翻译一本文字版 pdf 书籍(几百页)?

  •  
  •   YanSeven · 31 天前 · 3352 次点击
    有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。

    因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

    目前想象的思路就是:

    1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
    2. 调用 LLM API 逐个文档翻译。
    3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。

    上面的方案中唯一不确定性的在于:
    1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
    2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。
    21 条回复    2025-10-10 11:17:31 +08:00
    YanSeven
        1
    YanSeven  
    OP
       31 天前
    由于是编程类书籍,所以还得考虑下代码块能否正确的识别和转换
    123go
        2
    123go  
       31 天前 via Android   ❤️ 1
    如果你只是解决英文 pdf 文档阅读问题,我推荐你试试微信阅读。
    它的全文翻译看效果就是用的 LLM ,并且质量相当高。而且会对长段落进行适当的切割以方便中英对照。
    twofox
        3
    twofox  
       31 天前
    沉浸式翻译,我用它翻译了算法导论第四版。保留双语版本,原格式。
    twofox
        4
    twofox  
       31 天前
    @twofox 该花钱花钱,在自己不擅长的领域,消耗的时间精力会更加多。
    YanSeven
        5
    YanSeven  
    OP
       31 天前
    @twofox 沉浸式翻译出来的排版布局却是不错,感谢
    ydm9481
        6
    ydm9481  
       31 天前 via iPhone
    GitHub 上有 PDFMathTranslate-next
    MIUIOS
        7
    MIUIOS  
       31 天前
    全部翻译不现实 不如看一段翻译一段
    funcman
        8
    funcman  
       31 天前
    UPDF
    hammy
        9
    hammy  
       31 天前
    让 Gt4t 去翻译的话反正花钱就行了...自己动手创造轮子可以复用,也有好处。
    Colemei
        10
    Colemei  
       31 天前
    没什么特别注意的,反正都是要消耗 api 的 credits ,你翻译书籍的内容是固定的 token 数也是固定的,我这里提供一点思路:现在各大 provider 很多都支持 batch api ,可以省一半的 api 费用,让 agent 写 batch 的实现也很简单,把 official doc 喂给他读一下就好了
    jamers
        11
    jamers  
       31 天前
    doc2x.noedgeai.com ,推荐用这个,方便快捷~
    speedmancs
        12
    speedmancs  
       31 天前   ❤️ 1
    把电子书导入微信阅读,如果是 pdf 形式的它也能翻译,只不过要先转成电子书格式。
    yahon
        13
    yahon  
       31 天前   ❤️ 1
    https://app.immersivetranslate.com/babel-doc/ 这个应该能满足你的要求~
    BlueSkyXN
        14
    BlueSkyXN  
       31 天前 via iPhone
    太麻烦,谷歌一键翻译
    liqinliqin
        15
    liqinliqin  
    PRO
       31 天前
    www.swoole.com 上面可以翻译,直接上传 pdf 就行了,输出也是翻译好的 pdf
    moudy
        16
    moudy  
       31 天前
    编程类书籍的英语都很简单吧,跟文学性或新闻性的英文根本不在一个级别上。翻译之后很多原意都领会不到。
    YanSeven
        17
    YanSeven  
    OP
       31 天前
    @liqinliqin 这个看上去好像不太对,是否发错了
    Yade
        18
    Yade  
       31 天前
    之前的小红书的 dots.ocr 做过一些 pdf 格式的书籍转成 markdown 格式,看起来不错
    liqinliqin
        19
    liqinliqin  
    PRO
       30 天前
    @SGL #17 没错,你可以体验下,功能就是你所需要的
    CodeCodeStudy
        20
    CodeCodeStudy  
       29 天前
    @moudy #16 我也觉得编程类的英语比新闻的容易看太多了,新闻的用词较复杂,不过我觉得还是先翻译成中文后通读一遍,然后再看英文原文,这样更能容易明白书所要表达的意思
    unco020511
        21
    unco020511  
       29 天前
    直接用 wps,pdf 翻译,直接就是翻译后的 pdf
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   861 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:08 · PVG 06:08 · LAX 14:08 · JFK 17:08
    ♥ Do have faith in what you're doing.