V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Branlice
V2EX  ›  随想

大型语言模型(LLM)的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?

  •  
  •   Branlice · 8 小时 18 分钟前 · 740 次点击
    传统安全是 基于规则和边界的。我们防御的是确定性的攻击,例如 SQL 注入。Web 应用防火墙( WAF )可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界,攻防双方围绕着明确逻辑和特征库展开。


    但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”,而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞,而是模型的“心智”漏洞。一句话,既可能是需要处理的数据(“总结这篇文章”),也可能被模型理解为一条新的指令(“忘记你之前的规则”)。

    ---

    那作为普通人我们如何防御?模型( LLM )的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?
    11 条回复    2025-11-08 14:21:23 +08:00
    jackple
        1
    jackple  
       8 小时 6 分钟前   ❤️ 1
    普通人要防御的场景在哪? 能举个栗子吗
    rocmax
        2
    rocmax  
       7 小时 34 分钟前 via Android
    llm 就是一堆只读参数,有什么安全问题?一般意义上认为的安全问题其实是合规问题。
    alexluo1
        3
    alexluo1  
       7 小时 32 分钟前
    如果指的是意识形态安全,那只有切断海底光缆
    catazshadow
        4
    catazshadow  
       7 小时 23 分钟前 via Android
    先定义你想讨论什么安全
    mazyi
        5
    mazyi  
    PRO
       7 小时 22 分钟前
    大型语言模型不应该讨论安全问题,就好比你不会一个小孩讨论怎么赚钱的问题
    rogwan
        6
    rogwan  
       7 小时 12 分钟前
    大模型的最危险的地方是对抗攻击,一般人触发不了,专业人士可以轻易入侵。
    就像给一锅豆浆,撒了一点石膏粉,结果整锅都变成豆腐脑
    cmdOptionKana
        7
    cmdOptionKana  
       7 小时 0 分钟前
    可以等 LLM 生成信息后再分析。

    如果是机器人,则可以像防范人类的行为一样施加外部限制。

    举个例子,我本来命令了机器人不准点火,但是有人通过语言漏洞欺骗机器人,让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器,自动喷水同时发出警报。
    evan9527
        8
    evan9527  
       6 小时 28 分钟前
    普通人在 LMM 面临的风险,远远不及现在各种自媒体。
    IndexOutOfBounds
        9
    IndexOutOfBounds  
       6 小时 24 分钟前 via Android
    用 v2 见证的角度解释,dpo 是培养你的党性,告诉你什么红线不要犯

    外挂小模型过滤是言论审核
    sillydaddy
        10
    sillydaddy  
       6 小时 15 分钟前
    关于这点,我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。

    那就是,合作的双方(或多方),像挑选陪审团成员一样,选择 LLM 作为仲裁者,只有被双方都接受的 LLM 才能作为仲裁者。然后,当双方的合作发生争议时,交给它们选定的 LLM 来仲裁。

    比如软件外包工作,合作发生争议,双方可以提交各自的证据,像在法庭中一样质证,然后 LLM 来裁决。

    有人说,这是让 LLM 替代法庭的功能吗?其实仔细想一下,这跟常见的法庭不一样,普通的法庭是公共( public )的,适用于全民。但 LLM 这是由双方事先选定的,无法被篡改,可以通过哈希鉴定!

    这个让审判这种事,也可以放到区块链上,只要鉴别 LLM 是不是经过双方签名确认的就可以。

    这种情况下,对 LLM 的破解,就成为一个根本的问题:各方如何保证选择的 LLM 不会被 hack !
    liu731
        11
    liu731  
    PRO
       2 小时 15 分钟前
    感觉你好像在说提示词攻防
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2799 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 08:37 · PVG 16:37 · LAX 00:37 · JFK 03:37
    ♥ Do have faith in what you're doing.