Google 开源化其 SynthID 文字浮水印技术

2024-10-28 互联网 104℃ 0

SynthID

Google 在 X 上宣布，其 SynthID 文字浮水印技术现在已经开源化，并透过其 Responsible Generative AI Toolkit 提供。

虽然名为「浮水印」，但 SynthID 并不是在文字中加入什么东西来辨识，而是更深层地利用了文字生成式 AI 的基础原理。大型语言模型（LLM）生成文字的方式，用的是一个个的「token」，这些 token 可以代表单字、片语、或是单字的一部份。具体接下来的的 token 应该要给哪个单字，是个机率的问题，例如当句子目前已完成的部份为「我最喜欢的热带水果是 ____」时，LLM 可能会给「芒果」、「荔枝」、「木瓜」或「榴槤」这些单字最高的机率值，让它们最有可能成为接续句字的单字。

SynthID 就是在这个「机率值」上面动手脚。它可以稍微依据某种固定的演算法来调整这个机率值，让 LLM 在生成文字时产生出来的字串，与未加入 SynthID 时略有出入，但又不会影响到输出文字的品质。如果继续以上面的例子来说的话，SynthID 介入前可能 LLM 会选择填入芒果，而 SynthID 介入后就变成选择榴槤了。如果句子简短的话，可能很难看出是否为 AI 生成，但一旦文字多起来，SynthID 就能反向由分析这些单字出现在同一篇文字里的机率，来判断是否为 AI 生成了。

Google 目前已经将 SynthID 整合到了自家的 Gemini 聊天机器人中，并且经测试并不会影响文字生成的品质、正确性、速度或创意。Google 表示，SynthID 的文字浮水印技术最短大约可以处理到仅有三个句字的文字，而且如果是部份文字被裁剪、加长或修改，也不太会影响辨识。不过如果将文字翻译成其他语言，或是整篇丢进 AI 中进行改写的话，原本的 SynthID「辨识码」可能就会被破坏了。

除了文字之外，Google 开发的 SynthID 浮水印技术，还包括了音乐、图像、影片等版本。SynthID 并不是辨识 AI 生成内容的万灵丹，但在现在这个用 AI 生成假消息或进行其他恶意行为极为简单的时代，有这样的工具应该多少能协助用户分别哪些内容是由 AI 所生成，并协助对抗 AI 影响不佳的一面吧。

Steam 开跑华纳兄弟特卖活动！《霍格华兹的传承》打出骨折史低价 140.4 元

《夜校女生》掀热潮！赵震雄也大讚：很喜欢

Google 开源化其 SynthID 文字浮水印技术

相关推荐

调查指7成学童感绝望或迷茫 1成半曾有寻短或自残念头

八与二十，一家主流财经媒体的初心与恒心

天文台会在早上10时40分改发三号强风信号

潭美在菲律宾致死人数增至81人

涉受贿兼洩露国家秘密 前地质调查局长锺自然被控

农业农村部：今年粮食产量料首次突破1.4万亿斤

涉受贿兼洩露国家秘密前地质调查局长锺自然被控