Cointime

扫码下载App
iOS & Android

开启 AIGC 时代的那个人,一分钱都没赚到

2021 年的时候,一位基金经理在 Discord 上找到了人在德国的高中老师克里斯托夫·舒曼。

基金经理愿意承担舒曼开源项目的所有云计算成本,没有任何附加条件。

一开始舒曼不敢相信会有这样的好事,直到几周之后,他获得了 AWS 云端 GPU 的访问权。

他的项目是 LAION,世界上最大的免费 AI 训练数据集。

那位基金经理名叫 Emad,他创办了 Stability.AI,开启了 AIGC 的时代。

开源万岁。

以下内容来源 Bloomberg,由 GPT 翻译,Founder Park 做了些微小的校对。

头图来源:Discord LAION 社区

在德国汉堡郊区的一所郊区房子前,单词「LAION」用铅笔潦草地写在邮箱上。

这是一个庞大的数据收集工作的背后人物,这个工作是人工智能潮流的核心,并引发了一个越来越激烈的关于如何监管它的争议。

这个人是高中教师克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的热情项目。当舒曼不是在向德国青少年教授物理和计算机科学时,他与一小队志愿者一起建立了世界上最大的免费 AI 训练数据集,已经被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。

像 LAION 这样的数据库对于 text2image 的 生成式 AI 模型非常重要,它们依赖于它们来解构和创建新图像所需的大量视觉材料。这些产品的首次亮相是一个范式转移事件:它将科技行业的人工智能竞赛推向了巅峰,但也引发了许多道德和法律问题。

在几个月内,针对生成式 AI 公司 Stability AI 和 Midjourney 的版权侵权诉讼频发,批评者对其中暴力、性化和其他问题图像的数据集发出警报,他们指责这些数据集包含了几乎不可能解决的偏见。

但这并不是舒曼的关注点,他只想让数据自由。

0140 亿美元 → 零收益

这位 40 岁的老师和受过演员训练的人,两年前在一个 AI 爱好者的 Discord 服务器上创建了 LAION。OpenAI 的第一版 DALL·E 是一个深度学习模型,用于响应文字 prompt 生成图片,例如,按要求创建一个粉色鸡坐在沙发上的图像。

舒曼受到启发,但也担心它会鼓励大型科技公司使更多数据专有化。

「我立刻明白,如果这个只集中在一个、两个或三个公司,对社会的影响将非常糟糕,」舒曼说。

作为回应,他和服务器上的其他成员决定创建一个开源数据集来帮助训练 t2i 扩散模型,这是一个类似于用数百万张闪卡向某人教授一种外语的几个月的过程。该组使用由加利福尼亚州非营利组织 Common Crawl 收集的原始 HTML 代码来定位网络上的图像并将其与描述性文本相关联。它不使用任何手动或人工策划。

几周后,舒曼和他的同事拥有了 300 万张图像文本对。三个月后,他们发布了一个含有 4 亿文本标注图片的数据集。现在,这个数字已经超过了 50 亿,使 LAION 成为最大的免费图像和标注数据集。

随着 LAION 的声誉不断提高,团队一直在无偿工作,2021 年获得了机器学习公司 Hugging Face 的一次捐赠。然后有一天,一位前对冲基金经理进入了 Discord 聊天室。

Emad Mostaque 主动提出承担计算能力的费用,没有任何附带条件。他想要启动自己的开源生成式 AI 业务,并渴望利用 LAION 来训练他的产品。团队最初嘲笑这个提议,认为他是一个疯子。

舒曼说:「我们一开始非常怀疑,但经过四周左右,我们获得了云端的 GPU 资源,这些资源通常的费用约为 9000 美元或 10000 美元。」

当 Mostaque 在 2022 年创办 Stability AI 时,他使用了 LAION 的数据集来训练 Stable Diffusion,并雇用了该组织的两名研究人员。一年后,Stability AI 目前正在寻求 40 亿美元的估值,这在很大程度上得益于 LAION 提供的数据。

舒曼没有从 LAION 中获利,他对此不感兴趣。「我仍然是一名高中老师。我拒绝了各种公司的工作邀请,因为我希望它保持独立。」

02数据集就是AI 时代的石油

像 LAION 这样的数据库中的许多图像和链接,一直以来都明目张胆地存在于网络上,有些甚至已经存在数十年之久。

它需要 AI 的兴起才揭示出它的真正价值,因为数据集越大且越多样化,其中的图像质量越高,AI 生成的图像就会越清晰、更精确。

这一认知反过来又引发了许多法律和伦理问题,即公开可用的材料能否用于填充数据库——如果答案是肯定的,那么创作者是否应该得到报酬。

为了建立 LAION,创始人们从 Pinterest、Shopify 和 AWS 等公司中获取了视觉数据——这些公司并未就 LAION 使用它们的内容是否违反了其服务条款发表评论。还包括来自 YouTube 缩略图、DeviantArt 和 EyeEm 等作品集平台的图像、来自包括美国国防部在内的政府网站的照片,以及来自新闻网站如《每日邮报》和《太阳报》的内容。

如果你问舒曼,他会说任何在网上免费提供的东西都是公平竞争的。但目前欧盟还没有 AI 监管,即将公布的 AI Act,其语言将在今年夏天早些时候确定,也不会规定版权材料是否可以包含在大型数据集中。

相反,立法者正在讨论是否包括一项规定,要求 AIGC 背后的公司披露其产品训练所使用的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。

欧洲议会议员 Dragos Tudorache 告诉彭博社,这一规定背后的基本思想很简单:「作为生成式 AI 的开发者,你有义务记录和透明地披露你在算法训练中使用的版权材料。」

这种规定对于 Stability AI 不是问题,但对于其他 t2i 模型可能会带来问题「没有人知道 Open AI 实际上用来训练 DALL·E 2 的是什么,」舒曼说,以此作为技术公司封锁公共数据的例子。这也将颠覆现有的数据收集现状。

「在这个领域中,惯例是假定您不需要同意或不需要通知人们,或者他们甚至不需要知道这一点。人们有一种自认为拥有权利的感觉,即无论网上有什么,您都可以爬取并将其放入数据集中,」Mozilla 基金会值得信赖的 AI 高级研究员 Abeba Birhane 说道,他已经研究了 LAION。

尽管 LAION 没有直接被起诉,但它已被列为两起诉讼的被告:一起指控 Stability 和 Midjourney 违反 DMCA 版权法和公众权利法,违法竞争和违反 TOS,使用艺术家的版权图片来训练其模型,另一起是由盖蒂影像公司针对 Stability 提出的,指称 LAION 爬取了其 1200 万张图片用于训练 Stable Diffusion。

由于 LAION 是开源的,因此不可能知道有多少其他公司使用了该数据集。谷歌已经承认它利用 LAION 帮助训练其 Imagen 和 Parti AI 文本到图像模型。舒曼认为其他大公司正在悄悄地这样做,只是不会披露。

03互联网的黑暗面

当他的儿子玩《Minecraft》时,舒曼坐在客厅里,将 LAION 比作「大信息技术海啸」上的「小型研究船」,采集下面的样本并展示给世界看。

「这只是互联网上公开的资源的一小部分,」他说到 LAION 的数据库,「因为即使是我们这样的人,只有来自捐赠者的 1 万美元的预算,也能够得到它。」

但是,公开的并不总是公众想要的,或者是合法允许看到的。除了猫和消防车的安全图片,LAION 的数据集还包含了数百万张色情、暴力、儿童裸体、种族主义梗、仇恨符号、版权艺术和从私人公司网站上抓取的作品。

舒曼表示,他不知道 LAION 的数据集中是否有儿童裸体照片,尽管他承认他没有深入审查数据。如果得到这样的内容通知,他说,他将立即删除与之相关的链接。

在开始组装数据库之前,舒曼咨询了律师并运行了自动化工具来过滤非法内容,但他对于清洗 LAION 的数据并不感兴趣,而是希望从中学习。

「我们可以从发布的数据中过滤出暴力内容,」他说,「但我们决定不这样做,因为它将加速暴力检测软件的开发。」LAION 提供了一个撤下表格以请求删除照片,但是该数据集已经被下载了数千次。

从 LAION 中提取的攻击性内容似乎已经整合到了 Stable Diffusion 中,尽管最近已经加强了过滤器,但很容易生成假的伊斯兰国斩首照片或大屠杀图像。

一些专家认为,这样的材料也可能在 AI 模型本身内部产生偏见:即使文本提示没有暗示主题的种族,像 Dall·E-2 和 Stable Diffusion 这样的工具也因复制种族刻板印象而受到批评。

这些偏见是谷歌决定不发布经过 LAION 训练的 Imagen 的原因。

当被要求发表评论时,Stability AI 表示,它在 LAION 数据库的一个策划子集上对 Stable Diffusion 进行了训练。该公司在一封电子邮件中写道,它试图「为该模型提供比原始 SD 更多样化和广泛的数据集」,并尝试使用「LAION 的 NSFW 过滤器」删除「成人内容」。

即使是基于开源的人工智能的支持者也警告说,在未加筛选的数据集上训练人工智能的影响。

根据 Hugging Face 的机器学习和社会团队负责人 Yacine Jernite 的说法,基于有污点的数据的生成式 AI 工具将反映其偏见。「模型是它所训练的内容的非常直接的反映。」

Jernite 补充说,在产品运行后引入防护栏是不足够的,因为用户总是会找到规避安全措施的方法。他们说:「当你拿一个训练有素的模型来模拟人们在互联网上的行为,并说:『好的,但不要这样做。』人们会找到一种方法来让它仍然这样做。」

数据非营利组织 Common Crawl 的创始人吉尔·埃尔巴兹(Gil Elbaz)怀疑「不能从训练集到生产之间画一条直线」,并将该过程比作一个去博物馆寻找灵感但被阻止复制艺术品的艺术家。他说,「重要的是社会决定哪些用例是合法的,哪些用例是不合法的。」

这不仅仅是由社会决定。随着欧洲监管机构制定人工智能使用法规,他们正在努力应对的事实是,目前人工智能热潮正在挖掘的数据多年来一直处于法律灰色地带,而这一现状现在才受到严重审查。欧洲议会成员图多拉切 (Tudorache) 说:「没有多年的数据积累,人工智能不可能达到这种复杂程度。」

但在舒曼的眼中,应该监控的不是数据集。在他看来,人工智能的最坏情况是大型科技公司通过为监管框架定制工具来排挤开发人员。「如果我们试图放慢速度并过度监管,」他警告说,「最终的风险是只有少数大型企业玩家能够承担所有正式要求。」

评论

所有评论

推荐阅读

  • Michael Saylor再次发布比特币Tracker信息

    Michael Saylor再次发布比特币Tracker信息,根据此前经验,Strategy下周或将披露增持数据。

  • 英媒:Anthropic拟筹资250亿美元或更多 红杉资本将参与融资

    据英国金融时报:红杉资本计划对人工智能初创公司Anthropic进行重大投资。Anthropic正寻求以3500亿美元估值进行融资,计划筹集总额250亿美元或更多资金。微软与英伟达已承诺向该公司投资总计至高达150亿美元。

  • Vitalik Buterin:以太坊协议开发应引入明确的简化与垃圾回收机制

    vitalik.eth 在 X 平台发文表示,协议简洁性是无需信任、通过脱身测试及自主权的重要方面,即便去中心化程度极高,若协议因数十万行代码或复杂密码学而臃肿,最终也将失效。Vitalik Buterin 对以太坊协议开发的担忧在于,为满足特定需求而过度添加新功能会损害长期自主性。为解决向后兼容导致协议随时间推移而臃肿的问题,以太坊开发流程需要明确的简化与垃圾回收机制。简化标准包括尽量减少代码行数、避免不必要的复杂技术组件依赖以及添加更多不变量。垃圾回收可采取零散或大规模方式,如将 PoW 替换为 PoS,或通过 Rosetta 式向后兼容将低频复杂功能降级为智能合约代码。Vitalik Buterin 希望以太坊变革速度在长远来看能有所放缓,并努力避免无用部分成为协议的永久拖累。

  • 📢【Cointime 快讯|FOS创始人:香港正成为RWA全球可信转换器,从“概念验证”转向“规模运营”】

    📢【Cointime 快讯|FOS创始人:香港正成为RWA全球可信转换器,从“概念验证”转向“规模运营”】

  • 📢【Cointime 快讯|Tony:RWA从“讲故事”到“做业务”,香港成全球化合规接口】

    在Cointime主办的《香港 × RWA:政府支持下的全球资产上链新范式》专题Space中,HKINERI创始人Tony围绕RWA的合规路径与香港的全球化枢纽角色发表深刻见解。他表示:

  • 📢【Cointime 快讯|田大超:RWA是传统金融与新金融融合的必然趋势,政策支持是香港的核心优势】

    在Cointime主办的《香港 × RWA:政府支持下的全球资产上链新范式》专题Space中,链杉资本代表田大超围绕RWA发展发表深刻见解。他认为:

  • 📢【Cointime 快讯|Mark Liu:香港正成为RWA全球化的关键节点,未来3-5年将进入爆发期】

    在Cointime主办的《香港 × RWA:政府支持下的全球资产上链新范式》专题Space中,香港RWA生态国际联合会顾问、SOLY Chain项目核心成员Mark Liu发表了对香港RWA发展路径的深度解读。他指出:

  • 📢【Cointime 快讯|于佳宁博士:RWA 发展需构建可复用的行业标准体系】

    在 Cointime 主办的《香港 × RWA:政府支持下的全球资产上链新范式》专题 Space 中,香港 Uweb 商学院校长、香港注册数字资产分析师学会董事于佳宁博士围绕 RWA 的发展阶段与标准化建设发表重要观点。他指出:

  • Coinbase CEO否认白宫将撤回对加密货币市场结构法案支持的传言

    Coinbase 首席执行官 Brian Armstrong 否认了有关特朗普政府正考虑撤回对加密货币市场结构法案支持的报道。Brian Armstrong 称该说法并不准确。白宫在这件事上一直非常积极。“他们确实要求我们尝试与银行达成协议,我们目前正在努力。事实上,我们一直在构思一些好点子,希望能在这个法案中特别帮助到社区银行,因为这项法案的重点就是社区银行。更多信息即将发布。” 此前消息,据加密记者 Eleanor Terrett 报道,若 Coinbase 不拿出令银行满意的收益率协议,白宫考虑撤回对市场结构法案支持。

  • 特朗普发出最新关税威胁后 欧盟准备暂停欧美贸易协议

    欧盟议员准备暂停批准欧盟与美国的贸易协议,原因是美国总统唐纳德·特朗普誓言对支持格陵兰的国家加征关税。欧洲议会最大的政治团体 —— 欧洲人民党 —— 主席Manfred Weber周六表示,与美国的协议已经没有可能。“EPP支持欧盟-美国贸易协议,但鉴于特朗普就格陵兰发出的威胁,现阶段批准已不可能,”Weber在社交媒体发帖表示,并称欧盟在协议中同意下调“美国产品”关税的安排“必须暂停”。欧盟-美国贸易协议由欧盟委员会主席冯德莱恩去年夏天与特朗普达成。协议部分内容已在实施,但仍需获得欧洲议会正式核可。若EPP议员与左倾政治团体联手,可能有足够票数来推迟或否决其批准。