Cointime

扫码下载App
iOS & Android

数据标注产业及法律风险防范

个人专家

数据是人工智能大模型的基础。经过海量、高质量数据不断训练调整能提高大模型准确性和效率。大模型训练需要通过如数据挖掘、网络爬虫、数据共享、数据开放、合法交易等方式获取数据,通过数据清洗、去重、格式化和人工标注等方式对数据进行处理。一般认为,训练数据生产过程,主要包括训练数据集结构设计、原料数据采集获取、数据加工标注、数据质量检测等环节。

近年来,我国数据标注市场发展迅速。据华经产业研究院统计,2021 我国人工智能数据标注市场中,计算机视觉类、智能语音类和 NLP(Natural Language Processing,缩写 NLP,自然语言处理)类需求占比分别为 45.3%、40.5% 和 14.2%;2021 年我国数据标注行业市场规模达到 43.3 亿元,同比增长约 19.2%,预计到 2029 年市场规模将达到 204.3 亿元。

一、数据标注

一般认为,数据标注是对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注的类型包括图像标注、语音标注、文本标注、视频标注等,例如对文本进行分词、词性标注和实体识别,对图像进行目标检测和分割。通过数据标注将需要机器识别和分辨的数据打上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

数据标注对人工智能大模型具有重要意义,可以说是人工智能大模型得以有效运行的关键环节之一。具体而言,数据标注可以带来以下几方面的意义。

一是提高机器学习算法的准确度,标注数据可以使机器学习算法更加准确地学习和预测。对于图像分类任务,有标注的图像可以让算法更好地识别图像中的物体和场景,从而提高准确率。

二是加速算法的训练过程。标注数据可以使机器学习算法更快地学习和训练,从而减少算法的训练时间和成本,标注数据广泛应用促进了机器学习技术的发展。

三是促进机器学习技术应用能力。有了标注的数据人们可以更好地利用机器学习技术来解决实际问题,如自然语言处理、计算机视觉、推荐系统等。总之,数据标注是机器学习领域中非常重要的一个环节。

二、数据标注与数据治理

根据数据管理能力成熟度评估模型(GB/T 36073-2018)规定,数据治理(data governance)是对数据进行处置、格式化和规范化的过程。数据治理是数据和数据系统管理的基本要素。数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。

数据标注和数据治理是两个不同的概念。数据治理是指对数据的收集、处理、分析和存储等数据活动统一管理,以确保数据质量和安全性、可靠性使之规范化。数据治理的目标是促进数据的有序、高效和合规使用,从而推动业务决策和业务发展。数据标注是对原始数据进行分类、标注、注释等处理,以作为机器学习或人工智能模型的训练素材的过程。数据标注的目的是提高机器学习模型的准确性和泛化能力,使得模型能够更好地适应实际业务场景。

数据标注和数据治理是相互关联的。数据治理可以确保数据的质量和可靠性,为数据标注提供高质量的原始数据。同时,数据标注的结果也可以为数据治理提供更好的反馈和指导,使得数据治理更加精准和有效。

三、数据标注与数据标准

根据数据管理能力成熟度评估模型(GB/T 36073-2018)规定,数据标准(Data Standard)是指数据的命名、定义、结构和取值的规则。数据标注是数据标准制定和实施的重要环节。数据标准是为保障数据定义和使用的一致性、准确性和完整性的规范性约束。对于企业而言,数据标准是保障数据内外部使用和交换一致性和准确性的规范性约束,有利于打通数据底层的互通性,提升数据的可用性,从而降低数据管理成本。

数据标准可以包括数据结构、数据内容来源、技术业务等方面的标准。数据标准的制定和发布需要结合实际业务需求,通过各种管理活动,推动数据的标准化管理,从而保障数据的完整性、一致性、规范性。数据标准的管理目标是通过统一的数据标准制定和发布,结合完善的数据标准管理体系,实现数据的标准化管理,为后续的数据管理提供标准依据。

数据标注是对数据进行分类、画框、标注、注释等处理,以作为机器学习基础素材的过程。由于数据标注的质量直接关系到机器的智能程度,因此数据标注需要按照严格的质量标准进行。数据标注流程包括数据采集、数据清洗、数据标注、数据质检等环节。其中,数据采集和清洗是准备阶段,数据标注是核心环节,而数据质检则是对标注数据的检验和评估。从具体体现来看,数据标准则是一套经过定义、解释、使用和修订的标准化技术和过程,用于处理数据的采集、表示、交换、分析和管理等方面。

因此,数据标注和数据标准是相互关联的,数据标注是数据标准化的具体实施过程,而数据标准则是数据标注的规范和依据。通过数据标注和数据标准化的结合,可以进一步提高机器学习和人工智能应用的效果和可靠性。

四、数据标注相关规范

数据标注需要遵守包括《中华人民共和国网络安全法》、《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》等数据信息相关基本法律法规。

国家网信办、国家发展改革委、教育部、科技部、工信部、公安部、国家广电总局等七部委发布的于 2023 年 8 月 15 日正式生效的《生成式人工智能服务管理暂行办法》第八条专门对数据标注作出规定,要求在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

根据人力资源社会保障部会同国家市场监督管理总局、国家统计局以 2015 年版《中华人民共和国职业分类大典》为基础的修订版本《中华人民共和国职业分类大典(2022 年版)》,人工智能训练师正式成为新职业并纳入国家职业分类目录。,人工智能训练师主要工作任务包括标注和加工图片、文字、语音等业务的原始数据;分析提炼专业领域特征,训练和评测人工智能产品相关算法、功能和性能;设计人工智能产品的交互流程和应用解决方案;监控、分析、管理人工智能产品应用数据;调整、优化人工智能产品参数和配置等。

人工智能 面向机器学习的数据标注规程(GB/T 42755-2023)是一个推荐性国家标准,将于 2023 年 12 月 1 日起实施,是人工智能中面向机器学习的数据标注规程是一套指导和规范数据标注过程的标准和规则,规定了数据标注操作流程,并对标注任务、标注人员、标注环境;过程控制、质量保证、管理机制;内部质检、数据交付、后期维护等问题作出了规定,以确保数据标注的一致性和准确性,为机器学习算法提供高质量的训练数据。

一些地方标准也值得参考和借鉴。2022 年 6 月,山西省市场监督管理局发布《人工智能 数据标注总体框架》《人工智能 数据标注一般技术要求》《人工智能 数据标注通用工作规程》等 3 项人工智能数据标注领域省级地方标准。

《人工智能 数据标注总体框架》提供了人工智能机器学习中数据标注生产的生产流程和生产内容的建议,明确数据标注的地位和产业概念。《人工智能 数据标注通用工作规程》规定了人工智能机器学习中数据标注生产所需要的通用工作要求,包括原则、流程、规划等。《人工智能 数据标注一般技术要求》规定了人工智能机器学习中数据标注通用技术要求的术语和定义、通用技术分类和通用技术要求。

2023 年 6 月,中国信息通信研究院牵头,二十余家相关行业重点企业包括联通数科、数据堂、海天瑞声、Testin 云测、整数智能、海康威视、美的集团等头部标注企业、AI 科技企业和大型行业企业,联合编制了《人工智能数据标注平台技术要求和测试方法》标准,该标准也同步在三大国际标准组织之一国际电信联盟(ITU-T)进行了立项和文稿讨论。标准针对数据标注平台的各个关键环节给出了规范性约束和参考性建议,目前该标准团标已定稿。

除此以外,还有一系列与数据标注相关的国家标准。如《信息技术 大数据 数据资源规划》(GB/T 42450-2023),数据资源规划(Data Resource Planning,简称 DRP)是一种信息技术(IT)规划和战略,旨在确保组织能够有效地管理其数据资源,以满足业务需求并确保数据安全和隐私保护。

《数据质量 第 8 部分:信息和数据质量:概念和测量》(GB/T 42381.8-2023)是一项国家标准,它规定了信息和数据质量的概念和测量方法。该标准由 TC159(全国自动化系统与集成标准化技术委员会)归口,TC159SC4(全国自动化系统与集成标准化技术委员会工业数据分会)执行,主管部门为中国机械工业联合会。

《数据质量 第 61 部分:数据质量管理过程参考模型》(GB/T 42381.61-2023)数据质量管理的过程参考模型是 ISO 8000 指定的一个标准,用于指导组织如何实施数据质量管理。

五、数据标注产业法律风险

不同业务部门、不同生态之间数据共享与应用过程中,数据标注产业在未来很长一段时间将可能会产生持续需求。

在数据标注中确实也出现了一些不和谐因素,包括数据标注不规范,可能导致数据质量下降,影响后续数据处理和使用;数据标注错误或不准确,影响后续数据处理和应用;数据标注作假,可能导致数据不真实,影响后续数据处理和应用;数据标注过程违反法律法规,导致数据被禁止使用或受到处罚等。

具体而言,数据标注产业在法律方面可能存在以下风险。

一是违反个人信息保护法律法规风险。数据标注可能需要处理大量个人信息,如姓名、身份证号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。如果数据标注产业未能按照相关法律法规要求处理个人信息,可能会导致个人信息泄露、滥用等安全问题,违反了个人信息保护法律法规。

二是违反数据安全法律法规风险。数据标注产业可能需要处理大量敏感数据,如金融数据、医疗数据等。如果数据标注产业未能采取必要安全措施如数据加密、访问控制等,可能会导致数据泄露、篡改等安全问题,违反了数据安全法律法规。

三是违反知识产权法律法规风险。数据标注产业需要处理大量可能包括知识产权的数据。如果数据标注产业未能得到相关知识产权的授权或许可而导致违法违约使用,可能会导致知识产权侵权问题。

四是违反竞争法律法规风险。数据标注产业存在激烈的竞争,一些企业可能通过不正当手段获取竞争对手的数据,或者滥用市场优势地位,违反竞争法律法规侵害相关合法权益。

为了防范这些法律风险,数据标注产业需要加强个人信息保护、数据安全、知识产权和竞争等方面的法律意识和风险管理。同时,政府和社会各界也需要加强对数据标注产业的监管和管理,确保其合法合规经营。

六、数据标注产业法律风险防范

数据标注产业要行稳致远,需要遵守数据标注相关法律、法规和相关标准,规范、准确、高效地进行数据标注。数据标注企业可以通过以下几种方式来防范法律风险。

一是建立健全数据标注规章制度。企业应建立和完善数据标注相关的规章制度,包括数据采集、存储、处理、分析和保护等方面的规定,以确保数据标注的合规性和安全性。建立符合法律法规规章要求的清晰、具体、可操作的数据标注规则,开展数据标注质量评估,抽样核验标注内容的准确性。数据内容安全保障机制,确保坚持社会主义核心价值观、反对各种歧视;完善个人信息和相关合法权益保护机制,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益等;强化数据安全保障措施,数据标注企业应该遵守相关法律法规要求,在数据安全标准与策略的指导下,通过对数据访问的授权、分类分级的控制、监控数据的访问等进行数据安全的管理工作,满足数据安全的业务需要和监管需求,实现组织内部对数据生存周期的数据安全管理。保数据的保密性、完整性和可用性。

二是加强企业合规经营管理。数据标注企业应该遵守相关法律法规要求,规范企业经营行为、尊重合法权益,不得实施垄断和不正当竞争行为。不得采取不正当手段获取竞争对手的数据,不得滥用市场优势地位侵害他人合法知识产权,侵害他人商业秘密;强化合同管理,在与合作方签订合同时,应当明确标注任务的要求、数据使用范围、保密条款等内容,确保合作方了解并遵守相关法律法规,降低违约风险。

四是加强员工培训教育。企业应加强员工法律意识和风险意识培训,加强数据标注操作、个人信息保护、数据安全、知识产权等方面培训和教育,使员工了解数据标注相关法律法规和企业规章制度,提高员工的合规意识和风险防范能力。

五是建立风险管理团队。企业应建立数据监管机制,对标注数据进行实时监管,及时发现并处理不合规的数据,避免因数据质量问题引发的法律风险。建议企业建立专业风险管理团队,对数据标注过程中可能出现的法律风险进行预测和评估,提出相应风险防范建议和措施。

作者:张烽,万商天勤律师事务所合伙人,万商天勤数字法律专业委员会主任,上海市突出贡献专家协会知识产权专业委员会副秘书长,上海区块链技术协会智库专家 / 科技评价专家,中国移动通信联合会元宇宙产业工作委员会常务委员,未来产业元宇宙 50 人论坛副理事长。

评论

所有评论

推荐阅读

  • Cointime 5月19日要闻速递

    1.美国现货比特币ETF本周净流入9.483亿美元

  • 陈茂波:香港数码港初创累计融资超406亿元

    香港特别行政区财政司司长陈茂波今日发表司长随笔《固本浚源提质发展》,其中披露资料显示,数码港过去一年有超过 400 家企业进驻,令企业社群总数超过2000家,其中8家是独角兽;初创累计融资超过406亿元,其中金融科技、第三代互联网的企业社群优势明显,人工智能的发展正加快推进,并从技术上支援香港企业的数码转型。

  • 美国现货比特币ETF本周净流入9.483亿美元

    美国现货比特币ETF本周净流入达9.483亿美元。其中:
    5月13日周一净流入6600万美元;
    5月14日周二净流入1.005亿美元;
    5月15日周三净流入3.03亿美元;
    5月16日周四净流入2.573亿美元;
    5月17日周五净流入2.215亿美元。

  • 今年比特币生态相关融资已超90笔

    2024年迄今已有90多笔与比特币生态相关的融资交易,创下比特币历史上单年融资记录的最高数量。 Multicoin Capital执行合伙人Kyle Samani指出,随着比特币Taproot升级和Ordinals协议的出现,比特币生态正在经历 “开发者复兴” 。对于一些开发人员来说,在比特币上构建金融工具更具吸引力,因为它是最古老、最安全的区块链。 

  • 稳定币总市值突破1600亿美元

    据DefiLlama数据显示,稳定币总市值现为1611.44亿美元,周增幅为0.69%。此外,USDT市值为1111.28亿美元,市占率达68.96%。

  • 香港成为第一个中国内地以外全体本地居民均可以开通e-CNY钱包的地区

    香港金管局已于2024年5月17日公布即日起数字人民币(e-CNY)在香港的试点扩大至全香港市民,用户以香港手机号码即可注册开通,不仅可在香港使用,且可非实名在中国内地支持e-CNY的商户进行跨境支付。数字人民币目前在内地17个省市的26个地区中试点,香港成为第一个中国内地以外全体本地居民均可以开通e-CNY钱包的地区。

  • BOME最大个人持有者因#1DOL交易8小时内获利993倍

    据 Lookonchain 监测,sundayfunday。sol通过买入#1DOL在短短8小时内将13枚SOL(约合2275美元)变为226万美元,收益993倍。他是BOME预售的最大参与者,曾花费421枚SOL(约合7.2万美元)参与预售并买入BOME(峰值时为4000万美元);仍然是BOME的最大个人持有者。8小时前,他花费13枚SOL(2,275美元)买入2.42亿枚#1DOL ,目前价值226万美元。

  • 前14大ETF总资产规模超3万亿美元,年初至今表现均逊于比特币现货ETF

     据 HODL15Capital监测,排名前14位的ETF总资产规模超过3万亿美元,但年初至今的表现全部逊于比特币现货ETF(贝莱德 IBIT、富达 FBTC、ARK 21Shares的ARKB、Bitwise BITB)。

  • Coinbase:一文读懂EigenLayer AVS生态

    · EigenLayer* 是一种建立在以太坊上的协议,它引入了再质押,这是加密经济安全中的一种新原语,已成为以太坊社区的主导叙事。 · 通过 EigenLayer 再质押使开发人员能够利用以太坊现有的经济安全基础设施(即验证器集和质押的 ETH)来引导新的主动验证服务(AVS)。 · 与传统云平台和 SaaS 解决方案对 web2 开发的影响相比,我们相信 EigenLayer 的出现及其蓬勃发展的 AVS 生态系统为 web3 开启了「可验证的云」范式。 · 随着质押和共享安全模型的发展,它们对区块链生态系统的影响将越来越明显,这是由寻求在链上解锁新机会的质押者和开发人员不断增长的需求所推动的。

  • 区块链扩展的下一个前沿:深入探索ZK Rollups

    · 虽然零知识证明(ZKPs)有望打造一个更加私密和可扩展的区块链生态系统,但许多关于零知识(ZK)的方面被误解或与普遍认知中的实施方式不同。 · ZKPs 主要有两个方面:「零知识」和「简洁性」。虽然这种说法没有错,但大多数 ZK rollups 只利用了简洁性属性,交易数据和账户信息并没有完全保持零知识或私密。 · 对于各种类型的 DApps,ZK rollups 可能不是最佳的开发堆栈选择。例如,生成 ZKPs 可能成为快速终结的瓶颈,从而降低 Web3 游戏的性能,而基于状态差异发布的数据可用性保证方法可能会损害 DeFi 借贷协议的服务。