Cointime

扫码下载App
iOS & Android

人工智能入门必读|A16z 整理的 AI 词汇表

作者:a16z  编译:Cointime Lu Tian

  • 加速器(Accelerator)

一类微处理器,设计用于加速AI应用。

  • 代理(Agents)

能够独立地、主动地执行某些任务而无需人类干预的软件,通常使用一套工具,如计算器或网页浏览。

  • 人工通用智能(AGI,Artificial General Intelligence)

尽管没有广泛达成共识,但微软研究人员将AGI定义为在任何智力任务上与人类具备一样能力的人工智能。

  • 对齐(Alignment)

确保AI系统的目标与人类价值观一致的任务。

  • 人工超智能(ASI,Artificial Super Intelligence)

尽管存在争议,但ASI通常被定义为超越人类思维能力的人工智能。

  • 注意力(Attention)

在神经网络背景下,注意力机制帮助模型在生成输出时关注输入的相关部分。

  • 反向传播(Back Propagation)

一种经常用于训练神经网络的算法,指计算损失函数关于网络权重的梯度的方法。

  • 偏差(Bias)

AI模型对数据所做的假设。 “偏差方差权衡”是模型对数据所做假设与模型预测在不同训练数据下变化的平衡。归纳偏差是机器学习算法对数据底层分布所做的一组假设。

  • 思维链(Chain of Thought)

在AI中,这个术语通常用来描述AI模型用来得出决策的一系列推理步骤。

  • 聊天机器人(Chatbot)

一种计算机程序,通过文本或语音交互模拟人类对话。聊天机器人通常利用自然语言处理技术来理解用户输入并提供相关回应。

  • ChatGPT

由OpenAI开发的大规模AI语言模型,生成类似于人类的文本。

  • CLIP(对比性语言-图像预训练,Contrastive Language–Image Pretraining)

由OpenAI开发的AI模型,连接图像和文本,使其能够理解和生成图像描述。

  • 计算(Compute)

用于训练或运行AI模型的计算资源(如CPU或GPU时间)。

  • 卷积神经网络(CNN,Convolutional Neural Network)

一种深度学习模型,通过应用一系列滤波器处理具有网格状拓扑的数据(例如图像)。这类模型通常用于图像识别任务。

  • 数据增强(Data Augmentation):

通过添加现有数据的略微修改的副本,增加用于训练模型的数据量和多样性的过程。

  • 深度学习(Deep Learning)

机器学习的一个子领域,专注于训练具有多层的神经网络,使其能够学习复杂的模式。

  • 扩散(Diffusion)

在AI和机器学习中,一种通过从真实数据开始并添加随机噪声来生成新数据的技术。扩散模型是一种生成模型,其中神经网络被训练来预测在数据上添加随机噪声时的反向过程。扩散模型用于生成与训练数据相似的新数据样本。

  • 双下降(Double Descent)

机器学习中的一种现象,其中模型性能随着复杂度的增加而提高,然后恶化,然后再次提高。

  • 嵌入(Embedding)

数据以新形式(通常是向量空间)表示。相似的数据点具有更相似的嵌入。

  • 涌现/涌现行为(Emergence/Emergent Behavior)

在AI中,涌现指由简单规则或交互产生的复杂行为。“急转弯”和“智能爆炸”是AI发展突然发生巨大变化的推测性场景,通常与AGI的到来相关。

  • 端到端学习(End-to-End Learning)

一种不需要手工设计特征的机器学习模型。该模型只需输入原始数据,并从这些输入中学习。

  • 专家系统(Expert Systems)

应用人工智能技术为特定领域内的复杂问题提供解决方案。

  • 可解释AI(XAI,Explainable AI)

关注创建透明模型并提供其决策清晰可理解解释的AI子领域。

  • 微调(Fine-tuning)

将一个已经在大型数据集上经过预训练的机器学习模型进行调整以适应稍微不同的任务或特定领域的过程。在微调过程中,使用较小的、任务特定的数据集进一步调整模型的参数,使其能够学习任务特定的模式,并在新任务上提高性能。

  • 前向传播(Forward Propagation)

在神经网络中,前向传播是将输入数据输入网络并通过每一层(从输入层到隐藏层,最后到输出层)传递以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。

  • 基础模型(Foundation Model)

在广泛数据上训练的大型AI模型,旨在用于特定任务的适应。

  • 生成对抗网络(GAN,General Adversarial Network)

一种用于生成与现有数据相似的新数据的机器学习模型。它将两个神经网络相互对抗:一个“生成器”创建新数据,一个“判别器”尝试将这些数据与真实数据区分开来。

  • 生成式AI(Generative AI)

一个关注创建可以基于现有数据的模式和示例生成新的和原创内容(如图像、音乐或文本)的模型的AI分支。

  • GPT(生成预训练Transformer,Generative Pretrained Transformer)

由OpenAI开发的大规模AI语言模型,生成类似于人类的文本。

  • GPU(图形处理单元,Graphics Processing Unit)

一种专门的微处理器类型,主要设计用于快速渲染图像以输出到显示器。GPU还非常擅长执行训练和运行神经网络所需的计算。

  • 梯度下降(Gradient Descent)

在机器学习中,梯度下降是一种优化方法,它根据损失函数的最大改进方向逐步调整模型的参数。例如,在线性回归中,梯度下降通过反复优化线的斜率和截距来最小化预测误差,从而找到最佳匹配线。

  • 幻觉/幻觉现象(Hallucinate/Hallucination)

在AI的背景下,幻觉指的是模型生成的内容不基于实际数据或与现实相差很大的现象。

  • 隐藏层(Hidden Layer)

神经网络中不直接连接输入或输出的人工神经元层。

  • 超参数调优(Hyperparameter Tuning)

选择机器学习模型的超参数(从数据中未学习到的参数)的适当值的过程。

  • 推理(Inference)

利用训练好的机器学习模型进行预测的过程。

  • 指令调优(Instruction Tuning)

一种机器学习技术,根据数据集中给出的特定指令对模型进行微调。

  • 大型语言模型(LLM, Large Language Model)

一种能生成类似人类文本的AI模型,训练于广泛的数据集。

  • 潜在空间(Latent Space)

在机器学习中,这个术语指的是模型(如神经网络)创建的数据的压缩表示。相似的数据点在潜在空间中更接近。

  • 损失函数(或代价函数,Loss Function or Cost Function)

机器学习模型在训练过程中试图最小化的函数。它量化了模型预测与真实值之间的差距。

  • 机器学习(Machine Learning)

一种人工智能类型,使系统能够在无需明确编程的情况下自动学习和从经验中改进。

  • 专家混合(Mixture of Experts)

一种机器学习技巧,其中训练了几个专门的子模型(“专家”),并以依赖于输入的方式组合它们的预测。

  • 多模态(Multimodal)

在AI中,这是指可以理解和生成跨多种数据类型(如文本和图像)的信息的模型。

  • 自然语言处理(NLP, Natural Language Processing)

AI的一个子领域,专注于计算机和人类通过自然语言进行交互。NLP的最终目标是以有价值的方式阅读、解密、理解并理解人类语言。

  • NeRF(神经辐射场,Neural Radiance Fields)

一种使用神经网络从2D图像创建3D场景的方法。它可用于照片级渲染、视图合成等。

  • 神经网络(Neural Network)

一种受人类大脑启发的AI模型。它由连接在一起的单元或节点组成,称为神经元,这些神经元按层组织。神经元接收输入,对它们进行一些计算,并产生输出。

  • 目标函数(Objective Function)

机器学习模型在训练过程中试图最大化或最小化的函数。

  • 过拟合(Overfitting)

一种建模错误,当函数与有限数据点过于紧密匹配时发生,导致在应用于未见数据时预测性能不佳。

  • 参数(Parameters)

在机器学习中,参数是模型用来进行预测的内部变量。它们是在训练过程中从训练数据中学习的。例如,在神经网络中,权重和偏差是参数。

  • 预训练(Pre-training)

训练机器学习模型的初始阶段,模型在此阶段从数据中学习通用特征、模式和表示,而无需具体了解将来要应用到的任务。这种无监督或半监督学习过程使模型能够建立对底层数据分布的基本理解,并提取有意义的特征,这些特征可以用于后续针对特定任务的微调。

  • 提示(Prompt)

为模型设置任务或查询的初始上下文或指令。

  • 正则化(Regularization)

在机器学习中,正则化是一种防止过拟合的技术,通过在模型的损失函数中添加惩罚项来实现。这种惩罚阻止模型过分依赖训练数据中的复杂模式,从而促进更具泛化能力和不容易过拟合的模型。

  • 强化学习(Reinforcement Learning)

一种机器学习类型,其中智能体通过在环境中采取行动来最大化某种奖励,从而学会做出决策。

  • RLHF(来自人类反馈的强化学习,Reinforcement Learning from Human Feedback)

一种通过从人类对模型输出给出的反馈中学习来训练AI模型的方法。

  • 奇点(Singularity)

在AI背景下,奇点(也称为技术奇点)指的是一个假设的未来时间点,当时技术增长变得无法控制和不可逆转,导致人类文明发生无法预料的变化。

  • 监督学习(Supervised Learning)

一种机器学习类型,其中模型提供带有标签的训练数据。

  • 符号人工智能(Symbolic Artificial Intelligence)

一种利用符号推理解决问题和表示知识的AI类型。

  • TensorFlow

由谷歌开发的开源机器学习平台,用于构建和训练机器学习模型。

  • TPU(Tensor Processing Unit)

谷歌专门为加速机器学习工作负载开发的一种微处理器类型。

  • 训练数据(Training Data)

用于训练机器学习模型的数据集。

  • 迁移学习(Transfer Learning)

机器学习中的一种方法,将预训练模型应用于新问题。

  • Transformer

一种主要用于处理顺序数据(如自然语言)的特定类型神经网络结构。Transformer以其处理数据中长距离依赖性的能力而闻名,这要归功于一种名为“注意力”的机制,它允许模型在产生输出时权衡不同输入的重要性。

  • 欠拟合(Underfitting)

统计学和机器学习中的建模错误,当统计模型或机器学习算法无法充分捕捉数据的底层结构时发生。

  • 无监督学习(Unsupervised Learning)

一种机器学习类型,其中模型没有提供带有标签的训练数据,而是必须自行识别数据中的模式。

  • 验证数据(Validation Data)

用于机器学习的数据集的子集,与训练和测试数据集分开。它用于调整模型的超参数(即结构,而不是权重)。

  • XAI(可解释AI,Explainable AI)

AI的一个子领域,专注于创建透明的模型,为其决策提供清晰、易于理解的解释。

  • 零样本学习(Zero-shot Learning)

一种机器学习类型,其中模型在训练期间未见过的条件下进行预测,无需进行任何微调。

评论

所有评论

推荐阅读

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)

  • GameFi板块市值暂报45.15亿美元,FLOKI排名第一

    3 月 21 日,据 Coingecko 数据,GameFi 板块市值暂报 45.15 亿美元,FLOKI 以 2.86 亿美元市值排名第一,排在第二第三位的分别为:The Sandbox(2.18 亿美元)、Undeads Games(2.11 亿美元)。此前 Solana 基金会主席 Lily Liu 表示,区块链游戏「不会再回归」。她认为,尽管行业曾寄望通过链上资产与开放世界推动 Web3 与元宇宙发展,但实际表现远未达预期。市场观点称链游长期依赖「Play-to-Earn」等代币激励模式,却缺乏真正吸引核心玩家的游戏性与内容构建能力,导致用户留存与生态可持续性不足。包括 Andreessen Horowitz(a16z)、Framework Ventures、Animoca Brands 在内的机构曾向该领域投入数十亿美元,但回报表现不佳。