Cointime

扫码下载App
iOS & Android

使用 Pinax 数据集和 Snowflake 轻松进行区块链数据分析

项目方

TL;DR:了解如何利用 Pinax 提供的数据集高效分析区块链数据。学习我们的解决方案如何通过 Parquet 文件和 Snowflake 等托管数据库简化对 ETH 数据的访问,从而能够执行 SQL 查询以提取有价值的见解,例如每日活跃用户和热门合约活动。

我们很高兴演示一款正在改变区块链数据分析的产品:与 Snowflake 集成的 Datasets on The Graph。在这篇文章中,我们将探讨我们正在解决的问题、我们的创新解决方案、人们如何使用我们的数据集以及我们对未来的愿景。

视频链接:https://youtu.be/7CxFGgNmu-Y


有关我们数据集的更多信息,请阅读文章:

区块链会生成大量数据,这些数据量很大,难以管理。提取此数据,尤其是在涉及来自 RPC 节点的详细交互时,需要自定义检测。

习惯了 SQL 等传统工具的分析师难以应对区块链数据提取的复杂性。再加上处理多个区块链网络的挑战,它成为一种运营负担。

高效访问这些数据还意味着最大限度地减少下载大量数据集的需求。这就是为什么我们需要一个支持数据存储的解决方案,以便您可以只查询所需的数据。

我们利用两项强大的技术:Firehose 和 Substreams。这些服务在 The Graph 上运行,并允许高效提取和存储区块链数据。我们首先为各种链(基于 EVM、Solana、BTC)定义区块架构,然后将它们导出为 Parquet 文件——本质上是具有数据库属性的平面文件。这些文件托管在 AWS S3 或其他与 S3 兼容的存储桶上。

为了使数据更易于访问,我们不会止步于原始存储。我们还在 Snowflake Marketplace 上列出了数据。您可以从 S3 查询原始数据,也可以直接连接到托管数据库 Snowflake,以对托管数据集运行 SQL 查询。这种多功能性使您可以以自己喜欢的方式访问区块链数据。

您有多种选项来访问数据。您可以:

  • 使用外部表或直接复制方法将原始数据从 S3 加载到数据库中。
  • 使用 SQL 直接查询 Snowflake 等托管数据库中的数据。
  • 使用 Polars 或 pandas 等 Python 库以编程方式读取单个 Parquet 文件。
---视频幻灯片中的屏幕截图, MVP 架构的数据管道。


数据管道从 Firehose 开始,它支持对区块链数据集进行检测,从而创建流经 Substreams 的标准化区块类型。在这里,我们为不同的数据类型(区块、交易跟踪、日志)定义架构,并将它们转换为 Parquet 文件。

提取的数据可以托管在 S3 上,然后以各种方式使用,例如 SQL 计算引擎或 Python 库。我们还支持两种不同的网关方法:

  1. 请求方支付:计费基于 S3 存储使用量,允许您为访问的特定数据量付费。
  2. Snowflake 市场:您可以直接访问数据集而无需复制,并享受 SQL 就绪托管数据库的额外便利性。
---视频幻灯片中的屏幕截图, MVP 架构的网关。


Snowflake 提供了一个市场,您可以在其中轻松找到数据集。例如,搜索 “Ethereum” 将显示来自知名数据提供商的列表。我们的以太坊数据集可以免费试用,不收取上架费用。

您可以通过查看区块、日志和交易哈希等表格来预览数据以熟悉其结构。目前,Snowflake 在单个区域(美国东部弗吉尼亚州北部)托管这些数据,我们计划在未来根据需要添加更多区域。

在我们的演示中,我们将展示如何使用 Snowflake 的 Python 笔记本来分析以太坊上的每日活跃用户,并使用 pandas 可视化数据。我们还按活动探讨了排名靠前的合约,强调了深入了解合约级别的详细信息是多么容易。

目前,我们在 Snowflake 和 S3 上托管了以太坊。我们正在积极扩展以支持其他 EVM 链,如 Base、Arbitrum、BSC 和 Polygon,以及非 EVM 链,如 Solana 和 BTC。此外,我们的目标是将数据刷新率从 24 小时缩短到尽可能低的水平,使近乎实时的分析成为现实。

我们很高兴能够继续构建和发展该产品,扩大对更多区块链的支持,并增强实时功能,使每个人都能访问区块链数据,从分析师到开发人员。

根据客户反馈和我们在 Snowflake 上进行数据集试点的成功,您将来可能会在 The Graph 上看到数据集作为完全受支持的数据服务产品。

如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或直接联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察方式。

(相关专业名词、注释、代码库、超链接等请关注博客查找)

小提示,我们的 ETH 数据集可以在Snowflake上免费试用!

💡 本文回答以下问题:

- 什么是区块链数据集?

- 分析人员如何处理托管在Snowflake上的数据集?

- 访问集中的数据有哪些不同的方法?

- 如何免费试用我们的ETH有限历史数据集?

评论

所有评论

推荐阅读

  • Polymarket将于下周一公布重大消息,或为发币或融资相关消息

    Cointime 报道,3月21日消息,Polymarket 官方团队成员 Mustafa 于 X 平台发文表示,下周一即将公布重大消息。因推文内容包含硬币符号,社区猜测或为融资或代币发射相关重大消息。 此前消息,预测市场平台 Kalshi 与 Polymarket 据悉正与潜在投资者洽谈新一轮融资,目标估值均约为 200 亿美元。日前,Kalshi 已完成新一轮超 10 亿美元融资,估值达 220 亿美元,较去年 12 月上一轮融资时的 110 亿美元估值翻倍。知情人士透露,本轮融资由 Coatue Management 领投,Kalshi 目前的年化收入为 15 亿美元。

  • 美众议院金融服务委员会将于3月25日举行代币化听证会,聚焦资本市场未来

    3 月 21 日,美国众议院金融服务委员会将于美东时间 3 月 25 日 10:00 举行听证会,主题为「代币化与资本市场的未来」,预计将重点讨论区块链技术在金融体系中的应用与监管方向。

  • 黄金创43年来最大周跌幅:一周暴跌11%,避险属性遭质疑

    3 月 21 日,受中东局势升级及利率预期影响,黄金价格大幅下挫,创下自 1983 年以来最大单周跌幅。现货黄金周五跌至约 4488 美元/盎司,单周累计下跌约 11%,自 2 月底以来累计跌幅已超 15%。市场分析认为,美联储年内或维持利率不变、鲍威尔关于通胀上行的表态削弱了黄金吸引力。同时,在伊朗冲突背景下,比特币表现相对更强,期间反弹超 11%,对黄金形成对比。

  • 分析:加密市场山寨币交易量大幅下滑,市场兴趣持续降温

    3 月 21 日,Cryptoquant 分析师 Darkfost 发文称,加密市场山寨币交易量持续走低,投资者兴趣明显减弱。在熊市背景及地缘政治不确定性影响下,山寨币表现持续跑输比特币,风险偏好显著收缩。当前,Binance 山寨币日交易量约为 77 亿美元,其它主要交易所合计约 188 亿美元,远低于 2025 年 10 月与 2 月高峰期(Binance 曾达 400 亿至 500 亿美元,其它平台达 630 亿至 910 亿美元)。目前 Binance 占据约 40% 的市场份额。分析指出,历史上交易量高峰往往对应市场阶段性顶部与 FOMO 情绪释放,而当前低迷成交环境也意味着潜在机会通常出现在市场关注度最低阶段。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    3 月 21 日,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。

  • 中东冲突与加息预期共振:全球资产大震荡,美股四连跌、债市「血洗」、黄金创43年最大周跌幅

    3 月 21 日,中东局势持续升级叠加 Federal Reserve 加息预期骤然升温,全球市场遭遇系统性冲击。美股连续第四周下跌创一年最长跌势,纳指单日跌超 2%,科技股全线承压;全球债市收益率大幅飙升,美债、英债、德债均创多年新高,资金大规模去杠杆。大宗商品剧烈分化,黄金跌破 4500 美元关口,单周暴跌超 10%,创 1983 年以来最大跌幅,避险属性遭质疑;原油则因中东供应风险暴涨,布油重返 110 美元上方,迪拜原油期货单日飙升超 16%。与此同时,比特币在 7 万美元附近获得支撑,连续三周跑赢黄金。市场分析认为,地缘冲突推升能源价格并加剧通胀预期,迫使货币政策路径重定价,全球金融条件快速收紧,风险资产仍处于下行与再定价过程中。

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)

  • GameFi板块市值暂报45.15亿美元,FLOKI排名第一

    3 月 21 日,据 Coingecko 数据,GameFi 板块市值暂报 45.15 亿美元,FLOKI 以 2.86 亿美元市值排名第一,排在第二第三位的分别为:The Sandbox(2.18 亿美元)、Undeads Games(2.11 亿美元)。此前 Solana 基金会主席 Lily Liu 表示,区块链游戏「不会再回归」。她认为,尽管行业曾寄望通过链上资产与开放世界推动 Web3 与元宇宙发展,但实际表现远未达预期。市场观点称链游长期依赖「Play-to-Earn」等代币激励模式,却缺乏真正吸引核心玩家的游戏性与内容构建能力,导致用户留存与生态可持续性不足。包括 Andreessen Horowitz(a16z)、Framework Ventures、Animoca Brands 在内的机构曾向该领域投入数十亿美元,但回报表现不佳。