Cointime

扫码下载App
iOS & Android

使用 Pinax 数据集和 Snowflake 轻松进行区块链数据分析

项目方

TL;DR:了解如何利用 Pinax 提供的数据集高效分析区块链数据。学习我们的解决方案如何通过 Parquet 文件和 Snowflake 等托管数据库简化对 ETH 数据的访问,从而能够执行 SQL 查询以提取有价值的见解,例如每日活跃用户和热门合约活动。

我们很高兴演示一款正在改变区块链数据分析的产品:与 Snowflake 集成的 Datasets on The Graph。在这篇文章中,我们将探讨我们正在解决的问题、我们的创新解决方案、人们如何使用我们的数据集以及我们对未来的愿景。

视频链接:https://youtu.be/7CxFGgNmu-Y


有关我们数据集的更多信息,请阅读文章:

区块链会生成大量数据,这些数据量很大,难以管理。提取此数据,尤其是在涉及来自 RPC 节点的详细交互时,需要自定义检测。

习惯了 SQL 等传统工具的分析师难以应对区块链数据提取的复杂性。再加上处理多个区块链网络的挑战,它成为一种运营负担。

高效访问这些数据还意味着最大限度地减少下载大量数据集的需求。这就是为什么我们需要一个支持数据存储的解决方案,以便您可以只查询所需的数据。

我们利用两项强大的技术:Firehose 和 Substreams。这些服务在 The Graph 上运行,并允许高效提取和存储区块链数据。我们首先为各种链(基于 EVM、Solana、BTC)定义区块架构,然后将它们导出为 Parquet 文件——本质上是具有数据库属性的平面文件。这些文件托管在 AWS S3 或其他与 S3 兼容的存储桶上。

为了使数据更易于访问,我们不会止步于原始存储。我们还在 Snowflake Marketplace 上列出了数据。您可以从 S3 查询原始数据,也可以直接连接到托管数据库 Snowflake,以对托管数据集运行 SQL 查询。这种多功能性使您可以以自己喜欢的方式访问区块链数据。

您有多种选项来访问数据。您可以:

  • 使用外部表或直接复制方法将原始数据从 S3 加载到数据库中。
  • 使用 SQL 直接查询 Snowflake 等托管数据库中的数据。
  • 使用 Polars 或 pandas 等 Python 库以编程方式读取单个 Parquet 文件。
---视频幻灯片中的屏幕截图, MVP 架构的数据管道。


数据管道从 Firehose 开始,它支持对区块链数据集进行检测,从而创建流经 Substreams 的标准化区块类型。在这里,我们为不同的数据类型(区块、交易跟踪、日志)定义架构,并将它们转换为 Parquet 文件。

提取的数据可以托管在 S3 上,然后以各种方式使用,例如 SQL 计算引擎或 Python 库。我们还支持两种不同的网关方法:

  1. 请求方支付:计费基于 S3 存储使用量,允许您为访问的特定数据量付费。
  2. Snowflake 市场:您可以直接访问数据集而无需复制,并享受 SQL 就绪托管数据库的额外便利性。
---视频幻灯片中的屏幕截图, MVP 架构的网关。


Snowflake 提供了一个市场,您可以在其中轻松找到数据集。例如,搜索 “Ethereum” 将显示来自知名数据提供商的列表。我们的以太坊数据集可以免费试用,不收取上架费用。

您可以通过查看区块、日志和交易哈希等表格来预览数据以熟悉其结构。目前,Snowflake 在单个区域(美国东部弗吉尼亚州北部)托管这些数据,我们计划在未来根据需要添加更多区域。

在我们的演示中,我们将展示如何使用 Snowflake 的 Python 笔记本来分析以太坊上的每日活跃用户,并使用 pandas 可视化数据。我们还按活动探讨了排名靠前的合约,强调了深入了解合约级别的详细信息是多么容易。

目前,我们在 Snowflake 和 S3 上托管了以太坊。我们正在积极扩展以支持其他 EVM 链,如 Base、Arbitrum、BSC 和 Polygon,以及非 EVM 链,如 Solana 和 BTC。此外,我们的目标是将数据刷新率从 24 小时缩短到尽可能低的水平,使近乎实时的分析成为现实。

我们很高兴能够继续构建和发展该产品,扩大对更多区块链的支持,并增强实时功能,使每个人都能访问区块链数据,从分析师到开发人员。

根据客户反馈和我们在 Snowflake 上进行数据集试点的成功,您将来可能会在 The Graph 上看到数据集作为完全受支持的数据服务产品。

如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或直接联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察方式。

(相关专业名词、注释、代码库、超链接等请关注博客查找)

小提示,我们的 ETH 数据集可以在Snowflake上免费试用!

💡 本文回答以下问题:

- 什么是区块链数据集?

- 分析人员如何处理托管在Snowflake上的数据集?

- 访问集中的数据有哪些不同的方法?

- 如何免费试用我们的ETH有限历史数据集?

评论

所有评论

推荐阅读

  • ETH跌破3100美元

    行情显示,ETH跌破3100美元,现报3098.76美元,24小时跌幅达到0.46%,行情波动较大,请做好风险控制。

  • 美元指数DXY日内跌超0.50%,现报98.68

    美元指数DXY日内跌超0.50%,现报98.68。

  • 现货黄金1月累涨逾300美元

    现货黄金站上4620美元/盎司,日内涨幅达2.44%,新年首月累涨逾300美元。

  • 特朗普将就美联储主席一职面试里德

    特朗普将就美联储主席一职面试里德(Rick Rieder)。面试将于本周举行。

  • 哈塞特:仍对美联储职位感兴趣

    美国白宫国家经济委员会主任哈塞特:仍对美联储职位感兴趣。不知道美国总统特朗普是否批准了对美联储的调查,美联储主席鲍威尔是个好人。

  • BTC跌破91000美元

    行情显示,BTC跌破91000美元,现报90997.44美元,24小时涨幅达到0.26%,行情波动较大,请做好风险控制。

  • 美国现货以太坊ETF上周净流出6857万美元

    根据SoSoValue数据,上周交易日(美东时间1月5日至1月9日)美国现货以太坊ETF上周净流出6857万美元。

  • BTC突破92000美元

    行情显示,BTC突破92000美元,现报92041.92美元,24小时涨幅达到1.49%,行情波动较大,请做好风险控制。

  • 长三角一体化大模型发布 AI将为区域发展提供决策支撑

    长三角一体化大模型发布与场景应用链接大会在上海召开。会上,由中国区域经济50人论坛成员、上海财经大学长三角与长江经济带发展研究院执行院长张学良教授团队牵头建设的长三角一体化大模型(YRD-P1)正式发布。张学良表示,YRD-P1模型是在多年城市与区域科学研究积累的基础上构建的专用大模型。模型依托持续积累的政策文本、统计数据、学术成果、产业链信息及地理空间数据,面向长三角区域进行深度定制开发,强调知识体系的系统性、权威性和可溯源性,致力于为区域协调发展提供更加智能、精准、可持续的决策支撑工具。

  • 天普股份:公司涉嫌信息披露违规 股票将于1月12日复牌

    天普股份公告,公司因涉嫌信息披露违规,收到中国证监会下发的《立案告知书》和上海证券交易所的监管警示。公司股票将于2026年1月12日开市起复牌。公司目前生产经营活动正常,但股票价格短期波动较大,累计涨幅较大,已严重偏离上市公司基本面,存在巨大交易风险。2025年前三季度公司实现营业收入2.3亿元,同比下降4.98%;实现归属于上市公司股东的净利润1785.08万元,同比下降2.91%。