TL;DR: Pinax 的数据集使用Parquet文件和S3简化了区块链数据访问。这种组合提供了高效的存储、加速查询性能以及与各种分析工具的无缝集成。原始区块链数据使用SQL模式结构化,使其易于分析。我们的数据集为访问和分析多个复杂区块链信息提供了一个用户友好的解决方案。
在之前的博客文章中,我们介绍了 Pinpoint 的数据集以及它们将如何简化对区块链数据的访问。在这篇文章中,我们将深入探讨使我们的数据集如此强大的工具和结构,例如 Parquet 文件和 SQL 架构。我们将讨论 Pinax 如何使用 Parquet 文件进行高效数据存储,以及支撑我们原始区块链数据集的综合 SQL 架构。了解我们计划如何为数据分析师提供用户友好的尖端技术。
Pinax 数据集使区块链数据易于访问,为想要分析区块链信息但可能没有专业工具或基础设施的人消除障碍。我们利用 S3 上托管的 Parquet 文件,使各个领域(从宏观分析到 AI 聊天机器人以及财务分析)的专业人员能够专注于分析,而不是数据争论。
我们将数据集设计为与现有分析工具兼容,使分析师能够轻松即插即用他们当前的设置。这意味着您可以使用 Amazon S3 作为外部表将我们的数据集无缝集成到您现有的工作流程中。外部表在各种数据库中得到广泛支持,因此您可以直接从 S3 查询数据,而无需进行大量设置或自定义基础设施,从而简化数据管理。
尝试我们的以太坊数据集:在Snowflake上免费试用30天。
访问、处理和分析区块链数据可能具有挑战性,尤其是在该技术在各行各业不断发展,数据量和复杂性增加的情况下。Pinax 可以通过易于使用的数据集提供帮助,简化访问,在设计时同时考虑了技术和非技术用户。我们简化方法的核心是 Parquet 文件,这是一种强大的列式存储格式,可提高效率和可扩展性,尤其是对于大型数据集。
但究竟什么是 Parquet 文件,为什么它们对于访问区块链数据如此重要?
Parquet 是一种列式存储文件格式,因其高效的压缩和性能而广泛用于数据处理。与按顺序存储数据的基于行的存储格式不同,Parquet 通过将数据组织到列中来优化存储和查询性能,使其对分析特别有效。

Parquet 文件的列式格式使其成为管理区块链中复杂、大容量数据集的理想选择。通过启用选择性列查询,Parquet 提高了查询速度并降低了存储成本,为处理 TB 级区块链数据提供了实用的解决方案。
主要优势包括:
- 高效存储:Parquet 可以在不损失质量的情况下压缩数据,从而降低存储成本,这对于大型区块链数据集尤其有益。
- 更快的查询:基于列的存储允许分析师仅访问所需的数据,从而提高像 Messari 等工具的性能。
- 广泛的兼容性:Parquet 与各种分析工具无缝集成,支持跨 SQL、Python、R 等的工作流。
Pinax 以易于使用的格式提供区块链数据:
- 无缝集成:我们以 Parquet 格式提供原始区块链数据,使用户能够将数据顺利集成到现有管道中。
- 最新见解:数据集每天更新,确保用户能够访问最新的区块链数据。
- 增强的可用性:Parquet 熟悉的格式简化了分析过程,使分析师能够专注于分析而不是基础设施。
我们的数据集试点计划发展良好,并取得了旨在改进数据访问和性能的新进展。以下是我们设置的最新信息:
- 数据隔离和访问选项:通过 S3 外部表设置,分析师可以独立管理数据访问。选项包括将 S3 数据复制到自定义表中、直接连接到 S3 外部表或使用我们的预配置 Snowflake 视图。此外,数据可以下载到本地进行磁盘处理,从而为数据处理提供灵活性。
- 最少参与定制要求:这种设置使 Pinex 的角色保持轻松;我们主要专注于确保数据完整性和准确的 Schema 定义,而分析师则保留对特定数据需求的控制权。
- 数据同步和格式化:自动 S3 同步上传可确保数据格式的可读性,从而允许在数据集上创建自定义视图,以更好地满足分析需求。
- 性能优化:我们将继续测试配置以提高大型数据集的查询性能,包括重新组织分区以提高速度。
Pinax 数据集有可能服务于一系列应用:
- 宏观分析:Messari 和 Snowflake 等平台通过将区块链洞察无缝整合到更广泛的市场分析中,从我们的数据集中受益。
- 会计学:区块链记录提供了一个透明且不可变的账本,使其对于会计和审计目的非常有价值。
- 区块链取证:数据集可以帮助法医调查人员追踪交易、发现欺诈行为和监控区块链上的可疑活动。
- AI 聊天机器人和 LLM:对结构化区块链数据的访问可作为 AI 模型的高质量训练数据,尤其是旨在理解区块链相关查询或执行分析的大型语言模型 (LLM)。
- 财务分析:DeFi 应用程序可以集成 Pinax 数据以显示历史交易统计数据,为更明智的财务决策提供见解。
区块链数据以原始形式出现,捕获网络上的所有重要交易和交互。Pinax 提供对扩展的基础 Ethereum 数据表的访问,例如区块、交易、扩展跟踪和日志。我们的数据集允许进行精细分析,从跟踪单个交易到了解跨区块的趋势,使其成为各个领域应用的理想选择。

为了实现高效访问,Pinax 使用 SQL 架构来构建区块链数据。此架构定义 Parquet 文件中的数据结构,从而简化跨各种应用程序的数据访问和分析。EVM SQL 架构提供了用于跟踪 EVM 数据的详细表,包括区块、交易、日志和状态更改。每个表都捕获精细数据以进行深入分析,帮助用户高效探索区块链交互。
要探索用于构建以太坊数据的 SQL 架构,请查看 GitHub 上 Pinpoint 的 EVM SQL 架构。
为了说明如何在实际分析中应用此 SQL 架构,以下是一些示例查询,这些查询演示了如何从区块链数据中检索特定数据。
-- This query calculates the number of unique active users per minute on a specific date.SELECT date_trunc('minute', block_time) AS minute, count(distinct "from") AS userFROM ethereum.transactionsWHERE block_date = '2024-10-01'GROUP BY minuteORDER BY minute ASC;
-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count.SELECT "to" AS contract, count(*) AS transactionsFROM ethereum.transactionsWHERE block_date = '2024-10-01'GROUP BY contractORDER BY transactions DESCLIMIT 10;
-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range.SELECT block_date, count(*) as totalFROM ethereum.tracesWHERE tx_success = true AND SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom AND block_date >= '2024-09-01' AND block_date <= '2024-09-07'GROUP BY block_dateORDER BY block_date;
Pinax 数据集可在 Snowflake 上使用,Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻名。Snowflake Marketplace 允许您以最少的设置将区块链数据集成到您的工作流程中。
Snowflake Marketplace 将向更广泛的受众提供我们的数据集,从而促进跨行业更大的数据可访问性。
区块链数据通常被认为难以访问和分析,但 Pinax 数据集将改变这种思维方式。我们专注于用户友好的格式和易于访问,使区块链数据可用于多种用途,从财务分析到 AI 模型训练。
如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察。
请记住,我们的ETH数据集可以在 Snowflake 上免费试用 30 天!
(相关专业名词、注释、代码库、超链接等请关注博客查找)
💡 本文回答以下问题:
- Pinax如何构建区块链数据集以实现易用性和最佳性能?
- 哪些类型的行业和用例将受益于Pinax的数据集?
- 什么是Parquet文件?
- 为什么Parquet文件适合区块链数据?
- 在原始区块链数据中捕获了什么?
- SQL模式在结构化区块链数据中的作用是什么?
- 如何免费试用Pinax数据集?
#区块链数据分析 #数据集 #web3数据 #区块链开发
所有评论