Cointime

扫码下载App
iOS & Android

Pinax 数据集凭借 Parquet 和 S3 具备更卓越的简洁性

项目方

TL;DR: Pinax 的数据集使用Parquet文件和S3简化了区块链数据访问。这种组合提供了高效的存储、加速查询性能以及与各种分析工具的无缝集成。原始区块链数据使用SQL模式结构化,使其易于分析。我们的数据集为访问和分析多个复杂区块链信息提供了一个用户友好的解决方案。

在之前的博客文章中,我们介绍了 Pinpoint 的数据集以及它们将如何简化对区块链数据的访问。在这篇文章中,我们将深入探讨使我们的数据集如此强大的工具和结构,例如 Parquet 文件和 SQL 架构。我们将讨论 Pinax 如何使用 Parquet 文件进行高效数据存储,以及支撑我们原始区块链数据集的综合 SQL 架构。了解我们计划如何为数据分析师提供用户友好的尖端技术。

Pinax 数据集使区块链数据易于访问,为想要分析区块链信息但可能没有专业工具或基础设施的人消除障碍。我们利用 S3 上托管的 Parquet 文件,使各个领域(从宏观分析到 AI 聊天机器人以及财务分析)的专业人员能够专注于分析,而不是数据争论。

我们将数据集设计为与现有分析工具兼容,使分析师能够轻松即插即用他们当前的设置。这意味着您可以使用 Amazon S3 作为外部表将我们的数据集无缝集成到您现有的工作流程中。外部表在各种数据库中得到广泛支持,因此您可以直接从 S3 查询数据,而无需进行大量设置或自定义基础设施,从而简化数据管理。

尝试我们的以太坊数据集:在Snowflake上免费试用30天。

访问、处理和分析区块链数据可能具有挑战性,尤其是在该技术在各行各业不断发展,数据量和复杂性增加的情况下。Pinax 可以通过易于使用的数据集提供帮助,简化访问,在设计时同时考虑了技术和非技术用户。我们简化方法的核心是 Parquet 文件,这是一种强大的列式存储格式,可提高效率和可扩展性,尤其是对于大型数据集。

但究竟什么是 Parquet 文件,为什么它们对于访问区块链数据如此重要?

Parquet 是一种列式存储文件格式,因其高效的压缩和性能而广泛用于数据处理。与按顺序存储数据的基于行的存储格式不同,Parquet 通过将数据组织到列中来优化存储和查询性能,使其对分析特别有效。

---此图对比了行布局 (每行按顺序存储) 和列布局 (每列都完整存储 (源) )


Parquet 文件的列式格式使其成为管理区块链中复杂、大容量数据集的理想选择。通过启用选择性列查询,Parquet 提高了查询速度并降低了存储成本,为处理 TB 级区块链数据提供了实用的解决方案。

主要优势包括:

  1. 高效存储:Parquet 可以在不损失质量的情况下压缩数据,从而降低存储成本,这对于大型区块链数据集尤其有益。
  2. 更快的查询:基于列的存储允许分析师仅访问所需的数据,从而提高像 Messari 等工具的性能。
  3. 广泛的兼容性:Parquet 与各种分析工具无缝集成,支持跨 SQL、Python、R 等的工作流。

Pinax 以易于使用的格式提供区块链数据:

  • 无缝集成:我们以 Parquet 格式提供原始区块链数据,使用户能够将数据顺利集成到现有管道中。
  • 最新见解:数据集每天更新,确保用户能够访问最新的区块链数据。
  • 增强的可用性:Parquet 熟悉的格式简化了分析过程,使分析师能够专注于分析而不是基础设施。

我们的数据集试点计划发展良好,并取得了旨在改进数据访问和性能的新进展。以下是我们设置的最新信息:

  • 数据隔离和访问选项:通过 S3 外部表设置,分析师可以独立管理数据访问。选项包括将 S3 数据复制到自定义表中、直接连接到 S3 外部表或使用我们的预配置 Snowflake 视图。此外,数据可以下载到本地进行磁盘处理,从而为数据处理提供灵活性。
  • 最少参与定制要求:这种设置使 Pinex 的角色保持轻松;我们主要专注于确保数据完整性和准确的 Schema 定义,而分析师则保留对特定数据需求的控制权。
  • 数据同步和格式化:自动 S3 同步上传可确保数据格式的可读性,从而允许在数据集上创建自定义视图,以更好地满足分析需求。
  • 性能优化:我们将继续测试配置以提高大型数据集的查询性能,包括重新组织分区以提高速度。

Pinax 数据集有可能服务于一系列应用:

  • 宏观分析:Messari 和 Snowflake 等平台通过将区块链洞察无缝整合到更广泛的市场分析中,从我们的数据集中受益。
  • 会计学:区块链记录提供了一个透明且不可变的账本,使其对于会计和审计目的非常有价值。
  • 区块链取证:数据集可以帮助法医调查人员追踪交易、发现欺诈行为和监控区块链上的可疑活动。
  • AI 聊天机器人和 LLM:对结构化区块链数据的访问可作为 AI 模型的高质量训练数据,尤其是旨在理解区块链相关查询或执行分析的大型语言模型 (LLM)。
  • 财务分析:DeFi 应用程序可以集成 Pinax 数据以显示历史交易统计数据,为更明智的财务决策提供见解。

区块链数据以原始形式出现,捕获网络上的所有重要交易和交互。Pinax 提供对扩展的基础 Ethereum 数据表的访问,例如区块、交易、扩展跟踪和日志。我们的数据集允许进行精细分析,从跟踪单个交易到了解跨区块的趋势,使其成为各个领域应用的理想选择。

---全面的 EVM 区块链数据,涵盖区块、交易、日志和扩展跟踪,用于深入分析。


为了实现高效访问,Pinax 使用 SQL 架构来构建区块链数据。此架构定义 Parquet 文件中的数据结构,从而简化跨各种应用程序的数据访问和分析。EVM SQL 架构提供了用于跟踪 EVM 数据的详细表,包括区块、交易、日志和状态更改。每个表都捕获精细数据以进行深入分析,帮助用户高效探索区块链交互。

要探索用于构建以太坊数据的 SQL 架构,请查看 GitHub 上 Pinpoint 的 EVM SQL 架构。

为了说明如何在实际分析中应用此 SQL 架构,以下是一些示例查询,这些查询演示了如何从区块链数据中检索特定数据。

-- This query calculates the number of unique active users per minute on a specific date.SELECT date_trunc('minute', block_time) AS minute, count(distinct "from") AS userFROM ethereum.transactionsWHERE block_date = '2024-10-01'GROUP BY minuteORDER BY minute ASC;

-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count.SELECT "to" AS contract, count(*) AS transactionsFROM ethereum.transactionsWHERE block_date = '2024-10-01'GROUP BY contractORDER BY transactions DESCLIMIT 10;

-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range.SELECT block_date, count(*) as totalFROM ethereum.tracesWHERE tx_success = true AND SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom AND block_date >= '2024-09-01' AND block_date <= '2024-09-07'GROUP BY block_dateORDER BY block_date;

Pinax 数据集可在 Snowflake 上使用,Snowflake 是一个基于云的数据平台,以其易用性和强大的集成功能而闻名。Snowflake Marketplace 允许您以最少的设置将区块链数据集成到您的工作流程中。

Snowflake Marketplace 将向更广泛的受众提供我们的数据集,从而促进跨行业更大的数据可访问性。

区块链数据通常被认为难以访问和分析,但 Pinax 数据集将改变这种思维方式。我们专注于用户友好的格式和易于访问,使区块链数据可用于多种用途,从财务分析到 AI 模型训练。

如果您有兴趣探索我们如何根据您的需求简化区块链数据访问,请访问我们的网站或联系我们以了解更多信息。申请演示,了解我们如何转变您的区块链数据洞察。

请记住,我们的ETH数据集可以在 Snowflake 上免费试用 30 天!

(相关专业名词、注释、代码库、超链接等请关注博客查找)

💡 本文回答以下问题:

- Pinax如何构建区块链数据集以实现易用性和最佳性能?

- 哪些类型的行业和用例将受益于Pinax的数据集?

- 什么是Parquet文件?

- 为什么Parquet文件适合区块链数据?

- 在原始区块链数据中捕获了什么?

- SQL模式在结构化区块链数据中的作用是什么?

- 如何免费试用Pinax数据集?

#区块链数据分析 #数据集 #web3数据 #区块链开发

评论

所有评论

推荐阅读

  • EXOR集团 :拒绝Tether公司收购尤文图斯股份的提议

    EXOR集团 :拒绝Tether公司收购尤文图斯股份的提议,重申无意出售尤文图斯股份。 此前报道,加密货币巨头Tether公司对于收购尤文图斯俱乐部的计划非常认真,他们准备再次开出一份超过20亿欧元的新报价。

  • Tether 开出总估价超过 20 亿欧元的新报价收购尤文图斯

    加密货币巨头 Tether 公司对于收购尤文图斯俱乐部的计划非常认真,他们准备再次开出一份超过 20 亿欧元的新报价。昨天 Tether 已经向 Exor 董事会提交了一份报价,意图收购阿涅利家族控股公司所持有的尤文图斯 65.4% 股份,这一消息由首席执行官保罗-阿尔多伊诺通过社交媒体公布,但这仅仅是谈判的开始。

  • American Bitcoin比特币储备过去7天增加约623枚,现仓位达4941枚BTC

    此前曾披露分析“1011内幕巨鲸”的链上分析师Emmett Gallic在X平台发文披露特朗普家族支持的加密矿企American Bitcoin比特币储备更新数据,过去七天增加约623枚BTC,其中约80枚来自于挖矿收入,542枚来自于公开市场的战略收购,截至目前其比特币总持有量增至4941枚,当前市值约合4.5亿美元。

  • 美国现货以太坊ETF昨日净流出1940万美元

    据TraderT监测,美国现货以太坊ETF昨日净流出1940万美元

  • ANOME 卡牌在 Base 涨幅+5359%,BNB Chain 剛開盤——真正的早鳥位置就在現在!

    在ANOME,每一次互動都不僅僅是一種遊戲體驗——它還是一個更廣泛的投資、戰略和個人成長過程的一部分。

  • 华夏基金香港在Solana上推出亚洲最大代币化货币市场基金

    12月12日消息,华夏基金香港(ChinaAMC HK)产品与策略负责人 Katie He 在 Solana Breakpoint 大会上表示,将推出亚洲首个且规模最大的代币化货币市场基金,涵盖港币(HKD)、美元(USD)和人民币(RMB)计价,将传统货币市场工具代币化,为投资者提供安全、链上访问稳定收益的机会,具有完全透明度和实时结算。经过数月与监管机构及 OSL 等伙伴的合作,这一创新将自香港扩展至更广阔地区,并原生部署到 Solana 区块链上。

  • 加拿大皇家银行已购入77,700股American Bitcoin股票

    据市场消息:价值1万亿美元的加拿大皇家银行已购入77,700股American Bitcoin ($ABTC)股票,价值约15万美元。该比特币矿企由特朗普家族成员Eric Trump支持。

  • 中国人民银行:继续实施适度宽松的货币政策,推进人民币国际化

    中国人民银行党委召开会议,会议纪要第三点指出:继续实施适度宽松的货币政策,加快推进金融供给侧结构性改革。把促进经济稳定增长、物价合理回升作为货币政策的重要考量,灵活高效运用降准降息等多种货币政策工具,把握好政策实施的力度、节奏和时机,保持流动性充裕,促进社会综合融资成本低位运行,加强对实体经济的金融支持。畅通货币政策传导机制,优化结构性货币政策工具运用,加强与财政政策的协同,激励和引导金融机构加力支持扩大内需、科技创新、中小微企业等重点领域。保持人民币汇率在合理均衡水平上的基本稳定。会议纪要第五点指出:稳步推进金融高水平开放,维护中国国家金融安全。践行全球治理倡议,积极参与和推进全球金融治理改革完善。务实开展金融外交和多双边货币金融合作。推进人民币国际化。持续建设和发展多渠道、广覆盖的人民币跨境支付体系。稳步发展数字人民币。

  • 日本央行据悉将进行更多加息 部分官员认为中性利率高于1%

    据知情人士透露,日本央行官员认为,在本轮加息周期结束前,利率很可能升至0.75%之上,这表明在下周加息之后,可能还会有更多次加息。这些人士称,官员认为,即使加息至0.75%,日本央行仍未达到中性利率水平。部分官员已认为1%仍低于中性利率水平。知情人士表示,即便日本央行根据最新数据更新中性利率估算,目前也并不认为该区间会显著收窄。目前日本央行对名义中性利率区间的估计约为1%至2.5%。知情人士称,日本央行官员认为该区间上下限本身也可能存在误差。(金十)

  • Nexus 启动“节点之光·先锋理财周”,打造节点用户专属通道

    Nexus 12月12日宣布即将启动为期五天的 “节点之光·先锋理财周”,以“节点身份金融特权” 为核心理念,为生态核心参与者开启一段独立于全平台的专属理财周期。此次活动仅限节点用户参与专属理财包认购,并为随后上线的全平台理财与 NexSwap 注入市场期待。