Paradigm:如何使用链上数据进行策略研究?

区块链网QKLW.COM报道:Crypto 政策在制定时很少会用到真实且细化的数据,原因主要有以下三点:

1. 新兴技术领域的相关政策大多还停留在理论及定性分析层面,早期阶段很少会使用到数据。

2. 尽管链上数据全部开放透明,但要想访问这些数据人们需要在短期内完成大量工作(即直接从区块链提取原始数据),即便对于 Crypto 原生从业者来说也是如此。

3. 区块链「取证」公司和数据供应商有少量的数据产品,但它们都不具备灵活性/可定制性,也不能满足经济/金融研究人员的需求。

许多现代经济学和金融学研究人员错过了将工具应用于 Crypto 数据分析的机会。从设计上讲,Crypto 可以向任何人提供细化数据,但大部分政策在制定时仍依赖于 CoinMarketCap 等外部预聚合时间序列数据源,而不是直接从数据源获取数据,这又是什么原因导致的呢?

正如政策制定者可以查询美国每家主要银行的资产负债表,并逐秒观察消费者存款的变化一样,他们也可以毫不费力地查看整个 Ethereum 生态系统的 Stablecoin 发行情况,但大多数分析 Stablecoin 的政策文件却采取了一种探讨假设事件的分析方法。

我将在本篇中具体阐释以下几点内容,希望可以对想要使用链上数据的政策研究人员有所帮助:

· 链上数据的获取方法

· 链上数据所采用的结构

· 提取和使用链上数据的几个基本工具

在随后的文章中,我将探讨如何使用这里收集的数据来判断 Crypto 市场的走势。同时,我将在结尾发布可供免费使用的数据和代码。通过阐明如何在区块链中查询数据,我希望向大家展示 Crypto 的开放性可以为数据决策开辟的新方法。

如果您就职于一家监管机构或研究机构,并在获取 Crypto 数据时遇到了困难,欢迎与我们取得联系分享你的想法,了解 Paradigm 可以为您提供哪些帮助。

II. 链上数据获取方法

一般来讲,数据收集工作应集中在一个区块链(Ethereum)及特定项目的子集上,这些项目主要是以美元计价、法币支持的 Stablecoin,具体包括 USDC、Tether、Binance USD、Pax Dollar 和 Gemini Dollar。该方法广泛适用于链上数据,即便你想创建一个不同的数据集。

Etherscan 这类区块浏览器非常适用于查看交易快照以及收集特定智能合约的信息,但根据我的经验,它们却不太能用于生成大型数据集。在收集和处理原始数据时,你基本上有两个选择:(1)在本地运行一个完整的节点,或(2)查询已经从链上直接写入原始数据的数据库。第一种方法对于专业技能和计算资源的要求比较高,而第二种方法则只需要基本的 SQL 和 Python 技能就可以实现,所以这里我们将采用第二种方法。

Dune 和谷歌云平台(GCP)的 BigQuery 有最新的链上数据,这些数据都以表格的形式存储在数据库中,研究人员可使用 SQL 命令对其进行查询。Dune 还提供免费的数据库,不过其速度较慢,而且还有些局限性,但它非常适合于 A/B 测试的数据查询,也有助于你熟悉数据库的运行模式,尤其是对于那些不善于使用 SQL 查询关联数据库的人。BigQuery 虽然更加灵活快捷,但谷歌会对计算资源收费,所以其价格也相对昂贵。我在第一次处理数据时,为了节省费用,我会先在 Dune 中测试查询语句,然后再将其输入 GCP 中运行。在大多数情况下,这种方法都能起到很好的效果(还有一点值得注意的是,Dune 的 Crypto 表格数量至少是 GCP 的 100 倍,包括一些用户生成、预先清理过的高质量 Crypto 表格。相比之下,GCP 中的数据大多是原始区块或交易。Dune 也有一些非常方便的内置数据可视化工具,值得单独购买。)

III. 链上数据结构

要回答这个问题,你首先需要搞清楚自己处理数据的目的。对于这个测试案例,我决定为主要的法定支持 Stablecoin 建立一个大型的时间序列数据集,并观察一些特定的行为: 铸币(即发行 Stablecoin),烧毁 (即停止流通 Stablecoin) 和转移。我之所以选择以这种方式进行研究,是因为政策制定者和学者目前最为关注法定支持的 Stablecoin,所以这些数据在短期内可能相当有用。

以美元计价的几大 Stablecoin 都采用了 ERC-20Token 标准。顾名思义,ERC-20 是一种在 Ethereum 上使用智能合约创建 Token 的标准化方式。如果你把区块链理解为一个巨大的去中心化 Excel 表格,那么智能合约就类似于 Excel 函数。在函数中输入参数之后,它将使用其内置逻辑产生一个特定的输出结果(例如,MAX 函数就是用来输出所输入参数中的最大值)。

我们可以使用智能合约的 Ethereum 地址来对它们进行定位,这些地址是区块链数据结构中的唯一标识符:

· USDC

· Tether USD

· Binance USD

· Pax Dollar

· Gemini Dollar

与 API 类似,智能合约也是可以重复使用的程序。每次智能合约获得互动指令时,都会产生该互动的记录,并由 Ethereum 协议以日志的形式记录在区块链上,而这些日志则构成了智能合约活动的可靠信息来源。

当智能合同执行一个特定函数时,例如烧毁 ERC-20 Stablecoin 以将其从流通中移除,该函数及其参数将作为交易日志记录在区块链上。

在下面的交易中,USDC Stablecoin 的发行商 Circle 烧毁了价值 1056.92 美元的 USDC。

如果你切换到「日志」标签,你就可以查看交易事件日志,相应的字段为

· 地址:智能合约的合约地址。USDC Stablecoin 的合约地址是0xa0b86991c6218b36c1d19d4a2e9eb0ce3606eb48

· 名称:智能合约执行的函数,以及该函数中的参数。在这里,智能合约正在调用烧毁函数,该函数接收的参数指定了所烧毁币的发送地点(例如燃烧池,必须是 Ethereum 地址)和烧毁币的数量(其金额必须是小于 256 位的无符号整数)。

Etherscan 的输出结果还会显示主题和数据字段,这些字段包含了我们在分析交易时需要解析的大部分相关信息。

· Topic0 是函数签名的哈希值。从本质上讲,它会将函数及其参数经由单向算法得到一个唯一的函数哈希值。Ethereum 使用的是 Keccak-256 哈希函数,当你通过 Keccak-256 算法输入函数签名时,它总是会产生相同的哈希值,所以任何时候该哈希值出现在日志中,你都能确信是调用了同一个函数。

· Topic1 是烧毁函数的一个索引参数。在这里,Topic1 是烧毁的 Token 被发往的地址。(注意:如果烧毁函数有更多的参数,这些参数将作为额外的主题出现)

· 这里的数据字段表示所烧毁 Token 的数量。

既然我们已经了解了链上数据的基本结构,就可以开始从 Dune 和 GCP 中提取数据了。

IV. 提取并处理链上数据的基本工具

如前所述,在这个例子中,我选择从现有数据库中提取链上数据,而不是访问 Ethereum 网络上的活动节点。为了便于理解,我使用 SQL 从 GCP 提取了大量原始数据表格,然后在 Python 中使用 pandas 库对其进行清理。

当我们从 GCP 提取表格时,我们将使用 BigQuery,它储存有很多 Ethereum 的数据表,如下图左边一栏所示。当你点击一个表格时,相应的数据库模式就会出现,就如下图中的 ethereum.logs 表。与此同时,其中涉及的地址、数据和主题都会记录到日志数据中去。

下图中的查询语句将用于提取日志表中涉及与 USDC、Tether USD、Binance USD、Pax Dollar 或 Gemini Dollar 合约互动的所有记录。除了 ethereum.logs 中的信息外,一些额外的信息也很有用,所以我还合并了 ethereum.block 表中的数据,其中涵盖了 Gas 费等信息。

得到的表格可以直接由 Python 读取,并借助 pandas 数据框架细分为以下字段:

· log_index

· transaction_hash

· transaction_index

· address

· data

· topics

· block_timestamp

· block_number

· block_hash

· number

· miner

· size

· gas_limit

· gas_used

· base_fee_per_gas

这些字段中的大多数都可以直接使用,不过第三节中讨论的主题字段需要用 Python 进行一些额外的清理,以便将其分成多列。

V. 结语

这篇文章使用的是 Ethereum 的日志数据,同样的方法也可以用来访问链上的各种数据。Python 和 SQL 是大多数经济学家和政策制定者所熟悉的工具,它们可以发挥很大作用。与传统金融相比,Crypto 更具透明度。这样一来,研究人员就可以利用实时数据来阐明金融体系的运作方式,并及时控制住可能出现的风险。

Crypto 政策在制定时很少会用到真实且细化的数据,原因主要有以下三点:


1. 新兴技术领域的相关政策大多还停留在理论及定性分析层面,早期阶段很少会使用到数据。

2. 尽管链上数据全部开放透明,但要想访问这些数据人们需要在短期内完成大量工作(即直接从区块链提取原始数据),即便对于 Crypto 原生从业者来说也是如此。

3. 区块链「取证」公司和数据供应商有少量的数据产品,但它们都不具备灵活性/可定制性,也不能满足经济/金融研究人员的需求。

许多现代经济学和金融学研究人员错过了将工具应用于 Crypto 数据分析的机会。从设计上讲,Crypto 可以向任何人提供细化数据,但大部分政策在制定时仍依赖于 CoinMarketCap 等外部预聚合时间序列数据源,而不是直接从数据源获取数据,这又是什么原因导致的呢?

正如政策制定者可以查询美国每家主要银行的资产负债表,并逐秒观察消费者存款的变化一样,他们也可以毫不费力地查看整个 Ethereum 生态系统的 Stablecoin 发行情况,但大多数分析 Stablecoin 的政策文件却采取了一种探讨假设事件的分析方法。

我将在本篇中具体阐释以下几点内容,希望可以对想要使用链上数据的政策研究人员有所帮助:

· 链上数据的获取方法

· 链上数据所采用的结构

· 提取和使用链上数据的几个基本工具

在随后的文章中,我将探讨如何使用这里收集的数据来判断 Crypto 市场的走势。同时,我将在结尾发布可供免费使用的数据和代码。通过阐明如何在区块链中查询数据,我希望向大家展示 Crypto 的开放性可以为数据决策开辟的新方法。

如果您就职于一家监管机构或研究机构,并在获取 Crypto 数据时遇到了困难,欢迎与我们取得联系分享你的想法,了解 Paradigm 可以为您提供哪些帮助。

II. 链上数据获取方法

一般来讲,数据收集工作应集中在一个区块链(Ethereum)及特定项目的子集上,这些项目主要是以美元计价、法币支持的 Stablecoin,具体包括 USDC、Tether、Binance USD、Pax Dollar 和 Gemini Dollar。该方法广泛适用于链上数据,即便你想创建一个不同的数据集。

Etherscan 这类区块浏览器非常适用于查看交易快照以及收集特定智能合约的信息,但根据我的经验,它们却不太能用于生成大型数据集。在收集和处理原始数据时,你基本上有两个选择:(1)在本地运行一个完整的节点,或(2)查询已经从链上直接写入原始数据的数据库。第一种方法对于专业技能和计算资源的要求比较高,而第二种方法则只需要基本的 SQL 和 Python 技能就可以实现,所以这里我们将采用第二种方法。

Dune 和谷歌云平台(GCP)的 BigQuery 有最新的链上数据,这些数据都以表格的形式存储在数据库中,研究人员可使用 SQL 命令对其进行查询。Dune 还提供免费的数据库,不过其速度较慢,而且还有些局限性,但它非常适合于 A/B 测试的数据查询,也有助于你熟悉数据库的运行模式,尤其是对于那些不善于使用 SQL 查询关联数据库的人。BigQuery 虽然更加灵活快捷,但谷歌会对计算资源收费,所以其价格也相对昂贵。我在第一次处理数据时,为了节省费用,我会先在 Dune 中测试查询语句,然后再将其输入 GCP 中运行。在大多数情况下,这种方法都能起到很好的效果(还有一点值得注意的是,Dune 的 Crypto 表格数量至少是 GCP 的 100 倍,包括一些用户生成、预先清理过的高质量 Crypto 表格。相比之下,GCP 中的数据大多是原始区块或交易。Dune 也有一些非常方便的内置数据可视化工具,值得单独购买。)

III. 链上数据结构

要回答这个问题,你首先需要搞清楚自己处理数据的目的。对于这个测试案例,我决定为主要的法定支持 Stablecoin 建立一个大型的时间序列数据集,并观察一些特定的行为: 铸币(即发行 Stablecoin),烧毁 (即停止流通 Stablecoin) 和转移。我之所以选择以这种方式进行研究,是因为政策制定者和学者目前最为关注法定支持的 Stablecoin,所以这些数据在短期内可能相当有用。

以美元计价的几大 Stablecoin 都采用了 ERC-20Token 标准。顾名思义,ERC-20 是一种在 Ethereum 上使用智能合约创建 Token 的标准化方式。如果你把区块链理解为一个巨大的去中心化 Excel 表格,那么智能合约就类似于 Excel 函数。在函数中输入参数之后,它将使用其内置逻辑产生一个特定的输出结果(例如,MAX 函数就是用来输出所输入参数中的最大值)。

我们可以使用智能合约的 Ethereum 地址来对它们进行定位,这些地址是区块链数据结构中的唯一标识符:

· USDC

· Tether USD

· Binance USD

· Pax Dollar

· Gemini Dollar

与 API 类似,智能合约也是可以重复使用的程序。每次智能合约获得互动指令时,都会产生该互动的记录,并由 Ethereum 协议以日志的形式记录在区块链上,而这些日志则构成了智能合约活动的可靠信息来源。

当智能合同执行一个特定函数时,例如烧毁 ERC-20 Stablecoin 以将其从流通中移除,该函数及其参数将作为交易日志记录在区块链上。

在下面的交易中,USDC Stablecoin 的发行商 Circle 烧毁了价值 1056.92 美元的 USDC。

如果你切换到「日志」标签,你就可以查看交易事件日志,相应的字段为

· 地址:智能合约的合约地址。USDC Stablecoin 的合约地址是0xa0b86991c6218b36c1d19d4a2e9eb0ce3606eb48

· 名称:智能合约执行的函数,以及该函数中的参数。在这里,智能合约正在调用烧毁函数,该函数接收的参数指定了所烧毁币的发送地点(例如燃烧池,必须是 Ethereum 地址)和烧毁币的数量(其金额必须是小于 256 位的无符号整数)。

Etherscan 的输出结果还会显示主题和数据字段,这些字段包含了我们在分析交易时需要解析的大部分相关信息。

· Topic0 是函数签名的哈希值。从本质上讲,它会将函数及其参数经由单向算法得到一个唯一的函数哈希值。Ethereum 使用的是 Keccak-256 哈希函数,当你通过 Keccak-256 算法输入函数签名时,它总是会产生相同的哈希值,所以任何时候该哈希值出现在日志中,你都能确信是调用了同一个函数。

· Topic1 是烧毁函数的一个索引参数。在这里,Topic1 是烧毁的 Token 被发往的地址。(注意:如果烧毁函数有更多的参数,这些参数将作为额外的主题出现)

· 这里的数据字段表示所烧毁 Token 的数量。

既然我们已经了解了链上数据的基本结构,就可以开始从 Dune 和 GCP 中提取数据了。

IV. 提取并处理链上数据的基本工具

如前所述,在这个例子中,我选择从现有数据库中提取链上数据,而不是访问 Ethereum 网络上的活动节点。为了便于理解,我使用 SQL 从 GCP 提取了大量原始数据表格,然后在 Python 中使用 pandas 库对其进行清理。

当我们从 GCP 提取表格时,我们将使用 BigQuery,它储存有很多 Ethereum 的数据表,如下图左边一栏所示。当你点击一个表格时,相应的数据库模式就会出现,就如下图中的 ethereum.logs 表。与此同时,其中涉及的地址、数据和主题都会记录到日志数据中去。

下图中的查询语句将用于提取日志表中涉及与 USDC、Tether USD、Binance USD、Pax Dollar 或 Gemini Dollar 合约互动的所有记录。除了 ethereum.logs 中的信息外,一些额外的信息也很有用,所以我还合并了 ethereum.block 表中的数据,其中涵盖了 Gas 费等信息。

得到的表格可以直接由 Python 读取,并借助 pandas 数据框架细分为以下字段:

· log_index

· transaction_hash

· transaction_index

· address

· data

· topics

· block_timestamp

· block_number

· block_hash

· number

· miner

· size

· gas_limit

· gas_used

· base_fee_per_gas

这些字段中的大多数都可以直接使用,不过第三节中讨论的主题字段需要用 Python 进行一些额外的清理,以便将其分成多列。

V. 结语

这篇文章使用的是 Ethereum 的日志数据,同样的方法也可以用来访问链上的各种数据。Python 和 SQL 是大多数经济学家和政策制定者所熟悉的工具,它们可以发挥很大作用。与传统金融相比,Crypto 更具透明度。这样一来,研究人员就可以利用实时数据来阐明金融体系的运作方式,并及时控制住可能出现的风险。

24小时热点

狗狗币一夜暴涨700倍创下历史新高!

最近一段时间狗狗币暴涨幅度达到700倍,出现了巨大的涨幅,这 ...

3186796

波场区块链浏览器

诈骗披露:成功学周文强

又一个“成功学”大师周文强翻车 你想一夜暴富吗?你想年薪百 ...

3855809

Lazy Lions

链圈打诈之缅北将女子虐待打傻后开火车、四轮定位

缅北将女子虐待打傻后遣返,不能正常进食享受电击,回国时人已疯 ...

1481976

抹茶

链圈打诈之缅北十大酷刑之:吃冰棍

吃冰棍 对女孩的另一种残忍惩罚,先用模型注水放进冰箱 ...

2406116

中币交易所

2024年美元兑人民币汇率预测:会涨到8元吗?市场密切关注

2024年美元兑人民币汇率吸引了许多投资者的关注,涨到8元的 ...

4251335

波场区块链浏览器

F8Coin货币交易所交易量如何?

F8Coin是一种加密货币,它是在比特币发展了八年之后推出的 ...

209901

YoBit

中国十大传销币之:派币(π币、pi币、pi network、兀币)

是骗局。pi币”的数字货币,有不少人在购买,不知道是不是所谓 ...

692511

中值联资讯

链圈打诈:缅北恐怖视频截图

缅北诈骗集团真实画面,电击剁手只算最轻惩罚,自杀都成一种奢望 ...

949949

ZPLAN元宇宙

链圈打诈之缅北十大酷刑之:开火车

缅北美梦,女性酷刑:吃冰棍,开火车,喝珍珠奶茶... ...

1640641

ZT GLOBAL 交易所

Token在线解析

Token在线解析是一种在线token解析工具,可以帮助用户 ...

1228410

IOST

热点专题

2024年美元兑人民币汇率预测:会涨到8元吗?市场密切关注

2024年美元兑人民币汇率吸引了许多投资者的关注,涨到8元的 ...

4247167

波场区块链浏览器

诈骗披露:成功学周文强

又一个“成功学”大师周文强翻车 你想一夜暴富吗?你想年薪百 ...

3855530

Lazy Lions

狗狗币一夜暴涨700倍创下历史新高!

最近一段时间狗狗币暴涨幅度达到700倍,出现了巨大的涨幅,这 ...

3186312

波场区块链浏览器

专门忽悠企业家的中国十大骗子大师

区块链网创立于2015年初,为国内第一批有资质的区块链媒体, ...

2825546

希壤

中国十大骗局之pi network(π币、pi币、派币、兀币)

中国十大骗局之pi network(π币、pi币、派币、兀币 ...

2578800

Gemini 交易所

2023年打假总结:Pi Network项目的传销性质Pi币

曾经,号称“走路就能赚钱”拥有大量用户和广泛影响的国内APP ...

2471845

文昌链

国内460种传销币套路和骗子币名单大曝光

打着区块链旗号,以聚集性传销、网络传销为手段,以每枚3元的价 ...

2173330

Coin Metrics

原力元宇宙佛萨奇骗局

原力元宇宙佛萨奇骗局是一种不可思议的幻想计划,它由一群英勇可 ...

2108576

聚币网

柴犬币SHIB来了

因其可爱形象和马斯克代言,近段时间最耀眼的加密货币非狗狗币莫 ...

1295270

Luart

链圈打诈:3000名解放军去缅甸真的假的?

3000名解放军去缅甸这个是假新闻,出兵这是个大问题,如果我 ...

1231199

a16z