AI能否在加密领域站稳脚跟?18款大模型的深入评测

在技术的演进过程中,革命性的技术往往单独出现,推动各自领域的变革。而当两种革命性技术相遇时,它们的结合通常会引发指数级的变革。今天,我们正处于这样一个历史时刻:人工智能(AI)与加密技术这两种颠覆性技术正共同走上舞台。

我们期待AI能够解决加密领域中的诸多挑战,实现自主经济网络的构建,推动加密技术的广泛应用。然而,我们对AI在加密领域的实际能力知之甚少。AI究竟能多大程度上理解加密领域?搭载大语言模型的AI是否具备实际操作加密工具的能力?不同模型在加密任务上的表现如何?

本文通过评估18款大语言模型,探讨这些问题的答案,以期揭示AI与加密技术结合的潜力和挑战。

大语言模型在密码学和区块链基础知识方面表现优异,但在数学计算和复杂业务逻辑分析上表现不足。模型能够生成基础的智能合约代码,但对合约审计和复杂合约创建等高难度任务的能力有限。商业闭源模型总体表现较好,开源模型中Llama 3.1-405B表现突出,但参数较小的开源模型普遍不尽如人意。通过提示词引导、思维链推理和少样本学习技术,模型表现有所提升,但仍需进一步优化。

实验细节

本次实验评估了以下18款代表性语言模型:

  • 闭源模型:GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(暂时闭源)
  • 开源模型:Llama 3.1(8B/70B/405B)、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3(3.8B/14B)、Gemma2(9B/27B)、Command-R
  • 数学优化模型:Qwen2-math-72B、MathΣtral

模型参数从3.8B到405B不等。考虑到加密技术与数学的密切关系,实验特别选择了两个数学优化模型。

评估领域涵盖密码学、区块链基础、私钥与钱包操作、智能合约、DAO与治理、共识机制、Dapp/DeFi/NFT、链上数据分析等。测试内容包括易到难的各类问题和任务,评估模型的知识储备和实际应用能力。

主要发现

  • 知识/概念:大语言模型在加密算法、区块链基础知识和DeFi应用等领域表现出色,对基本概念的理解几乎没有难度。

  • 计算/业务逻辑:模型在具体计算任务中的表现不佳,如RSA算法计算题和AMM无常损失题目。数学计算任务需要更多支持,如提供Python代码生成结果。业务逻辑分析能力也有待提高,但通过提示词引导可以改善表现。

  • 私钥管理和钱包操作:大语言模型在私钥生成和管理方面表现良好,能够提供安全建议和代码支持。实际应用中,确保私钥安全需要额外的安全服务和可信执行环境。

  • 智能合约:模型对智能合约的理解和基本操作能力较强,但在识别深层业务逻辑漏洞方面存在不足。需要进一步的工程设计支持以提高合约审计能力。

模型表现

  • 领先模型:GPT-4o和Claude 3.5 Sonnet在基础问题和复杂场景分析中表现卓越。
  • 开源模型:Llama 3.1-405B由于其庞大的参数规模和先进的算法表现突出,其他小规模开源模型表现较差。
  • 特别观察:Phi-3 3.8B在参数量较小的情况下表现出色,Command-R在大多数测试中表现不佳,提示其可能在特定场景下表现更佳。

实验限制

本次实验的测试方法和框架尚不完善,数据集覆盖范围有限,评分标准较为粗略。实验采用零样本学习方法,并未探索思维链条和少样本学习等方法。这些限制影响了对模型潜力的全面评估。

结语

加密领域需要专门的基准测试来评估AI的能力。基准测试能够为开发者提供明确的目标和参考点,推动技术进步。建立加密领域的基准测试是一项复杂且重要的任务,需要广泛的社区参与和共识。未来,本文将进一步探讨加密领域AI基准的具体构建思路和挑战,并继续优化测试模型、丰富数据集、完善评测框架。

24小时热点

热点专题

Gem和Genie功能大对比

2022年4月25日,OpenSea官方发推宣布收购NFT交 ...

2397889

TopHolder 头号藏家

Genie 就是一个 NFT 市场的交易聚合器

Web3 中的「聚合器」是一个非常重要的组件,例如 1inc ...

2363077

嗨艺购

一个pi币现在值多少人民币?pi币2024年可以交易吗?

近年来,加密货币市场迅速发展,各种新型数字资产层出不穷。其中 ...

1625055

Alameda Research

USDT是什么币?新手如何购买和交易?

USDT是什么币?新手如何购买和交易?USDT是什么?USD ...

1301292

Cosmos Art

2024年pi币多少钱一个?介绍pi币历年价格

Pi币是一种新兴的数字货币,它的概念于2019年由一位斯坦福 ...

1287487

Alameda Research

CORE未来能涨到多少钱?core2024大约能涨到多少钱?

在数字货币市场中,CORE 作为一种加密货币,在过去的一段时 ...

878479

BitKeep钱包

欧科集团设立1000万元疫情防治专项基金 联合中华慈善总会共同支援一线防护工作

这个春节,新型冠状病毒疫情牵动着大家的心。1月26日0—24 ...

832338

TokenInsight

举报:PAXG币 (PAX Gold)涉嫌违法?

PAXG币(PAX Gold)是一种基于以太坊区块链网络创建 ...

780914

NewsBTC

什么是Polygon(Matic)网络?

由于网络拥堵仍然是以太坊区块链的一个问题,像Polygon这 ...

774002

树图链

ZT交易所介绍

ZT交易所介绍 ZT是为全球用户提供最优质数字资 ...

759409

ZT GLOBAL 交易所