在技术的演进过程中,革命性的技术往往单独出现,推动各自领域的变革。而当两种革命性技术相遇时,它们的结合通常会引发指数级的变革。今天,我们正处于这样一个历史时刻:人工智能(AI)与加密技术这两种颠覆性技术正共同走上舞台。
我们期待AI能够解决加密领域中的诸多挑战,实现自主经济网络的构建,推动加密技术的广泛应用。然而,我们对AI在加密领域的实际能力知之甚少。AI究竟能多大程度上理解加密领域?搭载大语言模型的AI是否具备实际操作加密工具的能力?不同模型在加密任务上的表现如何?
本文通过评估18款大语言模型,探讨这些问题的答案,以期揭示AI与加密技术结合的潜力和挑战。
大语言模型在密码学和区块链基础知识方面表现优异,但在数学计算和复杂业务逻辑分析上表现不足。模型能够生成基础的智能合约代码,但对合约审计和复杂合约创建等高难度任务的能力有限。商业闭源模型总体表现较好,开源模型中Llama 3.1-405B表现突出,但参数较小的开源模型普遍不尽如人意。通过提示词引导、思维链推理和少样本学习技术,模型表现有所提升,但仍需进一步优化。
实验细节
本次实验评估了以下18款代表性语言模型:
模型参数从3.8B到405B不等。考虑到加密技术与数学的密切关系,实验特别选择了两个数学优化模型。
评估领域涵盖密码学、区块链基础、私钥与钱包操作、智能合约、DAO与治理、共识机制、Dapp/DeFi/NFT、链上数据分析等。测试内容包括易到难的各类问题和任务,评估模型的知识储备和实际应用能力。
主要发现
知识/概念:大语言模型在加密算法、区块链基础知识和DeFi应用等领域表现出色,对基本概念的理解几乎没有难度。
计算/业务逻辑:模型在具体计算任务中的表现不佳,如RSA算法计算题和AMM无常损失题目。数学计算任务需要更多支持,如提供Python代码生成结果。业务逻辑分析能力也有待提高,但通过提示词引导可以改善表现。
私钥管理和钱包操作:大语言模型在私钥生成和管理方面表现良好,能够提供安全建议和代码支持。实际应用中,确保私钥安全需要额外的安全服务和可信执行环境。
智能合约:模型对智能合约的理解和基本操作能力较强,但在识别深层业务逻辑漏洞方面存在不足。需要进一步的工程设计支持以提高合约审计能力。
模型表现
实验限制
本次实验的测试方法和框架尚不完善,数据集覆盖范围有限,评分标准较为粗略。实验采用零样本学习方法,并未探索思维链条和少样本学习等方法。这些限制影响了对模型潜力的全面评估。
结语
加密领域需要专门的基准测试来评估AI的能力。基准测试能够为开发者提供明确的目标和参考点,推动技术进步。建立加密领域的基准测试是一项复杂且重要的任务,需要广泛的社区参与和共识。未来,本文将进一步探讨加密领域AI基准的具体构建思路和挑战,并继续优化测试模型、丰富数据集、完善评测框架。