AI能否在加密领域站稳脚跟？18款大模型的深入评测

AI能否在加密领域站稳脚跟？18款大模型的深入评测

在技术的演进过程中，革命性的技术往往单独出现，推动各自领域的变革。而当两种革命性技术相遇时，它们的结合通常会引发指数级的变革。今天，我们正处于这样一个历史时刻：人工智能（AI）与加密技术这两种颠覆性技术正共同走上舞台。

我们期待AI能够解决加密领域中的诸多挑战，实现自主经济网络的构建，推动加密技术的广泛应用。然而，我们对AI在加密领域的实际能力知之甚少。AI究竟能多大程度上理解加密领域？搭载大语言模型的AI是否具备实际操作加密工具的能力？不同模型在加密任务上的表现如何？

本文通过评估18款大语言模型，探讨这些问题的答案，以期揭示AI与加密技术结合的潜力和挑战。

大语言模型在密码学和区块链基础知识方面表现优异，但在数学计算和复杂业务逻辑分析上表现不足。模型能够生成基础的智能合约代码，但对合约审计和复杂合约创建等高难度任务的能力有限。商业闭源模型总体表现较好，开源模型中Llama 3.1-405B表现突出，但参数较小的开源模型普遍不尽如人意。通过提示词引导、思维链推理和少样本学习技术，模型表现有所提升，但仍需进一步优化。

实验细节

本次实验评估了以下18款代表性语言模型：

闭源模型：GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta（暂时闭源）
开源模型：Llama 3.1（8B/70B/405B）、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3（3.8B/14B）、Gemma2（9B/27B）、Command-R
数学优化模型：Qwen2-math-72B、MathΣtral

模型参数从3.8B到405B不等。考虑到加密技术与数学的密切关系，实验特别选择了两个数学优化模型。

评估领域涵盖密码学、区块链基础、私钥与钱包操作、智能合约、DAO与治理、共识机制、Dapp/DeFi/NFT、链上数据分析等。测试内容包括易到难的各类问题和任务，评估模型的知识储备和实际应用能力。

主要发现

知识/概念：大语言模型在加密算法、区块链基础知识和DeFi应用等领域表现出色，对基本概念的理解几乎没有难度。
计算/业务逻辑：模型在具体计算任务中的表现不佳，如RSA算法计算题和AMM无常损失题目。数学计算任务需要更多支持，如提供Python代码生成结果。业务逻辑分析能力也有待提高，但通过提示词引导可以改善表现。
私钥管理和钱包操作：大语言模型在私钥生成和管理方面表现良好，能够提供安全建议和代码支持。实际应用中，确保私钥安全需要额外的安全服务和可信执行环境。
智能合约：模型对智能合约的理解和基本操作能力较强，但在识别深层业务逻辑漏洞方面存在不足。需要进一步的工程设计支持以提高合约审计能力。

模型表现

领先模型：GPT-4o和Claude 3.5 Sonnet在基础问题和复杂场景分析中表现卓越。
开源模型：Llama 3.1-405B由于其庞大的参数规模和先进的算法表现突出，其他小规模开源模型表现较差。
特别观察：Phi-3 3.8B在参数量较小的情况下表现出色，Command-R在大多数测试中表现不佳，提示其可能在特定场景下表现更佳。

实验限制

本次实验的测试方法和框架尚不完善，数据集覆盖范围有限，评分标准较为粗略。实验采用零样本学习方法，并未探索思维链条和少样本学习等方法。这些限制影响了对模型潜力的全面评估。

结语

加密领域需要专门的基准测试来评估AI的能力。基准测试能够为开发者提供明确的目标和参考点，推动技术进步。建立加密领域的基准测试是一项复杂且重要的任务，需要广泛的社区参与和共识。未来，本文将进一步探讨加密领域AI基准的具体构建思路和挑战，并继续优化测试模型、丰富数据集、完善评测框架。

本文来源： 波场区块链浏览器

声明：本文由入驻区块链网的作者撰写，观点仅代表作者本人，绝不代表区块链网赞同其观点或证实其描述。

提示：投资有风险，入市须谨慎。本资讯不作为投资理财建议。

侵权：如发现文章侵权或者资讯不实，请发电邮jubao@qklw.com举报，平台查证后将第一时间处理。

关于区块链网发文章的介绍：

一、用户根据资质共为分五级：由低到高为C级、B级、A级、A+级、A++级，每天对应的免费发文数量为：3篇、5篇、20篇、40篇、100篇。
二、等级划分：个人用户初始为C级，企业用户初始为B级，个人用户和企业用户都根据文章质量晋升，企业用户晋升速度比个人用户快三倍，个人用户发布的文章不可顶置，不推荐第三方搜索引擎收录。
三、包含联络方式的文章（或者软文）只能发布在《企业快讯》频道下面的区新闻、区行情、区观察、区技术、区评分、区百科栏目里。
四、A级以下用户无法发布文章到区块链网的官方频道即：24小时快讯、打假、头条、百科频道。
五、文章至少一张图片（如果不上传封面，这张图片默认为封面），不可盗其它平台图片，但可以截图到本站，系统会自动上传。
六、发布优秀文章可以赚RMB，RMB可用于发布广告或软文，优秀文章指的是区块链业内新闻、打假资讯、技术分享、原创经验、百科知识等文章。
七、不管任何情况下，违反《平台协议》的文章将被删除，用户投诉经核实后亦会被删除。