Agent Skill现在非常火热,但是想要用好它可不简单,推荐当前最火热的20篇关于Agent Skill的论文,一起学习Agent Skill前沿最新研究成果。

论文列表

1. Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

  • 作者:Lijia Lv, Xuehai Tang, Jie Wen, Jizhong Han, Songlin Hu
  • 时间:2026-04-28
  • 关注热点:Agent Skill 安全审计、三分类鲁棒性、跨文件安全审查、语义保全重写攻防
  • 创新性 — 提出 SkillGuard-Robust 框架,将 skill 预加载审计形式化为鲁棒三分类任务,在 404 包测试集达 97.30% 整体匹配率,恶意风险召回率 98.33%
  • 链接PDF

2. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

  • 作者:Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu
  • 时间:2026-04-27(2026-04-28 更新)
  • 关注热点:Skill 结构化表示、SSL 表示框架、技能发现、风险评估、知识表示
  • 创新性 — 首次提出 Scheduling-Structural-Logical(SSL)结构化表示,将 skill 调度信号、执行结构与动作证据解耦;Skill Discovery MRR 从 0.573 提升至 0.707
  • 链接PDF

3. ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation

  • 作者:Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin
  • 时间:2026-04-27
  • 关注热点:Skill 蒸馏、代价感知追踪、TraceCard、反事实剪枝、成本优化
  • 创新性 — 引入 per-step USD 成本标注与 TraceCard 机制,提出 Preserve/Prune/Repair 三类 skill patch,剪枝规则跨 benchmark 迁移可降低中位成本 32%
  • 链接PDF

4. MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

  • 作者:Yingyong Hou, Xinyuan Lao, Huimei Wang 等(13 人)
  • 时间:2026-04-22
  • 关注热点:医学领域 Skill 审计、部署前质量评估、科学完整性、领域专用评估框架
  • 创新性 — 将通用 skill 审计移植到医学研究场景,提出分层评分框架;ICC(2,1)=0.449 超越人工标注一致性 0.300,但 Academic Writing 类存在结构性负相关问题
  • 链接PDF

5. SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

  • 作者:Shanshan Zhong, Yi Lu, Jingjie Ning, Yibing Wan 等(10 人)
  • 时间:2026-04-22
  • 关注热点:Skill 持续学习基准、技能自动生成、自反馈 vs 外部反馈、真实任务评估
  • 创新性 — 首个专注 skill 持续学习的基准(20 个验证任务,15 个子领域,三层评估),揭示了自反馈单独使用会导致递归漂移等非显而易见的问题
  • 链接PDF

6. Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution

  • 作者:Sampriti Saha, Pranav Hemanth
  • 时间:2026-04-18
  • 关注热点:Skill 包管理器、分层作用域分发、Skillset 抽象、MCP 服务器、格式规范验证
  • 创新性 — 提出 compiler-style 格式合规评分和 skillset 捆绑抽象,TypeScript CLI 实现;更偏工程贡献,理论创新度有限
  • 链接PDF

  • 作者:Chenyi Huang, Haoting Zhang, Jingxu Xu, Zeyu Zheng, Yunduan Lin
  • 时间:2026-04-17
  • 关注热点:双层优化、MCTS、Skill 结构优化、内容优化、运筹学问答
  • 创新性 — 将 skill 优化形式化为双层优化问题,外层 MCTS 决定 skill 结构,内层精化组件内容;框架设计新颖,结构-内容联合优化思路突破已有方法
  • 链接PDF

8. Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

  • 作者:Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh
  • 时间:2026-04-16
  • 关注热点:知识蒸馏为 Skill、层级导航 RAG、企业知识库、Corpus2Skill、主动检索
  • 创新性 — 将文档语料离线编译为可导航的层级 skill 目录,Agent 在服务时通过 skill 树主动导航而非被动检索;在企业 RAG 基准超越 RAPTOR 等基线
  • 链接PDF

9. BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

  • 作者:Guiyao Tie, Jiawen Shi, Pan Zhou, Lichao Sun
  • 时间:2026-04-10
  • 关注热点:后门攻击、Skill 内嵌模型、供应链风险、语义触发器、模型毒化
  • 创新性 — 首次定义 model-in-skill 威胁面(skill 包内嵌恶意微调模型),8 种架构平均攻击成功率高达 99.5%,仅需 3% 毒化率即可达到 91.7% ASR
  • 链接PDF

10. SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

  • 作者:Jingzhi Gong, Ruizhen Gu, Zhiwei Fei 等(10 人)
  • 时间:2026-04-10
  • 关注热点:多目标优化、NSGA-II、Skill Bundle 进化、软件工程、成本-质量权衡
  • 创新性 — 将 NSGA-II 引入 skill bundle 进化优化,solver/optimizer 双 agent 协作,pass rate 提升最高 131%,成本降低最高 32%
  • 链接PDF

11. SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support

  • 作者:Xingyan Liu, Xiyue Luo, Linyu Li 等(6 人)
  • 时间:2026-04-09
  • 关注热点:领域特化 Skill 生成、自演化、云技术支持、失败驱动精化、知识库接地
  • 创新性 — 端到端 Creation-Evaluation-Refinement 闭环,Failure Analyzer→Skill Diagnostician→Skill Optimizer 三阶段自动诊断,真实 1883 工单验证
  • 链接PDF

12. SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

  • 作者:Yinghan Hou, Zongyou Yang
  • 时间:2026-04-08
  • 关注热点:恶意 Skill 检测、三层分级框架、XGBoost+LLM 联合审查、多 LLM 陪审团投票
  • 创新性 — 三层渐进检测架构(Regex+AST → 单 LLM 四并行子任务 → 多 LLM 投票辩论),在 49592 真实 skill 上 F1=0.800,成本仅 $0.006/skill
  • 链接PDF

13. Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

  • 作者:Dawei Liu, Zongxia Li, Hongyang Du 等(7 人)
  • 时间:2026-04-07(2026-04-09 更新)
  • 关注热点:大规模 Skill 检索、图结构依赖、Personalized PageRank、上下文预算水化、Token 效率
  • 创新性 — 首次用可执行 Skill 图 + Personalized PageRank 做运行时依赖感知检索,平均 reward 提升 43.6%,token 减少 37.8%,支持 200-2000 skill 规模
  • 链接PDF

14. How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

  • 作者:Yujian Liu, Jiabao Ji, Li An 等(6 人)
  • 时间:2026-04-06
  • 关注热点:Skill 实际效用基准、大规模真实 Skill 检索、34k 真实 Skill 集、技能精化策略
  • 创新性 — 首次在 34k 真实 skill 场景下全面评估 skill 实用性,揭示”技能收益在现实设置下显著退化”;精化策略可恢复部分性能
  • 链接PDF

15. SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement

  • 作者:Zenghao Duan, Yuxin Tian, Zhiyi Yin 等(9 人)
  • 时间:2026-04-05
  • 关注热点:Red Teaming、对抗提示、漏洞利用、攻击路径精化、潜在漏洞挖掘
  • 创新性 — 无需修改 skill 本身即可通过对抗提示利用潜在漏洞,闭环攻击路径精化,ASR 0.73-0.93(对抗 skill)
  • 链接PDF

16. SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources

  • 作者:Shuaike Shen, Wenduo Cheng, Mingqian Ma 等(6 人)
  • 时间:2026-04-05
  • 关注热点:异构科学资源挖掘、Skill 自演化库、领域知识树、闭环验证、科学 Agent
  • 创新性 — 自动从 repo/API/notebook/论文挖掘并编译成可执行 skill 包,71.1% skill 与现有库不重复,在 MoSciBench 5/6 数据集上改善 Agent 性能
  • 链接PDF

17. Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems

  • 作者:Yubin Qu, Yi Liu, Tongcheng Geng 等(8 人)
  • 时间:2026-04-03
  • 关注热点:供应链攻击、DDIPE 隐式载荷执行、代码示例注毒、MITRE ATT&CK 分类
  • 创新性 — 提出 DDIPE 将恶意逻辑嵌入 skill 文档的代码示例/配置模板,绕过率 11.6%-33.5%,静态分析后仍有 2.5% 逃逸
  • 链接PDF

18. Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study

  • 作者:Zhihao Chen, Ying Zhang, Yi Liu 等(10 人)
  • 时间:2026-04-03
  • 关注热点:凭证泄露、跨模态分析、调试日志漏洞、提示注入、大规模实证研究
  • 创新性 — 对 17022 个 skill(抽样自 170226)做大规模实证分析,识别 10 种泄露模式,76.3% 泄露需代码+自然语言联合分析;属实证贡献
  • 链接PDF

19. Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

  • 作者:Zhiyuan Li, Jingzheng Wu, Xiang Ling, Xing Cui, Tianyue Luo
  • 时间:2026-04-03
  • 关注热点:Agent Skill 安全架构、威胁分类法、全生命周期分析、数据-指令边界缺失、市场审查缺失
  • 创新性 — 首次对 Agent Skills 框架做系统性安全分析,梳理 7 类 17 种威胁场景,验证 5 起真实安全事件;偏综合性分析
  • 链接PDF

20. CoEvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

  • 作者:Hanrong Zhang, Shicheng Fan, Henry Peng Zou 等(13 人)
  • 时间:2026-04-02(2026-04-13 更新)
  • 关注热点:协同进化、Skill 自动生成、Surrogate Verifier、无标注 Skill 生成、人机认知对齐
  • 创新性 — Skill Generator 与 Surrogate Verifier 协同进化,无需 ground-truth 测试内容即可提供可操作反馈;在 SkillsBench 上超越 5 个基线,迁移到 6 个额外 LLM
  • 链接PDF

🔥 热点研究方向 Top 10

# 方向 出现次数
1 Agent Skill 安全性与攻击防御(审计、后门、红队测试、供应链攻击) 9
2 Skill 自动生成与自演化(CoEvo、SkillForge、SKILLFOUNDRY) 6
3 Skill 结构化表示与检索(SSL 表示、GoS 图检索) 4
4 Skill 优化与多目标进化(双层优化、NSGA-II、SkillMOO) 4
5 Skill 基准评测(SkillLearnBench、Wild Benchmarking) 3
6 领域特化 Skill(医学、云支持、科学研究) 3
7 Skill 蒸馏与代价感知训练(ClawTrace/CostCraft) 2
8 Skill 生态系统与包管理(Skilldex、注册表、MCP) 2
9 凭证泄露与隐私安全 2
10 RAG 与知识导航 Skill(Corpus2Skill、导航式检索) 2

📈 趋势判断

  1. Agent Skill 安全性已成为独立研究方向,且问题远比想象复杂。过去一个月内有近半数论文关注安全,涵盖后门攻击、供应链投毒、红队测试、凭证泄露等多维威胁,且大量研究揭示现有防御手段(静态分析、提示过滤)存在明显盲区,预计安全-鲁棒性方向将持续升温。

  2. Skill 的自演化与闭环精化正在替代人工编写。SkillForge、CoEvoSkills、SKILLFOUNDRY 等研究均指向”让 Agent 自主生成并迭代改进 skill”,核心挑战已从”如何写 skill”转变为”如何自动验证和修正 skill 的质量”。

  3. 大规模 Skill 库下的检索效率问题浮出水面。Graph of Skills(GoS)等工作针对千量级 skill 库,提出图结构依赖感知检索;随着 OpenClaw 等平台 skill 数量突破万量级,该方向研究需求将快速增长。

  4. Skill 的结构化与形式化表示是提升可维护性的关键突破口。SSL 表示与双层优化等工作表明:将 skill 从纯文本提升为结构化形式,可显著提升检索、风险评估和优化效率——这可能是未来 skill 标准化的重要基础。

  5. “Skill 的现实有效性低于预期”正在成为共识。How Well Do Agentic Skills Work in the Wild 等研究揭示,在真实 34k skill 检索场景下 skill 收益大幅退化,SkillLearnBench 也发现更强的 LLM backbone 并不稳定提升 skill 质量——如何弥合”理想基准”与”真实部署”之间的差距,将是下一阶段的核心研究议题。