Agent Skill最新研究论文推荐

Agent Skill现在非常火热，但是想要用好它可不简单，推荐当前最火热的20篇关于Agent Skill的论文，一起学习Agent Skill前沿最新研究成果。

论文列表

1. Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

作者：Lijia Lv, Xuehai Tang, Jie Wen, Jizhong Han, Songlin Hu
时间：2026-04-28
关注热点：Agent Skill 安全审计、三分类鲁棒性、跨文件安全审查、语义保全重写攻防
创新性：高 — 提出 SkillGuard-Robust 框架，将 skill 预加载审计形式化为鲁棒三分类任务，在 404 包测试集达 97.30% 整体匹配率，恶意风险召回率 98.33%
链接：PDF

2. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

作者：Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu
时间：2026-04-27（2026-04-28 更新）
关注热点：Skill 结构化表示、SSL 表示框架、技能发现、风险评估、知识表示
创新性：高 — 首次提出 Scheduling-Structural-Logical（SSL）结构化表示，将 skill 调度信号、执行结构与动作证据解耦；Skill Discovery MRR 从 0.573 提升至 0.707
链接：PDF

3. ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation

作者：Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin
时间：2026-04-27
关注热点：Skill 蒸馏、代价感知追踪、TraceCard、反事实剪枝、成本优化
创新性：高 — 引入 per-step USD 成本标注与 TraceCard 机制，提出 Preserve/Prune/Repair 三类 skill patch，剪枝规则跨 benchmark 迁移可降低中位成本 32%
链接：PDF

4. MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

作者：Yingyong Hou, Xinyuan Lao, Huimei Wang 等（13 人）
时间：2026-04-22
关注热点：医学领域 Skill 审计、部署前质量评估、科学完整性、领域专用评估框架
创新性：中 — 将通用 skill 审计移植到医学研究场景，提出分层评分框架；ICC(2,1)=0.449 超越人工标注一致性 0.300，但 Academic Writing 类存在结构性负相关问题
链接：PDF

5. SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

作者：Shanshan Zhong, Yi Lu, Jingjie Ning, Yibing Wan 等（10 人）
时间：2026-04-22
关注热点：Skill 持续学习基准、技能自动生成、自反馈 vs 外部反馈、真实任务评估
创新性：高 — 首个专注 skill 持续学习的基准（20 个验证任务，15 个子领域，三层评估），揭示了自反馈单独使用会导致递归漂移等非显而易见的问题
链接：PDF

6. Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution

作者：Sampriti Saha, Pranav Hemanth
时间：2026-04-18
关注热点：Skill 包管理器、分层作用域分发、Skillset 抽象、MCP 服务器、格式规范验证
创新性：中 — 提出 compiler-style 格式合规评分和 skillset 捆绑抽象，TypeScript CLI 实现；更偏工程贡献，理论创新度有限
链接：PDF

7. Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

作者：Chenyi Huang, Haoting Zhang, Jingxu Xu, Zeyu Zheng, Yunduan Lin
时间：2026-04-17
关注热点：双层优化、MCTS、Skill 结构优化、内容优化、运筹学问答
创新性：高 — 将 skill 优化形式化为双层优化问题，外层 MCTS 决定 skill 结构，内层精化组件内容；框架设计新颖，结构-内容联合优化思路突破已有方法
链接：PDF

8. Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

作者：Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh
时间：2026-04-16
关注热点：知识蒸馏为 Skill、层级导航 RAG、企业知识库、Corpus2Skill、主动检索
创新性：高 — 将文档语料离线编译为可导航的层级 skill 目录，Agent 在服务时通过 skill 树主动导航而非被动检索；在企业 RAG 基准超越 RAPTOR 等基线
链接：PDF

9. BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

作者：Guiyao Tie, Jiawen Shi, Pan Zhou, Lichao Sun
时间：2026-04-10
关注热点：后门攻击、Skill 内嵌模型、供应链风险、语义触发器、模型毒化
创新性：高 — 首次定义 model-in-skill 威胁面（skill 包内嵌恶意微调模型），8 种架构平均攻击成功率高达 99.5%，仅需 3% 毒化率即可达到 91.7% ASR
链接：PDF

10. SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

作者：Jingzhi Gong, Ruizhen Gu, Zhiwei Fei 等（10 人）
时间：2026-04-10
关注热点：多目标优化、NSGA-II、Skill Bundle 进化、软件工程、成本-质量权衡
创新性：高 — 将 NSGA-II 引入 skill bundle 进化优化，solver/optimizer 双 agent 协作，pass rate 提升最高 131%，成本降低最高 32%
链接：PDF

11. SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support

作者：Xingyan Liu, Xiyue Luo, Linyu Li 等（6 人）
时间：2026-04-09
关注热点：领域特化 Skill 生成、自演化、云技术支持、失败驱动精化、知识库接地
创新性：高 — 端到端 Creation-Evaluation-Refinement 闭环，Failure Analyzer→Skill Diagnostician→Skill Optimizer 三阶段自动诊断，真实 1883 工单验证
链接：PDF

12. SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

作者：Yinghan Hou, Zongyou Yang
时间：2026-04-08
关注热点：恶意 Skill 检测、三层分级框架、XGBoost+LLM 联合审查、多 LLM 陪审团投票
创新性：高 — 三层渐进检测架构（Regex+AST → 单 LLM 四并行子任务 → 多 LLM 投票辩论），在 49592 真实 skill 上 F1=0.800，成本仅 $0.006/skill
链接：PDF

13. Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

作者：Dawei Liu, Zongxia Li, Hongyang Du 等（7 人）
时间：2026-04-07（2026-04-09 更新）
关注热点：大规模 Skill 检索、图结构依赖、Personalized PageRank、上下文预算水化、Token 效率
创新性：高 — 首次用可执行 Skill 图 + Personalized PageRank 做运行时依赖感知检索，平均 reward 提升 43.6%，token 减少 37.8%，支持 200-2000 skill 规模
链接：PDF

14. How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

作者：Yujian Liu, Jiabao Ji, Li An 等（6 人）
时间：2026-04-06
关注热点：Skill 实际效用基准、大规模真实 Skill 检索、34k 真实 Skill 集、技能精化策略
创新性：中 — 首次在 34k 真实 skill 场景下全面评估 skill 实用性，揭示”技能收益在现实设置下显著退化”；精化策略可恢复部分性能
链接：PDF

作者：Zenghao Duan, Yuxin Tian, Zhiyi Yin 等（9 人）
时间：2026-04-05
关注热点：Red Teaming、对抗提示、漏洞利用、攻击路径精化、潜在漏洞挖掘
创新性：高 — 无需修改 skill 本身即可通过对抗提示利用潜在漏洞，闭环攻击路径精化，ASR 0.73-0.93（对抗 skill）
链接：PDF

16. SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources

作者：Shuaike Shen, Wenduo Cheng, Mingqian Ma 等（6 人）
时间：2026-04-05
关注热点：异构科学资源挖掘、Skill 自演化库、领域知识树、闭环验证、科学 Agent
创新性：高 — 自动从 repo/API/notebook/论文挖掘并编译成可执行 skill 包，71.1% skill 与现有库不重复，在 MoSciBench 5/6 数据集上改善 Agent 性能
链接：PDF

17. Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems

作者：Yubin Qu, Yi Liu, Tongcheng Geng 等（8 人）
时间：2026-04-03
关注热点：供应链攻击、DDIPE 隐式载荷执行、代码示例注毒、MITRE ATT&CK 分类
创新性：高 — 提出 DDIPE 将恶意逻辑嵌入 skill 文档的代码示例/配置模板，绕过率 11.6%-33.5%，静态分析后仍有 2.5% 逃逸
链接：PDF

18. Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study

作者：Zhihao Chen, Ying Zhang, Yi Liu 等（10 人）
时间：2026-04-03
关注热点：凭证泄露、跨模态分析、调试日志漏洞、提示注入、大规模实证研究
创新性：中 — 对 17022 个 skill（抽样自 170226）做大规模实证分析，识别 10 种泄露模式，76.3% 泄露需代码+自然语言联合分析；属实证贡献
链接：PDF

19. Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

作者：Zhiyuan Li, Jingzheng Wu, Xiang Ling, Xing Cui, Tianyue Luo
时间：2026-04-03
关注热点：Agent Skill 安全架构、威胁分类法、全生命周期分析、数据-指令边界缺失、市场审查缺失
创新性：中 — 首次对 Agent Skills 框架做系统性安全分析，梳理 7 类 17 种威胁场景，验证 5 起真实安全事件；偏综合性分析
链接：PDF

20. CoEvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

作者：Hanrong Zhang, Shicheng Fan, Henry Peng Zou 等（13 人）
时间：2026-04-02（2026-04-13 更新）
关注热点：协同进化、Skill 自动生成、Surrogate Verifier、无标注 Skill 生成、人机认知对齐
创新性：高 — Skill Generator 与 Surrogate Verifier 协同进化，无需 ground-truth 测试内容即可提供可操作反馈；在 SkillsBench 上超越 5 个基线，迁移到 6 个额外 LLM
链接：PDF

🔥 热点研究方向 Top 10

#	方向	出现次数
1	Agent Skill 安全性与攻击防御（审计、后门、红队测试、供应链攻击）	9
2	Skill 自动生成与自演化（CoEvo、SkillForge、SKILLFOUNDRY）	6
3	Skill 结构化表示与检索（SSL 表示、GoS 图检索）	4
4	Skill 优化与多目标进化（双层优化、NSGA-II、SkillMOO）	4
5	Skill 基准评测（SkillLearnBench、Wild Benchmarking）	3
6	领域特化 Skill（医学、云支持、科学研究）	3
7	Skill 蒸馏与代价感知训练（ClawTrace/CostCraft）	2
8	Skill 生态系统与包管理（Skilldex、注册表、MCP）	2
9	凭证泄露与隐私安全	2
10	RAG 与知识导航 Skill（Corpus2Skill、导航式检索）	2

📈 趋势判断

Agent Skill 安全性已成为独立研究方向，且问题远比想象复杂。过去一个月内有近半数论文关注安全，涵盖后门攻击、供应链投毒、红队测试、凭证泄露等多维威胁，且大量研究揭示现有防御手段（静态分析、提示过滤）存在明显盲区，预计安全-鲁棒性方向将持续升温。
Skill 的自演化与闭环精化正在替代人工编写。SkillForge、CoEvoSkills、SKILLFOUNDRY 等研究均指向”让 Agent 自主生成并迭代改进 skill”，核心挑战已从”如何写 skill”转变为”如何自动验证和修正 skill 的质量”。
大规模 Skill 库下的检索效率问题浮出水面。Graph of Skills（GoS）等工作针对千量级 skill 库，提出图结构依赖感知检索；随着 OpenClaw 等平台 skill 数量突破万量级，该方向研究需求将快速增长。
Skill 的结构化与形式化表示是提升可维护性的关键突破口。SSL 表示与双层优化等工作表明：将 skill 从纯文本提升为结构化形式，可显著提升检索、风险评估和优化效率——这可能是未来 skill 标准化的重要基础。
“Skill 的现实有效性低于预期”正在成为共识。How Well Do Agentic Skills Work in the Wild 等研究揭示，在真实 34k skill 检索场景下 skill 收益大幅退化，SkillLearnBench 也发现更强的 LLM backbone 并不稳定提升 skill 质量——如何弥合”理想基准”与”真实部署”之间的差距，将是下一阶段的核心研究议题。

论文列表

1. Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

2. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

3. ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation

4. MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

5. SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

6. Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution

7. Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

8. Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

9. BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

10. SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

11. SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support

12. SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

13. Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

14. How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

15. SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement

16. SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources

17. Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems

18. Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study

19. Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

20. CoEvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

🔥 热点研究方向 Top 10

📈 趋势判断