评测标准

评测标准:PASS / WARN / FAIL

本目录每个条目经过 AI 初筛、实测和人工科研复核。评测结论必须以具体任务、测试数据和行为证据为支撑。

评测结论

PASS

真实任务可用,安装和安全风险可接受。

  • 跨领域可用:不限定特定学科或研究方向,任何科研方向的用户都能使用并复现结果。
  • 可复现:相同输入在不同环境中产生可验证的一致输出。
  • 模型无关:不依赖特定模型的多模态能力;纯文本模型即可完成核心任务(若需要多模态则必须在边界中明确标注,并降级为 WARN)。
  • 安装透明:安装步骤清晰、无需付费服务、无隐性收费陷阱。

WARN

有价值,但存在边界、门槛或风险提示。

  • 领域特定:仅适用于特定研究方向(如 ML、计算化学),非该领域用户无法使用。
  • 模型依赖:核心功能依赖多模态模型,纯文本模型无法完成或有明显质量下降。
  • 有明显缺陷但可补救:单独使用效果不稳定,但配合其他插件/工具可满足科研需求。
  • 权限或依赖门槛:需要较高配置成本、依赖特定版本或网络环境。

FAIL

不可复现、误导、风险不透明或不适合严肃科研使用。

  • 宣称的能力无法在实际科研任务中完成。
  • 故意隐瞒安全风险、联网需求或付费模式。
  • 纯付费版清洗或销售导向,不适合严肃科研使用。

安装难度量化标准

一键安装,无需额外配置

  • 通过平台内置的 skill-installer 一键安装,或单条命令完成。
  • 不需要申请和配置第三方 API key。
  • 不需要安装额外运行时依赖(Python 包、Node 包等)。
  • 安装后无需联网即可使用核心功能。
  • 示例:纯文本润色 skill,安装后离线可用。

需要 git clone 或配置 API key 或安装依赖

  • 需要 git clone 仓库并手动复制文件到 skills 目录。
  • 或需要注册并配置第三方 API key(如 LLM 提供商)。
  • 或需要安装额外运行时依赖(pip install / npm install)。
  • 示例:需要 GitHub API token 的文献检索 skill。

需要多项配置或硬件要求

  • 需要同时满足 API key + 外部依赖 + 环境变量配置。
  • 或需要 GPU 等特定硬件。
  • 或依赖付费服务(API 按量计费、订阅制等)。
  • 示例:需要 GPU 集群和多个 API key 的自动实验 skill。

审核流程

  1. AI 初筛(自动):检查 Manifest 完整性、依赖和权限声明;反对重叠或欺骗性声明。
  2. AI 实测(自动):在实际科研任务中运行 Skill;记录输入、输出和异常;pass 才能进入下一步。
  3. 人工复核(手动):科研人员验证任务完成质量、科学边界和安全风险;发布结论。

当前审核方法

ai-static-reviewai-test-runhuman-research-review

后续版本会引入审核记录,包括 AI 初筛日期、测试报告节选和人工复核签名。

审核细节

审核证据包括:

  • AI 审核报告:AI 质量评估或重构记录。
  • AI 测试报告:实际运行输出、任务完成质量和异常情况。
  • 人工复核记录:科研人员验证证据、边界和风险。

版本计划

  1. First release:AI 初筛和实测,人工复核。评测结论在详情页显示。
  2. 自动人工审核周期:审核记录、时间戳、人工复核证据节选。
  3. AI 通过/不通过报告查看:AI 评估最终 AI 审核报告和 PASS/WARN/FAIL 标签。
  4. 审核队列 FE:审核状态跟踪和项目管理视图。