评测标准

评测标准：PASS / WARN / FAIL

本目录每个条目经过 AI 初筛、实测和人工科研复核。评测结论必须以具体任务、测试数据和行为证据为支撑。

评测结论

PASS

真实任务可用，安装和安全风险可接受。

跨领域可用：不限定特定学科或研究方向，任何科研方向的用户都能使用并复现结果。
可复现：相同输入在不同环境中产生可验证的一致输出。
模型无关：不依赖特定模型的多模态能力；纯文本模型即可完成核心任务（若需要多模态则必须在边界中明确标注，并降级为 WARN）。
安装透明：安装步骤清晰、无需付费服务、无隐性收费陷阱。

WARN

有价值，但存在边界、门槛或风险提示。

领域特定：仅适用于特定研究方向（如 ML、计算化学），非该领域用户无法使用。
模型依赖：核心功能依赖多模态模型，纯文本模型无法完成或有明显质量下降。
有明显缺陷但可补救：单独使用效果不稳定，但配合其他插件/工具可满足科研需求。
权限或依赖门槛：需要较高配置成本、依赖特定版本或网络环境。

FAIL

不可复现、误导、风险不透明或不适合严肃科研使用。

宣称的能力无法在实际科研任务中完成。
故意隐瞒安全风险、联网需求或付费模式。
纯付费版清洗或销售导向，不适合严肃科研使用。

安装难度量化标准

低

一键安装，无需额外配置

通过平台内置的 skill-installer 一键安装，或单条命令完成。
不需要申请和配置第三方 API key。
不需要安装额外运行时依赖（Python 包、Node 包等）。
安装后无需联网即可使用核心功能。
示例：纯文本润色 skill，安装后离线可用。

中

需要 git clone 或配置 API key 或安装依赖

需要 git clone 仓库并手动复制文件到 skills 目录。
或需要注册并配置第三方 API key（如 LLM 提供商）。
或需要安装额外运行时依赖（pip install / npm install）。
示例：需要 GitHub API token 的文献检索 skill。

高

需要多项配置或硬件要求

需要同时满足 API key + 外部依赖 + 环境变量配置。
或需要 GPU 等特定硬件。
或依赖付费服务（API 按量计费、订阅制等）。
示例：需要 GPU 集群和多个 API key 的自动实验 skill。

审核流程

AI 初筛（自动）：检查 Manifest 完整性、依赖和权限声明；反对重叠或欺骗性声明。
AI 实测（自动）：在实际科研任务中运行 Skill；记录输入、输出和异常；pass 才能进入下一步。
人工复核（手动）：科研人员验证任务完成质量、科学边界和安全风险；发布结论。

当前审核方法

ai-static-reviewai-test-runhuman-research-review

后续版本会引入审核记录，包括 AI 初筛日期、测试报告节选和人工复核签名。

审核细节

审核证据包括：

AI 审核报告：AI 质量评估或重构记录。
AI 测试报告：实际运行输出、任务完成质量和异常情况。
人工复核记录：科研人员验证证据、边界和风险。

版本计划

First release：AI 初筛和实测，人工复核。评测结论在详情页显示。
自动人工审核周期：审核记录、时间戳、人工复核证据节选。
AI 通过/不通过报告查看：AI 评估最终 AI 审核报告和 PASS/WARN/FAIL 标签。
审核队列 FE：审核状态跟踪和项目管理视图。