评测标准
评测标准:PASS / WARN / FAIL
本目录每个条目经过 AI 初筛、实测和人工科研复核。评测结论必须以具体任务、测试数据和行为证据为支撑。
评测结论
PASS
真实任务可用,安装和安全风险可接受。
- 跨领域可用:不限定特定学科或研究方向,任何科研方向的用户都能使用并复现结果。
- 可复现:相同输入在不同环境中产生可验证的一致输出。
- 模型无关:不依赖特定模型的多模态能力;纯文本模型即可完成核心任务(若需要多模态则必须在边界中明确标注,并降级为 WARN)。
- 安装透明:安装步骤清晰、无需付费服务、无隐性收费陷阱。
WARN
有价值,但存在边界、门槛或风险提示。
- 领域特定:仅适用于特定研究方向(如 ML、计算化学),非该领域用户无法使用。
- 模型依赖:核心功能依赖多模态模型,纯文本模型无法完成或有明显质量下降。
- 有明显缺陷但可补救:单独使用效果不稳定,但配合其他插件/工具可满足科研需求。
- 权限或依赖门槛:需要较高配置成本、依赖特定版本或网络环境。
FAIL
不可复现、误导、风险不透明或不适合严肃科研使用。
- 宣称的能力无法在实际科研任务中完成。
- 故意隐瞒安全风险、联网需求或付费模式。
- 纯付费版清洗或销售导向,不适合严肃科研使用。
安装难度量化标准
低
一键安装,无需额外配置
- 通过平台内置的 skill-installer 一键安装,或单条命令完成。
- 不需要申请和配置第三方 API key。
- 不需要安装额外运行时依赖(Python 包、Node 包等)。
- 安装后无需联网即可使用核心功能。
- 示例:纯文本润色 skill,安装后离线可用。
中
需要 git clone 或配置 API key 或安装依赖
- 需要 git clone 仓库并手动复制文件到 skills 目录。
- 或需要注册并配置第三方 API key(如 LLM 提供商)。
- 或需要安装额外运行时依赖(pip install / npm install)。
- 示例:需要 GitHub API token 的文献检索 skill。
高
需要多项配置或硬件要求
- 需要同时满足 API key + 外部依赖 + 环境变量配置。
- 或需要 GPU 等特定硬件。
- 或依赖付费服务(API 按量计费、订阅制等)。
- 示例:需要 GPU 集群和多个 API key 的自动实验 skill。
审核流程
- AI 初筛(自动):检查 Manifest 完整性、依赖和权限声明;反对重叠或欺骗性声明。
- AI 实测(自动):在实际科研任务中运行 Skill;记录输入、输出和异常;pass 才能进入下一步。
- 人工复核(手动):科研人员验证任务完成质量、科学边界和安全风险;发布结论。
当前审核方法
ai-static-reviewai-test-runhuman-research-review
后续版本会引入审核记录,包括 AI 初筛日期、测试报告节选和人工复核签名。
审核细节
审核证据包括:
- AI 审核报告:AI 质量评估或重构记录。
- AI 测试报告:实际运行输出、任务完成质量和异常情况。
- 人工复核记录:科研人员验证证据、边界和风险。
版本计划
- First release:AI 初筛和实测,人工复核。评测结论在详情页显示。
- 自动人工审核周期:审核记录、时间戳、人工复核证据节选。
- AI 通过/不通过报告查看:AI 评估最终 AI 审核报告和 PASS/WARN/FAIL 标签。
- 审核队列 FE:审核状态跟踪和项目管理视图。