MinerU PDF Reader
通过 MinerU API 将 PDF 高质量转换为 Markdown(含图片和表格),支持多模态模型视觉分析,适合复杂排版的学术论文阅读。
评测任务
通过 MinerU API 将 PDF 转换为高质量 Markdown(保留图片和表格结构),辅助 AI agent 完整阅读和理解论文中的图表内容。
模型适配边界
此技能的核心边界在于模型的多模态能力:
- 多模态模型:完整工作流——转换 PDF 后读取 document.md 和所有图片文件,对图表进行视觉分析,实现完整理解。
- 纯文本模型:可读取 Markdown 文本部分,但无法读取图片文件。skill 设计上强制要求多模态读取,纯文本模型使用会丢失图表信息。
主要边界
- 必须配置 MinerU API token(在 TextIn 平台注册获取),否则转换脚本无法运行。
- 转换质量依赖于 MinerU API 的版本和能力——复杂排版(多栏、嵌套表格)可能仍有瑕疵。
- 转换是单向的:PDF → Markdown + 图片,不可逆。原始 PDF 文件不受影响。
- API 调用有频率和用量限制,大批量处理需注意配额。
- 转换后的图片为光栅格式(JPG/PNG),无法编辑矢量内容。
适用场景
- 将学术论文 PDF 转换为包含图片和表格的 Markdown 格式
- 需要完整保留文档中图表、复杂表格布局的阅读任务
- 批量处理多篇 PDF 论文
- 作为上游工具配合其他阅读/分析 skill 使用
不适用
- 纯文本模型用户——skill 强制要求读取转换后的图片进行视觉分析
- 无网络环境——需要调用 MinerU 云端 API
- 简单的纯文本 PDF(用普通 PDF 解析工具即可)
安装方式
**安装步骤** 克隆到 Codex/Claude Code skills 目录: # Codex git clone https://github.com/lilyuan258/PDF2md-by-MinerU-api-skill.git "$env:USERPROFILE\.codex\skills\mineru-pdf-reader" # Claude Code git clone https://github.com/lilyuan258/PDF2md-by-MinerU-api-skill.git ~/.claude/skills/mineru-pdf-reader **Python 依赖** 需要 Python 3.x,安装 requests 和 urllib3: pip install requests urllib3 **API Token 配置** 必须设置环境变量 MINERU_API_TOKEN: $env:MINERU_API_TOKEN="your_token_here" 在 TextIn 平台注册获取:https://www.textin.com **验证安装** 确认 skill 被识别后,使用任一 PDF 文件测试: python <skill_path>/scripts/convert_pdf.py test.pdf "test md文档" 检查输出文件夹是否包含 document.md 和 images/ 目录。
输出样例
- 提示词:读这篇论文 PDF,总结其主要方法和结果 → 输出:使用 MinerU API 将 PDF 转换为 Markdown,读取 document.md 和所有图片,综合分析后给出结构化总结。
- 提示词:提取这篇论文中 Table 2 的数据,比较三种催化剂在五个电位下的法拉第效率 → 输出:从转换后的 Markdown 表格中精确提取表 2 数据,生成对比分析。
- 边界案例:无 MinerU API token → skill 脚本执行失败,提示用户配置 MINERU_API_TOKEN 环境变量。纯文本模型使用 → 虽然可读取 Markdown 文本,但 skill 强制要求读取图片,纯文本模型无法满足。