WARN CodexClaude Code

MinerU PDF Reader

通过 MinerU API 将 PDF 高质量转换为 Markdown(含图片和表格),支持多模态模型视觉分析,适合复杂排版的学术论文阅读。

评测任务

通过 MinerU API 将 PDF 转换为高质量 Markdown(保留图片和表格结构),辅助 AI agent 完整阅读和理解论文中的图表内容。

模型适配边界

此技能的核心边界在于模型的多模态能力:

  • 多模态模型:完整工作流——转换 PDF 后读取 document.md 和所有图片文件,对图表进行视觉分析,实现完整理解。
  • 纯文本模型:可读取 Markdown 文本部分,但无法读取图片文件。skill 设计上强制要求多模态读取,纯文本模型使用会丢失图表信息。

主要边界

  • 必须配置 MinerU API token(在 TextIn 平台注册获取),否则转换脚本无法运行。
  • 转换质量依赖于 MinerU API 的版本和能力——复杂排版(多栏、嵌套表格)可能仍有瑕疵。
  • 转换是单向的:PDF → Markdown + 图片,不可逆。原始 PDF 文件不受影响。
  • API 调用有频率和用量限制,大批量处理需注意配额。
  • 转换后的图片为光栅格式(JPG/PNG),无法编辑矢量内容。

适用场景

  • 将学术论文 PDF 转换为包含图片和表格的 Markdown 格式
  • 需要完整保留文档中图表、复杂表格布局的阅读任务
  • 批量处理多篇 PDF 论文
  • 作为上游工具配合其他阅读/分析 skill 使用

不适用

  • 纯文本模型用户——skill 强制要求读取转换后的图片进行视觉分析
  • 无网络环境——需要调用 MinerU 云端 API
  • 简单的纯文本 PDF(用普通 PDF 解析工具即可)

安装方式

**安装步骤** 克隆到 Codex/Claude Code skills 目录: # Codex git clone https://github.com/lilyuan258/PDF2md-by-MinerU-api-skill.git "$env:USERPROFILE\.codex\skills\mineru-pdf-reader" # Claude Code git clone https://github.com/lilyuan258/PDF2md-by-MinerU-api-skill.git ~/.claude/skills/mineru-pdf-reader **Python 依赖** 需要 Python 3.x,安装 requests 和 urllib3: pip install requests urllib3 **API Token 配置** 必须设置环境变量 MINERU_API_TOKEN: $env:MINERU_API_TOKEN="your_token_here" 在 TextIn 平台注册获取:https://www.textin.com **验证安装** 确认 skill 被识别后,使用任一 PDF 文件测试: python <skill_path>/scripts/convert_pdf.py test.pdf "test md文档" 检查输出文件夹是否包含 document.md 和 images/ 目录。

查看完整安装文档 →

输出样例

  • 提示词:读这篇论文 PDF,总结其主要方法和结果 → 输出:使用 MinerU API 将 PDF 转换为 Markdown,读取 document.md 和所有图片,综合分析后给出结构化总结。
  • 提示词:提取这篇论文中 Table 2 的数据,比较三种催化剂在五个电位下的法拉第效率 → 输出:从转换后的 Markdown 表格中精确提取表 2 数据,生成对比分析。
  • 边界案例:无 MinerU API token → skill 脚本执行失败,提示用户配置 MINERU_API_TOKEN 环境变量。纯文本模型使用 → 虽然可读取 Markdown 文本,但 skill 强制要求读取图片,纯文本模型无法满足。