墨探：把互联网每一篇好文章，变成 AI 与知识库通用的纯净 Markdown

“让阅读止于理解，让知识始于结构化 Markdown。”

一个知识工作者，都逃不开的收纳痛点

相信你一定有过这样的经历：

在技术博客、海外专栏、行业好文里，刷到一篇干货满满的深度文章，想收藏沉淀到 Obsidian 知识库，长期复用、反复查阅。

于是你全选、复制、粘贴……结果瞬间劝退：满屏冗余导航、广告残留、杂乱样式，代码块缩进错乱，表格排版崩塌；飞书文档复制自带冗余样式，知乎专栏公式直接乱码，微信公众号限制复制、内容锁死。

单纯的复制粘贴，从来解决不了内容收纳的核心问题。杂乱无章的格式，会让优质内容最终尘封在笔记库里，再也不会被打开、被复用、被消化。

而当下，AI 辅助学习、RAG 知识库、个人知识管理已经成为刚需。结构化、干净简洁的 Markdown，是大模型理解内容、检索知识、拆解长文的最优格式。杂乱网页文本会浪费大量 Token、干扰 AI 解析逻辑，而标准化 Markdown，才是高质量私有知识库的底层基石。

墨探的诞生，就是为了解决这个长期痛点：一键抓取全网正文，剥离冗余垃圾内容，输出纯净、标准、可直接入库的结构化 Markdown。

墨探：专为知识收纳而生的开源转换工具

墨探（Omni-Article-Markdown），一款轻量化开源工具，核心目标简单且纯粹：适配全网主流平台，精准提取文章正文，完成高质量 HTML 转 Markdown 转换。

项目开源地址： https://github.com/caol64/omni-article-markdown

极简上手，开箱即用

无需复杂配置，一行命令即可完成文章抓取与格式转换，零基础也能快速使用：

1
2
3
4
pip install omni-article-markdown

# 抓取任意网页文章，自动生成纯净 Markdown 并本地保存
mdcli "https://juejin.cn/post/xxx" -s

复制链接、执行命令，一篇排版规整、无广告、无冗余的 Markdown 文件，自动保存至本地，可直接导入 Obsidian、Notion、语雀等所有笔记工具。

三段式流水线架构：兼顾兼容性与转换精度

墨探采用模块化流水线设计，分层解耦、职责清晰，兼顾轻量性能与复杂场景适配：

1
URL 链接 → Reader 网页抓取 → Extractor 正文提取 → Parser 格式转译

Reader 智能抓取：适配全类型网页

针对不同网站的渲染逻辑，做了分层适配，平衡速度与兼容性：

静态网页：轻量请求快速抓取，低消耗、高效率；
SPA 动态页面（飞书文档、各类自研文档平台）：自动启用浏览器渲染引擎，模拟真实访问行为；
高反爬平台（知乎、百家号等）：内置隐身访问策略，绕过基础限制，稳定获取完整内容。

同时框架采用插件化自动发现机制，新增站点适配无需修改核心代码，拓展灵活度拉满。

Extractor 精准提纯：只保留核心正文

网页中充斥导航、侧边栏、推荐广告、评论区等无效内容，Extractor 正是内容提纯的核心。

目前已深度适配 40+ 主流内容平台，覆盖日常阅读全场景：

海外技术社区	国内内容平台	企业&开发者文档
Medium、Google 开发者博客	微信公众号、掘金、知乎	飞书文档、语雀
Anthropic、AI 行业专栏	CSDN、博客园、少数派	Cloudflare、JetBrains 官方文档

每个平台独立定制解析规则，精准锁定正文容器，自动清理无效标签、重复标题、悬浮组件，从繁杂的网页代码中，只留存有价值的核心内容。小众站点也可通过极简代码快速适配，扩展性极强。

Parser 精细转译：还原原生排版结构

区别于简单粗暴的标签替换，墨探的 Markdown 解析引擎，基于DOM树状态遍历解析，最大程度还原原文排版逻辑：

智能识别 LaTeX 公式标签，自动转换为标准可渲染的多行公式格式；
嵌入代码、Gist 资源自动拉取原始内容，保证代码完整性；
自动识别代码块编程语言，保留语法标识，适配技术文档收纳；
表格、有序/无序列表、引用、加粗等元素标准化转换；
批量修正图片相对路径，自动补全绝对链接，避免图片失效；
后置格式统一修复，规避特殊符号、嵌套标签导致的排版错乱。

整套解析逻辑，兼顾美观与实用性，转换后的内容，完全满足阅读、归档、AI 解析三重需求。

为什么知识工作者与开发者，都需要这款工具？

1. 搭建 AI 私有知识库的刚需底座

无论是用 Claude 拆解长文、借助大模型总结行业资料，还是搭建个人 RAG 检索系统，内容格式直接决定 AI 理解效率。

纯净 Markdown 具备清晰的层级结构、语义分区，对比杂乱网页文本优势明显：

结构完整，标题、段落、列表层级清晰，降低 AI 理解成本；
无冗余垃圾内容，精简 Token 消耗，提升问答与总结精准度；
格式统一标准化，批量入库、分类检索、长期维护更便捷；完美适配 Obsidian Zettelkasten 笔记体系，实现「阅读-收纳-沉淀-AI复用」完整闭环。

2. 插件化架构，低成本自由拓展

整体采用松耦合插件设计，技术门槛极低。

如果需要适配小众博客、内部文档平台，仅需编写少量规则代码，即可快速接入，无需改动项目核心逻辑，个人定制、二次开发都十分友好。

3. 突破平台限制，解锁内容自由

面对封闭限制类平台，墨探提供完整的浏览器自动化方案：

动态加载内容、滚动加载分页、隐身防爬策略全覆盖。只要浏览器可以正常访问的内容，就能完整抓取、无损转换，真正打破各平台的格式枷锁与内容封锁。

实际落地效果

经过多场景实测，全品类内容均可稳定输出高质量 Markdown：

大厂技术博客：完整保留代码块、技术方案、架构图示；
行业深度专栏：公式、图表、专业内容无损保留；
企业协作文档：飞书/语雀内部文档一键导出，脱离平台限制；
自媒体优质文章：纯净文本排版，去除广告与水印，干净整洁。

无需手动二次排版，下载即可直接归档、二次创作、引用复用。

后续规划

墨探目前持续高速迭代，不断新增平台适配、优化解析细节、完善异常兼容。

如果遇到解析异常、适配缺失的网站，可提交 Issue 反馈；依托轻量化插件架构，新增平台适配迭代效率极高，社区共建氛围友好。

写在最后

互联网从不缺少优质内容，但碎片化、私有化、杂乱化的格式，正在浪费大量有价值的知识。

墨探的核心初衷，不止是简单的格式转换，更是让知识自由流动：

打破平台壁垒、统一内容格式、沉淀个人资产，让每一篇你认真阅读过的好文，都能有序存入知识库，服务长期学习、思考与创作。

让收纳不再费力，让知识可以复用，让你的第二大脑，真正装满高质量内容。

一个知识工作者，都逃不开的收纳痛点#

墨探：专为知识收纳而生的开源转换工具#

极简上手，开箱即用#

三段式流水线架构：兼顾兼容性与转换精度#

Reader 智能抓取：适配全类型网页#

Extractor 精准提纯：只保留核心正文#

Parser 精细转译：还原原生排版结构#

为什么知识工作者与开发者，都需要这款工具？#

1. 搭建 AI 私有知识库的刚需底座#

2. 插件化架构，低成本自由拓展#

3. 突破平台限制，解锁内容自由#

实际落地效果#

后续规划#

写在最后#