“让阅读止于理解,让知识始于结构化 Markdown。”

一个知识工作者,都逃不开的收纳痛点

相信你一定有过这样的经历:

在技术博客、海外专栏、行业好文里,刷到一篇干货满满的深度文章,想收藏沉淀到 Obsidian 知识库,长期复用、反复查阅。

于是你全选、复制、粘贴……结果瞬间劝退: 满屏冗余导航、广告残留、杂乱样式,代码块缩进错乱,表格排版崩塌; 飞书文档复制自带冗余样式,知乎专栏公式直接乱码,微信公众号限制复制、内容锁死。

单纯的复制粘贴,从来解决不了内容收纳的核心问题。 杂乱无章的格式,会让优质内容最终尘封在笔记库里,再也不会被打开、被复用、被消化。

而当下,AI 辅助学习、RAG 知识库、个人知识管理已经成为刚需。 结构化、干净简洁的 Markdown,是大模型理解内容、检索知识、拆解长文的最优格式。 杂乱网页文本会浪费大量 Token、干扰 AI 解析逻辑,而标准化 Markdown,才是高质量私有知识库的底层基石。

墨探的诞生,就是为了解决这个长期痛点:一键抓取全网正文,剥离冗余垃圾内容,输出纯净、标准、可直接入库的结构化 Markdown

墨探:专为知识收纳而生的开源转换工具

墨探(Omni-Article-Markdown),一款轻量化开源工具,核心目标简单且纯粹: 适配全网主流平台,精准提取文章正文,完成高质量 HTML 转 Markdown 转换

项目开源地址: https://github.com/caol64/omni-article-markdown

极简上手,开箱即用

无需复杂配置,一行命令即可完成文章抓取与格式转换,零基础也能快速使用:

1
2
3
4
pip install omni-article-markdown

# 抓取任意网页文章,自动生成纯净 Markdown 并本地保存
mdcli "https://juejin.cn/post/xxx" -s

复制链接、执行命令,一篇排版规整、无广告、无冗余的 Markdown 文件,自动保存至本地,可直接导入 Obsidian、Notion、语雀等所有笔记工具。

三段式流水线架构:兼顾兼容性与转换精度

墨探采用模块化流水线设计,分层解耦、职责清晰,兼顾轻量性能与复杂场景适配:

1
URL 链接 → Reader 网页抓取 → Extractor 正文提取 → Parser 格式转译

Reader 智能抓取:适配全类型网页

针对不同网站的渲染逻辑,做了分层适配,平衡速度与兼容性:

  • 静态网页:轻量请求快速抓取,低消耗、高效率;
  • SPA 动态页面(飞书文档、各类自研文档平台):自动启用浏览器渲染引擎,模拟真实访问行为;
  • 高反爬平台(知乎、百家号等):内置隐身访问策略,绕过基础限制,稳定获取完整内容。

同时框架采用插件化自动发现机制,新增站点适配无需修改核心代码,拓展灵活度拉满。

Extractor 精准提纯:只保留核心正文

网页中充斥导航、侧边栏、推荐广告、评论区等无效内容,Extractor 正是内容提纯的核心。

目前已深度适配 40+ 主流内容平台,覆盖日常阅读全场景:

海外技术社区国内内容平台企业&开发者文档
Medium、Google 开发者博客微信公众号、掘金、知乎飞书文档、语雀
Anthropic、AI 行业专栏CSDN、博客园、少数派Cloudflare、JetBrains 官方文档

每个平台独立定制解析规则,精准锁定正文容器,自动清理无效标签、重复标题、悬浮组件,从繁杂的网页代码中,只留存有价值的核心内容。小众站点也可通过极简代码快速适配,扩展性极强。

Parser 精细转译:还原原生排版结构

区别于简单粗暴的标签替换,墨探的 Markdown 解析引擎,基于DOM树状态遍历解析,最大程度还原原文排版逻辑:

  • 智能识别 LaTeX 公式标签,自动转换为标准可渲染的多行公式格式;
  • 嵌入代码、Gist 资源自动拉取原始内容,保证代码完整性;
  • 自动识别代码块编程语言,保留语法标识,适配技术文档收纳;
  • 表格、有序/无序列表、引用、加粗等元素标准化转换;
  • 批量修正图片相对路径,自动补全绝对链接,避免图片失效;
  • 后置格式统一修复,规避特殊符号、嵌套标签导致的排版错乱。

整套解析逻辑,兼顾美观与实用性,转换后的内容,完全满足阅读、归档、AI 解析三重需求。

为什么知识工作者与开发者,都需要这款工具?

1. 搭建 AI 私有知识库的刚需底座

无论是用 Claude 拆解长文、借助大模型总结行业资料,还是搭建个人 RAG 检索系统,内容格式直接决定 AI 理解效率

纯净 Markdown 具备清晰的层级结构、语义分区,对比杂乱网页文本优势明显:

  • 结构完整,标题、段落、列表层级清晰,降低 AI 理解成本;
  • 无冗余垃圾内容,精简 Token 消耗,提升问答与总结精准度;
  • 格式统一标准化,批量入库、分类检索、长期维护更便捷; 完美适配 Obsidian Zettelkasten 笔记体系,实现「阅读-收纳-沉淀-AI复用」完整闭环。

2. 插件化架构,低成本自由拓展

整体采用松耦合插件设计,技术门槛极低。 如果需要适配小众博客、内部文档平台,仅需编写少量规则代码,即可快速接入,无需改动项目核心逻辑,个人定制、二次开发都十分友好。

3. 突破平台限制,解锁内容自由

面对封闭限制类平台,墨探提供完整的浏览器自动化方案: 动态加载内容、滚动加载分页、隐身防爬策略全覆盖。 只要浏览器可以正常访问的内容,就能完整抓取、无损转换,真正打破各平台的格式枷锁与内容封锁。

实际落地效果

经过多场景实测,全品类内容均可稳定输出高质量 Markdown:

  • 大厂技术博客:完整保留代码块、技术方案、架构图示;
  • 行业深度专栏:公式、图表、专业内容无损保留;
  • 企业协作文档:飞书/语雀内部文档一键导出,脱离平台限制;
  • 自媒体优质文章:纯净文本排版,去除广告与水印,干净整洁。

无需手动二次排版,下载即可直接归档、二次创作、引用复用。

后续规划

墨探目前持续高速迭代,不断新增平台适配、优化解析细节、完善异常兼容。 如果遇到解析异常、适配缺失的网站,可提交 Issue 反馈;依托轻量化插件架构,新增平台适配迭代效率极高,社区共建氛围友好。

写在最后

互联网从不缺少优质内容,但碎片化、私有化、杂乱化的格式,正在浪费大量有价值的知识。

墨探的核心初衷,不止是简单的格式转换,更是让知识自由流动: 打破平台壁垒、统一内容格式、沉淀个人资产,让每一篇你认真阅读过的好文,都能有序存入知识库,服务长期学习、思考与创作。

让收纳不再费力,让知识可以复用,让你的第二大脑,真正装满高质量内容。