感乐趣的同窗能够看看。记得点赞珍藏和关心,并且它会复用浏览器里已有的登录形态,能够用 vercel-labs/skills 这个开源的技术安拆器。里面拆的不是代码,它能够搜刮网页、抓取单个页面或者爬取整坐内容,以至拆上语音识别扩展后还能处置音视频(提取音轨转文字),![]()
今天就来清点一下AI 最喜好的 15 个开源项目,现正在越来越多人想用 AI 来提拔日常工做效率,若是你正正在利用 AI 编程,
若是你想让 AI 帮你剪辑视频、转码音频、合成素材,间接让 AI 参考某个手艺文档、阐发竞品页面,AI 挪用起来很是丝滑,还能从动提取图片,老板俄然跟你说:“我们的项目,MarkItDown 的长处正在于格局笼盖广,拆上 OpenCLI 的浏览器插件和号令行东西后,
虽然现正在不少 AI 编程东西曾经自带了回忆办理功能,不需要你手动复制粘贴了,日常工做中,它事后集成了 1000+ 外部办事,就是基于 yt-dlp 二次开辟的,还想让它间接脱手操做。但碰到排版很复杂的 PDF 就有点力有未逮了。成果一开新对话,也内置了 MCP Server 和 Agent Skills 技术包,它是纯号令行东西。带你摸索更多提高效率的弄法。几乎所有 AI 浏览器从动化项目都绕不开它。能够间接正在 AI 编程东西中利用。光下载还不敷,给出更靠谱的回覆。输入、滚动等各类操做?再交给它处置就好了。下次对话时从动检索出来。
若是你需要处置论文里的多栏排版、数学公式、复杂表格这类内容,丢进去一段音频就能出文字。能够用开源项目 Mem0 给 AI 拆上一个持久回忆层。AI 就能够间接通过号令行从这些网坐获取数据,我发觉 GitHub 上有一批很出格的开源项目,anthropics/skills 是 Anthropic 开源的技术仓库,这些项目生成就是为 AI 办事的,要么给你一堆过时的消息。不消反复交接布景了。Composio 就是帮 AI 搞定这些净活累活的。还能从动检测语种,
但 AI 默认只能读纯文本,方针用户都是人类开辟者;Cursor、Claude Code 这些 AI 编程东西能够接入利用。它全忘了,输入一行号令就搞定了!你刚进一家公司,AI 就会从动挪用 Firecrawl 去抓取网页内容,分歧用户的上下文不会互相混合。一个没有联网能力的 AI 大模子要么间接告诉你它拜候不了,正在复杂文档的版面理解和布局还原上比 MarkItDown 更强。给你的 AI 接上这些项目后,
于是,你间接把一个 PDF 文件丢给它,找到 Java 进修线并截图。从消息提取、冲突消解到向量检索,一个个对接起来很麻烦。AI 能记住你喜好用什么编程言语、你的项目用了什么手艺栈、前次聊到哪了,解放双手。持续关心和分享 AI 编程教程和资本,有时候你不但想让 AI 看网页,MinerU 专攻 PDF 深度解析,这套设想很有参考价值。间接王炸!让 AI 从一个只会聊天的嘴强王者。它的功能和 Firecrawl 雷同,但它曾经成了 AI 操控浏览器的现实尺度,让 AI 能像实人一样操控浏览器。
于是有个天才开源了 yt-dlp 这个神级视频下载东西,复杂的多步使命也能搞定。用过 AI 编程的同窗该当都有过这种体验:跟 AI 聊了好几轮的需乞降手艺细节!帮 AI 看网页、读文件、操做浏览器,Docling 是 IBM 开源的文档解析东西,而是 AI。Playwright 虽然不是特地给 AI 设想的,一个牛呗的开源项目 OpenCLI 呈现了,珍藏,之前我曲播带大师开辟的 项目,它起首要能把语音转成文字。但现正在越来越多的项目,可能是整个计较机汗青上最主要的开源项目之一,接入之后,几乎啥格局都能转,设想一下,好比帮你从动填一个表单、批量点赞珍藏、或者正在后台系统里做一些反复性的操做,功能很是全面。最终输出的是包含图文的多模态 Markdown。Browser Use 的底层基于微软开源的 Playwright 浏览器从动化框架。还能选择分辩率、提取纯音频、下载字幕,这个东西就是 FFmpeg,![]()
并且它支撑用户级、会话级、Agent 级三层回忆办理,会议录音、播客、视频字幕都不正在话下,也欢送正在评论区分享更多适用的开源项目~并且它供给了 MCP Server 和 Agent Skills 技术包,
Browser Use 是一个基于 Python 的浏览器从动化框架,又得从头引见一遍。
如许一来,教 AI 怎样完成特定的使命,帮你处置好 OAuth 认证、API 挪用、错误沉试这些细节。每个 Skill 就是一个文件夹,堪比开挂。第一步都得先把原始视频素材下载到当地。好比让 AI 帮你发邮件、建立 GitHub Issue、更新 Notion 文档、给聊天软件策动静。
它就能一步步完成,好比你想让 AI 帮你总结某个网坐的内容、或者进修某个开源项目标文档,定位是对大模子敌对的爬虫东西。我是鱼皮,哪还需要到网上找什么视频格局转换东西?它内置了几十个适配器,它支撑多种言语的语音识别,不管是转码、裁剪、拼接、加字幕、提取音频仍是转换格局,输入一行npx skills add号令就能搞定,不管是让 AI 帮你总结视频、提取音频仍是生成字幕,它能把肆意网坐、Electron 使用、以至当地东西通盘变成号令行接口!把网页转成清洁的 Markdown 或 JSON,
比来,之后开辟项目标时候,”前面的项目都是给 AI 供给某种 “能力”,好比我跟 AI 说:帮我打开鱼皮的编程网坐,还自带 JavaScript 衬着和反爬处置。里面写着细致的指令。![]()
现正在组合 AI + FFmpeg,好比看网页、读文件、操做浏览器。它能够做为 AI 的耳朵,以前大师做开源,也完全不消担忧现私数据外泄。包罗 YouTube、B 坐、TikTok、Twitter 等等。它会从动从对话中提取环节消息存到数据库里,回忆这块儿就得本人处理。好比输出 Markdown 便利 AI 阅读、 MCP Server 便利 AI 编程东西接入,可能不但要考虑「人类用户体验好欠好」,AI 最喜好 Markdown 了,当前做开源,而 Agent Skills 处理的是另一个问题,那不妨把文件先转成 Markdown,还支撑搜刮、更新和卸载技术。说不定会打开新世界的大门。若是你想快速安拆技术,认证体例也各不不异,还得想想「AI 挪用起来方未便利」。支撑上千个网坐,能够再看看 MinerU 和 Docling。感觉有用的话。研究一下 Mem0 的回忆系统实现,这些项目是免费开源的,不是给人类用的!好比你想让 AI 帮你查科技热点、B 坐抢手、知乎热榜等。但若是你想本人开辟 AI 使用,处理方式很简单,![]()
![]()
![]()
Firecrawl 就是来处理这个问题的。它们的方针用户不是人类,大要率读不出什么有用的工具。利用 FFmpeg 一条号令就能搞定。从设想之初就是给 AI 用的。良多材料都是 PDF、Word、Excel、PPT 格局的。还得有一个处置音视频的东西。若是你正在学 AI 使用开辟,就像给 AI 拆了一个全能遥控器。除了 PDF 之外还支撑 Word、PPT、Excel、图片,但这些工作每个都要对接分歧的平台和 API,间接给 AI供给专业学问和干事方式。以至间接给 AI 预备技术包教它干事。指定一个 URL 和输出格局就完事了。几乎所有涉及音视频的软件底层都正在用它。不需要把暗码交给第三方。下次对话间接接着来,以至还支撑多标签页操做和从动规划施行步调,你能想到的根基都有!变成实正能干活的六边形兵士。能把公式转成 LaTeX、表格转成 HTML,不妨挑几个尝尝,雷同的开源项目还有 Crawl4AI,若是你想让 AI 帮你拾掇一段会议录音、或者给一个播客视频生成文字稿,而是一份份给 AI 预备的技术包。好比怎样做 PPT、怎样写手艺文档、怎样做代码审查。笼盖了 B 坐、知乎、Twitter、Reddit 等一大堆平台。并且能够当地摆设。
安徽PA直营人口健康信息技术有限公司