6款可用于LLMs的爬虫工具/方案

type

status

date

summary

slug

category

icon

password

😀

最近爬虫工具很多，整理了一个工具集合

1️⃣

Crawl4AI Crawl4AI可将语义标记的数据块提取成 JSON 格式，提供干净的 HTML 和 Markdown 文件，用于 RAG（检索增强生成）、微调以及 AI 聊天机器人的开发

Crawl4AI提供爬取功能和多 URL 支持，可轻松集成为库或服务器，并提供了 Docker 容器来简化设置

特点： 1、高效且提取有价值数据 2、适合LLM格式（JSON、清理后的 HTML、Markdown） 3、支持同时多个 URL 4、用 ALT 替换媒体标签

github：https://github.com/unclecode/crawl4ai

2️⃣

FireCrawl 与传统的网页爬虫工具不同，即使网站使用JavaScript动态生成其内容，FireCrawl 也能有效的进行抓取, 此外，还提供了易于使用的API，使开发者能够通过简单的API调用实现内容的爬取和转换

github：https://github.com/mendableai/firecrawl

3️⃣

Scrapegraph-ai Scrapegraph-ai使用 LLM 和直接图形逻辑为网站和本地文档（XML、HTML、JSON 等）创建抓取流程

用户只需要指定想要提取的信息类型，ScrapeGraphAI 库就能自动执行数据抓取的任务

github：https://github.com/VinciGit00/Scrapegraph-ai

4️⃣

Markdowner 一个快速的开源工具，可以将网站转换为 Markdown 数据,支持自动爬虫、详细模式、javascript网站等,易于扩展和自托管，运行成本低

github：https://github.com/dhravya/markdowner

5️⃣

Jina Reader Jina Reader可以将任何 URL 转化为 LLM 所需Markdown格式

可以针对这些内容集成不同的模型，支持 API

github：https://github.com/jina-ai/reader

6️⃣

Skyvern 支持自然语言进行网页导航、过时/电商网站的数据爬取、填写表单等复杂多步操作,支持绕过 CAPTCHA/Authentication 等验证操作，支持API 调用/Debug 模式

github：https://github.com/Skyvern-AI/skyvern

🔥

❗️❗️❗️❗️❗️所有视频首发于抖音：【云哥聊AI】，欢迎关注。

1️⃣

系统学习ChatGPT

建议大家系统学习，现在课程正在秒杀优惠中，全部课程只要199（入门课+进阶课+项目实战+所有资料）点击下方链接了解详情并试听～

🏆

ChatGPT系统学习-课程+资料+工具+密钥（销量破5000）

2️⃣

免费的AI对话+画图(⬇️Chatgpt+midjourney⬇️） https://air.chat918.com

3️⃣

学术科研AI神器（大学生、科研人员、职场必备） 🏫https://chat918.com/article/academic_gpt

4️⃣

吐血🩸整理的资料下载：

免费资料：https://chat918.com/article/free-data

收费资料：https://chat918.com/article/pay_data

💡

有关ChatGPT安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~

🎉chatgpt从入门到进阶🎉