type
status
date
summary
slug
tags
category
icon
password
最近爬虫工具很多,整理了一个工具集合
Crawl4AI
Crawl4AI可将语义标记的数据块提取成 JSON 格式,提供干净的 HTML 和 Markdown 文件,用于 RAG(检索增强生成)、微调以及 AI 聊天机器人的开发
Crawl4AI提供爬取功能和多 URL 支持,可轻松集成为库或服务器,并提供了 Docker 容器来简化设置
- 特点: 1、高效且提取有价值数据 2、适合LLM格式(JSON、清理后的 HTML、Markdown) 3、支持同时多个 URL 4、用 ALT 替换媒体标签
FireCrawl 与传统的网页爬虫工具不同,即使网站使用JavaScript动态生成其内容,FireCrawl 也能有效的进行抓取, 此外,还提供了易于使用的API,使开发者能够通过简单的API调用实现内容的爬取和转换
Scrapegraph-ai
Scrapegraph-ai使用 LLM 和直接图形逻辑为网站和本地文档(XML、HTML、JSON 等)创建抓取流程
用户只需要指定想要提取的信息类型,ScrapeGraphAI 库就能自动执行数据抓取的任务
Markdowner
一个快速的开源工具,可以将网站转换为 Markdown 数据,支持自动爬虫、详细模式、javascript网站等,易于扩展和自托管,运行成本低
Jina Reader
Jina Reader可以将任何 URL 转化为 LLM 所需Markdown格式
可以针对这些内容集成不同的模型,支持 API
Skyvern
支持自然语言进行网页导航、过时/电商网站的数据爬取、填写表单等复杂多步操作,支持绕过 CAPTCHA/Authentication 等验证操作,支持API 调用/Debug 模式
❗️❗️❗️❗️❗️所有视频首发于抖音:【云哥聊AI】,欢迎关注。
系统学习ChatGPT
建议大家系统学习,现在课程正在秒杀优惠中,全部课程只要199(入门课+进阶课+项目实战+所有资料)点击下方链接了解详情并试听~
免费的AI对话+画图(⬇️Chatgpt+midjourney⬇️)
https://air.chat918.com
学术科研AI神器(大学生、科研人员、职场必备)
🏫https://chat918.com/article/academic_gpt
吐血🩸整理的资料下载:
有关ChatGPT安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- 作者:云哥
- 链接:https://www.chat918.com/article/crawl_llm
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章