type
status
date
summary
slug
tags
category
icon
password
😀
最近爬虫工具很多,整理了一个工具集合
1️⃣
Crawl4AI Crawl4AI可将语义标记的数据块提取成 JSON 格式,提供干净的 HTML 和 Markdown 文件,用于 RAG(检索增强生成)、微调以及 AI 聊天机器人的开发
Crawl4AI提供爬取功能和多 URL 支持,可轻松集成为库或服务器,并提供了 Docker 容器来简化设置
  • 特点: 1、高效且提取有价值数据 2、适合LLM格式(JSON、清理后的 HTML、Markdown) 3、支持同时多个 URL 4、用 ALT 替换媒体标签
2️⃣
FireCrawl 与传统的网页爬虫工具不同,即使网站使用JavaScript动态生成其内容,FireCrawl 也能有效的进行抓取, 此外,还提供了易于使用的API,使开发者能够通过简单的API调用实现内容的爬取和转换
3️⃣
Scrapegraph-ai Scrapegraph-ai使用 LLM 和直接图形逻辑为网站和本地文档(XML、HTML、JSON 等)创建抓取流程
用户只需要指定想要提取的信息类型,ScrapeGraphAI 库就能自动执行数据抓取的任务
4️⃣
Markdowner 一个快速的开源工具,可以将网站转换为 Markdown 数据,支持自动爬虫、详细模式、javascript网站等,易于扩展和自托管,运行成本低
5️⃣
Jina Reader Jina Reader可以将任何 URL 转化为 LLM 所需Markdown格式
可以针对这些内容集成不同的模型,支持 API
6️⃣
Skyvern 支持自然语言进行网页导航、过时/电商网站的数据爬取、填写表单等复杂多步操作,支持绕过 CAPTCHA/Authentication 等验证操作,支持API 调用/Debug 模式
 
 
🔥
❗️❗️❗️❗️❗️所有视频首发于抖音:【云哥聊AI】,欢迎关注。
1️⃣
系统学习ChatGPT
建议大家系统学习,现在课程正在秒杀优惠中,全部课程只要199(入门课+进阶课+项目实战+所有资料)点击下方链接了解详情并试听
2️⃣
免费的AI对话+画图(⬇️Chatgpt+midjourney⬇️) https://air.chat918.com
3️⃣
学术科研AI神器(大学生、科研人员、职场必备) 🏫https://chat918.com/article/academic_gpt
4️⃣
吐血🩸整理的资料下载:
💡
有关ChatGPT安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
直播换脸工具的安装、使用方法! 完全免费,不吃电脑配置,任意电脑可用。ChatGPT桌面版
Loading...
云哥
云哥
1. 🌐 前互联网大厂程序员 2. 💻 微软官方认证 AI 讲师 3. 🚀 企业数字化、智能化创业方向 4. 🧠 关注 AI+ 应用场景及案例
公告

🎉chatgpt从入门到进阶🎉

  • - 感谢您的支持 ---
🔥
微信扫码试听——👏前去试听👏
🏆
ChatGPT系统学习-课程+资料+工具+密钥(销量破5000)
 注意:点右边图中“完整服务”
注意:点右边图中“完整服务”
notion image
 
欢迎关注抖音,视频第一时间发抖音的~
欢迎关注抖音,视频第一时间发抖音的~
notion image
加微信沟通
加微信沟通
notion image
微软官方AIGC认证
微软官方AIGC认证
notion image
2023-2025 云哥.
鲁ICP备2021008906号-2

云哥聊AI | 1. 🌐 前互联网大厂程序员 2. 💻 微软官方认证 AI 讲师 3. 🚀 企业数字化、智能化创业方向 4. 🧠 关注 AI+ 应用场景及案例

Powered by NotionNext 4.5.4.