AnyCrawl 的常见问题解答
AnyCrawl 是什么?
AnyCrawl 是一个基于 Node.js/TypeScript 的网络爬虫,专为将网站转化为整洁、结构化的数据而设计,这些数据针对 AI 模型和大语言模型(LLMs)进行了优化。它提供实时爬取、多引擎支持和高性能处理等功能,以便从任何网站提取有意义的内容。
使用 AnyCrawl 进行网络爬取是否合法?
网络爬取的合法性取决于目标网站的服务条款和适用法律。AnyCrawl 提供相关工具,但用户有责任确保其爬取活动符合相关法规和网站政策。
AnyCrawl 支持哪些数据格式?
AnyCrawl 支持多种数据格式,包括 Markdown、JSON 和结构化 HTML。它能处理图像、视频和其他媒体文件,提供整洁有序的输出,非常适合下游处理和 AI 应用。
能否处理 JavaScript 渲染的网站?
可以。AnyCrawl 使用 Playwright 引擎处理 JavaScript 渲染的网站。它支持单页应用程序(SPAs)和动态内容加载,确保从现代网络应用中全面提取数据。
定价模式是怎样的?
AnyCrawl 采用基于积分(credit)的系统,大约 1 积分等于爬取 1 个页面/URL。定价方案从每月提供 1,500 积分的免费套餐,到提供高达 100,000 积分的企业套餐,以及针对特定需求的定制解决方案。
什么情况下会消耗积分?
当 AnyCrawl 处理一个 URL 或网页时,通常会消耗一个积分。确切的积分消耗可能因页面复杂度和爬取过程中使用的特定功能而异。
可以安排定期爬取吗?
定期爬取功能即将推出。目前,用户可通过 API 或控制台手动启动爬取任务,同时计划推出针对定期数据提取任务的自动化调度功能。
是否提供代理支持?
是的。AnyCrawl 包含轮换代理支持,帮助用户管理 IP 地址,并在爬取多个页面或网站时避免速率限制。该功能在所有付费套餐中均可用。
如何使用 AnyCrawl
- 访问 AnyCrawl 网站 https://anycrawl.dev/,探索其功能和特性。
- 注册免费账户,获得 1,500 个积分,开始使用网络爬取服务。
- 使用提供的 API 将 AnyCrawl 集成到您的应用程序中,实现无缝的网络数据提取。
- 输入要爬取的所需 URL,并选择适当的引擎(例如 auto)以获得最佳结果。
- 查看结构化数据输出,该输出已针对 AI 和 LLM 使用进行格式化,确保信息清晰有序。
