AnyCrawl 的常見問題解答
AnyCrawl 是什麼?
AnyCrawl 是一個基於 Node.js/TypeScript 的網路爬蟲,專為將網站轉換為乾淨、結構化的資料而設計,這些資料已針對 AI 模型與大語言模型(LLMs)進行最佳化。它提供即時爬取、多引擎支援與高效能處理等功能,從任何網站提取有意義的內容。
使用 AnyCrawl 進行網路爬取是否合法?
網路爬取的合法性取決於目標網站的服務條款和適用法律。AnyCrawl 提供 tools,但用戶有責任確保其爬取活動符合相關法規與網站政策。
AnyCrawl 支援哪些資料格式?
AnyCrawl 支援多種資料格式,包括 Markdown、JSON 和結構化 HTML。它能處理圖片、影片和其他媒體檔案,提供乾淨有條理的輸出,非常適合後續處理與 AI 應用。
能否處理 JavaScript 渲染的網站?
可以。AnyCrawl 使用 Playwright 引擎處理 JavaScript 渲染的網站。它支援單頁應用程式(SPAs)與動態內容載入,確保從現代網路應用程式中完整提取資料。
定價模式是怎樣的?
AnyCrawl 採用基於積分(credit)的系統,大約 1 積分等於爬取 1 個網頁/URL。定價方案從每月提供 1,500 積分的免費方案,到提供高達 100,000 積分的企業方案,以及針對特定需求的自訂解決方案。
什麼情況下會消耗積分?
當 AnyCrawl 處理一個 URL 或網頁時,通常會消耗一個積分。確切的積分消耗可能因網頁複雜度與爬取過程中使用的特定功能而異。
可以安排定期爬取嗎?
定期爬取功能即將推出。目前,用戶可透過 API 或控制台手動啟動爬取任務,同時計畫推出針對定期資料提取任務的自動化排程功能。
是否提供代理支援?
是的。AnyCrawl 包含輪換代理支援,幫助用戶管理 IP 位址,並在爬取多個網頁或網站時避免速率限制。此功能在所有付費方案中均可用。
如何使用 AnyCrawl
- 訪問 AnyCrawl 網站 https://anycrawl.dev/,探索其功能和特性。
- 註冊免費帳戶,獲得 1,500 個積分,開始使用網路爬取服務。
- 使用提供的 API 將 AnyCrawl 整合到您的應用程式中,實現無縫的網路資料擷取。
- 輸入要爬取的所需 URL,並選擇適當的引擎(例如 auto)以獲得最佳結果。
- 查看結構化資料輸出,該輸出已針對 AI 和 LLM 使用進行格式化,確保資訊清晰有序。
