免費(fèi)開(kāi)源可視化爬蟲軟件 EasySpider
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
授權(quán)協(xié)議GPL
開(kāi)發(fā)語(yǔ)言Python JavaScript HTML/CSS 查看源碼
操作系統(tǒng)跨平臺(tái)
軟件類型開(kāi)源軟件
所屬分類應(yīng)用工具、 網(wǎng)絡(luò)爬蟲 開(kāi)源組織無(wú)
地區(qū)國(guó)產(chǎn)
投 遞 者天際青年
適用人群未知
收錄時(shí)間2023-05-22 軟件簡(jiǎn)介EasySpider 是一款完全免費(fèi)和開(kāi)源的可視化爬蟲軟件,此軟件可以讓大家使用圖形化界面,無(wú)代碼可視化的設(shè)計(jì)和執(zhí)行爬蟲任務(wù)。 只需要在網(wǎng)頁(yè)上選擇自己想要爬的內(nèi)容并根據(jù)提示框操作即可完成爬蟲設(shè)計(jì)和執(zhí)行。同時(shí)軟件還可以直接在命令行中通過(guò)傳參的方式執(zhí)行,從而可以很方便的嵌入到其他系統(tǒng)中。 V0.3.0 版本新增的功能,包括下載圖片,元素截圖,執(zhí)行任意 JS 指令和系統(tǒng)命令,通過(guò) JS 代碼進(jìn)行條件判斷,OCR 識(shí)別等等功能,想要的功能應(yīng)有盡有,而且這些功能完全免費(fèi)!!! 以下是示例界面:
下載 EasySpider 進(jìn)入 Releases Page:https://github.com/NaiboWang/EasySpider/releases 下載最新版本。 視頻教程 1. EasySpider 介紹 - 中國(guó)地震臺(tái)網(wǎng)采集案例:https://www.bilibili.com/video/BV1Fk4y1L7xX/ 2. 如何無(wú)代碼可視化的爬取需要登錄才能爬的網(wǎng)站 - 知乎網(wǎng)站案例:https://www.bilibili.com/video/BV1HV4y1r7v8 3.【重要】自定義條件判斷之使用循環(huán)項(xiàng)內(nèi)的 JS 命令返回值:https://www.bilibili.com/video/BV1mu411x7Nn/ 4. 流程圖執(zhí)行邏輯解析 - 58 同城房源描述采集案例:https://www.bilibili.com/video/BV1YL411z7uW 5. MacOS 系統(tǒng)設(shè)計(jì)和執(zhí)行 eBay 網(wǎng)站爬蟲任務(wù)教程:https://www.bilibili.com/video/BV1WL411h71r 6. 如何執(zhí)行自己寫的 JS 代碼和系統(tǒng)代碼 (自定義操作):https://www.bilibili.com/video/BV1qs4y1z7Hc/ 7. 如何自定義循環(huán)和判斷條件 - 第一彈:https://www.bilibili.com/video/BV1Ys4y1z777/ 8. 如何對(duì)元素和網(wǎng)頁(yè)截圖及命令行執(zhí)行指南:https://www.bilibili.com/video/BV1dV4y1z764/ 9. OCR 識(shí)別元素內(nèi)容功能:https://www.bilibili.com/video/BV1xz4y1b72D/ 10. 如何爬需要輸入驗(yàn)證碼的網(wǎng)站:https://www.bilibili.com/video/BV18c411K7FH 11. 如何切換 IP 池和使用隧道 IP - 打開(kāi)詳情頁(yè)采集案例:https://www.bilibili.com/video/BV1KT411t79n 文檔 請(qǐng)點(diǎn)此進(jìn)入教程文檔,如有英文可暫時(shí)翻譯一下,或看作者的碩士畢業(yè)論文(主要看第三章和第五章)。 Documentation can be found from GitHub Wiki. 為什么要用 EasySpider 相比其他可視化爬蟲軟件,EasySpider 有以下優(yōu)勢(shì): 1. 代碼開(kāi)源,因此可以進(jìn)行二次開(kāi)發(fā)。 2. 完全免費(fèi),不同于八爪魚等軟件的 “免費(fèi)”,EasySpider 是一個(gè)無(wú)需登錄,無(wú)限多開(kāi),無(wú)限機(jī)器部署的軟件,不需要向作者本人支付一分錢。(當(dāng)然,EasySpider 受到專利保護(hù),因此如果要商用,還請(qǐng)聯(lián)系浙江大學(xué)天道專利事務(wù)所)。相比之下,其他軟件的免費(fèi)有諸多限制,具體可以看他們的價(jià)格詳情頁(yè)。 3. 安全,所有信息完全保存在用戶本地,包括任務(wù)和采集的數(shù)據(jù),不用擔(dān)心數(shù)據(jù)泄露問(wèn)題。 4. 跨平臺(tái):同時(shí)支持 Windows,Linux 和 MacOS。 5. 速度快,通常一個(gè)爬蟲任務(wù)只需要 2-5 分鐘即可設(shè)計(jì)完成,采集速度也快,通常取決于具體機(jī)器環(huán)境。 6. 更加靈活,保存的瀏覽器配置信息更多,最重要的是可擴(kuò)展,自由的安裝各種插件,比如驗(yàn)證碼識(shí)別插件。 7. 可以直接以命令行的方式執(zhí)行,無(wú)限部署在任何想要部署的機(jī)器中。 8. 可以在任務(wù)流程中執(zhí)行自定義的指令,包括 JavaScript 指令以及系統(tǒng)級(jí)別指令,這個(gè)是目前所有的可視化爬蟲軟件都做不到或者不愿意做的事情。 9. V0.3.0 版本新增的功能,包括元素截圖,執(zhí)行任意 JS 指令和系統(tǒng)命令,OCR 識(shí)別等等功能,想要的功能應(yīng)有盡有,而且這些功能完全免費(fèi)!!! 從需求導(dǎo)向來(lái)說(shuō),爬蟲算是一項(xiàng)基本的需求,我們經(jīng)常需要去爬一些網(wǎng)上的信息,比如對(duì)于科研工作者,爬取維基百科語(yǔ)料庫(kù)進(jìn)行訓(xùn)練是做 NLP 的同學(xué)經(jīng)常做的事情;做社交網(wǎng)絡(luò)分析的同學(xué)經(jīng)常需要爬取 Twitter 和微博的信息;做推薦系統(tǒng)的同學(xué)會(huì)去爬購(gòu)物網(wǎng)站的信息等等。市面上爬蟲需求很多,這里就不在贅述了。有了 EasySpider,不管大家之前會(huì)不會(huì)寫爬蟲,現(xiàn)在都可以不需要費(fèi)心費(fèi)力的寫代碼了。
該文章在 2024/8/21 9:11:57 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |