崗位職責:
1、設計并實現高效、穩定的爬蟲系統,抓取并處理海量數據;
2、維護和優化現有爬蟲,確保其高效運行和數據準確性;
3、分析和解決爬蟲運行中的問題,如反爬機制、IP 封禁等;
4、研究和應用新的爬蟲技術和方法,提高數據抓取的效率和質量;
5、與數據分析團隊合作,提供高質量的數據支持和服務;
6、編寫爬蟲相關的技術文檔和代碼注釋,保證代碼的可維護性和可擴展性。
任職要求:
1、大專及以上學歷,計算機科學、軟件工程或相關專業;
2、2 年以上 Python 開發經驗,至少 2 年以上爬蟲開發經驗;
3、熟練使用 Scrapy、BeautifulSoup、Selenium、Requests、Playwright、DrissionPage 等爬蟲框架和工具;
4、熟悉 HTML、CSS、JavaScript,能夠分析和提取網頁數據;
5、熟悉常見的反爬機制及應對策略,如驗證碼處理、動態加載、IP 封禁等;
6、熟悉數據庫技術,如 MySQL、MongoDB、Redis 等,能進行數據存儲和管理;
7、具有一定的 JS 逆向能力;
8、具有良好的編碼習慣和文檔編寫能力,能夠編寫高質量的技術文檔;
9、具有團隊合作精神,良好的溝通能力和解決問題的能力;
具備大數據處理、機器學習等相關經驗者優先。