職位描述
該職位還未進行加V認(rèn)證,請仔細(xì)了解后再進行投遞!
職位描述:
崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計、開發(fā)。
2、完成帶領(lǐng)團隊完成數(shù)據(jù)采集爬取、解析提取、清洗入庫等數(shù)據(jù)生產(chǎn)工作。
3、研究網(wǎng)頁特點和規(guī)律,對網(wǎng)頁信息進行分類、抽取、數(shù)據(jù)清洗、存儲結(jié)構(gòu)等研發(fā)和優(yōu)化工作。
4、負(fù)責(zé)定向爬取視頻資源及相關(guān)聯(lián)信息。
5、負(fù)責(zé)領(lǐng)域知識的定向爬取、深度提取和挖掘。
6、對數(shù)據(jù)進行清洗、整理、去重及合并等工作。
任職資格:
1、大專以上學(xué)歷,3年以上python/java或c#開發(fā)經(jīng)驗,熟悉一種開源爬蟲系統(tǒng)實現(xiàn)或作為主力參與過一個完整的爬蟲開發(fā)項目。
2、熟悉網(wǎng)頁爬取原理及技術(shù),熟悉深度抓取、動態(tài)網(wǎng)頁抓取技術(shù)、熟悉請求偽裝,模擬登陸,代理應(yīng)用,爬蟲和反爬技術(shù)。
3、精通正則表達式、javascript、json、http協(xié)議、html,善于從各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取有用的信息。
4、熟練多線程技術(shù)、網(wǎng)絡(luò)編程技術(shù)等相關(guān)優(yōu)勢經(jīng)驗者優(yōu)先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相關(guān)技術(shù)者優(yōu)先;具有驗證碼破解經(jīng)驗者優(yōu)先。
崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計、開發(fā)。
2、完成帶領(lǐng)團隊完成數(shù)據(jù)采集爬取、解析提取、清洗入庫等數(shù)據(jù)生產(chǎn)工作。
3、研究網(wǎng)頁特點和規(guī)律,對網(wǎng)頁信息進行分類、抽取、數(shù)據(jù)清洗、存儲結(jié)構(gòu)等研發(fā)和優(yōu)化工作。
4、負(fù)責(zé)定向爬取視頻資源及相關(guān)聯(lián)信息。
5、負(fù)責(zé)領(lǐng)域知識的定向爬取、深度提取和挖掘。
6、對數(shù)據(jù)進行清洗、整理、去重及合并等工作。
任職資格:
1、大專以上學(xué)歷,3年以上python/java或c#開發(fā)經(jīng)驗,熟悉一種開源爬蟲系統(tǒng)實現(xiàn)或作為主力參與過一個完整的爬蟲開發(fā)項目。
2、熟悉網(wǎng)頁爬取原理及技術(shù),熟悉深度抓取、動態(tài)網(wǎng)頁抓取技術(shù)、熟悉請求偽裝,模擬登陸,代理應(yīng)用,爬蟲和反爬技術(shù)。
3、精通正則表達式、javascript、json、http協(xié)議、html,善于從各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取有用的信息。
4、熟練多線程技術(shù)、網(wǎng)絡(luò)編程技術(shù)等相關(guān)優(yōu)勢經(jīng)驗者優(yōu)先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相關(guān)技術(shù)者優(yōu)先;具有驗證碼破解經(jīng)驗者優(yōu)先。
工作地點
地址:深圳南山區(qū)深圳


職位發(fā)布者
HR
深圳市匯星數(shù)字技術(shù)有限公司

-
通信/電信/網(wǎng)絡(luò)設(shè)備/增值服務(wù)
-
51-99人
-
公司性質(zhì)未知
-
深圳市南山區(qū)高新科技園北區(qū)朗山路16號華瀚創(chuàng)新園d座503室