【崗位職責】
1.期刊XML數據標準制定與實施(核心重點)
a. 負責分析不同標準的期刊XML數據(如JATS、BITS、CrossRef等),制定符合我司業務需求的內部統一數據標準和規范。
b. 設計并開發強大的XML解析、驗證、清洗和轉換(ETL/ELT)流程,確保數據能準確映射到目標模型。
c. 建立數據質量監控規則和校驗體系,對入庫的期刊XML數據進行自動化質量檢查和報告,確保數據的完整性、準確性和一致性。
d. 解決XML數據處理中遇到的復雜技術問題,如處理大型XML文件、解析復雜嵌套結構、字符編碼問題等。
2.數據管道與平臺開發(通用數據工程師職責)
a. 設計、構建和維護穩定、可擴展的數據管道,負責期刊數據從采集、處理到存儲的全鏈路。
b. 管理和優化數據倉庫/數據湖中相關數據模型,確保其能滿足下游業務(如檢索、推薦、分析)的需求。
c. 與數據科學家和分析師協作,為其提供高質量、易用的數據集合。
3. 標準維護與協作
a. 持續跟蹤學術出版行業的數據標準演進,并據此優化內部標準和處理流程。
b. 與內容獲取、產品經理和研發團隊緊密協作,理解業務需求,并將其轉化為技術方案。
c. 編寫清晰的技術文檔,包括數據標準說明書、數據處理流程說明和系統設計文檔。
【任職要求】
1. 工作經驗
a. 學歷要求:碩士以上學歷(211,985,雙一流院校優先),計算機及相關專業優先
b. 3年以上數據工程師或相關領域工作經驗。
c. 必須具備扎實的XML/JSON等結構化數據處理經驗,熟悉XPath, XSLT, XML Schema (XSD) 等相關技術。
d. 擁有構建和維護ETL/ELT數據管道的實戰經驗。
2.技術技能:
a. 編程語言: 精通 Python 或 Java/Scala,并具備使用其處理XML/JSON數據的能力(如使用lxml, ElementTree, BeautifulSoup等庫)。
b. 數據存儲: 熟悉至少一種關系型數據庫(如PostgreSQL, MySQL)和一種NoSQL數據庫(如MongoDB)。
c. 大數據技術: 熟悉至少一種大數據處理框架,如 Spark(優先考慮)、Flink,或熟練使用SQL進行復雜數據處理。
3.軟技能:
a. 對數據質量有極高的要求,做事嚴謹、細致,有強烈的責任心。
b. 具備優秀的邏輯分析和問題解決能力,能獨立解決復雜的數據問題。
c. 具備良好的溝通能力和文檔撰寫能力。
4.優先考慮條件(加分項)
a. 有學術出版、數字圖書館、知識服務等相關行業背景,熟悉 JATS 等期刊標記標準。
b. 有使用或解析 Elsevier, Springer Nature, Wiley 等大型出版社XML數據的經驗。
c. 有數據治理、數據質量管理或元數據管理相關項目經驗。