基於Airflow的ETL框架:簡化結構化資料處理流程

By 林奕勳

議題

基於Airflow的ETL框架:簡化結構化資料處理流程

TR 209 [[ new Date( '2023-07-29 01:30:00+00:00' ).toLocaleDateString('ja', {year: 'numeric', month: '2-digit', day: '2-digit'}) ]] [[ new Date( '2023-07-29 01:30:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] ~ [[ new Date( '2023-07-29 02:10:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] zh-tw
加入行事曆 加入關注 加入關注 已關注

在資料密集的大型企業中,Airflow經常可以作為ETL排程的工作調度引擎,透過Airflow提供的各種Operator,可以讓我們彈性與自由的撰寫各種基於Python或各種語言的工作(Task),並以DAG定義工作的上下游關係,將資料整理成有用的知識進行AI相關的服務。然而,在一個專注於結構化資料處理的資料科學團隊中,過於彈性與自由的框架反而讓團隊增加了許多維運、溝通與程式碼傳承上的成本。為了解決這個問題,Jeffrey在玉山銀行的智能金融處,開發了一個基於Airflow的ETL框架,讓身處巨量結構化資料中的資料科學家們,可以更簡易的進行規格化的ETL開發,並能夠於其中專注於業務邏輯:包含1) 資料表的欄位定義、2) 驗證邏輯撰寫與3) 轉換邏輯(Transformatioin)的函數撰寫與編排,ETL框架可以自動將以上元素串接上Airflow,並在Airflow UI上可以簡單地檢視這些元素。

講者

林奕勳

林奕勳

Jeffrey Lin (奕勳) 目前就職於玉山銀行智能金融處的技術中心-資料科學組,負責ETL相關工具的開發與Graph技術的研究與開發。興趣是研究Python或Big Data相關的工具或框架。

PyCon TW FHMWYE general (30mins)