Pyflow : 一個基於工作流的編程模型（Flow Based Programing) 工具

05-29

來自專欄剛是程序員

Flow Based Programing 是由J. Paul Rodker Morrison在很早以前提出的一種編程範式。

維基百科對FBP的定義如下：

In computer programming, flow-based programming (FBP) is a programming paradigm that defines applications as networks of "black box" processes, which exchange data across predefined connections by message passing, where the connections are specified externally to the processes. These black box processes can be reconnected endlessly to form different applications without having to be changed internally. FBP is thus naturally component-oriented.

在github的這個https://github.com/samuell/awesome-fbp項目內列舉了很多不同語言對該範式的實現以及一些資料，大家可以參考。

很多年前我用Python開發了一個基於流概念的數據處理工具。當時主要是想解決讓不懂編程的數據工程師能夠通過構建圖形化的數據流來達到數據獲取，變形和抽取的功能。這麼多年過去了，我整理了一下代碼，豐富了一下基本功能，構建了簡單的運行UI，算是有個初步的雛型，看看能不能分享給社區做些貢獻。

項目在這裡：

https://github.com/gangtao/pyflow
碼雲地址 https://gitee.com/gangtao/pyflow

其實利用Flow的概念在軟體項目中很常見。例如：

Apache NiFi
DAG in spark
AWS Step Functions
Azure ML Studio
TensorBoard from Tensorflow
Scratch programing language
argo an open source container-native workflow engine

我么下面來看看這個項目的基本概念和如何使用吧。

Flow的基本概念

Flow的基本概念很簡單，就是一個有向無環圖（DAG），數據在節點間流動。

節點 Node
節點是組成流的主要單元，負責對流入節點的數據進行處理，並輸出到後續節點進行進一步的處理。
埠 Port
每個節點擁有輸入和輸出埠，輸入埠負責數據流入節點，輸出埠負責數據流出節點。每個節點都可能擁有一個或者多個輸入和輸出埠。
連接 Link
一個節點的輸出埠連接到另一個節點的輸入埠，節點處理好的數據通過連接流入其後的節點。

Flow的實現

Pyflow對Flow的實現基本思路就是用一個Python的函數function實現一個節點，輸入埠映射為函數的輸入參數。輸出埠映射為函數的返回值。

流中有一個節點被設置為終點節點（End Node），通過節點間的連接關係，以終點節點開始通過連接搜索所有的依賴關係（樹形查找），得到一個節點運行的棧。例如上圖，我們就可以得到一個 [node1，node2, node3] 這樣的棧。按順序出棧的方式執行每一個節點的功能就可以運行整個流。（注意，這是一個簡單版本的Flow的實現，仍然是一個批處理，不是streaming）

需要假定每一個節點的功能是無狀態的，這樣就可以利用輸入輸出埠對計算結果進行緩存，但輸入值是已經運算過的值的時候，不需要運算，直接返回已經計算過的值。