11 月 8-9 日,CSDN 和 AICamp 聯(lián)合舉辦的 AI 開發(fā)者大會在北京順利舉行。普元移動產(chǎn)品線總經(jīng)理郝振明發(fā)表了《基于機器學習的工程實踐》的主題演講,并接受了專訪。
以下內(nèi)容為郝振明的演講與采訪總結,文內(nèi)略有刪減:
演講
機器學習有RPA結合的必要性
今天的演講主題是根據(jù)普元在 RPA 實踐過程中的一些經(jīng)驗分享,是從工程化的角度來探討如何解決特定領域中的問題。RPA (Robotic Process Automation),就是把人重復性勞動通過自動化手段去完成。例如,有些公司代理申報納稅,這個工作流程是比較繁瑣的,直到最后完成提交,需要大量重復錄入的工作。整個流程非常耗費人力,而我們所做的主要工作就是把其中重復性的勞動交給軟件來完成,用軟件方式解決一個跨系統(tǒng)的問題。而我今天的分享將結合財務工作中報銷工作環(huán)節(jié)的實現(xiàn)和大家進行探討。
首先,RPA 不適合小型企業(yè)。因為小型企業(yè)不涉及大量的重復性工作,所以,明確了這個前提:RPA 適合大型企業(yè),集團型企業(yè)幾乎都會做財務共享中心。在現(xiàn)實中,員工提交粘貼好的發(fā)票后,剩下的工作都需要財務共享中心來完成,在這個場景中為什么應用 RPA 是最合適的?RPA 傳統(tǒng)做法是需要結構化數(shù)據(jù),就這個需求而言,核對發(fā)票真實性,把電子版發(fā)票變成有用的信息,低效易錯的手填發(fā)票,人工智能在很大程度上解決了這些繁瑣的工作流程。
機器學習有RPA結合的工程實踐
而我們現(xiàn)在努力解決的工作主要有三點:以獲取結構化數(shù)據(jù)為前提、使流程高度標準化、其核心技術采用 GUI 的錄制與回放。此方法基于非現(xiàn)實世界的目標檢測和驅動,與此進行交互的不是人類而是系統(tǒng),絕大多數(shù)情況下通過遷移的方法。
在獲取結構化數(shù)據(jù)的過程中還存在一些技術難點。比如某些出租車發(fā)票上的字體,人眼可能也無法分辨清楚。我們又該如何做到呢?是否有一個通用的算法模型或神經(jīng)網(wǎng)絡可以直接解決?經(jīng)過我們的研究發(fā)現(xiàn),這還是一件有難度的事情。尤其是增值稅專票的處理與增值稅普通發(fā)票的處理都還存在著不同之處。到這里我們就知道,首先要做的就是先要對發(fā)票進行分類,而僅有類型的分類是不夠的,還需要做具體內(nèi)容的識別,如到底公司名稱及金額。這些工作原來都是人工手動完成的,我們把整個流程在經(jīng)過紙質化轉化成電子化后進一步做了分解。
如何做發(fā)票的分類處理?首先要全程跟蹤電子發(fā)票,這是軟件系統(tǒng)就可以完成的工作,并不需要復雜的機器學習算法。接下來,發(fā)票類型決定了后續(xù)如何進行處理與訓練。經(jīng)過我們的實踐發(fā)現(xiàn),進行發(fā)票內(nèi)容識別時,用同一個 OCR 模型并不能識別所有類型發(fā)票中的內(nèi)容。比如,出租車發(fā)票是點陣擊打形成的,這就是一個比較難處理的問題。在前期分類,各模型處理后,某個效果如果仍然不好,我們就會單獨針對性的解決,不再做整體處理。在分類處理發(fā)票步驟中,我們主要使用 Fast-RCNN 模型,從時間角度來說更符合我們期望得到的效率。
目標檢測之后,我們得到了更好的圈定范圍,排除了那些無意義,會產(chǎn)生干擾的部分。我們沒有找到一個通用數(shù)據(jù)集去訓練模型,我們是自己在一個不大的數(shù)據(jù)集上實現(xiàn)的,效果還可以。但是,在這個過程中,也結合了其他的技術手段。我們在訓練網(wǎng)絡模型的時候發(fā)現(xiàn)了一些點,有時候彩色是有幫助的,有時候它也是一種干擾,反而用黑白色效果更好,所以我們把兩個網(wǎng)絡同時訓練。在預測階段轉成彩色圖或灰圖,對比并選擇更優(yōu)效果。
上面談到的主要是發(fā)票分類的問題,在實踐過程中,我們還發(fā)現(xiàn)了一個不可忽視的重要問題——發(fā)票的數(shù)量。粘貼發(fā)票可以是單張也可以是多張,當單張的情況下,我們通過剛剛講的一些方法來解決,但當不止一張的時候該如何去做?首先要對發(fā)票進行識別及切圖,然后進行擺正、文字區(qū)域識別,文字內(nèi)容識別等。我們得到的切圖效果還是可以的,準確度達到了 90% 以上。而發(fā)票的檢測,切分及識別更多是為了后續(xù)的工作。如果直接交給 OCR 系統(tǒng)實現(xiàn)的效果一般,無法分清普通發(fā)票和增值稅發(fā)票的情況下,我們會把兩張發(fā)票進行合并,但是后續(xù)也會帶來一些隱患。最后,我們用了一個掃描二維碼的功能,這是一個簡單的步驟。我們對用二維碼掃描得到的信息做分類,第一個字段目前沒用,第二個字段表明發(fā)票類型。這里特別提到一點就是二維碼信息的作用,除了提供了發(fā)票類型,在后續(xù)的一個場景中也起到了關鍵作用。
接下來,想和大家探討的第二個大問題是關于數(shù)據(jù)集和模型訓練。我們自己也有一些定位,一開始在訓練效果不是很好的情況下,我們又加入了一些數(shù)據(jù)集重新訓練,從 60% 提升至 80%多,我們也會根據(jù)結果不斷的調整模型。
進入下一環(huán)節(jié),涉及選擇 SaaS 服務還是私有化方案。我個人更傾向于 SaaS 服務,相對成熟。但在這里需要考慮一個問題,發(fā)票報銷涉及很多流程,很多信息會被泄露,通常建議使用 SaaS 模型,但一些特殊情況下必須考慮私有化方案。
OCR 識別中還需要講到三個比較關鍵的問題:對稍微有傾斜的發(fā)票,OCR 效果不好,需要增加一個環(huán)節(jié),先擺正;字體不清晰的情況下,先用場景類文字檢測方法進行區(qū)域檢測;文字識別過程涉及特殊字體時,進行針對性不同的處理。判斷發(fā)票類型,調整等工作用傳統(tǒng)的 CNN 就可以完成;檢測文本我們用到的是 CTPN 模型。
我們還做了一個工作就是自建訓練數(shù)據(jù)集,通過之前貼圖我們獲得了單張圖,并自動把每張圖旋轉成 0 度、 90 度、180 度及 270 度。
未來,機器學習會融入各個行業(yè),我們主要把機器學習的方法與工程進行結合與實踐。機器學習與 RPA 結合的過程中,非結構化數(shù)據(jù)的結構化、智能的工作流、基于 NLP 及檢測技術下的自動化,這三個工作我們都在實踐,現(xiàn)在第一和第三個工作取得的效果還可以。未來,我們會在各個領域結合機器學習、比較成熟并且效果好的網(wǎng)絡,我們也會特別關注先前工作為后續(xù)工作帶來的啟發(fā)。
采訪
AI科技大本營:可以先介紹一下您自己和負責團隊的情況嗎?
郝振明:我在普元已經(jīng)近 16、17 年的時間了。最早在公司是做 JAVAEE 的,后來公司業(yè)務需要移動產(chǎn)品,我就轉到移動產(chǎn)品研發(fā)。最近,從 2014 年開始,我有 1/3 左右的精力在人工智能上,原因很簡單,任何一個事物,在我們公司內(nèi)部都不是立刻顯現(xiàn)、被需求的,會經(jīng)歷一個孵化階段。對我們團隊而言,就是一個不斷孵化的過程。我們在先進領域都是從不懂到開始學習,慢慢成長起來的。為什么關注人工智能?我認為,未來的設備可能不一定是移動智能手機,但一定從智能手機開始的。所以對我而言,這是一個切入點。未來,我是都會一直在這個方向走下去,更多的從公司業(yè)務需要出發(fā),尋找個人的方向。
AI 科技大本營:您和您的團隊目前的工作是公司面向 AI 的主要方向或業(yè)務突破口嗎?
郝振明:我們有幾條線,每條線路都會有。從我個人角度而言,我認為我們可能會取得的突破多一些。原因有幾點:首先,我們進入比較早,大概在 2013、2014 年就開始嘗試了。到了 2016、2017 年,不敢說做的怎么樣,但至少是愿意和大家進行分享的。其次,我們也做了投入,未來很多場景都會有人工智能,而不是部分公司。公司也是認為“人工智能會融入到各個產(chǎn)品線”。
AI科技大本營:您公司和團隊在做 AI 相關工作時有哪些思想和經(jīng)驗可以和大家分享一下嗎?
郝振明:其實,在過去的幾年里,我們在很多領域進行了不斷地嘗試與分享。去年,我做過一次分享,主要圍繞 AI 如何與開發(fā)結合的相關問題。所以,除了大家都比較關注的基礎層面的工作,我們其實更多關注如何在解決實際業(yè)務中結合 AI 。今天的分享中主要講到的是 RPA,用簡單易理解的方式來解釋,就是通過自動化手段完成一些具有很多重復性勞動的業(yè)務與工作。主要講到的財務報銷環(huán)節(jié)。這里面包含很多重復性人力勞動,不僅耗時耗歷,效率也不高。所以,基于這個場景出發(fā),我們研發(fā)了自己的 RPA。但是在完整的技術解決方案中,我們也不是全部依賴 AI,我們發(fā)現(xiàn),傳統(tǒng)方法有可能取得更好的效果。所以,我們在實際工作中,如何與 AI 結合有兩個主要觀點:我們需要 AI 但不單獨講 AI ,我們更關注 AI 如何與實際業(yè)務場景結合;我們不會為了使用 AI 而用 AI,在 AI 真的有更好的發(fā)揮作用的時候結合 AI,最終為企業(yè)提供智能化的解決方案。
在這次在分享中我也講到了我們的一些方法和思想。首先,我們都是從實際業(yè)務場景出發(fā)。對于我們來說,理論的創(chuàng)新,算法性能的提升,基礎工具的研發(fā)等基礎層面取得突破工作相比,我們更傾向不斷豐富業(yè)務落地場景,在實際場景中解決問題。這也許不是用的最新的網(wǎng)絡模型、算法就足夠的。但是可以讓企業(yè)可以具備更智能化的問題解決方法,對整個市場,對企業(yè)客戶乃至每個職員都會產(chǎn)生影響,這也是我們在此方向上努力的原因。
于此同時,在我們的工程實踐中,仍然會面臨很多的挑戰(zhàn)。比如在 RPA 就還存在很多問題,分享中我也提到了,RPA 必須需要結構化數(shù)據(jù),我們在這方面也做了很多工作后,發(fā)現(xiàn)非結構化數(shù)據(jù)轉化結構化數(shù)據(jù)時,人工智能的優(yōu)勢非常明顯,在這個過程中我們用到了一些算法和模型。通過不斷的實踐,找到最適合的算法,在結合我們的算力和數(shù)據(jù)完成一個智能化的工作流程。在一些算法也不能很好的解決某些問題時,我們進行單獨分析,加入一些輔助方法或環(huán)節(jié)。除了關注研究前沿,我們在現(xiàn)實業(yè)務工程化時一般會挑選一些相對成熟的算法或網(wǎng)絡,但是我們不聚焦于某一種算法,而是聚焦于那些適合、可以在當前的場景下發(fā)揮更大的作用。
就像大家都比價熟悉的 OCR 技術,但我們在工程實踐中就會發(fā)現(xiàn),應用在特定,專業(yè)領域中會效果不一定一樣的好。比如在 RPA 中,識別增值稅發(fā)票內(nèi)容時,當字太小,不清晰,套打走行等多種復雜情況同時存在時,如何運用 OCR 技術并取得良好的效果?所以,我們需要我們的人才專注在某一特定領域,解決實際問題。
公司層面,其實在不同領域都有進行嘗試,無論是在開發(fā)階段,還是應用階段。不僅是技術的驗證,我們努力結合每一個業(yè)務場景,專注落地。
AI科技大本營:您剛才提到的很多還是涉及 RPA 在財務報銷環(huán)節(jié)的應用,是首先在這個環(huán)節(jié)落地的嗎?這是主打場景,還是除此之外也有別的?
郝振明:是的,我們最先實踐的場景是財務報銷環(huán)節(jié),而實現(xiàn)業(yè)務流程自動化以提到生產(chǎn)力也是財務機器人最先落地的場景之一。但是確切來說,我們不是為了做廣泛智能才做這件事的,是因為有了實際的需要。RPA 在一般在集團型企業(yè)都會涉及,在大型企業(yè)財務工作中對這方面有非常實際的需求。所以,在這個解決方案中,我們通過尋找合適的技術,結合 AI 給企業(yè)提供更智能化,高效的業(yè)務解決方案。
我們在其他領域也做了很多工作,比如數(shù)據(jù)領域。作為一個技術型公司,技術是否為我所用是我們關注的重點。除了前沿技術,Paper,學術產(chǎn)業(yè)會議,都會進行跟蹤學習。還會有專業(yè)的算法工程師專門針對與場景結合的可行,有效性的分析。如果說單獨做一個人工智能平臺,從多角度來看不是我們的定位。
AI科技大本營:這樣的工作理念是從什么時候就確立的?
郝振明:我們大概在 2014、2015 年的時候開始關注這個領域。一開始這個市場非常熱鬧,而我們關注這個領域本身源于一個最大的困惑:我們會不會被淘汰?是這樣的一種自我憂患意識促使我們不斷地進行嘗試。后來,我們發(fā)現(xiàn),我們需要的是:商業(yè)模式的差異化。從自身角度來講,我們并不是像一些企業(yè)那樣,需要有專業(yè)團隊,我們致力于人工智能,但是當時我們還不具備充分的條件,在未來成熟以后我們也會做這件事。
再后來,我們就會發(fā)現(xiàn),其實還是應該從自身尋找我們需要什么,知道了需要什么就決定了我們要如何做。
現(xiàn)在大家也都在討論,人工智能除了技術,場景在哪里?我們對人工智能是長期看好的,但是現(xiàn)在最大的問題是讓更多的人利用人工智能。同時,我認為如果人工智能往上再走一個階段,其實是廣泛的應用。而廣泛的應用也不僅僅局限于現(xiàn)在大家都熟悉的客服機器人,娛樂。未來的世界難道就是這樣的嗎?也是從這個角度出發(fā),我們在尋找更多的場景,希望做更多的落地應用。在這里也是希望很多行業(yè)能加入,大家共同做出更多更落地的解決方案。建立一個真正的 AI 生態(tài),需要基礎的算法,優(yōu)秀的人才和豐富的場景,實踐的落地。
AI科技大本營:有一類企業(yè)會特別地去研究自己的算法或者是構建平臺。你們想做的實際上是比在做更上一層的工作?據(jù)我了解咱們應該都是服務的中大型的企業(yè),自己是否想過具體服務到每一個場景,還會有很多問題,比如數(shù)據(jù)不完備?該如何解決呢?
郝振明:是的,我們現(xiàn)在更多的是在一個領域里做一件事情,我們也在積累,從技術解決策略上說我們會用到遷移學習等方法。我認為現(xiàn)在人工智能是正在起勢的一個過程。我可以給大家引用這樣一個例子就很好理解,我在 2000 年左右做程序員,那個時候講軟件這個概念是不容易被理解的。大家如果現(xiàn)在來看程序員,發(fā)生了一個很大變化的過程,從一個專業(yè)的小領域到普世。回到你剛問的問題,現(xiàn)在一些企業(yè)做了很多基礎的工作,并不代表能把所有的人工智能全部依賴于此建立起來。我們也會關注這些工作,但我們更關注如何使用。也不一定就是某個或某些企業(yè)可以做這些工作,當我們的訴求越來越多,就會出現(xiàn)我們的結合點。
第二個關于數(shù)據(jù)量大小的問題。現(xiàn)在很多研究和工作都是基于大數(shù)據(jù)算,就我個人觀點而言,是會存在一些問題的,比如不夠智能化,個性化。我們可以看到目前一些工作可能只做到了人工的 70 %-80% 的水平,從以往經(jīng)驗不容易被發(fā)覺,也許恰恰是大數(shù)據(jù)反向制約的,但是一定會有突破性的進展。其實可以理解成利與弊的關系,數(shù)據(jù)量特別大,更容易總結,但可能因為數(shù)據(jù)量過大,導致突破自身原有經(jīng)驗成為一件有難度的事情。在這方面我們也進行過一些嘗試,例如,當數(shù)據(jù)量不是特別大的時候,會基于一些基礎網(wǎng)絡進行遷移。從我們的角度而言,關注小數(shù)據(jù)在工程化實踐中的作用,可以嘗試用來防止額外干擾,再通過專業(yè)模型聚焦我們的關注點。利用小數(shù)據(jù)形成一些智能化解決方案可以說也是我們的一個期望。但是,目前我們還沒有找到一個很好的點,但是相信,未來小數(shù)據(jù)量不會成為制約的問題。至于一些已經(jīng)相對成熟的技術,為什么我們自己也在獨立做?關鍵也在于此,在工程化實踐中,結合某一具體場景,會需要專門解決的一些問題。所以,我們需要的不止是一個通用技術,是針對特定領域的技術。這就需要在與工程化結合的時候,自己研發(fā)、改進算法或模型來尋求更好的解決方案。
AI科技大本營:從更高的層面而言,目前的這些工作如何幫助普元更好的賦能企業(yè)用戶?
郝振明:這里有兩個關鍵點:一個是自身的 know-how,一個是工程化。剛剛忽略的一個問題是:本身體系的延續(xù)性。通過技術本身,尋求技術,做技術的沉淀。
AI科技大本營:在未來的工作中面對不斷的挑戰(zhàn)有哪些措施?
郝振明:未來,我們期望是不是可以不僅局限于通用世界?從工程化階段來看,我們需要等待成熟,因為在還不能做的很好的情況下,選擇躲避一些問題,可能是更欠妥的做法。所以,除了技術角度,算法角度,我們還會結合工程方法,比如軟件工程的方法來完成。通過這種方式突破我們自身或現(xiàn)在行業(yè)內(nèi)的情況。尚未做的很好,也是我們在接下來的工作中努力嘗試的。我個人而言,我不是一個科學家,我更像一個干活兒的。我需要用的知識,技術,工具,有專家的成果可以讓我去嘗試,但終有一個是我要瞄準的方向,從而挑選出一個適合我們的。
-
AI
+關注
關注
87文章
29886瀏覽量
268174 -
智能化
+關注
關注
15文章
4794瀏覽量
55205 -
機器學習
+關注
關注
66文章
8357瀏覽量
132335
原文標題:AI工程的實踐者:普元積極將場景落地,為企業(yè)提供智能化解決方案
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論