長按識別二維碼,報名2018十大突破性技術中國區線下解讀會
過去2年,AI在互聯網行業的應用遍地開花,甚至可以說,互聯網行業的AI應用已經非常成熟,更可能已經有點過於擁擠了。 但就如同當初新興互聯網一時大量湧現的機會一樣,AI在多個不同行業落地生根、甚至是開花結果的過程,現在才正要開始。 在互聯網以外的行業領域,在信息化達到一定程度之後,已然開始產生大量的數據,但因為AI導入應用還處於很原始的階段。
在此其中,金融行業就是一個數據很海量、剛需非常明確、但AI應用導入仍剛起步的行業領域。 而在中國可以看到的狀況是,傳統金融行業是非常人工的,而互聯網公司則是非常智能的,在互聯網金融快速發展之際,許多傳統金融行業都明顯感受到明顯的競爭壓力。
事實上,在中國現在正經歷第三波金融科技升級浪潮,例如移動支付無處不在,金融服務的成本變得更低。 金融機構只能去擁抱科技去更容易的獲客,以更有效的運營,去應對更大的風險。
魔高一尺,道就得高一丈
互聯網世界有什麼妖魔鬼怪,互聯網的人最懂。
近年來,結合大數據及人工智能(AI)相關技術如機器學習,成了金融業者一隻新的探照燈,在龐雜的數據中照出風險。
例如,螞蟻金服提供的螞蟻微貸利用大數據、自然語言處理技術、基於深度學習技術的分析模型,分析是否放款,或是調整催收帳款的策略。 知名美國線上借貸獨角獸Avant、以學貸為主的SoFi,也是主打通過大數據和機器學習做風險評估,特別是非傳統信用審查的資料,如購物、繳費活動行為、甚至是在社群 媒體上的互動特徵,號稱能有效降低違約風險和詐騙。
有一群從互聯網公司出身,整日與龐大數據打交道、做數據挖掘的高手,成立了氪信,專攻普惠環境下金融風控的痛點。
與其他人不同的是, 氪信把互聯網數據挖掘的核心概念 “知識圖譜”(Knowledge Graph) 帶進金融領域 ,並且運用常見於用來做網頁搜索的算法—圖計算,打造出基於用戶移動行為語言處理的反欺詐框架,對抗詐欺團伙。
氪信(CreditX)CEO朱明杰表示,互聯網行業的AI應用已經非常成熟,有點過於擁擠了,但還有很多領域的AI應用還很原始化,例如金融、醫療、能源等都有很大的潛力, 金融的行為越來越在線化、移動化,產生大量數據,很像過去在互聯網行業所見到的發展,“就像我們當初看新興的互聯網的機會一樣,信息是金融的核心,這塊是 下一個戰場,”他說。
在電商、互聯網等行業也曾有很多欺詐手法,在淘寶、電商上刷單、刷銷量、竊取帳戶交易等,欺詐分子經過了互聯網的洗禮,被教育了,反倒提升了他們的技術, 但傳統金融行業卻是還是非常人工,過去金融業做信用評估多是靠風險專家的人工經驗,但光靠這已遠遠不足解決現今的問題。
氪信的策略就是使用大量的機器學習和深度學習,產生出人工不能加工的特徵,同時花了大量的時間建立金融領域的知識圖譜, 把過去大量沒有用上的數據和金融的表現聯繫起來。 通過知識圖譜的好處就是可以將這些關係構建成圖,更加可視化。
不久前,氪信在數據挖掘和機器學習應用頂級會議之一的 WSDM 2018(ACM International Conference on Web Search and Data Mining)大會, 有兩篇論文被大會接收, 點出了兩個創新的研究思維, 一是把用戶的移動行為跟圖計算整合,打造出一個移動行為語言處理反欺詐框架 —— BLP(Behavior Language Processing)。 什麼是移動行為? 是指人在移動設備上的動作,比如用戶操作金融APP是否異常,有欺詐的嫌疑,聯繫紀錄、交易信息等,通常都是基於大數據的統計結果,而並非人可以閱讀的一條一條的規則 。
另一項研究則是他們拿催收服務的“語音文本”做深度挖掘,加上無監督深度學習開發出一個特徵提取框架(X-Encoder),能夠有效地辨別出一系列逾期人的屬性、還 款意願的高低等。
圖丨氪信 數據科學 家姜松濤在 WSDM 上發布“基於X-Encoder的客服問答特徵提取框架”的演講
本屆WSDM 主題報告包括者美國國家工程院院士、微軟全球執行副總裁、ACM/IEEE Fellow 沈向洋,圖靈獎獲得者、UCLA 教授、貝葉斯之父Judea Pearl,谷歌傑出科學家Andrei Broder , LinkedIn 首席 數據科學家Igor Peris 美國伊利諾伊大學香檳分校計算機系教授、ACM/IEEE Fellow 韓家煒、USC教授Shanghua Teng等等。
而在多位互聯網搜索、數據挖掘領域大神面前,來自中國的新創公司氪信所發表的兩篇論文,卻讓多位大神級科學家驚嘆於AI+數據挖崛等技術整合的金融業跨域應用 飛速的進展,特別是中國金融市場快速發展所累積的驚人使用者行為與數據量,更讓國際學者印象深刻。 因為這無疑是從來沒有其他國家研究者真正有機會觸及的領域,而這樣的突破也進而讓這緉篇論文直接入選本屆WSDM大會。
圖丨 朱明杰在 WSDM 發表“The next battlefield”主題演講
朱明杰表示,過去多年有許多科學家在互聯網搜索、數據挖掘等領域所發展的技術,其實已經非常成熟,甚至可以說已經到了95分以上的程度, 但結合AI與數據挖掘的垂直行業應用則是還在剛起步階段 ,甚至可以說,即使是氪信目前的技術發展,也才達到65分上下水準,由此也可看出,在此一領域,還有相當的空間可以發揮,相較於其他市場, 中國獨有的金融環境與網貸行業所產生的巨量需求,無疑是提供了研究者直線提速前進的賽道環境。
移動裝置的行為數據難造假,成了防欺詐利器
想要在線上借貸做識別欺詐其實有不少挑戰,首先是信用相關特徵的稀缺性,傳統藉款方式用來分析消費者信用狀況的文件通常是強有力的特徵,比如抵押貸款、工作證明和社會 保險等,但網上借貸人群通常缺乏這些數據。 再加上,傳統金融服務的反欺詐檢測方法包括電話訪談、線下盡調等,成本太高,效率比較低,而且存在操作人員的道德風險,因此應用在網上欺詐的效果較差。
而氪信提出的BLP框架,集成了用戶線上行為數據採集系統、數據集成平台、知識圖譜、特徵提取以及預測模型, 這些組件共同深入挖掘數據,包括個別的風險提取、基於網絡分析的鏈接風險識別, 進而描繪出用戶的信用風險檔案。
為什麼是移動行為呢? 移動裝置已經滲透至每人的日常生活,蒐集用戶的行為數據更是相當普遍,例如運動健身,或是互聯網業者透過你在網路搜索的關鍵字就能知道你的喜好跟關注事物等。 這些代表著申請人的興趣、社交關係、生活方式的行為數據,其實就說明了一個人的金融風險,更重要的是些行為數據很難偽造。
BLP的運作方式及架構是: 在獲得借款申請人授權後,主機端的APP會通過軟件開發工具包(SDK)系統性的蒐集行為數據,數據收集的範圍會依照申請人授權的級別而有不同,像是金錢轉帳交易、移動設備 和上網的物理特徵,如設備ID、WiFi MAC 地址、GPS位置等。 接著映射到依據專家行業知識(domain knowledge)而建立的金融風險知識圖譜。
再上一層則有一個整合了專家知識和資料採礦(Data Mining)技術的自動化特徵提取模塊。 框架的頂層為一套集成學習算法,也就是預測模型。
圖|移動行為語言處理框架BLP
欺詐行為往往表現高同質性和高關聯性
圖計算在欺詐檢測中能發揮良好效益的原因在於,欺詐行為往往會表現出高同質性和高關聯性, 以位置坐標為例,如果申請期間申請人都來自同一地址,當數據採集模塊收集到GPS坐標時,就會被串連起來。 或者,在某段時間內的申請件中,某家庭地址所在區域的歷史申請逾期比例,也可以透過圖計算清楚呈現。
圖|這張圖表示的是群體風險,在某段時間內的申請件中,某家庭地址所在區域的歷史申請逾期比例為80%
再舉另一個例子,假設用戶的手機號和很多用戶的手機號都有聯繫,並且都是單向的聯繫,這個就是很明顯的特徵 —— 騷擾電話或是廣告騷擾。 基於這一點,也可以形成對於這個人的風險等級判斷。 目前在氪信的BLP架構中,連接的節點已經達到了幾千萬台設備的量級。
圖|這張圖表示關聯關係風險,申請手機號過去三個月內與大於1000人中僅有一次通話記錄,為疑似騷擾手機號
圖|這張圖表示有極高欺詐風險
因此,BLP可以說是把個人特徵提取方法和欺詐團伙信號整合在一個集成的框架中,並將圖計算應用在建立一個以欺詐為核心的二分圖(Bipartite Graph)。
圖|二分圖由兩種節點構成,相同類型的節點只能通過不同類型的節點連接,在BLP解決方案中,則是應用節點(application nodes )和信息節點(information nodes)
人工欺詐白天上班,機器人接著上夜班
朱明杰指出,圖計算在機器人欺詐、刷卡欺詐都很有效用,機器人有很多特殊、跟一般人不同的行為特徵,例如跟人的關聯異常多,或是集中在某些時段頻繁互動,另外,人工欺詐 團伙的運作大多是早上9點到晚上6點,按一般的工作時間跟金融機構互動、打電話,但機器人多是在夜間運作,下班時間後用模擬器或程序去申請。 以前沒有使用圖計算,就是靠人去檢視這些狀況,現在則可以交給AI來做。 不過朱明杰也強調,光有這些還不夠,還得要其他的要素一起判定,而且當銀行的風控模式變了,大欺團伙也會跟著調整。 只能說,真是善與惡之間的一場腦力長期大戰。
對於網貸金融業者來說,除了得防範欺詐分子外,另一個壓力則來自逾期未繳的壞帳,所面臨的催收壓力也劇烈增加, 因此氪信也開發了一套以語音催收紀錄進行特徵抽取、以及自然語言處理(NLP)而生的分析系統X-Encoder,目前數據集中收錄了5萬個例子,正面和負面的還款意願案例各 有一半。
透過語意就能判斷借款人的還款意願嗎? 答案是很有關聯的,只不過以前都是靠有經驗的客服人員去判斷,例如欠款人說了哪些藉口、語氣、規律特徵等,都是靠人工鑑驗,而氪信想的是利用 語意分析把對話的特徵找出來,關鍵詞、時間順序等,將大量的通話紀錄變成結構化的數據,再用這些特徵去評估還款的可能性、還款意願關係,後續銀行就可以再 規劃並提供欠款人更多的協助方法,例如債務重組等。
中國正在經歷第三波金融科技升級浪潮,比如移動支付無處不在,金融服務的成本變得更低,金融機構只能去擁抱科技去更容易的獲客,更有效的運營,應對更危險的 風險。 不過現在談論AI似乎是一件容易,但實際執行才會知道很困難,特別是在中國做金融服務,缺少高價值的金融數據,更高明的欺詐者帶來快速變化的特徵,信用和風險是 巨大的挑戰。
因此朱明杰放眼的就是那些還有很大潛力的行業,缺乏互聯網化和AI能力的持牌金融機構,以及缺乏金融實踐經驗的互聯網企業,就是氪信主要目標對象和合作夥伴。 另外,目前氪信主要的框架是以個人信貸為主,他指出,主要因為個人在線信貸有大量且分散的特點,是比較純粹的數據化問題,非常適合機器學習模型去解決問題。 其他的如企業信貸、匯率風險規避,需要行業知識和規則的風險,比如匯率、反洗錢等,也將是氪信後續希望覆蓋的領域。
-End-