歡迎光臨
我們一直在努力

視覺世界中的“眾裡尋她”——開放環境下的人物特徵表示 | VALSE Webinar

本文整理自 視覺與學習青年學者研討會(Vision And Learning SEminar,VALSE)Webinar 2018-01-17 期報告。

VALSE 由計算機視覺與機器學習領域內的華人科學家共同發起,主要目的是為計算機視覺、圖像處理、模式識別與機器學習研究領域內的中國青年學者(以70 後和80 後為主)提供一個深 層次學術交流的舞台。

編輯  袁基睿  楊茹茵

編者按: 辛棄疾在《青玉案.元夕》中曾這樣寫道,“眾裡尋她千百度,驀然回首,那人卻在,燈火闌珊處。”

其實在視覺理解領域,這半闕詞,描繪的即是,在熙熙攘攘的視覺世界中,通過剝離場景,只關注所關心的那個她的過程 。

如果能夠更好地對“她”進行表示,將直接影響到相關視覺任務的性能。 因此,對人物的特徵表示,成為了計算機視覺領域一個長期的研究方向。

今天,來自加州大學伯克利分校的劉子緯博士,將從開放環境下的人物特徵表示出發, 帶著你,在熙熙攘攘的視覺世界中,“眾裡尋她”。

~ 講者簡介 ~

劉子緯 ,現為加州大學伯克利分校博士後。 2017年博士畢業於香港中文大學,師從湯曉鷗教授和王曉剛教授,期間應邀赴Microsoft Research和Google Research實習。 他的研究興趣是計算機視覺、機器學習和計算攝影學等,目前已在TPAMI,CVPR,ICCV,ECCV,SIGGRAPH等頂級期刊和會議上發表論文十餘篇。 他曾獲得Microsoft Young Fellowship, Hong Kong PhD Fellowship和ICCV Young Researcher Award等獎項。

文末特別提供文中提到所有文章以及代碼的下載鏈接。

本文整理自 VALSE(Vision And Learning SEminar,視覺與學習青年研討會)Webinar 2018-01-17期報告。

為什麼要做以人為中心的視覺計算? 在精彩的數據世界中, 90%的圖像視頻數據都是與人相關的。 例如,對於上圖,我們第一點會關注的就是她是誰、有怎樣的喜怒哀樂,也就是對人臉屬性的理解。

第二點,會關注她的衣著打扮和服飾風格,這是對全身的理解;

第三點,我們開始嘗試理解她和環境的關係,也就是所謂的場景理解。

最後,我們好奇的是她將要去哪裡,下一個動作是什麼,也就是運動關係理解。 接下來將從以上四個方面來逐步講述我對Human-centric Visual Representation的研究。

Part I: Deep Face Understanding

首先介紹對人臉的理解,這部分內容基於以下工作:

人臉除了具備身份特徵之外,還包含膚色、形狀、部件等豐富的中層語義層面的視覺屬性特徵。 預測一張圖片中人臉的屬性(比如拱形眉毛、大眼睛、衰退的髮際線、有無鬍鬚等),其實是一個很難的問題,儘管在這裡屬性都是指二分類問題。

傳統方法常採用HOG在人臉關鍵點處提取信息,然後訓練一個SVM分類器來得到最終結果。 它會有很多錯誤結果,分析其中原因:第一,真實條件下的人臉存在較大的姿態及尺度變化,因此基於關鍵點的方法不一定奏效;第二,屬性空間是非常大的,線性 分類器SVM不足以解決這個問題。

因此屬性特徵空間問題是我們的一個motivation。 所謂的single detector是指將所有人臉放在同一個空間下,其空間變化非常大,需要捕捉的信息過多,所以很難學習到一個比較好的檢測器。 因此,人們就想到了multi-view detector,將人臉分為正面人臉和其他朝向的人臉,在每個子空間裡只解決一個子問題,使每一個子問題變得簡單,並改善了single detector。 這裡我們提出用人臉屬性分割各個子空間,比如具有“金發”、“微笑”屬性的人臉構成第一個子空間,這個子空間比正面人臉子空間更加緊緻,所以可以學習到更加緊緻 的模型來刻畫子空間。

為了研究這個問題,我們收集了一個較大規模的人臉數據集CelebA,它包含20萬張人臉數據,涵蓋了40個人臉屬性,1萬個體。 每張人臉圖像有bounding box和五個關鍵點的標註。

以上是我們的pipeline,整個網絡分為兩個部分,第一部分做定位,第二部分做屬性預測,都只用了image-level的屬性標註信息。 首先通過Face Localization Nets定位圖片中的人臉,利用人臉屬性訓練深度神經網絡,其卷積層的響應信息其實是可以表示出人臉位置的,結果還是出人意料的精確。 之後再通過訓練一個Attribute Prediction Net來得到細粒屬性。

如何做定位呢? 首先驗證為什麼人臉屬性信息可以做定位,我們用直方圖統計了訓練好的捲積神經網絡在人臉圖像和背景圖像上的響應,可以看出人臉和背景有明顯的分界。 從右圖可以得知,使用愈加豐富的人臉屬性信息 可以得到愈加精確的定位。

隨著人臉屬性數目逐步增多,神經網絡越來越向人臉集中註意力。

進一步做了一些定量化的研究。 第一,我們發現LNet在CelebA數據集上的人臉定位結果優於傳統方法。

第二,研究了網絡的泛化能力。 使用網絡陌生的MobileFace用戶數據集測試,它依然可以找到人臉。

以上是第一個模塊——人臉定位。

以下是第二個模塊——細粒度分類。 我們發現如果用人臉身份信息做預訓練,網絡已經能夠挖掘很多人臉屬性語義信息,也就是說神經網絡本身做了分解,不斷找到訓練集圖片的heat map。 如圖(a.1)(a.2)…(a.6)代表神經元,比較靠左的是它高響應的平均圖,靠右的是低響應的平均圖。

隨著訓練迭代次數的增多,神經元慢慢發現了種族信息,它的高響應結果是“亞洲人”、低響應結果是“歐洲人”。

如果在預訓練好的網絡上用人臉屬性fine-tune,結果它的activation比較稀疏,但是每一個響應的神經元代表了某一種細粒度屬性。

如圖,通過屬性信息fine-tune可以發現“厚嘴唇”這一特徵。

我們的屬性分類在CelebA 和 LFWA上都取得了比較好的結果,而且其運行速度也是比較快的。

通過觀察網絡在未知的30個人臉上的屬性預測表現 ,測試了屬性預測的泛化能力,可以看到相對於其他方法有一定優勢。

以上和大家分享的是人臉方向的一些工作,主要分為兩個方面,首先,人臉屬性可以做人臉預測,不需要bounding box標註;其次,用身份信息做預訓練其實可以把人臉空間 做一定的分解,能夠發現很多屬性信息。

Part Ⅱ:Deep Fashion Understanding

接下來跟大家分享在服裝理解方面的工作,主要基於以下兩個工作展開:

  • “DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations”,CVPR 2016

  • “Fashion Landmark Detection in the Wild”,ECCV 2016

服飾理解比人臉理解的難度大很多。 人臉是近似剛體的,可以很好地對齊,而且整個變化可以轉化為表面變化。 但是衣服是柔性物質,常面臨遮擋以及形變,且在不同場景下變化較大。

但是我們依然遵循計算機視覺社區二十多年的經驗,來進行視覺上的服飾理解。 首先,可以利用faster-RCNN或者SSD等算法,訓練一個服裝檢測器,然後我們提出服裝對齊的方法,服裝確實具備一些關鍵點,可以從關鍵點處提取其局部本徵信息。

得到關鍵點信息之後,可以做識別任務,儘管不同場景下衣服形態發生了很大變化,但對於一些本徵的局部特徵具備一定的不變性。

為了研究這個問題,我們依然收集了一個大規模的數據庫Deep Fashion,它包含4萬套不同款式衣服的80萬張圖片,涵蓋50個種類,1000個屬性,並有bounding box以及八個關鍵點的 標註信息。

第一步檢測是較容易的,可以使用一些通用檢測器。 比較困難的是對齊,首先定義一組衣服的關鍵點,比如領口、袖口、腰身、下擺等位置,但是服飾的關鍵點和人體關鍵點還是有很多差異。 比如(a.1)中藍色的是人體關鍵點,而(a.2)中綠色的是衣服的關鍵點。 (a.3)中衣服並沒有穿在人身上,所以無法依據人體關鍵點來檢測衣服關鍵點,而(a.4),在自拍狀態下很多關鍵點被遮擋,一些姿態檢測器不能起作用 。 因此,服飾關鍵點檢測比人體關鍵點檢測更可靠。

這裡進一步說明服飾關鍵點檢測比人臉關鍵點檢測更加困難。 從兩個角度來看,其一從幾何角度看,圖(b)中,服飾關鍵點的分佈比人體關鍵點的分佈更加廣泛;其二從外觀角度來看,人體關鍵點比服飾關鍵點有 更明顯的邊界信息。

我們設計瞭如圖算法流程,通過級聯的神經網絡做對齊,每一個階段都是一個回歸問題,也就是給一張圖片,通過一個基網絡(比如VGG16),經過幾個全連接層回歸其 坐標,比如有8個關鍵點就回歸16個坐標(x,y)。 第二個階段通過學第一個階段的增量來優化其結果,但是,衣服的變化是很大的,如果僅僅直接做深度回歸學習的話,對於一些中等難度或難度較大的樣本效果是不 好的。

因此,我們提出在regression label之外添加pseudo label,在訓練集空間中做聚類,比如第一階段除了回歸坐標之外,還預測它屬於哪一類,回歸類別的過程幫助網絡預測樣本的難 易程度,其實隱含地做了難例挖掘,對於比較困難的樣本,它會用網絡中學到的權重來專門處理。

可以看出對於不同難度的姿態和不同程度的放大,我們的方法都能表現得比較好,但僅僅基於回歸或者僅僅基於 圖模型推理 的方法表現都不佳。

以上我們講述瞭如何做服飾關鍵點檢測, 那麼我們為什麼要做呢? 其實服飾關鍵點提供了一個非常有效的表達,(a)圖是服飾屬性預測的結果,(b)圖是用服飾做檢索的結果,我們發現當用服飾關鍵點時,它的效果要優於 用人體關鍵點、bounding box、全圖來檢索。 因此,儘管服飾關鍵點檢測是一個具有挑戰性的問題,但是它是非常有意義的。

這是我們的一些結果,可以看出紅色的預測結果非常接近綠色的groundtruth。

對齊完成後,可以進行我們真正感興趣的地方——服飾識別。 這個問題有很大的商業價值,但是在學術上還沒有清晰的定義,其識別目的究竟是同一款式的還是同一風格的服飾,所以我們需要去平衡這兩點。

我們設計了Fashion Net,它同時利用多個損失做多任務學習,通過關鍵點定位得到局部特徵,然後將局部特徵和全局特徵融合起來同時做身份預測和屬性預測。

這是簡化的流程,當網絡前向傳播時,根據關鍵點信息(藍色)得到局部特徵(綠色),然後和全局特徵(橙色)融合,最後利用融合好的特徵預測屬性類別,同時會用 triplet loss預測它的款式類別。

但是上述三個部分的損失都不容易設計,都不能直接用現有簡單的損失函數(比如cross entropy、softmax loss)解決,因為服飾的類別和屬性數量都是非常大的,一般的損失函數很 難轉換,所以我們首先對屬性做了一個直方圖統計,如圖,它是一個長尾型的分佈,而且對於在線圖片而言,具有較多噪聲,因此我們提出了Multi-label ranking loss,ranking loss的本質精神只關心正確的比錯誤的分高,而並不關心真正能夠分對的標籤是什麼,它對噪聲非常魯棒,而且某種意義上能夠解決數據不平衡問題。

對於類別數量較多的情況,也不能用softmax,一個很簡單的方法就是用triplet,但在做triplet的時候我們需要去融合樣本中的正樣本對和負樣本對。 對於負樣本對,需要用Hard Negative Mining方法挖掘比較難的負樣本對。

我們測試了神經網絡在兩種情況下的性能,首先是In-shop Clothes Retrieval,即對於一張給定圖片,搜索店里相似的圖片。 這是對電商很有吸引力的一項功能,可以看出現有方法都能取得比較好的性能,top10的準確率都在50%以上,基本都能正確檢索。

但是consumer-to-shop(從街拍到電商圖片)服飾檢索是一個更難的問題,目前方法能達到的檢索正確率僅僅是20%左右,所以這種跨模型問題應該是今後的研究方向 。 如何解決兩個模態之間的鴻溝,同時學到一個公共空間將它們投影,還是一個非常困難但是很有意義的問題。

當我們解決上述兩個問題後,系統就可以衍生出非常多的應用,可以檢索相同風格的衣服,也可以搜索電影視頻或照片中服裝的同款,甚至做一些服飾搭配。

總體來看服飾理解任務,首先定義服飾關鍵點,然後通過級聯模型找到關鍵點,通過偽標籤解決一些難例樣本,最後通過多任務學習來融合異構、異質的監督信息,獲得最終比較 好的表示。

Part Ⅲ:Deep Scene Understanding

在人臉和服飾理解的基礎之上,我們進一步解析人和環境之間的關係,即場景理解,以下基於這兩個工作展開:

  • “Semantic Image Segmentation via Deep Parsing Network”,ICCV 2015(oral)

  • “Not ALL Pixels Are Equal:Difficulty-aware Semantic Segmentation via Deep Layer Cascade”,CVPR 2017(spotlight)

給定一張圖片,我們應該如何解析它的每一個像素,解析出來後將其用於high-level的圖像理解、或者low-level的圖像編輯。

這也是所謂的語義分割,這方面已有很多工作,比如SVM或者SVM和MRF(Markov Random Field)概率圖模型的結合,以及當前流行的CNN,2015年我們提出了一個問題:如何把CNN和MRF 結合起來?

首先調研了當時最好的方法,第一個方法是全卷積網絡,它可以很好地學習特徵,但是缺少成對的聯繫,因此像素之間是相互獨立的。

後來DeepLab出世,它在FCN之後接上了Dense CRF做後處理,解決了pairwise relation的問題。 它的問題在於不能端到端地訓練,而且後處理需要十次迭代,時間代價較高。

當時同時還有一個工作叫“CRF as RNN”,它相對於DeepLab能夠進行端到端地訓練,但是依舊需要迭代十次。

這裡我們提出用Deep Parsing Network來解決問題,能夠獲得同樣的三個優點,但是只需要一次迭代。

這裡的貢獻主要有三點:

  1. 將更豐富的結構信息和關係信息融入MRF;

  2. 把high-order MRF用mean field解法融合進CNN;

  3. 整體網絡可以聯合訓練並且只需要一次迭代。

這裡重點講我們設計的兩個比較特殊的公式。 首先是triple penalty,一般只考慮i,j兩點,它們相似那麼其標籤就一致,這裡我們還考慮z 1 …z n 這個鄰域,好處是當i,j不確定時,可以參考z鄰域的信息來得到更精確的估計。 這裡對於i,j和z的聯合計算可以很好地模擬圖像中廣泛存在的長程一致性。

第二個是mixture of label contexts,普通的context僅僅是某一類物體出現的頻率,而在此可以考慮兩種物體聯合的損失,這樣可以構成更加豐富的空間對信息。

我們進一步把pairwise term用mean field solver解成一元組。

然後把一元項和成對項變成捲積和求和形式,然後就可以用我們現在一些標準的神經網絡操作來解決該問題。 其中,Pair i,j 代表了不同類型的全局和局部濾波器。

這是我們的深度解析網絡,unary term可以是很強的VGG或者ResNet,然後通過triple penalty和label context學到一個結果。

如圖,我們發現unary term會漏掉圖像中的部分目標,且邊界較粗糙;通過triple penalty,判斷兩個標籤的相似度來修正它的預測標籤,可以將邊緣變得較尖銳;然後通過label contexts判斷這裡很有可能是一個盆栽;最後通過整體三個部分一起做訓練,來得到最終結果,非常接近groundtruth。

我們的方法當時在VOC2012上取得了最好的結果。

所以我們關心label contexts究竟能否學到所謂的結構化關係信息,顏色偏紅表示否定,偏藍錶示肯定,普通的ResNet和VGG容易把摩托車和自行車這兩種混淆,我們通過label contexts把二 者區分開來;第二,我們看到一個favor,我們希望人和摩托車能夠一起出現,這也是非常合理的,因為摩托車上一般會有人。

進一步去可視化它的捲積核,左圖表示人在摩托車上,右圖表示椅子一般在人下面。 這樣的空間信息也符合人直觀的感受。

對於有圖片中有反射的挑戰性問題,我們的方法能夠明顯優於其他方法,原因就在於label context,而且joint tuning可以使得之後的網絡修正之前的信息。

Input video

State-of-the-art Method (4 FPS)

Deep Layer Cascade (17 FPS)

如圖,Deep Parsing Network速度其實很慢,儘管只有一次迭代,但是因為基網絡用的是VGG和ResNet,因此對於這樣一段街景視頻,它只能做到每秒4幀,並不能夠應用於實際 場景中,因此我們這裡提出了進一步優化的方法——Deep Layer Cascade,它可以做到每秒17幀,而且可以保證準確率幾乎不降。

網絡慢的原因是使用了非常深的全卷積網絡,而且每一層都需要傳導高分辨率的特徵圖。

我們的motivation非常簡單,即沒有必要對圖像中的每一個像素都做深度處理,因為對於一些簡單的和中等難度的區域,完全可以用淺層網絡來解決,而對於比較難的區域才需要深度 網絡處理。

因此,我們把contempotary model變成Deep Layer Cascade,上面是一個做分類任務的網絡ResNet,下面是把ResNet變成一個做分割任務的網絡,每一個 卷積層 都需要給它一個比較大的特徵圖。

將它變成layer cascade形式,當ResNet過了三個block之後,就輸出簡單區域的結果,而簡單區域大約佔據了圖像60%~80%的比例,這部分就不用輸入更深層的網絡;再 經過兩層得到中等難度區域結果;最後經過深度網絡所有層得到難區域的結果。 對於全圖而言,它節省了大量時間成本。

區別於傳統對全圖做卷積的方式,這裡採用區域卷積思想,只對選擇出的區域做卷積,然後在殘差網絡中放入區域卷積,對某一區域做卷積後將 其加到原先的特徵圖上,之後的網絡就可以只處理比較難的區域。

這是我們算法的表現,儘管較簡單的區域沒有經過神經網絡,但是並不影響最終的識別結果,這是因為網絡其實學會了注意力機制,它可以學會關注難區域,所以網絡之後的層並 不需要處理所有的區域,只需要處理難區域,神經網絡反而會表現得更好,而且其速度要明顯優於其他方法。

這是對每一階段的可視化結果。 我們看到從第一階段到第三階段,網絡逐步從認識較容易的背景區域到較難的關鍵物體區域,越來越接近groundtruth。

  

Input video

Stage-1

Stage-2

Stage-3

對於街景視頻,我們看到deep layer cascade在第一階段學到的是路、天空,而在第二階段開始它可以學到一些比較大的樹和交通路牌,第三階段能夠學到行人、電線 桿這種比較精細化的目標。 由此可見,這個網絡可以預測不同難度的樣本。

在場景理解這部分,我們從精度和速度兩個方面進行了求解和優化,提出了layer cascade這種“分而治之”的思想,對不同難度的區域用不同方式處理。

Part Ⅳ:Deep Motion Understanding

在對人臉、服飾、場景進行理解的基礎上,我們希望理解圖像中目標的運動,譬如人往哪裡走。 以下介紹基於工作:

這裡我們比較感興趣的是如何生成視頻幀,它有兩個實際的應用,第一個是預測,第二個是插值,比如,如圖第一幀和第三幀已知,我們要求第二 幀。 或者將低幀率的視頻變成高幀率的,以及做視頻壓縮。 這個問題是非常基礎且有意義的,但也是非常困難的。

如圖,視頻合成任務面臨兩個主要的挑戰。 其一,運動是非常複雜的,一個是攝像機的移動,另一個是拍攝主體的移動,所以一般基於運動模型或者光流的方法不太適合解該問題;其二,生成高分辨率的圖片, 是現在基於對抗神經網絡方法所不能達到的。

這裡我們提出了基於體素流(是一個雙向流)的方法,與其生成中間所求這一幀每個像素的值,不如學習可以從哪裡複製過來這個值。

然後需要一個選擇掩膜,視頻中常常會存在遮擋,因此需要去選擇從第幾幀取像素。

最後,為了讓任務可學(可微),我們提出了雙線性採樣方式,從局部區域採樣一些體素來重建這一幀。

這裡最核心的一個模塊就是deep voxel flow(深度體素流),它是一個可微的時空採樣,它可以前向或反向傳導,並能夠從間隔幀中學習。

如圖是具體神經網絡結構,它結合了基於光流的方法和基於神經網絡的方法,所以紫色框標註的是完全由無監督學習學出來的,僅僅通過重構的損失函數來學習。

為了解決大運動問題,我們提出了多尺度深度體素流法。 從小尺度學習開始,不斷把小尺度的信息融合到大尺度上去,因為大的運動在小尺度上會變小,所以這樣的pipeline有助於解決這個問題。

如圖,是從2D flow+ mask到多尺度體素流方法的演變及其效果,可以看到學到的motion field和selection mask是非常匹配的。

這裡是一些ablation study,從定量上看,我們的方法也比較好。

如圖是針對UCF-101體育數據集的一些結果,所有幀都是網絡生成出來的。

此外針對駕駛數據集做了測試,駕駛數據集的難度在於前後幀的跳躍較大,因為速度比較快,可以看出我們的方法依然可以比較平穩地找到中間幀。

另一個比較有意思的地方是,儘管這個網絡學到的是重構這一幀,但是它學到的特徵依然可以用於high-level的視覺任務,比如這裡無監督的光流表現的不錯,而且 神經網絡學習到的權重也可以被應用到行為識別中去,這與learning-by-prediction思想類似,通過預測或插值中間幀和下一幀,學到比較有效的視頻表示。

除了在空間上一致之外,它還在時間空間上也是比較連續的,(b)圖是沿著視頻的時間軸和x軸進行的切片,可以看出我們的方法比Epic方法要平穩一些。

最後我們做了一些真實視頻上的測試,一些沒有計算機視覺背景的人觀察我們的方法和其他方法的效果,投票表明我們的方法明顯效果更好。 而且,如果使用更高清的數據來訓練,最終效果會更好。

  

在這個章節中,我們介紹瞭如何解human motion的問題,提出了voxel flow(體素流),它其實是一種無監督的光流,僅僅通過視頻重構就可以得到比較好的表示。

總結一下,我們的工作主要圍繞人,對人臉、服飾、場景、以及動作進行理解,算法場景都是戶外條件。 因此,算法需要同時考慮兩點,一個是物體會存在形變,我們使用了注意力機制和關鍵點來做,另一個是場景也非常複雜,我們採用了layer-cascade,對不同難度的區域採用分而治之 的思想;第二,我們的工作混合了異質的監督信息,通過融合身份、屬性、關鍵點信息,甚至未來可能會用到自監督信息,提高了算法性能和算法落地的可能性;第三 ,我們需要把深度學習變得更加結構化,需要加強每個神經元的語義信息,並讓神經元懂得一定的空間關係並具有時空概念,這也是結構化深度學習未來的方向。

這些工作不僅在理論上有一定的價值,在實際中也已落地到產品中去,比如Microsoft Blink,Google Clips,SenseTime FashionEye。

最後非常感謝我的合作者們,和他們一起工作非常開心,謝謝大家!

文中劉博士提到的文章下載鏈接為: https://pan.baidu.com/s/1ggdvu4F

文中提到的算法源代碼已開源:https://github.com/liuziwei7 


本文轉載自公眾號“深度學習大講堂”(ID:deeplearningclass)

閱讀更多

▽ 故事

·  性發育提前,初婚年齡推遲,現代人的青春期延長了

·  主動感染絕症、求人給自己開顱:那些為研究獻身的“瘋狂科學家”

·  美國科學家坐不住了:中國或將搶占CRISPR癌症療法先機

·  十餘篇論文被撤卻仍獲學術大獎,如何評價一個“毀譽參半”的科學家?

▽  論文推薦

·  壽命超過400年的格陵蘭鯊提醒我們:人類對於最冷海域中的生命還知之甚少

·  作為科研質量評估指標,Altmetrics 靠譜麼?

▽  論文導讀

·  Nature 一周論文導讀 | 2018 年 3 月 1 日

·  Science 一周論文導讀 | 2018 年 3 月 2 日

內容合作請聯繫

keyanquan@huanqiukexue.com

有道詞典

本文整理自 VA …

詳細 X

This paper sort the VALSE (Vision And Learning SEminar, visual And Learning youth conference) Webinar the 2018-01-17 report.

     

長按二維碼向我轉賬

受蘋果公司新規定影響,微信 iOS 版的讚賞功能被關閉,可通過二維碼轉賬支持公眾號。

未經允許不得轉載:頭條楓林網 » 視覺世界中的“眾裡尋她”——開放環境下的人物特徵表示 | VALSE Webinar