當前位置:首頁 > 養豬技術 > 綜合經驗 > 正文

讓人工智能有情感的秘訣!清華權威報告看透情感計算

   轉載 發布時間:2019-10-09 09:36:16   來源:智東西   舉報
【導讀】40 多年前,諾貝爾獎得主 Herbert Simon 在認知心理學方面強調,解決問題論要結合情感的影響。情感的識別和表達對于信息的交流和理解是必需的,也是人類最大的心理需求之一。人類的認知、行為等幾乎都要受到情感的驅動,并影響著人...

40 多年前,諾貝爾獎得主 Herbert Simon 在認知心理學方面強調,解決問題論要結合情感的影響。情感的識別和表達對于信息的交流和理解是必需的,也是人類最大的心理需求之一。人類的認知、行為等幾乎都要受到情感的驅動,并影響著人際互動以及群體活動。在人與人的交往中, 情感的交流還常被用來完***的意圖的傳遞。 因此,在智能人機交互的研究中,擁有對情感的識別、分析、理解、表達的能力也應成為智能機器必不可少的一種功能。

本期的智能內參,我們推薦清華大學的研究報告《人工智能之情感計算》,從技術特點、人才狀況、應用和趨勢四個方面深入解讀人工智能情感計算。如果想收藏本文的報告(人工智能之情感計算),可以在智東西頭條號回復關鍵詞“nc406”獲取。

一、什么是情感計算

讓計算機具有情感能力的觀點并不新鮮,它與“機器人” 一詞幾乎同時出現。 1985 年,人工智能的奠基人之一 Minsky 就明確指出: “問題不在于智能機器能否有情感,而在于沒有情感的機器能否實現智能” 。但當時,賦予計算機或機器人以人類式的情感,主要還是科幻小說中的素材,在學術界罕有人關注。 1995 年情感計算的概念由 Picard 首次提出,并于 1997 年正式出版《Affective Computing(情感計算)》。在書中,她指出“情感計算就是針對人類的外在表現,能夠進行測量和分析并能對情感施加影響的計算” ,開辟了計算機科學的新領域,其思想是使計算機擁有情感,能夠像人一樣識別和表達情感,從而使人機交互更自然。

簡單來說,情感計算研究就是試圖創建一種能感知、識別和理解人的情感,并能針對人的情感做出智能、靈敏、友好反應的計算系統。顯然,情感計算是個復雜的過程,不僅受時間、地點、環境、人物對象和經歷的影響,而且要考慮表情、語言、動作或身體的接觸。

在人機交互中,計算機需要捕捉關鍵信息,覺察人的情感變化,形成預期,進行調整, 做出反應。例如通過對不同類型的用戶建模(如操作方式、表情特點、態度喜好、認知風格、知識背景等),以識別用戶的情感狀態,利用有效的線索選擇合適的用戶模型,并以適合當前用戶的方式呈現信息。 在對當前的操作做出及時反饋的同時,還要對情感變化背后的意圖形成新的預期,并激活相應的數據庫,及時主動地提供用戶需要的新信息。 舉例來說,麻省理工學院媒體實驗室的情感計算小組研制的情感計算系統通過記錄人面部表情的攝像機和連接在人身體上的生物傳感器來收集數據,然后由一個“情感助理”來調節程序以識別人的情感。假設你對電視講座的一段內容表現出困惑,情感助理會重放該片段或者給予解釋。而目前國內情感計算的研究重點在于通過各種傳感器獲取有人的情感所引起的生理及行為特征信號,確定情感類別的關鍵特征,建立“情感模型”,從而創建個人情感計算系統。

情感計算是一個高度綜合化的研究和技術領域。通過計算科學與心理科學、認知科學的結合,研究人與人交互、人與計算機交互過程中的情感特點,設計具有情感反饋的人與計算機的交互環境,將有可能實現人與計算機的情感交互。情感計算研究將不斷加深對人的情感狀態和機制的理解,并提高人與計算機界面的和諧性,即提高計算機感知情境,理解人的情感意圖,做出適當反應的能力,其主要研究內容如下圖所示:


▲情感計算的研究內容

情感計算是一個多學科交叉的嶄新的研究領域,它涵蓋了傳感器技術、計算機科學、認知科學、心理學、行為學、生理學、哲學、社會學等方面。情感計算的最終目標是賦予計算機類似于人的情感能力。要達到這個目標,許多技術問題有待解決。這些技術問題的突破對各學科的發展都產生巨大的推動作用。以下分別從情感計算的傳統研究方法和新興研究方法對技術發展進行探討。

1、 傳統的研究

傳統的情感計算方法是按照不同的情感表現形式分類的,分別是:文本情感分析、語音情感分析、視覺情感分析。

1.1 文本情感計算

20世紀90年代末,國外的文本情感分析已經開始。早期, Riloff和Shepherd在文本數據的基礎上進行了構建語義詞典的相關研究。 McKeown發現連詞對大規模的文本數據集中形容詞的語義表達的制約作用,進而對英文的形容詞與連詞做情感傾向研究。自此之后,越來越多的研究開始考慮特征詞與情感詞的關聯關系。 Turney等使用點互信息的方法擴展了正負面情感詞典,在分析文本情感時使用了極性語義算法,處理通用的語料數據時準確率達到了74%。在近些年的研究中, Narayanan等結合各種特征及其相關聯信息,提出了基于分句、整句、結果句的分類方案,獲得了很好的效果。 Pang等以積極情感和消極情感為維度,對電影評論進行了情感分類。他分別采用了支持向量機、最大熵、樸素貝葉斯算法進行分類實驗,發現支持向量機的精確度達到了80%。隨著研究的不斷深入,學者在對情感分析算法進行改進的同時,也將其應用到不同的行業中進行了實踐。

文本情感計算的過程可以由 3 部分組成:文本信息采集、情感特征提取和情感信息分類。文本信息采集模塊通過文本抓取工具(如網頁爬蟲工具)獲得情感評論文本,并傳遞到下一個

情感特征提取模塊,然后對文本中自然語言文本轉化成計算機能夠識別和處理的形式,并通過情感信息分類模塊得到計算結果。文本情感計算側重研究情感狀態與文本信息之間的對應關系,提供人類情感狀態的線索。具體地,需要找到計算機能提取出來的特征,并采用能用于情感分類的模型。因此,關于文本情感計算過程的討論,主要集中在文本情感特征標注(信息采集) 、情感特征提取和情感信息分類這三個方面 。

1、文本情感特征標注:情感特征標注是對情感語義特征進行標注,通常是將詞或者語義塊作為特征項。情感特征標注首先對情感語義特征的屬性進行設計,如褒義詞、貶義詞、加強語氣、一般語氣、悲傷、高興等等;然后通過機器自動標注或者人工標注的方法對情感語義特征進行標注, 形成情感特征集合。情感詞典是典型的情感特征集合,也是情感計算的基礎。在大多數研究中,有關情感計算的研究通常是將情感詞典直接引入自定義詞典中。

運用情感詞典計算出文本情感值是一種簡單迅速的方法,但準確率有待提高。在實際的情感計算中,會因為具體的語言應用環境而有所不同。例如, “輕薄” 一詞通常認為是否定詞,但是在電腦、手機卻被視為肯定詞匯。同時,文本中常會出現否定前置、雙重否定以及文本口語化和表情使用等,這些都將會對文本情感特征的提取和判斷產生較大的影響。因此在進行文本情感提取時,需要對文本及其對應的上下文關系、 環境關系等進行分析。

2、情感特征提取 :文本包含的情感信息是錯綜復雜的,在賦予計算機以識別文本情感能力的研究中,從文本信號中抽取特征模式至關重要。在對文本預處理后,初始提取情感語義特征項。特征提取的基本思想是根據得到的文本數據, 決定哪些特征能夠給出最好的情感辨識。通常算法是對已有的情緒特征詞打分,接著以得分高低為序,超過一定閾值的特征組成特征子集。特征詞集的質量直接影響最后結果,為了提高計算的準確性,文本的特征提取算法研究將繼續受到關注。長遠看來,自動生成文本特征技術將進一步提高,特征提取的研究重點也更多地從對詞頻的特征分析轉移到文本結構和情感詞上。

3、情感信息分類 :文本情感分類技術中,主要采用兩種技術路線:基于規則的方法和基于統計的方法。在 20世紀 80 年代,基于規則的方法占據主流位置,通過語言學家的語言經驗和知識獲取句法規則,以此作為文本分類依據。但是,獲取規則的過程復雜且成本巨大,也對系統的性能有負面影響,且很難找到有效的途徑來提高開發規則的效率。 20 世紀 90 年代之后,人們更傾向于使用統計的方法,通過訓練樣本進行特征選擇和參數訓練,根據選擇的特征對待分類的輸入樣本進行形式化,然后輸入到分類器進行類別判定,最終得到輸入樣本的類別。

1.2 語音情感計算

最早的真正意義上的語音情感識別相關研究出現在 20 世紀 80 年代中期,它們開創了使用聲學統計特征進行情感分類的先河。緊接著,隨著 1985 年 Minsky 教授“讓計算機具有情感能力” 觀點的提出,以及人工智能領域的研究者們對情感智能重要性認識的日益加深,越來越多的科研機構開始了語音情感識別研究的探索。在 20 世紀 80 年代末至 90 年代初期,麻省理工學院多媒體實驗室構造了一個“情感編輯器” 對外界各種情感信號進行采集,綜合使用人體的生理信號、面部表情信號、語音信號來初步識別各種情感,并讓機器對各種情感做出適當的簡單反應; 1999 年, Moriyama 提出語音和情感之間的線性關聯模型,并據此在電子商務系統中建造出能夠識別用戶情感的圖像采集系統語音界面,實現了語音情感在電子商務中的初步應用。

整體而言,語音情感識別研究在該時期仍舊處于初級階段, 主要側重于情感的聲學特征分析這一方面,作為研究對象的情感語音樣本也多表現為規模小、自然度低、語義簡單等特點,雖然有相當數量的有價值的研究成果相繼發表,但是并沒有形成一套被廣泛認可的、系統的理論和研究方法。進入 21 世紀以來,隨著計算機多媒體信息處理技術等研究領域的出現以及人工智能領域的快速發展,語音情感識別研究被賦予了更多的迫切要求,發展步伐逐步加快。 2000 年,在愛爾蘭召開的 ISCA Workshop on Speech and Emotion 國際會議首次把致力于情感和語音研究的學者聚集在一起。近 10 余年來,語音情感識別研究工作在情感描述模型的引入、情感語音庫的構建、情感特征分析等領域的各個方面都得到了發展。 下面將從語音情感數據庫的采集、語音情感標注以及情感聲學特征分析方面介紹語音情感計算。

1、語音情感數據庫的采集 :語音情感識別研究的開展離不開情感語音數據庫的支撐。情感語音庫的質量高低,直接決定了由它訓練得到的情感識別系統的性能好壞。評價一個語音情感數據庫好壞的一個重要標準是數據庫中語音情感是否具備真實的表露性和自發性。目前,依據語音情感激發類型的不同,語音情感數據庫可分為表演型、誘發型和自發型三種。

具體來說,表演型情感數據庫通過專業演員的表演,把不同情感表達出來。在語音情感識別研究初期,這一采集標準被認為是研究語音情感識別比較可靠的數據來源,因為專業演員在

表達情感時,可以通過專業表達獲得人所共知的情感特征。比如,憤怒情感的語音一般會具有很大的幅值和強度,而悲傷情感的語音則反之。由于這一類型的數據庫具有表演的性質,情感的表達會比真實情感夸大一點,因此情感不具有自發的特點。依據該類型數據庫來學習的語音情感識別算法,不一定能有效應用于真實生活場景中。第二種稱之為誘發型情感數據庫。被試者處于某一特定的環境,如實驗室中,通過觀看電影或進行計算機游戲等方式,誘發被試者的某種情感。目前大部分的情感數據庫都是基于誘發的方式建立的。誘發型情感數據庫產生的情感方式相較于表演型情感數據庫,其情感特征更具有真實性。最后一種類型屬于完全自發的語音情感數據庫,其語料采集于電話會議、電影或者電話的視頻片段,或者廣播中的新聞片段等等。由于這種類型的語音情感數據最具有完全的真實性和自發性,應該說最適合用于實用的語音情感識別。但是,由于這些語音數據涉及道德和版權因素,妨礙了它在實際語音情感識別中的應用。

2、語音情感數據庫的標注 :對于采集好的語音情感庫,為了進行語音情感識別算法研究,還需要對情感語料進行標注。標注方法有兩種類型:

離散型情感標注法指的是標注為如生氣、高興、悲傷、害怕、驚奇、討厭和中性等,這種標注的依據是心理學的基本情感理論。基本情感論認為,人復雜的情感是由若干種有限的基本情感構成的,就像我們自古就有“喜、怒、哀、樂,恐、悲、 驚” 七情的說法。 不同的心理學家對基本情感有不同的定義,由此可見,在心理學領域對基本情感類別的定義還沒有一個統一的結論,因此不同的語音情感數據庫包含的情感類別也不盡相同。這不利于在不同的語音情感數據庫上,對同一語音情感識別算法的性能進行評價。此外,眾所周知,實際生活中情感的類別遠遠不止有限幾類。基于離散型情感標注法的語音情感識別容易滿足多數場合的需要,但無法處理人類情感表達具有連續性和動態變化性的情況。在實際生活中,普遍存在著情感變化的語音,比如前半句包含了某一種情感,而后半句卻包含了另外一種情感,甚至可能相反。 例如,某人說話時剛開始很高興,突然受到外界刺激,一下子就生氣了。對于這種在情感表達上具有連續和動態變化的語音,采用離散型情感標注法來進行語音情感識別就不合適了。因為此時語音的情感,己不再完全屬于某一種具體的情感。

維度情感空間論基于離散型情感標注法的缺陷,心理學家們又提出了維度情感空間論,即對情感的變化用連續的數值進行表示。不同研究者所定義的情感維度空間數目有所不同,如二維、三維甚至四維模型。針對語音情感,最廣為接受和得到較多應用的為二維連續情感空間模型,即“激活維-效價維” (Arousal-Valence) 的維度模型。 “激活維” 反映的是說話者生理上的激勵程度或者采取某種行動所作的準備,是主動的還是被動的; “效價維” 反映的是說話者對某一事物正面的或負面的評價。隨著多模態情感識別算法的研究,為了更細致的地描述情感的變化,研究者在“激活維-效價維” (Arousal-Valence) 二維連續情感空間模型的基礎上,引入“控制維” , 即在“激活維-效價維-控制維(Arousal-Valence/Pleasure-Power/Dominance) ”三維連續情感空間模型上對語音情感進行標注和情感計算。需要強調的是,離散型和連續型情感標注之間,它們并不是孤立的,而是可以通過一定映射進行相互轉換。

情感聲學特征分析 :情感聲學特征分析主要包括聲學特征提取和聲學特征選擇、聲學特征降維。采用何種有效的語音情感特征參數用于情感識別,是語音情感識別研究最關鍵的問題之一,因為所用的情感特征參數的優劣直接決定情感最終識別結果的好壞 。

聲學特征提取。 目前經常提取的語音情感聲學特征參數主要有三種:韻律特征、音質特征以及譜特征。 在早期的語音情感識別研究文獻中,針對情感識別所首選的聲學特征參數是韻律

特征,如基音頻率、振幅、發音持續時間、語速等。這些韻律特征能夠體現說話人的部分情感信息,較大程度上能區分不同的情感。因此,韻律特征已成為當前語音情感識別中使用最廣泛并且必不可少的一種聲學特征參數除了韻律特征,另外一種常用的聲學特征參數是與發音方式相關的音質特征參數。三維情感空間模型中的“激發維”上比較接近的情感類型,如生氣和高興,僅使用韻律特征來識別是不夠的。

音質特征包括共振峰、頻譜能量分布、 諧波噪聲比等,不僅能夠很好地表達三維中的“效價維”信息,而且也能夠部分反映三維中的“控制維”信息。因此,為了更好地識別情感,同時提取韻律特征和音質特征兩方面的參數用于情感識別,已成為語音情感識別領域聲學特征提取的一個主要方向。譜特征參數是一種能夠反映語音信號的短時功率譜特性的聲學特征參數, Mel 頻率倒譜系數(Mel-scale Frequency Cepstral Coefficients,MFCC)是最具代表性的譜特征參數,被廣泛應用于語音情感識別。由于譜特征參數及其導數,僅反映語音信號的短時特性,忽略了對情感識別有用的語音信號的全局動態信息。近年來,為了克服譜特征參數的這種不足之處,研究者提出了一些改進的譜特征參數,如類層次的譜特征、調制的譜特征和基于共振峰位置的加權譜特征等。

聲學特征選擇。 為了盡量保留對情感識別有意義的信息,研究者通常都提取了較多的與情感表達相關的不同類型的特征參數,如韻律特征、音質特征、譜特征等。 任意類型特征都有各自的側重點和適用范圍, 不同的特征之間也具有一定的互補性、相關性。此外,這些大量提取的特征參數直接構成了一個高維空間的特征向量。這種高維性質的特征空間,不僅包含冗余的特征信息,導致用于情感識別的分類器訓練和測試需要付出高昂的計算代價,而且情感識別的性能也不盡如人意。因此,非常有必要對聲學特征參數進行特征選擇或特征降維處理,以便獲取最佳的特征子集,降低分類系統的復雜性和提高情感識別的性能。

特征選擇是指從一組給定的特征集中,按照某一準則選擇出一組具有良好區分特性的特征子集。特征選擇方法主要有兩種類型:封裝式(Wrapper)和過濾式(Filter)。 Wrapper 算法是將后續采用的分類算法的結果作為特征子集評價準則的一部分,根據算法生成規則的分類精度選擇特征子集。 Filter 算法是將特征選擇作為一個預處理過程,直接利用數據的內在特性對選取的特征子集進行評價,獨立于分類算法。

聲學特征降維。 特征降維是指通過映射或變換方式將高維特征空間映射到低維特征空間,已達到降維的目的。特征降維算法分為線性和非線性兩種。最具代表性的兩種線性降維算法,如主成分分析 PCA(Principal Component Analysis)和線性判別分析 LDA(Linear DiscriminantAnalysis),已經被廣泛用于對語音情感特征參數的線性降維處理。也就是, PCA 和 LDA 方法被用來對提取的高維情感聲學特征數據進行嵌入到一個低維特征子空間,然后在這降維后的低維子空間實現情感識別,提高情感識別性能。

近年來,新發展起來的基于人類認知機理的流形學習方法比傳統的線性 PCA 和 LDA 方法更能體現事物的本質,更適合于處理呈非線性流形結構的語音情感特征數據。但這些原始的流形學習方法直接應用于語音情感識別中的特征降維,所取得的性能并不令人滿意。主要原因是他們都屬于非監督式學習方法,沒有考慮對分類有幫助的已經樣本數據的類別信息。盡管流形學習方法能夠較好地處理非線性流形結構的語音特征數據,但是流形學習方法的性能容易受到其參數如鄰域數的影響,而如何確定其最佳的鄰域數,至今還缺乏理論指導,一般都是根據樣本數據的多次試驗結果來粗略地確定。因此,對于流形學習方法的使用,如何確定其最佳參數,還有待深入研究。

1.3 視覺情感計算

表情作為人類情感表達的主要方式,其中蘊含了大量有關內心情感變化的信息,通過面部表情可以推斷內心微妙的情感狀態。但是讓計算機讀懂人類面部表情并非簡單的事情。 人臉表情識別是人類視覺最杰出的能力之一。 而計算機進行自動人臉表情識別所利用的主要也是視覺數據。 無論在識別準確性、 速度、 可靠性還是穩健性方面, 人類自身的人臉表情識別能力都遠遠高于基于計算機的自動人臉表情識別。 因此,自動人臉表情識別研究的進展一方面依賴計算機視覺、 模式識別、人工智能等學科的發展, 另一方面還依賴對人類本身識別系統的認識程度,特別是對人的視覺系統的認識程度。

早在 20 世紀 70 年代,關于人臉表情識別的研究就已經展開,但是早期主要集中在心理學和生物學方面。隨著計算機技術的發展,人臉表情識別技術逐漸發展起來,至上世紀 90 年代,該領域的研究已經非常活躍。大量文獻顯示表情識別與情感分析已從原來的二維圖像走向了三維數據研究,從靜態圖像識別研究專項實時視頻跟蹤。 下面將從視覺情感信號獲取、情感信號識別以及情感理解與表達方面介紹視覺情感計算。

視覺情感信號獲取 :表情參數的獲取, 多以二維靜態或序列圖像為對象, 對微笑的表情變化難以判斷, 導致情感表達的表現力難以提高, 同時無法體現人的個性化特征,這也是表情識別中的一大難點。 以目前的技術, 在不同的光照條件和不同頭部姿態下, 也不能取得滿意的參數提取效果。由于三維圖像比二維圖像包含更多的信息量, 可以提供魯棒性更強, 與光照條件和人的頭部姿態無關的信息, 用于人臉表情識別的特征提取工作更容易進行。因此, 目前最新的研究大多利用多元圖像數據來進行細微表情參數的捕獲。 該方法綜合利用三維深度圖像和二維彩色圖像, 通過對特征區深度特征和紋理彩色特征的分析和融合, 提取細微表情特征, 并建立人臉的三維模型, 以及細微表情變化的描述機制。

視覺情感信號識別:視覺情感信號的識別和分析主要分為面部表情的識別和手勢識別兩類:

對于面部表情的識別, 要求計算機具有類似于第三方觀察者一樣的情感識別能力。由于面部表情是最容易控制的一種,所以識別出來的并不一定是真正的情感,但是,也正由于它是可視的,所以它非常重要,并能通過觀察它來了解一個人試圖表達的東西。到目前為止, 面部表情識別模型都是將情感視為離散的, 即將面部表情分成為數不多的類別, 例如“高興” 、 “悲傷” 、 “憤怒” 等。 1971 年, Ekman 和 Friesen 研究了 6 種基本表情(高興、悲傷、驚訝、恐懼、憤怒和厭惡), 并系統地建立了上千幅不同的人臉表情圖像庫。六種基本表情的具體面部表現如下表 所示。 1978 年, 他們研究了情感類別之間的內在關系, 開發了面部動作編碼系統(FACS)。系統描述了基本情感以及對應的產生這種情感的肌肉移動的動作單元。他們根據人臉的解剖學特點,將其劃分成大約 46 個既相互獨立又相互聯系的運動單元(AU) ,并分析了這些運動單元的運動特征及其所控制的主要區域以及與之相關的表情,給出了大量的照片說明。面部識別器一般要花五分鐘來處理一種面部表情, 準確率達到 98%。

馬里蘭大學的 Yeser Yacoob 和 Larry Davis 提出了另一種面部表情識別模型,它也是基于動作能量模版,但是將模版、子模版(例如嘴部區域)和一些規則結合起來表達情感。例如,憤怒的表情在從眼睛區域提取的子模版中,特別是眉毛內斂、下垂,在嘴巴區域子模版中,特別是嘴巴緊閉, 兩個子模板結合起來, 就很好表達了憤怒這一情感。后續的研究總體上結合生物識別方法及計算機視覺進行, 依據人臉特定的生物特征,將各種表情同臉部運動細節(幾何網格的變化) 聯系起來, 收集樣本, 提取特征,構建分類器。 但是目前公開的用于表情識別研究的人臉圖像數據庫多是采集志愿者刻意表現出的各種表情的圖像, 與真實情形有出入。


▲臉部表情運動特征具體表現

對于手勢識別來說, 一個完整的手勢識別系統包括三個部分和三個過程。 三個部分分別是:采集部分、 分類部分和識別部分; 三個過程分別是: 分割過程、 跟蹤過程和識別過程。 采集部分包括了攝像頭、 采集卡和內存部分。 在多目的手勢識別中, 攝像頭以一定的關系分布在用戶前方。 在單目的情況下, 攝像頭所在的平面應該和用戶的手部運動所在的平面基本水平。分類部分包括了要處理的分類器和結果反饋回來的接收比較器。 用來對之前的識別結果進行校正。識別部分包括了語法對應單位和相應的跟蹤機制, 通過分類得到的手部形狀通過這里一一對應確定的語義和控制命令。 分割過程包括了對得到的實時視頻圖像進行逐幀的手部分割, 首先得到需要關注的區域, 其次在對得到的區域進行細致分割, 直到得到所需要的手指和手掌的形狀。跟蹤過程包括對手部的不斷定位和跟蹤,并估計下一幀手的位置。 識別過程通過對之前的知識確定手勢的意義, 并做出相應的反應, 例如顯示出對應的手勢或者做出相應的動作, 并對不能識別的手勢進行處理, 或者報警或者記錄下特征后在交互情況下得到用戶的指導。 手勢識別的基本框架如下圖所示:


▲手勢識別的基本框架

2、新興的研究

2.1 網絡海量數據的情感計算

隨著時代的發展,網絡賦予情感計算新的、更大的數據平臺,打開了情感計算的新局面。網絡系統由于溝通了人類的現實世界和虛擬世界,可以持續不斷地對數量龐大的樣本進行情感跟蹤,每天這些映射到網絡上的情緒不計其數,利用好這些數據反過來就可以驗證心理學結論,甚至反哺心理學。由于大數據的分布范圍極其廣泛,樣本數量非常龐大,采用單一的大數據處理方法往往得不到有效的情感要素,統計效果較差。但是,如果將大數據和心理學結合起來,局面就會大不一樣:心理學中,不同情感可以采用維度標定,如冷暖或軟硬,同時各種心理效應影響人類對事物的情感判斷,如連覺效應、視覺顯著性、視覺平衡等,在大數據中引入心理學效應和維度,對有效數據進行心理學情感標準劃分,使得數據具有情感維度,這樣就會讓計算機模擬人類情感的準確性大大提升。網絡海量數據的情感主要有以下幾個社會屬性:

情感隨群體的變化:在社交網絡,如論壇、網絡社區等群體聚集的平臺上流露出群體的情感,通過這些情感展現可以達到影響其他個人的行為。

情感隨圖片的變化:在社交媒體出現大量的圖片,這些圖片的顏色、光度、圖片內容等各不相同。圖片的特征直接影響到了觀看者的情感。

情感隨朋友的變化:在社交平臺上,朋友發表的微博、微信狀態等容易展現個人的情感。朋友間的關系比陌生人間的關系更加深入,所以朋友的情感更容易引起情感變化,在海量數據中,個人情感容易優先受朋友情感的影響。

情感隨社會角色的變化:在社交網絡中,個人在不同的群體所處的角色也不一樣,個人情感流露時也會跟著所處的角色不一樣而展現不同的情感。

情感隨時間的演變:人的情緒是變化無常的,所處的環境不一樣,則表現出來的情感也將不一樣。即使是同一件事,不同的情景下展現的情感也會不一樣。另外,事件的發展是個動態的過程,隨著事件的演變,人的情感也會跟著變化。

2.2 多模態計算

雖然人臉、姿態和語音等均能獨立地表示一定的情感,但人的相互交流卻總是通過信息的綜合表現來進行。所以, 只有實現多通道的人機界面,才是人與計算機最為自然的交互方式,它集自然語言、語音、手語、人臉、唇讀、頭勢、體勢等多種交流通道為一體,并對這些通道信息進行編碼、壓縮、集成和融合,集中處理圖像、音頻、視頻、文本等多媒體信息。多模態計算是目前情感計算發展的主流方向。每個模塊所傳達的人類情感的信息量大小和維度不同。在人機交互中,不同的維度還存在缺失和不完善的問題。因此,人機交互中情感分析應盡可能從多個維度入手,將單一不完善的情感通道補上,最后通過多結果擬合來判斷情感傾向。

在多模態情感計算研究中,一個很重要的分支就是情感機器人和情感虛擬人的研究。美國麻省理工學院、日本東京科技大學、美國卡內基·梅隆大學均在此領域做出了較好的演示系統。目前中科院自動化所模式識別國家重點實驗室已將情感處理融入到了他們已有的語音和人臉的多模態交互平臺中,使其結合情感語音合成、人臉建模、視位模型等一系列前沿技術,構筑了栩栩如生的情感虛擬頭像,并積極轉向嵌入式平臺和游戲平臺等實際應用。

目前, 情感識別和理解的方法上運用了模式識別、人工智能、語音和圖像技術的大量研究成果。例如:在情感語音聲學分析的基礎上,運用線性統計方法和神經網絡模型,實現了基于語音的情感識別原型;通過對面部運動區域進行編碼,采用 HMM 等不同模型,建立了面部情感特征的識別方法;通過對人姿態和運動的分析,探索肢體運動的情感類別等等。不過,受到情感信息捕獲技術的影響, 以及缺乏大規模的情感數據資源,有關多特征融合的情感理解模型研究還有待深入。隨著未來的技術進展,還將提出更有效的機器學習機制。

二、 人才

1、 全球學者概況

學者分布地圖對于進行學者調查、分析各地區競爭力現況尤為重要, 下圖為情感計算領域全球頂尖學者分布狀況。 其中, 顏色越趨近于紅色, 表示學者越集中;顏色越趨近于綠色,表示學者越稀少。 從地區角度來看,北美洲、歐洲是情感計算領域學者分布最為集中的地區,亞洲東部地區次之, 南美洲和非洲學者極為匱乏。從國家角度來看, 情感計算領域的人才在美國最多,中國次之,意大利、法國等洲國家也有較多的學者數量,整體上講其它國家與美國的差距較大。

▲情感計算全球專家分布

▲ 情感計算專家國家數量分布

情感計算領域學者的 h-index 分布如下圖所示,分布情況整體呈階梯狀,大部分學者的 hindex 分布在中低區域,其中 h-index 在<10 的區間人數最多,有 524 人, 占比 43.4%, 50-60 區間人數最少, 有 46 人, 占比 3.8%。


▲情感計算領域學者 h-index 分布

各國情感計算 TOP學者的流失和引進是相對比較均衡的,其中美國是情感計算領域人才流動大國,人才輸入和輸出幅度領先于其他國家,且從數據來看人才流出大于人才流入。英國、加拿大和印度等國人才遷徙流量小于美國;中國人才流入略高于人才流出。人才的頻繁流入流出,使得該領域的學術交流活動增加,帶動了人才質量提升的同時,也促進了領域理論及技術的更新迭代, 逐漸形成一種良性循環的過程。


▲情感計算專家遷徙圖

2、 國內學者概況

AMiner 選取情感計算領域國內專家學者繪制了學者國內分布地圖,如下圖所示。通過下圖我們可以發現,京津地區在情感計算領域的人才數量最多,東部及南部沿海地區的也有較多的人才分布,相比之下,內陸地區信情感計算領域人才較為匱乏,這也從一定程度上說明了情感計算領域的發展與該地區的地理位置和經濟水平都是息息相關的。同時,通過觀察中國周邊國家的學者數量情況,特別是與日本、東南亞等亞洲國家相比,中國在情感計算領域頂尖學者數量方面具有較為明顯的優勢。 圖 8 是我國情感計算領域頂尖學者最多的 10 個省份。

▲情感計算國內學者分布


▲情感計算學者分布國內省份 TOP10

三、 情感計算應用

近年來, Picard 領導的美國麻省理工學院多媒體實驗室相繼提出了近 50 種情感計算應用項目。例如,將情感計算應用于醫療康復,協助自閉癥者,識別其情感變化,理解患者的行為;在教育中應用情感計算,實現對學習狀態的采集及分析,指導教學內容的選擇及教學進度進行;還可以將情感計算應用于生活中,計算機能夠感知用戶對音樂的喜好, 根據對情感反應的理解判斷,為用戶提供更感興趣的音樂播放等。

1、 課堂教學

在美國,公立學校的預算限制引發大規模的教師裁員和教室擁擠不堪。教師工作時間緊張,還要考慮和滿足每個學生的需求。結果就是,那些課業困難的孩子容易受到忽視。因為只要孩子不提出問題,老師就不會關注到他。

在過去三年里,有企業把面部識別技術應用到了第一線教學當中。在 SensorStar 實驗室,他們用相機捕捉學生上課反應,并且輸入到計算機里面,運用算法來確定學生注意力是否轉移。通過面部識別軟件 EngageSense,計算機能夠測量微笑、皺眉和聲音來測定學生課堂參與度。孩子們的眼睛是專注于老師的嗎? 他們是在思考還是發呆?他們是微笑還是皺著眉頭?或者他們只是覺得困惑?還是無聊?測量之后,老師將會收到一份反饋報告,基于面部分析, 報告會告訴老師他們的學生學習興趣何時最高、何時最低。這樣,老師能夠對自己的教學方案做出調整,滿足更多學生的需求。此外,比爾和梅林達蓋茨基金會資助了傳感器手鐲(sensor bracelets)的開發,這可以用來追蹤學生的參與水平。腕部設備能夠發送小電流,通過在神經系統響應刺激時測量電荷的細微變化便可以得知學生的課程興奮程度。

心理學家 Paul Ekman 將面部識別技術研究提升到了一個新的層次。他對 5000 多種面部運動進行了分類,以幫助識別人類情緒。他的研究為 Emotient Inc、 Affectiva Inc 和 Eyeris 等公司提供了幫助,這些公司將心理學和數據挖掘相結合,檢測人的細微表情,并對人的反應進行分類。目前為止,面部識別技術的重點是協助聯邦執法和市場調研。不過,圣地亞哥市的研究人員也在醫療行業試用這項技術,測定孩子接受外科手術之后的疼痛程度。

2、 機器學習定制學生課堂學習內容

TechCrunch 公司的員工設計了在線教育平臺,來提供一對一指導和精熟學習( masterylearning)。這是應用創新型思維,通過實時的評估和定制化的學習方式,有效地解決本杰明提出的著名的“Sigma 2 Problem” 。深度學習系統將學生學習效果數據進行分類,并且在此基礎上制定相關的教學內容。該系統還可以推薦附加練習,并且根據學生個人能力和教學要求,實時推薦課程內容,調整教學速度 。

北卡羅來納州州立大學研究員開發了一種軟件,通過攝像頭捕捉和分析學生面部表情,以此改變在線課程。 目前,大多數情感計算技術還僅僅停留在學術研究領域。 但也已經有公司開

始應用這項技術,并能成功地分辨學生表情,并根據他們的學習能力和方式,來自動調整適合的學習內容和環境。英特爾公司正是這其中的一員。有了這些學生表情數據,可以讓“Emoshape”這樣的情感計算智能系統,自動分析情感,并做出適當回復。這些系統具備了解決個體問題的能力,也使老師能夠提供高度個性化的內容來激發學生的學習興趣。

人工智能和大數據已經促成了大部分行業的技術革新,從電子商務到交通、金融、醫療。人工智能和大數據已經在教育方面取得進展。 盡管有些反對的聲音,比如說如何保護學生隱私、如何提高教學效率等, 但需要指出的是,這些技術的應用并不是要代替老師,而是扮演輔助老師的角色,識別學生的個體需求,以制定更加智能的教學方案。

3、 情緒監測

為了深度挖掘人類情感的奧秘, 美國麻省理工學院計算機科學與人工智能實驗室打造了用無線信號監測情緒的 EQ-Radio。在沒有身體感應器和面部識別軟件輔助的情況下, EQ-Radio通過測量呼吸和心跳的微小變化, 利用無線信號捕捉到一些肉眼不一定能察覺的人類行為,判斷一個人到底處于以下四種情緒中的哪一種:激動、開心、生氣或者憂傷,正確率高達 87%。美國麻省理工學院教授和該項目的負責人 Dina Katabi 預測,這個系統會被運用于娛樂、消費者行為和健康護理等方面:電影工作室和廣告公司也可以用這個系統來測試觀眾實時的反應;而在智能家居的環境中,該系統可以通過捕捉與人的心情有關的信息,調節室內溫度,或者建議你應該呼吸一些新鮮空氣。

現有的情緒監控方法大多依賴于視聽設備或者是安裝在人身上的感應器,這兩種技術都有缺點:面部表情并不一定符合內心狀態,而安裝在身上的感應器(比如胸帶和心電監護儀)會造成各種不便,而且一旦它們的位置稍微移動,監測到的數據就不精確了。

EQ-Radio 會發送能監測生理信息的無線信號,該信號最終會反饋給設備本身。其中的算法可以分析心跳之間的微小變化,從而判斷人們的情緒。消極情緒會被判定為“憂傷” , 而正面 且高漲的情緒會被判定為“激動” 。盡管這樣的測量會因人而異,但其中還是有內在統一性。通過了解人們處于不同的情緒狀態下,他們的心跳會如何變化,我們就可以對他所處的情緒狀態進行有效的判斷。

在他們設計的實驗中,參與實驗者選擇他們記憶中最能代表激動、開心、生氣、憂傷以及毫無情感的一段視頻或音樂。在掌握了這段時長兩分鐘的視頻里的五種情緒設置后, EQ-Radio可以精確地通過一個人的行為判斷他處于這四種情緒中的哪一種。與微軟研發的基于視覺和面部表情的 Emotion API 相比, EQ-Radio 在識別喜悅、憂傷和憤怒這三個情緒上精確度更高。同時,這兩種系統在判斷中性情緒時的精準度差不多,因為毫無情緒的臉總是更容易被識別。

目前,對美國麻省理工學院計算機科學與人工智能實驗室而言,最艱巨的任務就是擺脫不相關數據的干擾。比如,為了分析心率,他們要抑制呼吸可能帶來的影響,因為呼吸時,人的肺部起伏比他心跳時的心臟起伏要大。

▲EQ-Radio 無線信號監測

3、 醫療康復

近年來,情感計算運用于自閉癥治療得到越來越多的關注。例如, 美國麻省理工學院情感計算團隊正在開發世界上第一個可穿戴的情感計算技術設備:一個具有社交智能的假肢,用來實時檢測自閉癥兒童的情感, 幫助機器人使用自閉癥兒童獨有的數據, 來評估這些互動過程中每個孩子的參與度和興趣。 這個裝置用一個小型照相機,分析孩子的面部表情和頭部運動來推斷他們的認知情感狀態。還有一種叫“galvactivator” 的工具,通過測量穿戴者的皮膚電流數據,推斷孩子的興奮程度。這個像手套一樣的設備可以利用發光二極管描繪出人體生理機能亢奮程度的圖譜。這種可視化的展現方式,能夠清晰地展示出人的認知情感水平。 NAO 機器人和個性化的機器學習在治療自閉癥患者上也表現出很大的優越性:

人類治療師會向孩子展示一張照片或者閃存卡片,用來表示不同的情緒,以教會他們如何識別恐懼、 悲傷或喜悅的表情。治療師隨后對機器人進行編程, 向孩子們展示這些相同的情緒,并且在孩子與機器人交往時觀察孩子。孩子們的行為提供了寶貴的反饋信息,機器人和治療師可以根據反饋信息繼續學習。

研究人員在這項研究中使用了 SoftBank Robotics NAO 類人機器人。 NAO 將近 2 英尺高,類似于裝甲超級英雄,通過改變眼睛的顏色、 肢體的運動以及聲音的音調來表達不同的情緒。參加這項研究的 35 名自閉癥兒童中,有 17 人來自日本, 18 人來自塞爾維亞,年齡從 3 歲到 13歲不等。他們在 35 分鐘的會議中以各種方式對機器人做出反應,從看起來無聊和困倦,到在房間里興奮地跳來跳去,拍手,大笑或觸摸機器人。研究中的大多數孩子對機器人的看法是,它不僅僅是一個玩具,應該尊重 NAO,因為它是一個真實的人。另外,人類用許多不同的方式改變自己的表情,但機器人則通過同樣的方式來改變表情,這對孩子來說更加有利,因為孩子可以通過非常有條理的方式學習如何表達表情 。

麻省理工學院的研究小組意識到, 具有深度學習能力的治療機器人能夠更好感知兒童的行為的。深度學習系統使用分層的多層數據處理來處理其任務,每一個連續的層都是對原始數據抽象的表示。

盡管自 20 世紀 80 年代以來深度學習的概念已經出現,但直到最近才有足夠的計算能力來實現這種人工智能。深度學習已被用于自動語音和對象識別程序中, 這種應用非常適合解決面部、 身體和聲音等多重特征的問題,從而更好地理解抽象的概念,如兒童的參與感。

對于治療機器人,研究者構建了一個個性化框架,可以從收集的每個孩子的數據中學習。研究人員拍攝了每個孩子的臉部表情、 頭部和身體動作、 姿勢和手勢, 記錄了兒童手腕上顯示器的心率、 體溫和皮膚汗液反應作為數據。這些機器人的個性化深度學習網絡是根據這些視頻、音頻和生理數據的層次, 針對孩子的自閉癥診斷和能力、 文化和性別的信息構建的。研究人員將機器人對兒童行為的估計與五位人類專家的估計數字進行了比較,這些專家連續對孩子的錄像和錄音進行編碼,以確定孩子在會議期間高興或不安程度,是否感興趣以及孩子的表現。比較發現,機器人對兒童行為的估計要比專家更加具體清晰。

4、 輿情監控

網絡調查法、 統計規則法和文本內容挖掘是三種經常被使用的網絡輿情分析方法。大數據時代的來臨使傳統的輿情分析方式發生改變,大數據時代數據量突增、 數據產生的速度極快、冗余信息占比高的特性不僅給輿情分析帶來新的發展機遇, 也帶來了新的難度和挑戰。基于簡單調查和統計的輿情分析方法將無法適用于大數據環境下的網絡社區文本。當前國內外對輿情分析技術的研究也大多以大數據環境為背景,與傳統輿情分析技術相比,大數據時代網絡社區的輿情分析技術更多地集中于對數據的獲取, 并采取文本數據分析、數據挖掘、語義分析等技術獲取輿情信息。 當前國內外的輿情分析技術研究主要集中于話題識別與話題跟蹤、意見領袖識別以及情感傾向判別這三個方面。

話題識別與話題跟蹤首先在文本中識別出新話題, 接下來在一段時間內檢測并實時跟蹤話題,實現該話題的再現,研究其隨時間發展的演化過程。聚類方法常用于進行話題識別。在國外研究中,話題檢測與跟蹤(TDT)是了解社交媒體熱點話題及其演變過程的重要手段。

意見領袖的發現和識別重點在于評價指標的制定以及模型的構建。例如,曹玖新等將網絡社區用戶看作一個個節點,根據節點之間信息的交互和傳播過濾, 從用戶結構、行為和情感三個特征維度挖掘意見領袖。

情感傾向判別在輿情研究中最為常見,首先收集 web 金融領域的文本數據屬性, 接下來構建金融領域的情感詞典, 最后結合語義分析,將語義規則應用到情感及情感強度識別當中,提升了分類器的準確率 M。王永等人將傾向分析應用到客戶評論信息挖掘當中,結合情感詞之間的依存關系計算面向產品特征的情感傾向得分,從網絡評論中獲取有價值的商業信息。國外針對 Twitter 的情感傾向分析研究居多,用以獲取有價值的信息和輿論導向,例如,結合語言規則特征可以分別獲取正面和負面的 Twitter 文章,反應公眾的輿情態度。

四、 趨勢

1、 論文研究發展趨勢

Trend analysis(http://trend.aminer.cn)基于 AMiner 的 2 億篇論文數據進行深入挖掘,包括對技術來源、熱度、發展趨勢進行研究,進而預測未來的技術前景。技術趨勢分析描述了技術的出現、變遷和消亡的全過程,可以幫助研究人員理解領域的研究歷史和現狀,快速識別研究的前沿熱點問題。

下圖是當前情感計算領域的熱點技術趨勢分析,通過 Trend analysis 分析挖掘可以發現當前該領域的熱點研究話題 Top10 是 Affective Computing、 Social Robot、 Emotion Recognition、 Human Computer Interaction、 Feature Extraction、 Support Vector Machine、 Facial Expression、 Human RobotInteraction、 Behavioural Sciences Computing、 Face Recognition。


▲情感計算發展趨勢

根據Trend analysis的分析我們可以發現, 該領域當前最熱門的話題是Affective Computing,從全局熱度來看, Affective Computing 的話題熱度雖然有所起伏, 但從 20 世紀 90 年代開始,熱度迅速上升,甚至在五年內超過了此前的話題 Top 1 Emotion Recognition, 并且至今其話題熱度始終保持在 Top1,論文的發表數量也較多; Social Robot 的研究熱度跟隨 Affective Computing同期上升,近幾年話題熱度更是超越 Emotion Recognition 成為 Top2 話題;另外,前期比較熱門的 Feature Extraction 經過了一段時間的低迷期后,也回到了 Top3 的位置。

2、 情感計算技術預見

研究者根據情感計算領域近十年的相關論文,利用大數據分析、機器學習、人工智能等技術手段,建立算法模型及研發 demo 系統,分析挖掘出該領域的技術發展熱點。 技術預見圖中點的大小表示該技術的熱點(主要由相關論文數量的多少決定,相關論文越多,熱度越高,點越大),各技術之間的連線表示 2 個技術關鍵詞同時在 N 篇論文中出現過(當前 N 的取值為 5)。


▲情感計算技術預見圖

根據情感計算技術預見圖,可以得出情感計算領域相關度最高的技術有 3 項,分別為: feature extraction、 human computer interaction 和 emotion recognition。

按照技術前沿度,可以列出相關的主要技術關鍵詞,以及該技術歷年的變化趨勢(論文發表數量變化趨勢),及重要代表性成果。具體如下圖所示 :


▲情感計算預測熱詞圖

圖 15 中我們可以看出,情感計算領域預測前沿度比較高的前四熱詞有: autism spectrumdisorder(前沿度為 1428)、 support vector machine(前沿度為 1096)、 deep learning(前沿度為 1058)和 semantic web(前沿度為 1031)。

智東西認為,如果說目前的傳統計算機(包括應用現有智能計算方法的計算機)只包含了反映理性思維(Thinking)的“腦(Brain)”,那么,情感計算將為該機器增添了具有感性思維(Feeling)的“心(Heart)”(這是應用文學方式對機器進行擬人化比喻。按認知科學講,感性思維仍源于腦活動)。可以認為,情感計算是在人工智能理論框架下的一個質的進步。因為從廣度上講它擴展并包容了情感智能,從深度上講情感智能在人類智能思維與反應中體現了一種更高層次的智能。情感計算必將為計算機的未來應用展現一種全新的方向。同時,由此引發出來的理論與應用問題會是層出不窮。

免責申明:本欄目所發資料信息部分來自網絡,僅供大家學習、交流。我們尊重原創作者和單位,支持正版。若本文侵犯了您的權益,請直接點擊提交聯系我們,立刻刪除!
 
相關推薦
 
圖文熱點
 

 

豬友之家——精選產品!

 
 
2010年大乐透走势图南方双彩网