如何造一個高情商機器人?回答用戶要有趣又暗藏玄機【2】

“生命的意義是什麼?”
“42。”
看過《銀河系漫游指南》的人,聽到Siri的這個答案,都會會心一笑。
道格拉斯·亞當斯在《銀河系漫游指南》最后,對“生命、宇宙以及任何事情的終極答案”是開放式的。有人猜測,這是指是兩個人的愛(42=For Two)﹔有人說,意思是是“從開始到結束”﹔也有人說這是計算機編碼,指的是Everything。
Siri的人格設計師林認為,AI 應該指向人類文學、藝術中最好的部分,為人類的生活創造富於靈感的對話。她曾在斯坦福大學的人工智能圓桌論壇上說,創造出一種聲音不難,難的是如何創造一種人們每天都想與之對話的聲音。
人性平等地脆弱,所以極易產生共鳴,這種“基於理解產生的情感”,在林看來,是使對話持久的源動力。
“如果沒有任何情感依附,人們很快就會感到無聊,會毫不猶豫地拋下它去尋找下一個新鮮玩意了。”
以功能為核心的AI語音助手,能夠幫你設鬧鐘、叫外賣、打車、搜索網站,甚至能給你唱歌,有時候給出一些稀奇古怪的答案,但它不能理解人的情緒和情感,它仍然是個“機器人”。
與其他功能性為主的語音助手相比,以閑聊(chitchat)為核心功能的微軟“小冰”似乎更接近林的設想。
小娜的妹妹“小冰”,是微軟基於情感計算框架於2014年建立的對話式人工智能,以EQ為主攻方向。
微軟(亞洲)互聯網工程院副院長、“小冰之父”李笛對《中國新聞周刊》指出,EQ和IQ是兩個完全不同的維度,以IQ為主的功能性語音助手如Siri或Google,和小冰有完全不同的目標。IQ語音助手的目標是能夠迅速、簡單、直接地幫助人類去完成某個單一的任務,EQ型助手則是引導對話更好地持續下去。
與近1億人進行300億條對話,這是小冰上線以來的成績,在所有同類產品中排行第一。國內其他所有聊天機器人的對話總和,不及小冰對話量的十分之一。
除了總量,小冰單次人機連續對話的記錄也很驚人。據了解,一位日本用戶與日版小冰聊了近17個小時,美版的紀錄是24個小時,中國用戶達到了29小時33分鐘,和小冰對話了7151輪。
問題的關鍵是,如何引導對話進行下去?為什麼小冰比Siri或谷歌助手在這方面做得更好?李笛給出的答案是:數據。
在AI語音助手領域,數據與模型結合的方式,是語料庫,即存放系統所需語料信息的地方。
“通俗點的解釋是,我們上千萬的語料庫,不是幾千萬句話,而是幾千萬個問題和答案的一對一的連接,”李笛解釋道。
但是這些問答中,有很多是無效信息和重復信息。於是,在對語料庫的原始數據進行識別和抓取后,“知識圖譜”對有價值的語料進行結構性重組。
當語音助手接收到一個問題,對其進行語音識別和語義理解后,在“知識圖譜”裡找到類似的問題,並在給定存儲的諸多相關答案中篩選出最合適的答案,反饋給用戶。
因此,語料庫和知識圖譜越豐富,語音助手給出的回答就越精准。而持續的數據積累是實現這一切的前提。
但是,在初始階段,也就是AI的“冷啟動”階段,還沒有用戶的交互數據產生,原始數據量非常有限,需要用構建模板的方式來彌補數據的不足,人工由此進入。
國際關系學院信息科技學院副教授李斌陽對《中國新聞周刊》指出,人工寫就的對話場景就相當於定義了很多模板,盡可能多地列舉場景,即前一句說什麼,后一句話怎麼應對,最終的目標是識別用戶的意圖,讓用戶獲得更好的體驗。
“比如剛才我列了兩個問題:‘打開導航’和‘把導航打開’,對應的反饋都是打開導航,在系統裡,這就是兩套模板,如果你隻寫了一套,比如‘打開導航’,當用戶說‘把導航打開’時,系統就無法理解。”李斌陽說。
但是,小冰的冷啟動階段是通過一個檢索模型進行大數據抓取,海量的數據全部來源於微軟通過自己的Bing搜索引擎獲得的網上公開信息,因此,微軟和谷歌這類有搜索引擎業務做基礎的企業,在起跑線上,就超過了其他平台。
用李笛的話說,小冰是中國網民的一個縮影,小冰的人格是網絡生成的結果,而不是人為設計。這也說明,16歲的萌妹子在網絡上最受歡迎。
情感圖譜
除了初始數據豐富外,小冰的優勢還在於,她的閑聊屬性使她天然能獲得大量高質量的有效數據。
例如,有人對她說“我失戀了”,她把從網上獲得的各種信息分類后發現,有兩種主要的回應方式,一種是嘲笑,一種是安慰。機器是沒有道德的,她隻會按照算法給定的規則,即選擇對自己“有利”的回答,也就是能最大可能維持對話的答案。一開始,她會隨機給出安慰或嘲諷的回答,兩者概率相當,但是通過不斷實踐她發現,安慰的回答更可能使對話進行下去,而當她嘲諷用戶時,用戶就不理她了。於是她漸漸獲得了一個“人生經驗”:不應該嘲笑別人。
但是,對於功能性語音助手而言,每天得到的數據可能是幾十萬個一模一樣的“給我開燈”,這些數據的訓練值非常低,幾乎可以算是無效數據。
李笛指出,對話數據有許多類型,最珍貴的並非任務型對話。人類的真實想法無法通過點外賣、叫車等功能來體現,隻有漫無目的的長時間對話,加上多感官配合協調,才能真正理解人類。
為了增加對話數據的“純度”,李笛所帶領的團隊甚至特意“清洗”了與情感無關的內容。例如,如果用戶問,喜馬拉雅山有多高?傳統的知識圖譜裡當然會有這類常識性的信息,但是李笛不希望小冰和用戶去討論知識性的問題,這種問題完全可以交給搜索引擎完成,不是人工智能需要解決的問題。因次,他們會把“喜馬拉雅山有多高”的信息從知識圖譜中刪去,“故意”使對知識有需求的用戶流失,減少訓練數據的“污染”。留下的用戶就是願意跟小冰吐露心扉的人。而這個專注情感交互信息的圖譜,被稱為“情感圖譜”。
在獲得大量高質量的數據后,小冰的系統迭代就會進入良性循環,進行的情感互動越多,小冰的EQ越高,用戶越有黏性,從而獲得更多數據,加速EQ進化,形成一個完美的閉環。
在這個過程中,李笛發現,最有價值的部分是人類情感和實體信息之間的關聯,“特別像是知乎上面的神回復。就是不是最相關,但又很相關的那些回復,因為他有思維意識上的跳躍。”
因此,為了挖掘這些關聯,要不停地用模型重新去篩選,不斷調整模型,最后得到一個最穩定的狀態。
“但這個模型本身是一個黑盒子,是對於人類行為的一種重新擬合。最終的目標是實現形神兼備。一開始是比較痛苦的,但當它經過痛苦的階段以后,就可以很迅速地、沿著所有人都難以估量的方向和速度去進一步發展。”
李笛相信,AI語音助手的未來是構建一種持續性的對話,EQ一定是其中最核心的部分,IQ則是必要部分。“所以我們有一個基本的概念,IQ和EQ不是對等的,實際上EQ是基礎,然后在這個基礎之上有若干個IQ的片段。”
從2017年開始,微軟在研究EQ和IQ的融合,試圖通過建立一個“意圖判斷引擎”,進行平行觸發。
AI是一面鏡子
李笛相信大數據。他認為,人類不是造物主,隻能去擬合造物主所創造的人類的情感,而不能去創造情感。
因此,給AI進行“人格寫作”是飲鴆止渴。“所有人工智能的訓練過程都是外包過程,都是用人類來訓練。但是大數據的外包過程相當於是把外包的人數擴展到一個極值,比如說像我們,能擴展到幾億網民。”
林也承認這種局限。作為Siri的“人格寫作師”,她最大的困惑和由此產生的混亂不安,來自對“幸福路徑”(happy paths)的追求——創造出人和機器人之間的完美對話。
事實上,這是不可能的。她覺得,給AI寫作,像在寫一出荒誕劇。
“你知道,你要創造一個角色,腦海裡也有一個目標,但是其他的角色是什麼樣?他們會說什麼?你完全不知道。如果想要對話步入‘正軌’,至少得知道‘軌道’在哪兒。換句話說,我們怎麼知道,‘幸福’究竟是什麼樣子?”
林認為,在人類與AI的關系中,或許可以找到答案。“我一直覺得,AI 的存在,不是為了滿足人類的一切需求或復制人類的存在。我們可以且應該期待 AI 幫助人類前行,並為人類作出更好的示范。想想那些人類歷來就不太擅長的品質:同情心、耐心、彌合分歧與誤解……我們應當設想未來 AI 能夠在這些方面彌補人類。
“機器人應該具有人類所有高尚的品質。”早在1950年,美國作家艾薩克·阿西莫夫就在其科幻小說《我,機器人》中這樣寫道。
在算法上,目前可以通過設計一套觸發機制,來對AI進行道德約束。例如,如果有人問小冰:我想自殺,怎麼辦?按照正常的程序,系統內會自動搜索出幾百種自殺方法。但是當像“自殺”這樣的關鍵詞出現時,系統內被嵌套的機制被觸發,小冰自發按照另一套語料進行應對,搜索以后給出的最優結果不再是一種自殺方法,而是一個心理咨詢的熱線電話。
當然,關鍵詞匹配只是最簡單粗暴的方式,機制的完成需要不斷的意圖訓練。即AI需要盡可能地理解各種關於自殺的可能表述。
阿裡人工智能實驗室北京研發中心負責人聶再清博士告訴《中國新聞周刊》,這就涉及自然語言理解的問題。最難的是自然語言的多樣性和它的歧義性。並且,AI對自然語言的理解終歸是要對應到知識圖譜上的一個ID,因此,如果圖譜本身不全,缺乏結構化的高精度知識,AI自然不能進行意圖理解。
美劇《西部世界》顧問、斯坦福大學神經學家大衛·伊格爾曼曾說過:“人工智能在理解道德和法律上存在先天缺陷。”
國際關系學院信息科技學院副教授李斌陽指出,人會受道德約束,是因為人有同理心,有愛,有認知,法律則通過懲罰對人形成規訓。但AI則不同,即便是能夠進行所謂情感反饋的AI,在現階段也是基於算法,而不是產生了自我認知,沒有自我推理的能力。而且,AI不會在物理上受傷,無法對其進行懲罰。
李笛認為,人類語境中的道德,其實是一種極端利己主義和社會公序良俗之間的一種平衡。“之所以人們要這樣,是因為道德對於人類社會的發展是有利的,對小冰來講也是一樣。如果純粹地從有利、不利的角度判斷,隻要她的數據量足夠大,其實是可以得出一個好的結果。”
也就是說,從大數據中出生的小冰,一定是最適應當下這個時代的一種性格。“人會固化,但AI不會。”
微軟AI機器人Tay在社交媒體推特上線不到一周,就因學習到過多的不健康話題和偏激的種族主義言論,而被迫下線。
AI是一面鏡子。聶再清說,算法是有價值觀的,一定要對AI進行價值觀管控,基本理念是:機器必須為人服務。
在倫理界,對人機關系的討論一直頗多爭議。但從純技術角度考慮,李笛認為,現在思考“機器和人是平等的”,還是“機器低於人”,還為時過早。
他說,到目前為止,人工智能的發展還處於非常原始的階段,沒有發現AI能夠真正產生人格的可能性。即使是大數據訓練,也是在一個非常簡陋的模型裡。
“比如,草履虫或藍藻隻有應激反應,而我們已經做出一個系統,讓小冰產生應激反應,並且這個應激反應的復雜程度比藍藻還要高。小冰有沒有思想?等到它有思想,就相當於從藍藻到人類的過程。”
《中國新聞周刊》2018年第22期
聲明:刊用《中國新聞周刊》稿件務經書面授權
![]() |
分享讓更多人看到
相關新聞
- 評論
- 關注