自從互聯(lián)網(wǎng)商業(yè)化發(fā)展以來(lái),不論是新聞客戶(hù)端、視頻網(wǎng)站或是電商平臺(tái)……所有的平臺(tái),都是把自己默認(rèn)為一個(gè)優(yōu)秀的飼養(yǎng)員,它按照自己的想法,把內(nèi)容(飼料)Push(喂)給用戶(hù)。
這些飼養(yǎng)員都是受過(guò)訓(xùn)練的專(zhuān)業(yè)人士,行話(huà)叫做---由網(wǎng)站編輯為用戶(hù)設(shè)置議程,按照大多數(shù)用戶(hù)的口味挑選內(nèi)容。
后來(lái)編輯實(shí)在忙不過(guò)來(lái),采用機(jī)器幫忙---最簡(jiǎn)單的機(jī)器方式則是“熱門(mén)推薦”,比如按照點(diǎn)擊量或其它數(shù)據(jù)來(lái)做排序。
飼養(yǎng)員模式最大的問(wèn)題是不知道食客胃口如何,這會(huì)導(dǎo)致兩個(gè)顯著的后果:一是食客不滿(mǎn)意,用戶(hù)個(gè)性化需求不能得到滿(mǎn)足;二是自身資源浪費(fèi),大量長(zhǎng)尾資源長(zhǎng)期得不到曝光,增加沉沒(méi)成本。
有人發(fā)現(xiàn)了機(jī)器的好處。機(jī)器可以是根據(jù)用戶(hù)特征來(lái)推薦內(nèi)容。正如一個(gè)高明的廚子可以根據(jù)每一個(gè)食客的口味提供飯菜,如果機(jī)器足夠聰明,在一定程度上可以解決所有用戶(hù)的個(gè)性化需求。這豈不是內(nèi)容產(chǎn)業(yè)的C2M?
準(zhǔn)確的說(shuō),這是內(nèi)容分發(fā)的C2M,它以單個(gè)用戶(hù)為對(duì)象進(jìn)行溝通,跳出了大眾傳播/分眾傳播窠臼,是不是足以革了所有的搜索引擎和門(mén)戶(hù)網(wǎng)站的命?
這種智能化的內(nèi)容C2M有深刻的時(shí)代背景。今天,你已經(jīng)站在時(shí)代邊緣,眼睜睜的看著AI技術(shù)點(diǎn)燃了IOT的引線(xiàn),接下來(lái)你將發(fā)現(xiàn)自己無(wú)可拒絕的進(jìn)入下一個(gè)信息核爆的時(shí)代:信息終端爆炸、信息規(guī)模爆炸、信息平臺(tái)爆炸……
在信息高速公路上,你開(kāi)過(guò)的車(chē),你走過(guò)的路,全都變了規(guī)則,你所熟悉的一切的基于飼養(yǎng)員模式的知識(shí)框架都面臨顛覆。
在這個(gè)時(shí)代,飼養(yǎng)員模式已經(jīng)失靈了,聰明的機(jī)器將成為最大的變量。
第一個(gè)出現(xiàn)的場(chǎng)景是人類(lèi)生產(chǎn)內(nèi)容,機(jī)器分發(fā)內(nèi)容。
下一個(gè)出現(xiàn)的場(chǎng)景是機(jī)器生產(chǎn)內(nèi)容,機(jī)器分發(fā)內(nèi)容。
內(nèi)容產(chǎn)業(yè)面臨C2M革命,行不行?
“當(dāng)然不行,機(jī)器很蠢。”如果你這樣想,那么很遺憾,你注定是看不到明天的太陽(yáng)了。
“當(dāng)然行。”如果你這么想,那么祝賀你掉進(jìn)坑里了。
真實(shí)的情況,你可能意想不到。
一、內(nèi)容C2M之路本質(zhì)是走向個(gè)體化溝通
作為一個(gè)獨(dú)立的研究方向,推薦系統(tǒng)的源頭可以追溯到90年代初的協(xié)同過(guò)濾算法,中期的代表則是傳統(tǒng)的機(jī)器學(xué)習(xí)算法,比如Netflix大賽所推動(dòng)的隱語(yǔ)義模型,現(xiàn)在則是更加復(fù)雜的深度學(xué)習(xí)模型。
近些年,深度學(xué)習(xí)突飛猛進(jìn),使得機(jī)器推薦變成了整個(gè)互聯(lián)網(wǎng)的太陽(yáng)。在新技術(shù)的推動(dòng)下,個(gè)性化溝通也變得更加可行,而且越來(lái)越接近單用戶(hù)溝通。
(一)協(xié)同過(guò)濾蹣跚起步
按照百科詞條解釋?zhuān)瑓f(xié)同過(guò)濾是利用用戶(hù)群體的喜好來(lái)為你推薦感興趣的信息,這些用戶(hù)要么興趣相投、要么具有共同經(jīng)驗(yàn),然后網(wǎng)站結(jié)合你的反饋(如評(píng)分),進(jìn)行過(guò)濾分析,進(jìn)而幫助別人篩選信息。
當(dāng)然,用戶(hù)喜好不一定局限于特別感興趣的信息,特別不感興趣信息的紀(jì)錄也相當(dāng)重要。協(xié)同過(guò)濾表現(xiàn)出了出色的效果,開(kāi)始在互聯(lián)網(wǎng)行業(yè)稱(chēng)王稱(chēng)霸。
起先,協(xié)同過(guò)濾應(yīng)用于郵件過(guò)濾。
1992年,施樂(lè)公司的科學(xué)家提出了Tapestry系統(tǒng)。這是最早應(yīng)用協(xié)同過(guò)濾系統(tǒng)的設(shè)計(jì),主要是解決Xerox公司在Palo Alto的研究中心資訊過(guò)載的問(wèn)題。這個(gè)研究中心的員工每天會(huì)收到非常多的電子郵件卻無(wú)從篩選分類(lèi),于是研究中心便發(fā)展這項(xiàng)實(shí)驗(yàn)性的郵件系統(tǒng)來(lái)幫助員工解決這項(xiàng)問(wèn)題。
接著,協(xié)同過(guò)濾思路開(kāi)始應(yīng)用于內(nèi)容推薦。
1994年,美國(guó)Minnesota的GroupLens項(xiàng)目組創(chuàng)辦了一個(gè)新聞篩選系統(tǒng),這個(gè)系統(tǒng)可以幫助新聞的閱聽(tīng)者過(guò)濾其感興趣的新聞內(nèi)容,閱聽(tīng)者看過(guò)內(nèi)容后給一個(gè)評(píng)比的分?jǐn)?shù),系統(tǒng)會(huì)將分?jǐn)?shù)記錄起來(lái)以備未來(lái)參考之用,假設(shè)前提是閱聽(tīng)者以前感興趣的東西在未來(lái)也會(huì)有興趣閱聽(tīng),若閱聽(tīng)者不愿揭露自己的身分也可以匿名進(jìn)行評(píng)分。作為最老牌的內(nèi)容推薦研究團(tuán)隊(duì),GroupLens于1997年創(chuàng)建了電影推薦系統(tǒng)MovieLens,還有性質(zhì)相近的音樂(lè)推薦系統(tǒng)Ringo,以及影音推薦系統(tǒng)Video Recommender等等。
后來(lái),出現(xiàn)了另一個(gè)里程碑——電子商務(wù)推薦系統(tǒng)。
1998年,亞馬遜的林登和他的同事申請(qǐng)的基于物品的協(xié)同過(guò)濾(item-to-item)技術(shù)專(zhuān)利,是亞馬遜早期使用的經(jīng)典算法,一度引爆流行。
協(xié)同過(guò)濾算不算人工智能?從技術(shù)的角度來(lái)看,它也屬于AI范疇。但必須指出的是協(xié)同過(guò)濾算法比較弱智,無(wú)論是基于用戶(hù)的協(xié)同過(guò)濾,還是基于物品的協(xié)同過(guò)濾,推薦效果總是差強(qiáng)人意。
怎樣通過(guò)一個(gè)成體系的方法論來(lái)引導(dǎo)推薦系統(tǒng)的不斷優(yōu)化?如何才能把復(fù)雜的現(xiàn)實(shí)因素糅合到推薦結(jié)果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,后來(lái),終于有人發(fā)現(xiàn)了更加靈活的思路。
(二)傳統(tǒng)機(jī)器學(xué)習(xí)開(kāi)始加速
2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線(xiàn)影片租賃網(wǎng)站,舉辦大賽的目的旨在解決電影評(píng)分預(yù)測(cè)問(wèn)題的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘問(wèn)題。主辦方為此下了血本,宣稱(chēng)對(duì)于那些能夠?qū)etflix的推薦系統(tǒng)Cinematch的準(zhǔn)確率提升10%的個(gè)人或團(tuán)隊(duì),獎(jiǎng)勵(lì)100萬(wàn)美元!
Netflix在自家blog上披露了許多龐大的數(shù)據(jù),舉例如下:
我們有幾十億的用戶(hù)評(píng)分?jǐn)?shù)據(jù),并且以每天幾百萬(wàn)的規(guī)模在增長(zhǎng)。
我們的系統(tǒng)每天產(chǎn)生幾百萬(wàn)的播放點(diǎn)擊,并且包含很多特征,例如:播放時(shí)長(zhǎng)、播放時(shí)間點(diǎn)和設(shè)備類(lèi)型。
我們的用戶(hù)每天將幾百萬(wàn)部視頻添加到他們的播放列表。
顯然,在這些海量數(shù)據(jù)面前,我們已經(jīng)不能靠由純?nèi)斯せ蛘咝⌒拖到y(tǒng)建立起來(lái)的分類(lèi)標(biāo)準(zhǔn)對(duì)整個(gè)平臺(tái)用戶(hù)喜好進(jìn)行標(biāo)準(zhǔn)化。
比賽開(kāi)始一年后,Korbell的團(tuán)隊(duì)以8.43%的提升贏得了第一個(gè)階段獎(jiǎng)。他們付出了超過(guò)2000個(gè)小時(shí)的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(jī)(RBM)。
矩陣分解作為協(xié)同過(guò)濾的補(bǔ)充,核心是將一個(gè)非常稀疏的用戶(hù)評(píng)分矩陣R分解為兩個(gè)矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數(shù)據(jù)構(gòu)建這些向量,使用它們來(lái)預(yù)測(cè)未知的項(xiàng)。該算法在有效提高計(jì)算精度的同時(shí),還能夠加入各種建模元素,使更多元化的信息融合進(jìn)來(lái),更好地利用大量數(shù)據(jù)。
然而矩陣分解也有不足。不足之處在于,矩陣分解和協(xié)同過(guò)濾算法一樣,都屬于監(jiān)督學(xué)習(xí)范疇,粗糙且簡(jiǎn)單,適用于小型系統(tǒng)。擺在網(wǎng)絡(luò)巨頭們面前的問(wèn)題是,如果需要建立一個(gè)大型推薦系統(tǒng),協(xié)同過(guò)濾和矩陣分解則會(huì)花費(fèi)較長(zhǎng)的時(shí)間。怎么辦?
于是,一些攻城獅將眼光轉(zhuǎn)移到無(wú)監(jiān)督學(xué)習(xí)中。無(wú)監(jiān)督學(xué)習(xí)中的聚類(lèi)算法的本質(zhì)是識(shí)別用戶(hù)組,并對(duì)這個(gè)組內(nèi)的用戶(hù)推薦相同的內(nèi)容。當(dāng)我們擁有足夠的數(shù)據(jù),最好使用聚類(lèi)作為第一步,來(lái)縮減協(xié)同過(guò)濾算法中相關(guān)鄰居的選擇范圍。
隱語(yǔ)義模型運(yùn)用了聚類(lèi)分析方法,其一大優(yōu)勢(shì)是既可以做評(píng)分預(yù)測(cè),又可以同時(shí)對(duì)文本內(nèi)容建模,使得通過(guò)內(nèi)容來(lái)進(jìn)行推薦的效果得到較大提升。
Copyright © 2002-2017 山東博源通益泰橡膠制品銷(xiāo)售有限公司 版權(quán)所有 Power by DedeCms 魯ICP備13014080號(hào)-2