如何用演算法判斷文章品質高下?系列一:內容管理系統與品質判斷基準/Frederic Filloux
新聞報導的品質要如何定義?如何建構可信賴、可大規模部署的文章品質判斷系統?這裡有一些初步想法。
前一陣子,我們在〈未來媒體的價值應該是文章品質,而不是點閱率〉這篇文章中提過,現在數位內容經濟價值並不是由其品質決定的,接下來要問的問題顯然就是:文章的品質應該如何定義?如何將主觀的判斷轉變成量化指標?
解答這個問題的關鍵有二:定義出相關的判斷基準(signals),並且讓它可由機器存取。目前加州聖塔克拉拉大學的「Trust Project」,在這塊領域的研究中居於領先。計畫主持人莎莉.雷爾曼(Sally Lehrman)的研究團隊已經歸納出一列相當有用的判斷基準,可以在這裡下載去年五月該計畫在紐約發表的報告。
從筆者的角度,我把重點放在三種不同的文章品質判斷基準上:
描述基準(Stated Signals)
推算基準(Inferred Signals)*
主觀基準(Subjective Signals)*
*(註):這兩種基準日後會有另文探討。
描述基準
簡單地說,這種基準可以在任何內容製作過程時,在文章管理系統內附加上去。一年半前我在Monday Notes這篇文章中就曾提到過這樣的想法,大家可以自行參考。
在文章中,我提出一種虛擬的「開放文章品質標準語法」,讓內容管理系統和內容製作者可以共同遵循使用。不用說,即使時至今日,我們離這個境界也都還很遙遠。
為何我們現在沒有文章內容品質指標?
內容管理系統(CMS)這個名字本身就有問題,而且幾乎所有使用這類系統的人,都滿肚子苦水。我還沒遇過任何人對他們採購或導入的系統感到完全滿意。
大家對CMS會有這麼多抱怨,不是沒有原因的。舉個例子,一家名為 Eidos Media 的CMS廠商,原本做的都是傳統印刷相關產業的解決方案,為了要盡快從客戶身上擠出錢來,在他們老朽不堪的軟體上頭,加上一層又一層的數位新功能,假裝讓軟體看起來符合客戶的最新需求。這個產品表面上讓客戶看到了數位革新的幻境,但實際上架構卻非常老舊。
反觀像 Vox Media、Business Insider、赫芬頓郵報或Buzzfeed這樣的數位原生媒體,就沒有把時間和金錢浪費在這種轉型用的工具上。相對的,他們把內容管理系統當成武器。對他們來說,內容管理系統不只反映編輯流程的作業需求,更是支撐整體營收和行銷系統的重要骨幹。從讀者背景分析、廣告投放到社群媒體管理,無所不包。
筆者堅信內容產業最後一定會發展出強健的內容品質指標系統,像Medium甚至Google這樣的大型業者,將會率先投入內容指標系統的建構。
為何這些數位原生媒體在選擇後台工具時,比傳統媒體更加果斷?首先,他們沒有傳統媒體的包袱;其次,這些媒體都是由熟悉科技的人和真正的創業家發起或資助,而這些人很清楚一件事:想要賺大錢,大筆投資是省不了的。
相對的,除了像紐約時報或華盛頓郵報這些大腕之外,多數傳統媒體的主事者還深陷在舊包袱的泥淖中,一堆不懂科技,MBA出身的媒體管理高層,根本搞不懂現代化的工具有多麼重要。
雖然有些內容生產單位已經建構了自己的CMS系統,但還沒有任何一家把文章品質標籤系統建立起來。這有兩個原因:第一是競爭,媒體不想讓這套系統把可以賺廣告錢的爛內容給刷掉;第二,內容產業缺乏把品質量化的誘因。即使有媒體想要建立這樣的系統,目前的廣告平台也無法處理文章品質指標,也就是說,這是典型的雞生蛋、蛋生雞的問題。
業界終會需要文章內容品質指標
雖然現況如此,我還是堅信內容產業最後一定會發展出強健的內容品質指標系統。更進一步說,我相信像Medium甚至Google這樣的大型業者,會率先投入內容指標系統的建構。以Medium為例,本身除了是個公眾的CMS外,也需要為站內為數眾多的優質內容找到變現方案,所以實際上Medium會是建置內容品質指標的最佳場所。以八十/二十法則來看,Medium只需要將系統內約20%的文章加上品質指標,就有機會賺到錢。
至於Google方面,我聽過一些傳聞指出:Google正在開發一套針對中小型網站需求的CMS系統,功能涵蓋了內容生態系的前端到後端,也就是從發稿到廣告系統都一手包辦。如果傳聞屬實,那麼Google和內容產業對於強調品質這件事,立場就是一致的。
詳細說明
回到描述類型的內容品質指標,下面是一些我提出來的暫定指標列表,這些指標都能輕易做到CMS系統之中。
接著依序說明上圖:
「文章字數」:長文章通常會比短文得到更高分。當然有不少例外,但通常要寫長文章,投入的精力會比短文章多。因此,像「作者人數」、「編輯」、「校審稿」等指標會跟文章字數指標合併參考。也就是說,品質不佳的長文章,像是一些我不想指名道姓的網站,專門把別人的舊文拿來剪剪貼貼,生出品質低落的長文章,這樣的文章就只能得到低分。可以參考本文最後一張圖片的說明。
「發稿時間標記」:這個欄位並不像表面上看起來那樣單純。不少內容網站即使只對文章做了小量修訂,也會更新發文時間,這是因為許多調查指出發文新舊會是讀者喜好的關鍵因素。在這裡有個關鍵項目叫做「長時效文章」,因為有些內容十分獨特,對題材的鑽研足夠深入,即使一段時間之後也還具有很高的閱讀價值。
理論上只有優秀資深編輯才應有權決定哪些內容可以標上這個標記,因為濫用這個標記將會導致「整個媒體的內容品質得分」(同樣參考本文最後一張圖)受到影響。
「發稿地點」對文章的獨特性是個很有力的指標,能夠鼓勵內容業者派遣記者到新聞發生所在地(例如戰區),或是設置海外分支機構。
「讀者定位」在廣告投放目標定位上會很有用,例如「想買車的讀者」或是某個特定地區的讀者群。
「內容類別」也是個比較細瑣的指標,可以用來鼓勵獨家或是特別的內容。舉例來說,華倫.巴菲特執筆的選後股市分析專欄,其內容品質得分一定會比硬湊出來的新聞分析要高得多。
「多媒體加強特效」:舉例來說,附加了各種資訊圖表或互動資訊的內容,可視為優質內容,得到較高的內容品質分數。
補充說明
首先,這是我在史丹佛大學John S. Knight基金會進行中的媒體研究計畫,當我把這些想法分享給基金會的同事、史丹佛大學和舊金山灣區的多位先進時,這些想法也會隨之與時俱進,有所修正。
其次,如果把上述十種指標拆分開來,沒有任何單一指標可以單獨指出文章品質的高下;唯有結合在一起同時考量,我們才能發展出細緻的內容品質指標。這些指標都是互有關係的,在系統中相互驗證、修正並確認彼此的正確性。
舉例來說,如果一篇文章沒有其他的內容品質指標支持的話,編輯就不能逕自判斷文章是具有長效閱讀價值的。
再者,如果沒有公正客觀的第三方來確認媒體確實沒有舞弊的話,這套系統就無法正常運作。為了要讓整個系統能夠規模化地擴大,必須要有一套演算法能夠自動綜合判斷各項指標的有效性,而且必須長期運作,不能只看短期表現。
未來我將會再寫文章來討論「推算基準」,因為這個基準可以讓內容聚合服務、搜尋引擎和廣告平台等第三方系統,根據既有的內容來推算出內容品質;之後我們也會探討「主觀基準」。