如何用演算法判斷文章品質高下?系列二:根據既有內容推算其品質的判斷基準/Frederic Filloux

當文章在網站上刊出後,可以用各種不同的基準來評斷內容品質;不過這些基準的可信度會有相當大的差異。本文是〈如何用演算法判斷文章品質高下?系列一:內容管理系統與品質判斷基準〉的續篇,繼續談論我對文章品質的研究。

文章品質判斷標準仍待建立

在上篇文章中,筆者列出一些理想狀態下,當文章內容尚在編輯中,就可以附加上去的一些內容品質判斷基準;這些基準能夠有效運作的前提,是內容業界普遍認同,在內容從CMS系統製作刊出時,就採用同樣的方法幫內容加上品質判定基準標籤,以便從讀者端或廣告端獲取利潤。

實際上這個想法尚有許多困難得要面對。大型電信業者或藥廠等產業,會因為長遠的共同利益而彼此結盟,甚至合縱連橫;但是我們從來沒看過內容產業中的業者彼此合作。內容業者不但很少坐下來討論共同問題,提出共同的因應對策,甚至當產業危機已經迫在眉睫了,這些業者也還是自掃門前雪。

不像其他產業,內容業者很少坐下來,面對問題共商對策。

也因為如此,在內容(文字、影音、多媒體等形式)刊出後,針對已經刊出的內容推算出內容品質分數,這種做法有其不確定因素存在。很難確認到底哪些判斷基準是最適切的也最容易判斷的,哪些比較客觀公正,而且不易篡改。

在發展這一系列「推算基準」時,筆者暫且將這些基準分為兩類。一類是「可由機器量化」的基準,另一類則是由編輯人員來評斷。在我這個研究計畫中,人類的評分是包含在自動化機器學習的架構之內的;就像我們可以教會機器從一大堆標示為「貓」的相片中,找到真正的貓咪照片一樣,筆者也假設神經網路能夠透過一些人類精心設計的內容品質判斷基準,在人類的逐步教導之下,學會如何判斷內容品質的高低。

從既有文章中推算的內容品質基準

不可諱言的,總是有很多魔鬼藏在細節中;筆者會在後續的文章中討論和機器學習、神經網路相關的一些特定問題和解法。現在,我們先來討論這些暫定的「內容品質推算基準」。

f1-1

在內容品質中對得分影響最大的因素,就是是誰產生了這些內容,我把它稱為「出刊者品質分數」(Publication Quality Score,以下簡稱PQS)。不過,我們要如何判斷某個網站的分數比另一個要高呢?

PQS綜合了許多子項目指標,例如內容發表以來得到多少奬項。大報社得了幾座普立茲奬,只是考慮這指標的眾多因素之一;因為這種大獎通常只有大公司才拿得到,容易造成偏誤。光是美國一地就有250種以上的各類新聞獎項,即使我們只採認最重要的前十種或二十種,還需要納入同業的評論意見,才能讓這個指標更具代表意義。

編輯室成員的組成,也是個相當有意義的內容品質優劣指標。雖然計算編輯室人數的多寡,會對大型內容事業比較有利,但也可以用來當成品質指標的加權因素。

還有其他足以影響PQS分數的因素,其中最具決定性的是「作者品質分數」(Authors Quality Score,以下簡稱為AQS)。我們可以很容易評斷一個作者是佳評在外還是惡評不斷。在其他的子項目指標中,獎項也是一個考量的重點。

對新聞報導、小說、記錄等類型的內容來說,得過哪些獎對作者的評價而言,是個相當明確的指標。當然,作者的社群足跡可以做為加權因素,包括在不同社群平台上的活動力、追蹤者人數、分享轉推次數等等。

很少人會去注意作者的LinkedIN檔案,但這也是相當有趣的指標。可以從作者的履歷中看到其職業生涯的廣度與深度,例如曾在哪些組織工作過、值得大書特書的工作成績等等。

內容的「生命周期」對PQS也有相當的影響。筆者所謂的內容生命周期,指的是內容在一段時間內維持「經典之作」的能力高下(可以參考由大西洋報編纂的〈百餘則經典報導選粹〉,或是由Kevin Kelly匯整的〈史上最佳雜誌報導〉)。

我並不是說所有內容都得達到這樣的高度,但不論大組織或小公司,一年總是能產生出若干擲地有聲的精彩內容出來。不過這個指標的限制,就是非常倚賴人為的評判,今天還沒有任何機器有能力預測一則內容能夠傳頌多久。

最後一個和PQS綜合分數相關的指標,是「文章來源」。今天任何一則優秀的內容,在幾分鐘之內就會被其他媒體轉載發出;而在轉載又轉載的過程中,原始出處的資訊經常就這樣流失掉了。

但是,自動化追蹤任何內容的原始出處,技術上其實並不難。產生出愈多原創內容的內容生產者,在這個項目的得分就會比其他文抄公更高。

這些指標不是單一指標,必須綜合考量,才能呈現內容的品質優劣。

「社群宣傳力」在今天已經為許多媒體廣納為重要的指標,這個指標主要和內容分享的量與速度相關。對筆者來說,這個指標著重在其短期爆發力,不能當成長期性的品質指標;所以在整個評分系統中,對品質分數的影響力是較低的。

在「互動」這項中,有幾個重要的內容品質相關指標:例如實際閱讀內容所用時間、讀者留言、有沒有畫重點或註記,甚至是把內容用Email分享給朋友。之後我們還會再討論一些比較技術層面的問題。

「社會相關性」這個指標只能由人類來評斷。這個指標相當重要,可以從大量用過即丟的消費性內容中,凸顯出比較好的內容。

「內容的資料豐富程度」可以當成研究深度的指標。內容中如果有比較多的資料圖表,通常會比乾乾的內容更加用心製作。

「主觀判斷基準」指的是編輯以其素養做的判斷。同樣的,目前還沒有什麼演算法,能不帶感情地明確指出內容寫得有多好、結構和布局有多精彩、是否並陳各方意見等等。

%e8%9e%a2%e5%b9%95%e5%bf%ab%e7%85%a7-2016-11-29-%e4%b8%8b%e5%8d%883-04-02

最後三項指標(字數、發稿時間、發稿地點)可以由內容產生者自行標註,或是由第三方推算出來。

結語:前方路,仍然漫長

就像筆者之前說過的,上面這些指標都是一項長期、艱難的研究計畫之中的一個小角落而已。要找到穩定、較無爭議的內容品質指標,又要足夠防呆、而且容易得到評斷結果,真的是項挑戰。

但當筆者愈加深入探討這些問題,我就更加確信:唯有找到能夠評斷內容品質的指標,讓好的內容能得到更好的經濟價值,才是拯救內容產業的不二法門。