判定新聞內容品質的另類方法：網頁結構分析／Frederic Filloux

Frederic Filloux

Apr 19, 2017

本文是筆者一系列內容品質評分系統研究的一環。只要簡單查看任何HTML頁面的組成要素，就能得到許多內容可靠性的線索。問題在於各大內容傳播平台，並沒有在這些線索上花過心思。

一位微生物學者在論及某種致命病毒的基因序列時，曾經說過：魔鬼並非藏在細節中，而是藏在結構之內；數位世界某種程度上也有點像活生生的有機體，不但經常變來變去、極不穩定，而且還會到處製造髒東西。

筆者曾經以一篇英國衛報網站上的文章為例分析其HTML，結果發現內文中每一個字母，都附帶一百個字元的程式碼。

新聞學界長久以來都會提供少許資訊以供讀者追溯訊息來源。舉例來說，新聞一定會標示報導者和發生地，所以讀者會得到一點關於報導者的訊息，有時還能藉此查閱延伸報導。

聖塔克拉拉大學的「新聞徵信計畫」（Trust Project）主要著眼於發展新聞公開透明程度的各項判準（可以在此檢閱他們提出的各項指標）；而筆者在史丹佛大學John S. Knight學院的計畫，和「新聞徵信計畫」可說是相輔相成的。

只要簡單查看任何HTML頁面的組成要素，就能得到許多內容可靠性的線索。

「新聞品質評分計畫」（The News Quality Scoring Project, NQS）的主要目標，是找出各種能夠呈現內容品質的指標，並且將這些指標量化，然後發展出能夠大規模部署且儘可能自動化執行的流程。這個計畫也能用以抓出有問題的新聞來源，揭穿網路上流傳的假新聞。讀者可以參看筆者這篇〈對抗假新聞的另類做法：以評分系統標示優質新聞〉。

目前我們已經從全美五百大新聞網站及其八百五十個RSS，於三星期內收集了六十四萬篇文章；眼下正在從這些文章中取得並分析相關的文章品質訊號，評斷其相關度、可信度和雜訊對抗能力。數周之後就會有更多成果可以分享給各位讀者。

回頭來談HTML結構，我們先來看看基本的網頁裡有哪些組件：

這可以說是一般新聞網站中文章頁面的基本架構。這樣的架構隱含某些重要性，接著我們就來一一仔細探討：

①來源

理論上，這個部份應該最能夠用以驗證內容的品質高下；然而網頁的奇妙特性，會讓其品質鑑別力打折扣。

首先，提供假資訊的人，在這裡作弊的技巧已經非常高超，有興趣的讀者可以讀讀阿維夫．歐瓦迪亞（Aviv Ovadia）這篇〈如何治癒新聞生態系的沉痾〉（How to fix our news ecosystem），他是Media Window的創辦人，這個組織專門追蹤線上新聞媒體的可信度。

要判別來源可靠與否，最簡單的方法，就是去查網域註冊記錄（Whois），看看某個網域註冊了多久、或是否為匿名註冊等等。查詢網域註冊記錄易如反掌，而且可以自動化進行。印第安納大學利用這種方法，列出屬於「另類右派」（alt-right）的網站，想必已經遏止假新聞大量產生。

另一個和確認新聞來源相關的問題，是來自新聞傳播平台的興起，例如Facebook、Google、Apple News等。

哥倫比亞大學的陶氏數位新聞中心（Tow Center for Digital Journalism），最近刊出了一篇深度分析文章，標題叫做〈《平台出版社：矽谷大廠如何改變新聞傳播〉（The Platform Press: How Silicon Valley reengineered journalism）；其中有段文字特別提出一些令人擔憂的統計數字（粗體為筆者個人強調的重點）：

2016年的皮尤調查報告指出，點閱某篇線上新聞的讀者中，只有56%記得新聞來源；美國新聞出版學院（American Press Institute）在2017年的媒體洞察計畫（Media Insight Project）也發現，在Facebook上只有2%到10%的網友會記得新聞來源，大多數人只記得分享者是誰。
一位雜誌業者說：「如果我們在平台中失去了品牌，甚至沒人認得出來，或是我們的品牌被連結到Snapchat⋯⋯這很可能是因為讀者覺得我們的品牌還比不上Sanpchat。」

大家都該去讀陶氏的報告，報告中提醒新聞內容業者，要重新思考和內容傳播平台之間的關係。這些平台的各種美麗說詞，對我來說就像包著糖衣的毒藥一般。

我很反對媒體把平台當做宣傳和擴大讀者群的工具，特別是針對那些對媒體很重要但還沒掌握的讀者，像是年輕族群；以為總有一天，這些人會變成媒體的訂戶 — — 事實上，這些讀者被平台牢牢掌握，而媒體的品牌力量正在逐漸式微。我也反對直接把內容放在平台上傳播。

②新聞內容（標題）

想要驗證新聞標題的可靠程度，有個簡單的好方法，就是去評估標題「釣魚」的程度，以及／或者是用其主題和之後發展出的延伸新聞內容相互印證。

除非這個媒體是像《攔截》（The Intercept）或其他媒體一樣，非常擅長發表獨家消息，不然沒沒無聞的媒體能夠在各領域都有大新聞的機率是不高的；也就是說，要是某件「事實報導」在網路上找不到其他迴響，多半就是假貨。

③作者

在先前的文章中，我已經談過作者與文章品質的相關議題。現在看來，像是對新聞來源一樣，對廣義的「新聞作者」建立白名單的需要，已經不可或缺。在這份資料庫中不只需要納入記者和編輯的名單，也得把自由撰稿者、大咖部落客、專家學者與專欄作家一併納入。

要建立作者清單並非易事，我本人就有第一手的經驗；除了各種各樣的阻力之外，對新聞記者來說，這可能會是相當敏感的議題。再者，如何決定誰可以放進白名單中，也會有所爭議。

不過話說回來，白名單的建立勢在必行，畢竟各大內容傳播平台很可能早就已經建好這樣的白名單，或是打算跟進，再者如果想要遏止假新聞大行其道，讓這樣的白名單能廣為各界取用，也是必要的。

④配圖和⑥影片

配圖、影片與內文的相關度是有意義的。假若一篇長篇文章配圖來源不明（可能是盜圖）或是花一點小錢買來的圖庫內容（很容易辨識），這篇文章多半有問題；影片也是一樣的道理，因為編輯投下去的心力不會只偏重在文字或圖像的其中一類。

在我設定的新聞內容品質評分計畫中，配圖和影片的分析概念如下：

內容品質的最終計分是綜合許多次要訊號的，其中最困難之處，在於找到主要和次要訊號、或是可信度最高或易於操弄訊號之間的正確權重。不過機器學習在決定權重時可以幫一些忙。

⑤內文

內文的分數估算是個重點。已有多種技術和服務，可以針對文章結構、豐富性和語氣進行相當好的語意分析。一篇優秀的報導內文，會有一些可以自動估算得出分數的特徵，像是說法引述、權威機構或人士等在內文中的密度。然而這些要素也很容易操弄，筆者之後會以專文分析。

⑦相關新聞

正規的新聞媒體通常會針對同一新聞主題製作多篇報導，在「相關新聞」區塊或網頁的邊欄之中就可以看出這類延伸報導的豐富程度。簡單說，要是某篇文章沒有來自同一媒體的延伸閱讀內容，就應該提高警覺。只要看看HTML頁面的連結結構，或是文章如何出現在內容推薦引擎上面，就能輕易取得這類訊號。

⑧頁尾資訊

這部分很容易：絕大多數正規的新聞媒體，都會在頁面尾端放上自己或母公司的相關資訊與連絡方法，不然就是放上相關資訊的連結。

這種初步架構的問題，在於頁尾資訊的訊號，只能取自媒體自有網站上的內容頁面；前面說過，各大內容傳播平台的頁面設計，並不強制要求內容來源需要揭露相關資訊，某種程度上也削弱了判斷內容可信度的訊號。所以內容傳播平台接下來可能要考慮，強力要求內容來源提供基本的可信資訊，同時驗證這些資訊是否確實可信。

吐納商業評論 | Tuna Business Review

Discussion about this post

Ready for more?