判定新聞內容品質的另類方法:網頁結構分析/Frederic Filloux
本文是筆者一系列內容品質評分系統研究的一環。只要簡單查看任何HTML頁面的組成要素,就能得到許多內容可靠性的線索。問題在於各大內容傳播平台,並沒有在這些線索上花過心思。
一位微生物學者在論及某種致命病毒的基因序列時,曾經說過:魔鬼並非藏在細節中,而是藏在結構之內;數位世界某種程度上也有點像活生生的有機體,不但經常變來變去、極不穩定,而且還會到處製造髒東西。
筆者曾經以一篇英國衛報網站上的文章為例分析其HTML,結果發現內文中每一個字母,都附帶一百個字元的程式碼。
新聞學界長久以來都會提供少許資訊以供讀者追溯訊息來源。舉例來說,新聞一定會標示報導者和發生地,所以讀者會得到一點關於報導者的訊息,有時還能藉此查閱延伸報導。
聖塔克拉拉大學的「新聞徵信計畫」(Trust Project)主要著眼於發展新聞公開透明程度的各項判準(可以在此檢閱他們提出的各項指標);而筆者在史丹佛大學John S. Knight學院的計畫,和「新聞徵信計畫」可說是相輔相成的。
只要簡單查看任何HTML頁面的組成要素,就能得到許多內容可靠性的線索。
「新聞品質評分計畫」(The News Quality Scoring Project, NQS)的主要目標,是找出各種能夠呈現內容品質的指標,並且將這些指標量化,然後發展出能夠大規模部署且儘可能自動化執行的流程。這個計畫也能用以抓出有問題的新聞來源,揭穿網路上流傳的假新聞。讀者可以參看筆者這篇〈對抗假新聞的另類做法:以評分系統標示優質新聞〉。
目前我們已經從全美五百大新聞網站及其八百五十個RSS,於三星期內收集了六十四萬篇文章;眼下正在從這些文章中取得並分析相關的文章品質訊號,評斷其相關度、可信度和雜訊對抗能力。數周之後就會有更多成果可以分享給各位讀者。
回頭來談HTML結構,我們先來看看基本的網頁裡有哪些組件:
這可以說是一般新聞網站中文章頁面的基本架構。這樣的架構隱含某些重要性,接著我們就來一一仔細探討:
①來源
理論上,這個部份應該最能夠用以驗證內容的品質高下;然而網頁的奇妙特性,會讓其品質鑑別力打折扣。
首先,提供假資訊的人,在這裡作弊的技巧已經非常高超,有興趣的讀者可以讀讀阿維夫.歐瓦迪亞(Aviv Ovadia)這篇〈如何治癒新聞生態系的沉痾〉(How to fix our news ecosystem),他是Media Window的創辦人,這個組織專門追蹤線上新聞媒體的可信度。
要判別來源可靠與否,最簡單的方法,就是去查網域註冊記錄(Whois),看看某個網域註冊了多久、或是否為匿名註冊等等。查詢網域註冊記錄易如反掌,而且可以自動化進行。印第安納大學利用這種方法,列出屬於「另類右派」(alt-right)的網站,想必已經遏止假新聞大量產生。
另一個和確認新聞來源相關的問題,是來自新聞傳播平台的興起,例如Facebook、Google、Apple News等。
哥倫比亞大學的陶氏數位新聞中心(Tow Center for Digital Journalism),最近刊出了一篇深度分析文章,標題叫做〈《平台出版社:矽谷大廠如何改變新聞傳播〉(The Platform Press: How Silicon Valley reengineered journalism);其中有段文字特別提出一些令人擔憂的統計數字(粗體為筆者個人強調的重點):
2016年的皮尤調查報告指出,點閱某篇線上新聞的讀者中,只有56%記得新聞來源;美國新聞出版學院(American Press Institute)在2017年的媒體洞察計畫(Media Insight Project)也發現,在Facebook上只有2%到10%的網友會記得新聞來源,大多數人只記得分享者是誰。
一位雜誌業者說:「如果我們在平台中失去了品牌,甚至沒人認得出來,或是我們的品牌被連結到Snapchat⋯⋯這很可能是因為讀者覺得我們的品牌還比不上Sanpchat。」
大家都該去讀陶氏的報告,報告中提醒新聞內容業者,要重新思考和內容傳播平台之間的關係。這些平台的各種美麗說詞,對我來說就像包著糖衣的毒藥一般。
我很反對媒體把平台當做宣傳和擴大讀者群的工具,特別是針對那些對媒體很重要但還沒掌握的讀者,像是年輕族群;以為總有一天,這些人會變成媒體的訂戶 — — 事實上,這些讀者被平台牢牢掌握,而媒體的品牌力量正在逐漸式微。我也反對直接把內容放在平台上傳播。
②新聞內容(標題)
想要驗證新聞標題的可靠程度,有個簡單的好方法,就是去評估標題「釣魚」的程度,以及/或者是用其主題和之後發展出的延伸新聞內容相互印證。
除非這個媒體是像《攔截》(The Intercept)或其他媒體一樣,非常擅長發表獨家消息,不然沒沒無聞的媒體能夠在各領域都有大新聞的機率是不高的;也就是說,要是某件「事實報導」在網路上找不到其他迴響,多半就是假貨。
③作者
在先前的文章中,我已經談過作者與文章品質的相關議題。現在看來,像是對新聞來源一樣,對廣義的「新聞作者」建立白名單的需要,已經不可或缺。在這份資料庫中不只需要納入記者和編輯的名單,也得把自由撰稿者、大咖部落客、專家學者與專欄作家一併納入。
要建立作者清單並非易事,我本人就有第一手的經驗;除了各種各樣的阻力之外,對新聞記者來說,這可能會是相當敏感的議題。再者,如何決定誰可以放進白名單中,也會有所爭議。
不過話說回來,白名單的建立勢在必行,畢竟各大內容傳播平台很可能早就已經建好這樣的白名單,或是打算跟進,再者如果想要遏止假新聞大行其道,讓這樣的白名單能廣為各界取用,也是必要的。
④配圖和⑥影片
配圖、影片與內文的相關度是有意義的。假若一篇長篇文章配圖來源不明(可能是盜圖)或是花一點小錢買來的圖庫內容(很容易辨識),這篇文章多半有問題;影片也是一樣的道理,因為編輯投下去的心力不會只偏重在文字或圖像的其中一類。
在我設定的新聞內容品質評分計畫中,配圖和影片的分析概念如下:
內容品質的最終計分是綜合許多次要訊號的,其中最困難之處,在於找到主要和次要訊號、或是可信度最高或易於操弄訊號之間的正確權重。不過機器學習在決定權重時可以幫一些忙。
⑤內文
內文的分數估算是個重點。已有多種技術和服務,可以針對文章結構、豐富性和語氣進行相當好的語意分析。一篇優秀的報導內文,會有一些可以自動估算得出分數的特徵,像是說法引述、權威機構或人士等在內文中的密度。然而這些要素也很容易操弄,筆者之後會以專文分析。
⑦相關新聞
正規的新聞媒體通常會針對同一新聞主題製作多篇報導,在「相關新聞」區塊或網頁的邊欄之中就可以看出這類延伸報導的豐富程度。簡單說,要是某篇文章沒有來自同一媒體的延伸閱讀內容,就應該提高警覺。只要看看HTML頁面的連結結構,或是文章如何出現在內容推薦引擎上面,就能輕易取得這類訊號。
⑧頁尾資訊
這部分很容易:絕大多數正規的新聞媒體,都會在頁面尾端放上自己或母公司的相關資訊與連絡方法,不然就是放上相關資訊的連結。
這種初步架構的問題,在於頁尾資訊的訊號,只能取自媒體自有網站上的內容頁面;前面說過,各大內容傳播平台的頁面設計,並不強制要求內容來源需要揭露相關資訊,某種程度上也削弱了判斷內容可信度的訊號。所以內容傳播平台接下來可能要考慮,強力要求內容來源提供基本的可信資訊,同時驗證這些資訊是否確實可信。