不實資訊的傳播源頭識別:以 COVID-19 為例

前言

本篇研究以 2020 年上半年之 COVID-19 疫情為題,解析 166 萬 4,647 篇 facebook(下稱「臉書」)page(下稱「粉絲頁」)連結型貼文,得到網域及次網域二大資料欄位,讓社群資料具備結合網域流量資料、IP 資料之延伸性。盼透過從公共政策之角度出發,聚焦於我國政府、主管機關之公權力,難及於來源不明之繁體、簡體中文內容,探索資料、建立不實資訊之傳播源頭識別分析流程,期能對我國社群在不實資訊及媒體識讀等相關研究進行更具深度之探討,亦冀能協助有關單位建立常態性追蹤機制。


1,664,647

Facebook 不重複貼文

33,690

個網域

我國之不實資訊研究,長期以個案議題為中心進行。本次研究除了比較中國官方媒體及來源不明網站內容異同,試圖在眾多以 COVID-19 為題之個案研究中,持續累積資訊特徵,期待本次研究之資訊特徵提供後進者在社群上行為研究解讀方向;最重要的是提出不實資訊之通用性研究方法,予未來有志於不實資訊及媒體識讀領域之研究者參考,協助有關單位建立常態性追蹤方法。

文獻脈絡

面對不實資訊的挑戰,台灣則由趨勢科技揭露文案寫手的明碼實價開始,民主基金會、民主實驗室分別以台灣與中國主權糾紛及疫情為題,提供有別於西方視角之中文傳播圈之個案研究。

歐美研究重視維基百科、YouTube 等權威性平台之訊息如何被破壞,顯示民主政體對言論自由的界線與容忍,與中國監管控制出發點全然不同。2016 年 www 論壇,探討維基百科知識圖譜上的惡作劇行為,分析修改時間、被動搜尋瀏覽量,探討權威性網路訊息及影響力變化。2018 年機器學習技術導入,語言分析學家 Grice 指出,不管是錯誤資訊或不實資訊,都是結果論,從語意本質來看,區分是否具誤導性,更接近人類溝通重點。美國國家科學基金會與美國國防部以 Youtube 上刊載之第三次世界大戰陰謀論為題,不明確界定不實資訊,成功追溯觀測群體之反應及行為變化。然近年平台資料之取得規範日益嚴格,不實資訊研究領域對用戶輪廓的描寫難度大幅提升。

中國基於政治維穩目的,網路蓬勃發展即有配置大量人工審查機制的剛性需求。資訊科技的技術導入,則是以降低管制成本為目的。2012 年行動網路尚未興起的時代,微博的謠言研究就已經是跨領域的重點研究項目。

研究設計

從公共政策之角度出發,聚焦於我國政府、主管機關之公權力,難及於來源不明之繁體、簡體中文內容,探索資料、建立不實資訊之傳播源頭識別分析流程。以臉書上連結型貼文作為分析標的,解析出網域(domain)與次網域(subdomain)資料,結合 Similar Web 對各網域的流量資料估計、IP 資料、斷詞分析技術,尋找網域申請人或經營者來源不明,且對國人具影響力之內容網站,進行質化與量化分析。

採集
清理
篩選
研究
採集 : 關鍵字分組

1.使用 2020 年 1 月 1 日至 2020 年 6 月 30 日範圍之資料作為研究標的。

2.以亞洲擁有最大量臉書粉絲頁索引資料庫 QSearch,通過臉書 API 使用之註冊審核認證,結合巨量資料運算技術,取得本次研究之資料。

3.以 5 類繁體及檢體關鍵字組(共計 10 組),進行臉書粉絲頁附帶連結之公開貼文社群數據資料搜集來自 89,218 個粉絲頁,發布共計 166 萬 4,647 筆來自台灣、馬來西亞、新加坡、南韓、日本、越南、香港等地之不重複貼文。

採集 : 整合網域流量資料庫

解析 166 萬社群貼文之 33,690 個網域,整合國際網域流量分析公司 SimilarWeb 之付費資料庫,得到分析期間之單月網域流量估計及台灣流量佔比估計。

清理 : 排除台灣人不讀、台灣媒體網頁

1.從 SimilarWeb 單月網域流量估計及台灣流量佔比估計,排除台灣流量佔比為 0 之網頁。

2.使用網域欄位資料,排除台灣媒體粉絲頁曾發布之網域。

3.得到 36,406 個不重複粉絲頁所發布之 71 萬 9,112 筆貼文社群資料,包括 9,333 個不重複網域。

清理 : 排除 .tw 結尾及 .jp 結尾之網域

1. 非 .tw 結尾網域申請者資料難以掌握。

2. .jp 結尾之網域 605 個,經查我國國民拜訪之 .jp 結尾網域,多為動畫漫畫文化(網域:sega.jp)、電子商務購物(網域:columbia.jp)等內容,故扣除之。

篩選 : IP 資料分析障礙

研究假設:若存在不同次網域導向相同 IP 之行為現象,有不正當使用網路之可能。
然實際上,網際網路之服務發展,從通訊到經貿往來,並非為追蹤使用者行為而生。不同次網域導向相同 IP 之行為現象,以提供網路服務之廠商為主。如 Poly Lulu(網域:polylulu.org)穿搭旅遊部落格,與內容農場琪琪看世界(網域:qiqis.org)共用 wordpress.com(IP:192.0.78.229) ,IP 研究之假設,受工具性網站干擾。

篩選 : 流量失真校正

https 加密技術之發展,以致無法取得粉絲頁上發布之個別連結流量數據,改以網域之台灣人流量佔比及每月流量數據,作為該網頁及網站,對台灣讀者是否具影響力之一種評估方式。然而工具性網站,包括架設部落格的痞客邦 pixnet、架設活動售票網站的 peatix、架設網站的 wixsite、架設商店的 boutir.com,為追求商業上的客製化服務賺取更多收益,將次網域提供給客戶的同時,也造成大量次網域共用同一網域的現象,使得流量數據失真。雖然工具性網站在流量作為影響力評估方式之假設下失靈,但其有明確的母網域,諸如 pixnet、wixsite,有機會進行長期追蹤。

研究 : 網站來源調查

1. 本次研究網域具影響力定義

本次研究具影響力標準:月流量 > 4,000
每月流量 > 3,000,代表平均每天破百人次觀看
每月流量 > 4,000,代表平均每天 134 人觀看

完成前述資料篩選後,分析標的總數為 24,618 個粉絲頁發布之 62 萬 1,866 則貼文,其中不重複網域數量為 5,413 個。其中平均一天流量未滿 100 之網域(月流量未滿 3000 之網域)數量過半(網域數量佔整體數量 54.96%),本研究採取更嚴格之標準作為網站影響力評估,以每月流量大於 4000 之網域作為本次研究標地(平均一天流量為 130 以上,流量合計佔整體流量 99.47%)

2. 網域來源辨識標準

網站是否具備所有人或經營者之姓名、地址、電話、公司名稱之資訊。
若具備任一資訊,且所在地為我國,是則非屬本次研究定義之不明網站。
若具備任一資訊,但所在地非我國,則屬本次研究定義之外國來源網站。
若不具備任一資訊,或僅具備電子郵件信箱,則屬本次研究定義來源不明網站。
若為本次研究定義來源不明網站,而網站服務條款使用我國法律為準據法,或以我國法院為管轄法院,則判定為來源為台灣之不明網站。

網站與粉絲頁之社會網絡圖

次網域 次網域的位置,非粉絲頁。
媒體 來源自中國或公司背景親中國之香港、馬來西亞媒體,如東網、中國報 * 於本次研究架構下台灣媒體分類已事先排除
內容農場 網站所有人及經營者來源不明卻大量發布內容之內容農場,如 vivi 視頻、bomb01
內容農場
(台灣)
網站所有人及經營者來源不明卻大量發布內容之內容農場,且經營者可能來自台灣,如 KiKiNote奇奇筆記、遊戲大亂鬥
論壇 網站內容來自網路使用者的發文討論,如:微信上的中國、知乎
論壇
(台灣)
網站內容來自網路使用者的發文討論,且經營者可能來自台灣,如:爆料公社
影音內容 網站由中國公司經營,內容為影劇電視,如優酷
中國機構 網站由中國公司註冊,發布大量內容,如紅歌會,經營者是深圳市红歌会文化咨询有限公司。

疫情特色

本研究採計 Claire Wardle 提出之七大不實資訊定義

現況挖掘部分,就本研究鎖定之來源不明內容農場,對疫情底下之資訊特色,為質化研究。惟不實資訊討論尚未有權威定義,本次研究將以哈佛大學甘迺迪政經學院 Claire Wardle 提出之七大定義探討個案。 根據 Claire Wardle 之定義,可分為以下七種:

  • 一、諷刺、挖苦內容:「無意挑起事端但資訊容易讓人誤解」
  • 二、誤導性內容:「製造議題無中生有或誣陷他人」
  • 三、假冒內容:「真正消息來源被假冒」
  • 四、捏造內容:「內容百分之百純屬虛構,意圖欺騙及造成傷害」
  • 五、圖文不符,牛頭不對馬嘴:「標題、圖片、影片或字幕與內文不符」
  • 六、錯誤背景資料:「真實內容搭配錯誤背景資料」
  • 七、竄改內容:「竄改真實的訊息或圖像,旨在欺騙」

其他疫情個案特色

以不實資訊強調疫情來源自西方國家非中國

不實資訊標題
Claire Wardle 七大分類
文章數量
世界欠中國一個清白:義大利終於找到新冠病毒一號感染者,感染原地並非在中國
醫學界尚未確定,屬於第四類捏造內容。
54 篇
重磅消息,北京疫情源頭被查出,果然是境外搞的鬼,中央徹底震怒:嚴厲處置
醫學界尚未確定,屬於第四類捏造內容。
10 篇

倡議中藥療效

討論主題
發文數量
標題
Claire Wardle 七大分類
中藥
27
武漢「封城」十多天,官方宣布重大調整:所有確診患者吃中藥!
中藥在本次疫情中效果尚未實證,但「所有確診患者」都改以中藥治療過於誇大,屬於不實資訊第六類,錯誤背景資料:真實內容搭配錯誤背景資料。

對中文讀者圈進行他國疫情描述之資訊宣傳

・台灣

與台灣相關的發文數量最多,但正面與負面消息並陳,並非只以聳動標題與前後無關的論述發布打擊政府之資訊。

討論主題
發文數量
標題
Claire Wardle 七大分類
台灣
2,227
確診武漢肺炎!女台商「發燒9天堅持不就醫」硬撐回台灣
不實資訊二、誤導性內容:製造議題無中生有或誣陷他人。女台商確實返台救治,但非造成口罩漲價主因
黑心台人看準風波「口罩價格飆漲6倍」
非不實資訊,報導不乏與台灣有關鼓勵人心之正面消息
・美國

美國相關話題發文數量次之,只有台灣不到 1/3,且均以負面的方式攻擊美國及總統。

討論主題
發文數量
標題
Claire Wardle 七大分類
美國
882
美國抗疫護士疑似感染,發出聲明,美國人慌了
不實資訊第五類:圖文不符,牛頭不對馬嘴:「標題、圖片、影片或字幕與內文不符」,第一線醫護人員受感染機會較高,卻以單一個案導向「美國人慌了」製造恐慌。
大洗牌!危急加劇,美國歐盟剛剛正式決裂!中國靠口罩拿下歐洲!
不實資訊第五類:圖文不符,牛頭不對馬嘴:「標題、圖片、影片或字幕與內文不符」,內文整理疫情造成之政治、經濟、股市、社會亂象,但標題太聳動,美國未與歐盟正式決裂。
・日本

跟隨時事製造混亂,如對東京奧運進行不實消息傳播。

討論主題
發文數量
標題
Claire Wardle 七大分類
日本
595
確定不會停辦!國際奧委會宣告:東京奧運照常舉行、不延期
二月底開始有討論東京奧運是否停辦或延期,三月初這篇文章確認奧運照常舉辦,但事實上日本及國際奧會直至三月底才確定東京奧運延期。文章假託國際奧會名義,傳達不停辦消息,屬於不實資訊第三類,假冒內容:「真正消息來源被假冒」。
・菲律賓

對菲律賓的論述最少,強調杜特蒂強人統治之形象。

討論主題
發文數量
標題
Claire Wardle 七大分類
菲律賓
13
菲律賓總統杜特蒂說到做到!菲律賓男子外出喝酒未戴口罩違反「封城令」遭射殺
非不實資訊。

不實資訊網站個案:網域 ptttube.com

ptttube.com 98% 的流量評估來自台灣。該網站以影音為主要方式呈現內容,網域以 ptt 及 tube 二個詞彙構成,是結合台灣人熟悉之網路論壇 ptt.cc 及 youtube.com,顯示於連結型貼文上,來源外觀可被信賴。

網域 ptttube.com 總月瀏覽量 31 萬 8,630 次, 98% 流量來自台灣
網域 vivi01.com 總月瀏覽量 76 萬 9,050 次
未具權威來源的網域外觀僅 51% 流量源自台灣

外國中文媒體

1. 社群數據特性:香港及馬來西亞媒體社群熟練度更高。

圖為扣除「香港蘋果」等在地媒體後,來源自中國或公司背景親中國之香港、馬來西亞媒體,與粉絲頁形成之社群傳播鏈。香港媒體及馬來西亞媒體社群力強,中國雖有人民網及新華社等媒體,與粉絲頁形成之傳播鏈較小。

2. 內容斷詞特色

  • 人民網重視中日關係
  • 日文版人民網在 1-6 月間發布的日文新聞,均有被留學機構或日本粉絲頁分享。其中 2020 年 2 月 14 日,一首中日文合唱曲,日本網友留言表示願意分享、希望騷亂平息,單篇貼文獲 222 人按讚關注,17 次分享。

  • 新浪網強調外國疫情更嚴重,中國控制得當
  • 討論武漢疫區以葉克膜成功救治染疫病患,引用西方學者論述(德國),加強中國正面形象,引起台灣意見領袖討論。意見領袖姚惠珍分享連結、整理摘要批評此文,引起 1,005 次人讚關注,網友在 134 則留言之間激烈討論。

    報導歐洲體育賽事造成球員大規模感染,紐約州財政收入因疫情損失 133 億美金,表示此為全球性災難,歐美各國均不能倖免於難。

  • 新華社 1/26 趕正名「新型肺炎」
  • 新華社重視中文報導圈中,對疫情之描述是否累積不利於中國之國家形象,最積極以「新型」一詞取代「武漢肺炎」。在 2020 年 1 月 26日,即以「新型冠狀病毒」描述疫情,並在疫情尚未延燒到西方國家時,出現在中文粉絲頁上。

  • 香港媒體三月後改稱「新冠肺炎」或「新型肺炎」
  • 相對於新華社積極以「新型」冠狀病毒等詞彙描述疫情,香港東網及明報一月中,仍以「武漢肺炎」稱呼疫情,三月以後與「武漢」相關的發文數降低,後期幾乎很少提及,取而代之的是「新型」或「新冠」用詞的增加。

  • 香港媒體和中國媒體稱呼肺炎字彙略不同步,但攻擊美國疫情是共同目標。
  • 中國報
  • 中國報在資訊傳播上,不避諱提及中國疫情,但更多使用「民政、拿督、新加坡」等詞彙,關注馬來半島議題。

    來源不明之內容農場資訊傳播現況

    1. 社群數據特性:經營者來源不明之內容農場,與經營者疑似來自台灣之內容農場,幾乎不共用粉絲頁,涇渭分明。

    2. 內容斷詞特色

  • 疑似來自台灣內容農場,更關注生活、平安、有無症狀、優惠振興
  • 來源不明之內容農場,與中國、香港、馬來西亞媒體相同,報導美國疫情。比較來源疑似台灣之內容農場,報導美國的話題,有明顯的差異。
  • 經營者來源不明內容農場標題, 強調美國疫情
    來源疑似台灣內容農場標題, 關注科技巨頭、活動停辦
    Nike捐3萬雙「量身定做鞋」給一線醫護! 「特殊功能」外還有隱藏字樣:送出希望
    美男告 Twitch 讓他過度撸管感染 | 八卦新聞
    連假訂房爆滿!不顧疫情仍要玩,醫直言「美國已示範醫療崩潰」 台灣有樂觀的理由嗎?
    防疫期間 美軍用遊戲當作訓練項目以保持軍隊士氣與戰力 | 休閒娛樂
    美國流感疫情嚴重!至少1300萬人感染6600人死亡 當局:鼓勵大家接種疫苗
    BlizzCon 今年可能停辦? 執行製作人Saralyn Smith親自解釋 | 綜合遊戲討論
    【影片】真不把病毒當回事!洛杉磯知名海灘仍有人聚集打籃球,政府的命令不管用!
    【遊戲主機】疫情影響嚴重,分析師表示:恐導致次世代主機庫存短缺!
    太拼!林書豪飛40小時從美國回中國上班,機場睡沙發過夜,還給醫護人員簽名!
    【超級任天堂世界】主題樂園紐約大會盛況即將落成,一生必去朝聖一次!
    噩耗!2名球員感染新冠病毒離世,Gobert的情況也不樂觀?
    【Valorant】封測首日 172 萬人觀看,創下 Twitch 單日收看最高紀錄!
    Smart確診登上美國熱搜!自曝無症狀,曾與Mitchell對位近10分鐘!
    【PokemonGo】武漢肺炎持續升溫,今年 Safari Zone 確定將延期舉辦!
    林書豪回擊川普「中國病毒」言論:別搞這種歧視言論,把精力放在疫情上吧!
    蔡英文登上「CNN首頁」!成功控制疫情「捐數百萬口罩幫其他國家」;防疫成功國家多數為「女性領導者」!

    研究結論

    一、建立可行的長期追蹤分析模式

    不實資訊隨著時事議題或事件,非常容易產生。整個社會要在有限的時間內,迅速消化爆炸性的資訊量,是非常困難的。對於產官學都構成了莫大的影響。在公共事務與行政上,光是要界定這些資訊量或資訊傳播行為是有沒有可能產生不良的影響,本身都相當困難。虛假資訊、不實資訊在這兩年隨著各領域專家的不斷研討,也都逐漸有了明確的方向。因此,從實務面來看,第一個問題即如何打造一個符合成本效益、且可行的長期追蹤分析模式。

    二、逐步改善不實資訊的網路資訊環境

    平台型網站與應用服務,造就了各種跨境與應用的可能。網際網路的發展,也造就了無數的機會,平台卻也因此逐漸壯大。就研究報告的內容,發現系統性的網路服務,可能因為使用者非常多,因此也可能成為有心人士的工具。盼產業提出自律規劃,逐步改善網路資訊環境。