立場新聞 Stand News

網絡輿情分析與特首選戰

2017/5/30 — 6:39

【文:董一秀、佘王靜、文靜】

2017年香港行政長官選舉如期進行,3月26日中午結果水落石出,沒有心存僥倖的意外出現。在民意支持落後的情況下,林鄭月娥以777票當選,成為香港回歸以來首位女特首。儘管是一如既往的小圈子選舉,普通市民無權投票,傳媒仍投入人力物力瞭解香港市民民心向背。本屆選舉,傳統民調自不必說,多家媒體試水網絡輿情監測也頗值得注意。在香港中文大學的校園,我們隨機採訪了幾位同學瞭解其對於網絡輿情的看法。

這種新興輿情監測方式的出現與不少人選擇網絡渠道發聲有很大關連。網絡發言的低廉成本,匿名性帶來的安全感驅動著不少在現實生活中噤聲的人在虛擬環境中大膽評論。「如果是我接受調查,我更喜歡去社交媒體上評論。」Sida來自大陸,來到香港以後註冊了Facebook帳號,她自言有時會去曾俊華Facebook主頁關注網民的留言。「傳統民調的規則束縛太多,在網上的討論更有彈性和自由空間。」香港本地同學Ivan亦提出相同看法,但他隨即補充網絡輿情監測的不足:「不過網上資訊散播太迅速,質素參差不齊。」

廣告

除了有效評論的比例堪憂,取樣方法也令人質疑。Koga是新聞與傳播學院的研究生,在她看來取樣是否具有代表性會嚴重影響結論的可靠性,她說:「他們應該只能從Facebook或者討論區來瞭解情況,那也只是一小部份人吧。」。

而談及網絡輿情是否可以正確反映民意,一方意見為肯定,例如曾經對比過傳統民調結果與網絡輿情監測結果的Charles認為,「畢竟報導中所說的特首候選人民望高低就跟一般市民的想法基本一致」;另一方則反駁,沒有哪一家媒體能真正反映民意,在台灣做過交換生的內地生Betty如今剛好又在特首選舉年份來香港讀書,她在台灣看選舉的經驗讓她覺得民意是個很抽象的東西,對於香港的所謂選舉,她更加否認香港媒體所報道的民意:「一千個人有一千個民意,只是為了好劃分就把相似的放在一起」。此外,還有一種看似沒有所謂的聲音,幾乎不怎麼使用Facebook以及香港論壇的Sybil反而是通過大陸的社交媒體微博才偶爾看到關於特首選舉的信息,她無奈笑笑說道:「選來選去,又不是真普選,(候選人)就那麼幾個來來回回的,意義不大」。

廣告

讀者對於網絡輿情眾說紛紜,那麼媒體到底出於什麼目的要做網絡輿情監測,網絡輿情報導的效果又如何呢?我們對眾新聞和香港01進行了訪問,在此分享他們的看法。

選戰中的輿論陣地

「我們沒有票,至少我們可以聽聽民眾的心聲」,眾新聞總編李月華這樣解釋為什麼要做網絡輿情分析。確實,在社交媒體影響力越來越大的大環境下,網絡早已成為了普通人自由表達的平台,成為了不可忽視的輿論場。李月華說,作為網媒,掌握社交媒體上的動態是他們的「養分」。

香港01參與網絡輿情監測的記者蕭輝浩持有相似的觀點。回顧以往的各類選舉,他指出,從前沒有那麼多市民用Facebook,候選人也都沒有打網上戰,不過從2016年立法會選舉開始則有了更多在社交平台的宣傳。蕭輝浩表示:「一個好處就是它每天都會有一個數據,我們每天就會有新的資訊提供給讀者」。同時,蕭輝浩也苦笑道,「小圈子」選舉常常讓媒體覺得沒什麼新聞可做——選舉結果早已昭然若揭,候選人的施政綱領、政治立場也似乎與選舉毫不相干,所幸有網絡輿情分析的各類數據,讓他們獲得了一些素材來製作富有趣味性的報道。

只取其一還是各取所長?

現在的年輕人更喜歡通過社交媒體去表達自己的想法,使得媒體會越來越重視網絡輿情而多於傳統民意調查。李月華認為現在年輕人都喜歡使用手機,在家也不接電話,或者已經沒有固話,傳統民調有它重要的地方,但是也有反映不出來的地方。香港01在報導特首選舉時則委託了港大民意研究計劃進行傳統民意調查,可以說是在傳統民意調查和網絡輿情分析上各取所長。蕭輝浩認為雖然港大的滾動調查數據反映得比較慢,但是比較準確和嚴謹。而網上輿情反映更加直接和快速。

道同而“謀”不同

在數據獲取及分析方法上,香港01和眾新聞又是具體怎樣做的呢?在源數據的獲得上,他們都具有一個共同點,就是選擇與數據公司合作。但是兩者想獲得的數據並不一樣,香港01向social power購買的數據更為簡單,只包括幾位候選人的獲得贊、嬲嬲數目以及談及次數,而評論數香港01則沒有考慮。

這正好與高度關注評論類數據的眾新聞相反,眾新聞委託了社交媒體數據收集及分析公司TAF DATA,自今年1月1日起,追蹤網絡世界對於四名主要特首參選人的意見,調查範圍包括Facebook等社交平台,及各個可在Google搜索到的網上論壇。按眾新聞網站的解說,他們會分析候選人的「關注度」,即計算留言、貼文、分享等總數。除此之外,他們還會對網民在上述平台上發表的留言內容透過詞義分析,進行感情色彩判斷評分(正面為+1,負面為-1),使用的詞庫各有10000多組。若程序遇上同時帶有+1及-1的內容,出現衝突情況,例如出現「支持林鄭月娥退休」既出現「支持」+1的詞語,也出現「退休」-1的詞語,系統就會啓動進一步分析發表者背後的社交網絡。基於網絡同溫層原理,若發表者背後的社交網絡有逾七成都是反對林鄭參選的,系統就會判斷為負面評價,並將這類留言標註出來,交由人手再覆核確認留言屬於正評抑或負評,未經人手判定前不會計算入正、負或中立評價的統計中。

一千個讀者一千個哈姆雷特

通過以上的分析方法,眾新聞依靠這些數據發表了不少有趣的深度分析文章,但對於其數據的準確性,兩家媒體都對其存在不少的質疑。蕭輝浩表示曾打算像眾新聞一樣進行評論分析,但是顧慮到這種分析方法帶來不少問題:「以現在的技術,廣東話博大精深,可能有反諷,或者有深度的詞語,你的準確度就非常依賴machine learning,以我的理解,machine learning準確度只有六七成。比如說眾新聞把評論分三個類別,正評、持中、負評,你仔細看它的sample,你會覺得未必是這樣的含義。就算三個人坐在這裡,我們看同一句話,都可能有不同的判斷,所以誤差我們覺得比較大,我們就沒有選擇這個方法。」

眾新聞編輯工程師Anders也認同中文或廣東話上的語義情感分析存在一定的困難,「比如說“小麗老母”,這個詞是支持還是反對呢,也不見得叫小麗老母是不支持她的。」但是,有時候系統遇到某句話是中性,會有人去查看補充更新調整,使得machine learning越做越好。不過雖然眾新聞網站上表示誤差至今約為+/-5%,李月華認為這個數值並不算是很權威,她更希望以後有系統的學術研究來解答這個問題。

那麼數據越簡單就越好嗎?對於香港01這樣提取到的簡單數據,Anders就覺得嬲樣和thumbs up數據同樣難衡量其意思。「你很難說一個thumbs up就表示支持它。如果一個標題是負面的,有一個人贊了,那個人可能支持的是那個負面的東西。嬲嬲也是一個很曖昧的公仔,也同樣很難斷定他嬲的是什麼。」對於這樣的說法,蕭輝浩回應,他們只是告訴讀者數據是怎樣變化,至於這個數據的改變是否與什麼事件有關,都交給讀者去理解。

吸睛利器?

相比於傳統媒體的文字報導,網媒在選舉期間製作的網絡輿情分析是不是能吸引更多的讀者「圍觀」呢?蕭輝浩給出了肯定的答案,稱有不少讀者都會看,並且佔據了頁面瀏覽量的很大一部分,不過不方便透露具體數字。

然而,眾新聞就沒那麼幸運。由於剛剛才在今年1月1日創立,知名度還未打響,李月華承認並未從中獲得明顯的收益,頁面瀏覽量都不是很高。但是她仍然認為網絡輿情分析是非常特別和有趣的內容。她舉例道,在3月26日選委投票當天,眾新聞在Facebook直播網絡輿情的實時動態,包括點讚、評論等數量的更新,僅從上午9:30至12:30的三小時就有超過20萬的留言。與恆常總數一百多萬的流量相比,總編都不禁感嘆「反應很厲害」。Anders也認為,選舉是政治成分高的事件,對讀者的吸引力能達到哪種高度,很依賴某一時刻的社會輿論,以及當時有多少人參與討論。

未來如何,幾家歡喜幾家愁

總體而言,網絡輿情分析在香港媒體中算是一個新的發展領域,只是做這種報道的媒體數量卻不多。那對於已經做過這種報道的媒體,未來新聞報導中是否還會繼續發展網絡輿情分析這一領域呢?「做!program 都已經寫了,it can keep running.」Anders非常堅定地說道。另外,延伸到近年來媒體行業的熱門——數據新聞,李月華對此頗有感想。她認為網媒在數據呈現和可視化設計上都比傳統媒體有優勢。當下做數據新聞的本地網媒為數不多,做得好的則更少,她提到端傳媒是香港媒體中的領先者,也希望眾新聞未來能在這一塊做出不一樣的東西。只是要好好發展數據新聞還需人力資源的支持,以及計算機技術的再進步。      

並不是所有媒體都會對這種報道保持樂觀,蕭輝浩就說,「不能說我們一定不做,但是case by case,決定有沒有需要去做。」困難之一在於資源還有人手,但最無奈的是,「實際上我們發現網上網民講的東西好多時候都是沒意義的。」

絡輿情炙手可熱,無疑也引起了學術界的關注。我們採訪了三位香港中文大學的學者梁海、李立峯、蘇鑰機,希望瞭解在他們眼裡,網絡輿情究竟意義何在,未來又會朝哪裡發展。

樣本不具有代表性,不代表它不重要

談及與傳統民調相比,網絡輿情監測的缺點,三位學者一致認為,網絡輿情最大的問題在於樣本缺乏代表性。梁海教授指出,與入戶調查、電話訪問不同,網絡輿情監測的只是一部分會在網絡上發聲的人的意見。不是所有人都會上網,不是上網的人都會發表意見,不是發表的意見都會被監測到,這一點決定了網絡輿情不能反映整個社會總體的意見分佈。「不具有代表性,不代表它不重要。」梁海補充說道,「Facebook的民意不能代表所有香港人,但是它也很重要,很多時候我們只要瞭解這一部分的想法就夠了。」

在梁海看來,網絡民意在很大程度上彌補了傳統民調過於系統僵硬的問題。「傳統的民調就是太結構了。民意在社會起作用是自然發生的,真正起作用的意見是有一個emerge的過程的,大家通過討論慢慢形成的。問卷問出來的不是自然發生的,是人為的,可能我從來沒想過對曾俊華有什麼看法,你問我,從1-5,那選個3吧,很多人都是這樣,本身沒有意見,是被你問出來的。相比之下網絡民調更真實,它是自然發生的,並且面向更多。」

蘇鑰機教授肯定了網絡輿情監測的快速、靈活,但是認為這是一種被動的內容分析,網絡發言的不確定性、多意性,或許會給調查者帶來闡述的困難。「你不能主動去問別人意見,只能透過別人講的話,來infer這個意見是怎麼樣。」

李立峯教授則認為,網絡民調與傳統民調很難直接相比,因為用處很不一樣。「傳統民調的目的是要在一個社會裡找到具有代表性的樣本,通過抽樣獲知社會裡的人支持不支持某一樣事。所以它需要代表整個社會,網絡的輿情分析其實是另外一回事,分析的對象就是網絡上面的人會講什麼,跟社會的意見分布不是同一回事。如果做得好的話,其實兩個東西都很有用。」

民意不能影響選舉,不代表民意沒有影響

美國和臺灣的選舉是基於一人一票的民主現實,瞭解選民的意見是政黨調整競選策略的重要手段。香港則不然,「小圈子」選舉中,普通市民沒有投票的權利,可以說,瞭解民意對於預測選舉結果沒有幫助,更遑論影響選舉結果了。

「Public opinion只有在民主社會才有用,香港、大陸連public opinion都沒有,有的只是isolated的opinions,割裂的,零零碎碎的。」梁海說道,「互聯網提供了一個場所,讓大家去交流自己的意見,可以形成public opinions,但是很多人認為其實沒有,因為沒有consequence。其實是製造一種假象,意淫,(因為選舉根本)沒的選。」

相比之下,李立峯要樂觀得多。「民意有沒有能力影響選舉結果是一回事,但在這麼重要的一件事上,大家還是希望可以知道民意是什麼,民意站在哪一邊本身是一個有用的資訊。第二,香港特首選舉不是民主選舉,但民意不是完全沒有影響力。影響力並不止代表能否影響選舉的投票結果,而是指能夠影響未來幾年。林鄭月娥當選後,會是香港回歸之後第一次特首當選人在民望落後的情況下贏,以前從來沒有。民調作為一種參與公共討論的方式,我們希望可以為公共討論提供一些客觀事實的基礎。」

網絡輿情監測不完美,但也許今後的發展方向

本屆特首選舉,香港多家網絡媒體都進行了網絡輿情監測,李立峯觀察比對過多家媒體的數據,認為結果基本可信。「我們不能判斷這個做法的準確性,除非用到很多資源。我跟TAF DATA以及wiser都談過,至少我覺得他們總體上是可信的,只是不等於那些解決方法是完美的。」他以詞庫更新為例進一步解釋,要判斷一句話是正面還是負面評價,是跟具體語境有關的。比如「林鄭月娥與八達通」、「林鄭月娥與廁紙」是負面的,某些詞的意義發生改變,而這些不可能在原本的詞庫裡面,所以要使系統不斷更新,TAF DATA以及wiser是有做這些工作的。「從研究方法來看,這是誤差有多大的問題。」

 半年前,立法會選舉,香港媒體在網絡輿情報導方面尚是一片空白,本屆特首選舉已經發展迅速,多家並起。李立峯看好網絡輿情監測的未來發展:「當網絡民調變成一種數據新聞,尤其從網媒報導網絡輿情的角度來看,我覺得他們發展得不錯,而且發展得挺快。作為新聞機構怎麼去運用這些網絡數據,告訴大家有什麼值得看的東西,比如《眾新聞》前幾天做的關於香港的網絡水軍,是做得不錯的。」

近年來一直關注大數據發展的梁海指出,其實網絡輿情可以做到更多。「輿情有上升有下降,多做一點text mining,可以看到更豐富的東西,這是survey永遠做不到的。」

發表意見