2019年5月25日 星期六

⟪倒數 0933⟫ - 【開放資料, 研習, 社會議題】發大財的百分比

日期時間:2019/05/25  17:40
本日天氣:晴天
本日心情:極度興奮
《Awesome 0085》:再次享受開放資料的世界,也有一點小小的貢獻。
《Awesome 0086》:開始可以找到學生出狀況的原因,他也可以開始了解自我控制對他是好的。


又到了食物松,喔不,是G0V黑客松的日子。

這裡充滿著開放資料的提案,對社會議題關注的公民,裹腹的點心,各類的飲料,蛋糕,披薩,炸雞【以上依重要性由小到大排列】

不過今天有個很讓人關注的議題,就是【鄉民看電視】。緣起是在今年的4月28日,有人主揪【電視松】,而以下是他的概要說明:

....會想要揪這次電視松,主要是最近開始有在收集各家電視新聞媒體內容,想要做相關資料整理,目標想要產出各新聞台的 rundown,以便產出客觀數據分析。
目前已經有做好一個鄉民看電視 https://tvnews-logger.g0v.ronny.tw/ 是一個群眾協力將電視畫面整理成 rundown 的平台,操作的順的話五分鐘可以整理完一小時的新聞。...

看不懂?那這張圖秒說明一切:


(取自網路來源

另外放兩段幾分鐘的影片,大概就可以了解為什麼會有人想要做這個專題:




也許在搞笑的背後,是一個我們今天下午談了兩個小時的議題:新聞自由的界限。我們看著某台電視對某特定人物有大量的報導,這是否妥當?這個比例又高到什麼程度,讓我們開始感覺到這不太像一個正常新聞台該有的模式。我們能量化數據嗎?我們又要花掉多少的人力像第一則的影片做如此繁複的事。

因此在電視松之後,他們做出了這個網站。
https://tvnews-logger.g0v.ronny.tw/



運用程式工程師的專業,影片被下載了,演算法也去截了圖,還去抓了部分影片在youtube 時的標題,剩下的就只需人工判斷,決定這個畫面是新一則新聞、廣告還是開播畫面。如果兩個接續的畫面其實是同一則新聞或廣告,那就按同上。



等全數都完成了,我們就在沒抓到新聞標題的位置鍵入新聞標題,接著做完後按下儲存,你就為這個工程貢獻了一份心力。

目前共收錄了五間電視台:ctitv(中天)ebc(東森)formosa(民視)set(三立)tvbs(這我不曉得怎麼翻譯)

我們就以這個網站的第一筆資料:ctitv: 2019031611 為例
https://tvnews-logger.g0v.ronny.tw/index/edit/ctitv/2019031611
點進去之後,你可以看到前幾筆有畫面,協作者就只要看畫面判斷後按按鈕就好。

然後我們可以看它下面的內容:57N4UYhlSI (完成度: 100)
https://tvnews-logger.g0v.ronny.tw/index/edit/ctitv/2019031611/57N4UYhlSI

這就代表有人完成了分析,你可以看到從幾分幾秒到幾分幾秒,是什麼樣的內容,當中經過了多少時間都幫你算好了。
而再後面的 CSV 應該也不用說明了吧!
https://tvnews-logger.g0v.ronny.tw/index/result/ctitv/2019031611/57N4UYhlSI?format=csv

我在這個下午也貢獻了四筆資料,不過我承認我是想要分析一些數據,然後驗證我的兩個疑惑:
1. 所謂的【韓天電視台】是否是真的?他們的韓國瑜新聞時間真的遠比其他電視台來得大嗎?
2. 從過去到現在,這個電視台是否越來越韓?幾個月前和幾個月後有明顯的差別嗎?

先談第1個問題,我用的方法是挑最近一天晚上六點的一小時紀錄,也就是20190522 18:00-19:00,挑選的電視台分別是三立、TVBS和中天。(但我必須承認TVBS是別人做分析的,我只是取已做好的資料來用)

如果想要看詳細內容,可以點選我的Google Spreadsheet:
https://docs.google.com/spreadsheets/d/1Sn7uNM-SuAtIf79gbXGzX-UFL9v-fvUEdbHC2T1tzNc/edit?usp=sharing

以下是和韓國瑜有關新聞,在各電視台出現總時間的百分比:

中天            56.11%
TVBS            7.45%
三立            11.43%

好的,這應該不用再去強調我倒底驗證了沒。

接下來是第2個問題,這個電視台真的有越來越韓嗎?我採用的方法是去找三月、四月和五月(就是5月22日)的該電視台資料,不過我承認一開始先做的是20190430早上11點的資料,所以後來才想到要用同一時間點資料,所以可能結果驗證有點誤差。

以下是和韓國瑜有關新聞,在該電視台不同月份某日的出現總時間百分比:

20190317 18:00                 68.53%
20190430 11:00                 44.96%
20190522 18:00                 56.11%

我先做完0430 的資料後,再下一個分析的是0522,做完之後就思考:你看吧!從四成多到五成多,這電視台真的越來越韓。
結果等到做完0317的資料時,高達近七成的韓國瑜新聞出現率,似乎在之後出現率是下滑的,是什麼原因呢?

當中細看有好幾則其實是縣市的立委補選新聞(3/16 立委補選),只是當中有提到韓國瑜或是韓國瑜有表達一些意見【像是驘不算驘,輸不算輸】。所以高出現率會不會只是因為選舉的一時效應可能仍待觀察。

也就是我的第2個假設很明顯的沒有驗證。

如果你有興趣也願意,歡迎加入志工。
如果你只想要使用資料,也完全歡迎自由下載使用。

我們處於一個開放的世界,我們一起用開放的資料去更加了解這個世界。"

沒有留言: