從CSR到ESG的永續轉型

【新聞挖掘工坊：第 2 篇】Google News RSS 祕密通道：怎麼抓新聞連結？

- May 15, 2025

開啟 RSS 密道的初衷那天，我們在討論如何快速收集海量新聞時，無意間發現 Google News 提供的 RSS 功能就像一條隱藏的捷徑。這條捷徑並非一般人手機、電腦上常用的新聞推播，而是基於開放標準的資訊分發管道。對於想要系統化蒐集新聞的我們來說，RSS 就像從地圖上挖出了一條秘密通道，能讓我們不必再一條條打開網站。當我們第一次點入 RSS 的連結，映入眼簾的是一長串 XML 格式的內容，裡頭包含著最新的標題、摘要、連結與發佈時間。雖然對一般使用者而言顯得有些「科學怪人」，但對資深的數據偵探來說，這些條目就是每天新鮮出爐的「情報清單」。於是，我們決定用程式自動去讀這份清單，替後續的大規模分析打下基礎。更妙的是，RSS 這條密道還有一個好處：它不需要登入、沒有人機介面互動，就能定時更新。只要我們把 RSS 的網址丟到程式中，它便會在固定間隔自動拉取最新條目。如此一來，我們不必再手動刷網頁，也能將所有符合關鍵字的新聞一網打盡，讓自動化腳本化身最貼心的「情報小幫手」。 RSS 的力量：從資訊洪流中擷取重點在正式投入程式撰寫之前，我們先思考了一件事：每天媒體發出的新聞量龐大，要是從各個網站手動複製標題和連結，肯定力不從心。RSS 的出現，就像在資訊洪流中架設了一台水車，只要你預先定義好水車的濾網，源源不絕的資料就會被自動收集下來。接著，我們將這條 RSS 線路視為「每日固定包裹」，包裹裡裝著符合「台灣警政」等條件的文章摘要。每次程式啟動，它就會向那條管道發訊號，取回最新的條目列表。從 JSON 轉成 DataFrame，再把每一列的 link 欄位存入清單，就是我們蒐集工作的第一步。這樣的做法不僅穩定，也避免了直接爬取所有媒體首頁所帶來的反爬風險。值得一提的是，RSS 還能大幅減少網路流量與運算負擔。一般爬蟲要下載整頁 HTML，解析後再擷取標題與摘要，十分耗時。使用 RSS，我們只需要處理輕量化的 XML 結構，就能把重點欄位提取出來，真正做到「按需取材」，讓程式運行更有效率，也能更快地進入下一個分析階段。 when="1y" 的陷阱：粗篩無法滿足需求帶著對 RSS 的信心，我們首先嘗試了 pygooglenews 套件提供的 when="1y" 參數，想要一次抓取過去一整年的新聞。理論上，一年內所有與警政...

【統計抽樣 × NLP 節能分析：第 3 篇】階層、系統、叢集：三大抽樣法一次搞懂

- May 09, 2025

分層抽樣的核心理念分層抽樣就像先把一籃水果按顏色分好層，再從每一層挑選代表性的水果，確保不同類型的樣本都能被涵蓋。當新聞內容在犯罪類型或來源媒體上分布不均時，分層的概念能讓我們在每個重要子群中各自抽樣，以維持整體分析的平衡。這種方法特別適合當母體中存在明顯差異時，而我們希望每個子群都有足夠的代表性。對於台灣刑案新聞來說，不同年份、地區或媒體可能呈現出不同的議題焦點，若未做分層，隨機抽樣可能過度集中於某些熱門報導，忽略其他關鍵線索。分層抽樣也能靈活運用在分層標準的選擇上，研究者可依照分析目標決定分層依據，無論是時間、地理、案件種類等因素，都可以成為分層的維度。透過這一步驟，我們在抽樣前就已經預先考慮到資料的多樣性，讓後續的NLP分析更具代表性與全面性。系統抽樣的操作流程系統抽樣的做法猶如在整個資料集中，以固定間隔撿取樣本，彷彿每第二十篇新聞就是我們的研究對象。首先需要為每篇新聞排序，這個順序可以依照時間、編號或其他有意義的指標，確保抽樣的規律性。一旦確定間隔值後，只需隨機決定一個起始位置，接著按照固定步長逐篇取樣即可。這樣的設計省去了繁複的隨機機制，快速且易於在程式中實踐，非常適合當新聞量龐大且排列規律時使用。然而，系統抽樣也帶來週期性偏誤的風險。若新聞在某個週期內具有相似性，例如同一時間段的重大事件或系列報導，可能會影響樣本多樣度。因此，在排序方式與間隔設定上，需要謹慎評估，以避免取樣結果產生意外的偏差。叢集抽樣的實戰考量叢集抽樣有如先把所有新聞分成好幾個群組，再隨機挑選少數群組進行全面分析。若將每週或每月作為一個叢集，則只需對選中的週期內所有新聞做NLP處理，就能節省大量前置抽樣的成本。這方法對於時間序列資料特別有效，因為它保留了群組內完整的內容脈絡，讓我們可以在同一時段內觀察新聞議題的變化與趨勢。對於想解讀事件發展動態的讀者，也能提供更連貫的分析視角。該策略的挑戰在於群組劃分的合理性與選取比例。若每個叢集內差異過大，或是挑選的群組數過少，都可能導致分析結果的偏頗。因此，在實作前，須評估叢集規模是否與研究目標相符，並考慮結合其他抽樣方法加以補強。三大抽樣方法的優劣比較分層、系統與叢集三種方法各有特色，分層能精準照顧到不同子群，系統具備簡便且可編程的優勢，叢集則在群組內保留豐富資訊。但在實務操作中，單一方...

區域網路扁平架構與 Zero Trust 缺口：從 Streamlit 測試到 IoT 隔離的安全評估

- April 28, 2025

Search This Blog

J’s Digest