【AskSense 八部曲：第 2 篇】數字變身英雄：電腦怎麼用「數字」理解「人話」？

- May 01, 2025

想像每一句話都是一張地圖，而向量就像一組 GPS 座標，告訴電腦這張地圖的輪廓、坡度、河流與山脈，才能拿來和其他地圖比對「相似度」。這條從最早只會「詞袋」（Bag-of-Words）、進階到 TF-IDF ，再到現在的 Sentence-BERT 之路，每一步都讓機器更靠近我們的思維，真正往「理解人話」邁進。

要做到這種「文字→向量→理解」的變身，背後藏著不少學問，以下就讓我們一一揭開電腦思考的神秘面紗吧！

第一招：詞袋大亂鬥，電腦怎麼「解讀」文字？

你有沒有想過，電腦其實不懂「我愛吃蘋果」這句話的意思，它只會把文字拆成一顆顆小字粒，然後數一數哪些字出現過、哪些沒出現。這個超直覺又超簡單的方法就叫做 Bag-of-Words（詞袋模型），想像把一句話的每個字都丟進一個大袋子，然後問：「袋子裡有這個字嗎？有就給 1，沒有就給 0。」

比方說，句子 A 是「我喜歡蘋果」，句子 B 是「他喜歡香蕉」，我們把所有字彙列成「我、他、喜歡、蘋果、香蕉」這五個字。接著，句子 A 變成 [1,0,1,1,0]，句子 B 變成 [0,1,1,0,1]，袋子裡只記錄「出現與否」，完全不管字在句子裡排哪個位置，也不管字跟字之間有什麼關聯。

這招聽起來簡單到爆炸，但它也有大麻煩：完全看不出字的「順序」跟「重要性」。像「我喜歡蘋果」和「蘋果喜歡我」，對 Bag-of-Words 來說是一模一樣的組合，完全分不清前因後果。當遇到詐騙簡訊：「立即驗證帳戶」跟「帳戶立即驗證」，字都一樣卻可能代表不同的風險程度，這方法就徹底暈船。

所以，雖然 Bag-of-Words 是文字轉數字的第一步，讓電腦有辦法「看到」有沒有特定字，但它就像只認識食材卻不會做菜，看得到「蘋果」和「香蕉」，卻不懂水果沙拉的真正滋味。接下來，我們才會進階到 TF-IDF、再到更聰明的語意模型，讓電腦不只是看字，還能「懂意思」，真正幫你在詐騙陷阱裡找出危險的那條線！

Bag-of-Words 很快就遇到瓶頸？為何它抓不到詐騙的「暗號」？

可別小看那看似厲害的 Bag-of-Words（詞袋模型），它就像拿著放大鏡只盯字不看句子：只管數「這個字有沒有出現」，卻不管「字跟字之間怎麼串起來說話」。想想詐騙簡訊千變萬化，今天用「退款」、明天改「領現金」，詞袋模型只會呆呆問「有沒有「退款」？」「有沒有「領現金」？」―遇到換湯不換藥的同義替換，它馬上手忙腳亂，根本抓不到真正的詐騙意圖。

在現實生活中，詐騙集團專門玩文字遊戲，像是在你的地毯底下換了張新花樣的陷阱：他們把「您已領取退款」變成「請先填寫資料以獲取退款」，詞袋模型只看到「請、先、填寫、資料、獲取、退款」這串字，有的字甚至還沒出現在它的大籃子裡，就直接漏抓。結果就是，同樣騙你點連結的詐騙，把它換個說法就能輕鬆過關。而且，詞袋模型並不理會詞彙「順序」：「退款請點擊」和「請點擊退款」它都當成同一串字，哪裡分得出先要點擊還是先退款？就好像你上菜只看食材表，卻不管要怎麼料理，做出來的菜肯定四不像。面對這種只拼字、不懂語意的老古董方法，防詐效果自然大打折扣。

所以啊，Bag-of-Words 雖然是邁向文字向量化的第一步，但碰到詐騙這種花招百出的「暗黑料理」，它根本只能當配角。下一招，我們要教電腦「品味整道菜」。也就是用 TF-IDF、再進階到能真正「懂一句話意思」的語意模型，才能在詐騙換湯不換藥時，穩穩揪出那隱藏的騙局！

第二招：TF-IDF 大顯神通，讓「重要字詞」亮起來

你以為把文字拆成一顆顆字粒、數一數有沒有出現就夠了？那只能算入門級偵探。TF-IDF（詞頻-逆文檔頻率）才是第二代神兵利器！它既會看「這個字在這篇文章裡出現幾次」（TF），也會考量「這個字在所有文章裡出現頻率有多高」（IDF）。換句話說，像「退款」、「補助金」這種關鍵卻不常見的詞，就會被自動加分；至於「的」、「是」、「您」這種到處都是的字，則自動被打折扣，變得不那麼搶眼。

想像你在一大堆文字裡找秘密密碼：Bag-of-Words 只管「有沒有密碼字串」，可 TF-IDF 卻像裝了雷達，直奔那些稀有又關鍵的密碼位置，一下就把詐騙關鍵字凸顯出來。當詐騙集團用「請點此領取補助金」或「您的帳戶已凍結，需驗證」等話術時，TF-IDF 會給「補助金」、「驗證」很高的權重，讓後續的比對模型一眼就注意到它們的重要性。

不過 TF-IDF 也不是萬靈丹，它依然沒辦法看出字詞之間的前後關係與整句話的「套路」，只能幫我們先把重要字變大、把雜訊字變小。就好比在夜店打光棒，TF-IDF 讓真正的詐騙字眼亮起來，卻還沒告訴你舞池裡的人到底在跳什麼舞。

簡單來說，TF-IDF 是通往語意世界的必經之路，它讓電腦先學會「什麼字最有料」，再交給更厲害的語意模型（例如 Sentence-BERT）去「看全場演出」。有了這兩招配合，詐騙話術再怎麼變花樣，都逃不過這道「重要字＋語意」雙重偵測！

「關鍵字雷達 TF-IDF」有時也抓不到的詐騙

你以為有了 TF-IDF 把「補助金」「驗證」之類的重要字眼通通點亮，詐騙訊息就無所遁形的嗎？千萬別高興太早！雖然 TF-IDF 確實比單純數字袋（Bag-of-Words）厲害多了，能幫我們剪掉「的」、「是」、「在」這種毫無情報量的字，卻還是只盯字，不看句子整體在說什麼。舉例來說，「立即申請政府補助」聽起來很像詐騙，但「政府通知：補助金到期」卻可能是官方公告；TF-IDF 只看到「政府」、「補助金」、「申請」、「到期」這幾個字都有出現，卻分不出到底是在騙你點連結，還是真要你去填表單。

此外，TF-IDF 的另一項挑戰是「同義詞」。「領取」和「拿取」明明意思差不多，可是在字典裡卻是兩個截然不同的詞彙；若詐騙集團把「領取補助」改成「拿取補助」，TF-IDF 雷達可能就失靈，因為它只認「領取」這個字有權重。這種只靠字面頻率，卻不會「理解」同一個意思可以有 N 種說法的模型，就好比拿著放大鏡只看字跡，卻不懂一句話的含意，面對老司機級的花招百出，常常只能眼睜睜看他過關。

這不禁讓我們思考，如果我們想要更進一步，就必須讓電腦不只「看到」、「理解」字詞，而要「懂句子」，深入語意分析的世界。想像你和朋友聊天，哪怕他換個措辭、加個口頭禪，你還是一秒明白他的意思；但 TF-IDF 就像只會認字不會聽話的機器人，永遠無法感受前後語境。為了解這些微妙差別，現代智能防詐系統才會導入能捕捉整句意圖的句子向量模型，讓「相似意思」比「相似字面」更有分量。

不過，TF-IDF 也並非完全沒用，它在巨量文件快速檢索、初步篩選時，依然是超級實用的第一道防線。你可以把它想像成夜市裡的路燈：先把大部分無關的攤位照亮過濾掉，再靠後面更精準的語意雷達（像 Sentence-BERT）去鎖定真正的詐騙陷阱。這樣「路燈＋雷達」雙管齊下，才能在速度與準確度之間取得最佳平衡，既不讓你等太久，也不放過任何陰險的文字陷阱。

所以，下次當你看到那句「請點此補助領取」時，別只靠關鍵字嚇自己一跳，而是交給 AskSense 這種懂語意的防詐小幫手，先用 TF-IDF 快篩，再用語意模型精判，讓詐騙無所遁形，保護你我的荷包與個資安全吧！

總結：從看到「字詞」到理解「語句」的進化之路

Bag-of-Words 和 TF-IDF 真的是文字向量化的兩大基石，像是語言世界的入門法寶。Bag-of-Words 速度快、實作簡單，能讓電腦第一次「看見文字裡有那些字」。TF-IDF 則進一步教它「哪些字比較重要」，把詐騙關鍵字放大、把虛詞縮小，效果立竿見影。

然而，當詐騙集團換個同義詞、調整句型或多加幾個贅詞，Bag-of-Words 會傻眼，TF-IDF 也只能抓到重要字，卻抓不到「這句話到底想騙你什麼」。就好比只知道食材清單，卻不知道料理步驟，做出來的菜口味肯定不對。

這就是為什麼我們的智能防詐 AskSense 不再只靠這些早期技術，而是進一步使用能真正理解句子語意的模型（像是 Sentence-BERT）把每一段話的「意思」也考慮進去，才能更精準地抓出那些偽裝得漂漂亮亮的詐騙訊息！

下一篇，我們將接續介紹 Sentence-BERT 為什麼革命性突破向量化，讓防詐系統升級，變得又快又準！想一起繼續冒險？ Let’s go! 🔥

Search This Blog

J’s Digest