【AskSense 八部曲：第 1 篇】當搜尋也能讀心思：AskSense 誕生的祕密推手

- April 29, 2025

啟發契機：生活中的詐騙陷阱

你是不是也有過類似的經驗，收到一封看起來超正式的簡訊或郵件，上面寫著「您的帳戶出現異常交易，請立即驗證」？你心想：「哇，好像很重要，趕快點！」殊不知這正是詐騙集團的拿手好戲，他們用「官方口吻＋緊迫感」當釣餌，讓你根本沒時間思考就上鉤。傳統防詐系統只會傻傻地掃描「異常交易」、「驗證」這些字眼，就像只看食材卻不會下廚，遇到同義詞或變化就瞬間傻眼，結果很多人防線看似固若金湯，卻還是被耍得團團轉。

為了讓每個人都能在第一時間分辨詐騙，我們需要一種能「讀懂整句話」的技術。現在，我們有了 AskSense，就好像口袋裡多帶了一位超靈敏的「語意偵探」，它不只盯字，還「讀句子背後的意思」。當一段可疑文字進來，AskSense 會把整句話拿去跟上萬條已知詐騙範例比對，只要兩個數學向量的夾角夠小（意圖夠接近），就會立刻警報：「嘿！這很可能是在耍你！」不管詐騙語句怎麼花俏包裝，都逃不過這道智慧防線。

資料庫大揭密：打造乾淨的詐騙知識庫

許多民眾並不知道，防詐系統的「智慧」其實來自於背後龐大的範例資料庫。為了讓 AskSense 能夠識別各種精心包裝的詐騙話術，我收集了超過 54,500 條在臺灣真實流傳的詐騙訊息，並額外蒐錄了許多用戶親身遭遇的受騙案例。這些原始文字先經過嚴格清洗：重複的句子被刪除，與詐騙無關的短句或垃圾訊息被過濾，並利用工具自動統一簡體與繁體、將「恭喜發財」「紅包」等容易誤判的慣用語標準化。這樣一來，模型訓練時只「看見」真正有助於辨別詐騙的高品質樣本，不必浪費運算力在無意義的噪聲上。

更進一步地，我為這套系統量身打造了一份「停用詞表」，把「您好」「請問」這類純禮貌用語排除在外，讓語意向量計算時更能專注於那些最具威脅性的詞彙，如「驗證」「交易」「退款」等核心字眼。想像一下，如果一個系統每次只盯著「驗證」這個詞，卻忽略了前後語境，它很容易把合法銀行通知和詐騙簡訊混為一談；但透過停用無用詞、強化重要詞，AskSense 就能在高維向量空間中精準判斷——只要句子整體意圖接近已知騙局範例，立即發出警示，保護你免於財產損失。

AskSense 願景：什麼都能聽得懂

在打造 AskSense 的過程中，我們一開始就選用一個既懂中文、也能處理英文的「多語言 Sentence-BERT」模型（paraphrase-multilingual-MiniLM-L12-v2），就好像請來一位精通中英雙語、還能看穿語意的資深偵探，來幫忙偵測詐騙訊息。這位「偵探」本身已經具備基本的語言理解能力，但為了讓它更貼近臺灣在地的詐騙手法，我們收集了超過 50,000 條在地真實流傳的詐騙簡訊與對話，並分成「詐騙範例」和「正常訊息」兩大類。接著，我們把每一對相似與不相似的句子拿去給這位偵探重新「上課」，讓它學會：哪些文字背後代表詐騙意圖、哪些只是日常對話，進而把真正的陷阱訊息「拉得更近」、把正常對話「推得更遠」，提升偵測的靈敏度與準確度。

在進行所謂的「微調」（fine-tuning）時，我們將已標記好的句子對分批（batch）放進模型，每一批大約八組句子左右，同時設定「暖身步驟」（warm-up steps = 10），確保模型在正式開始調整前有個平緩的過渡，避免一開始就走火入魔。每跑完一個完整回合（epoch），我們就拿出一部分「驗證資料集」（validation set）來測試模型的表現，觀察它能否正確分辨詐騙與正常訊息，以及相似度分數是否穩定上升。待確認模型在「測試資料集」（test set）上的命中率（抓到詐騙的比例）與誤警率（誤判正常為詐騙的比例）都達到預期後，就把這組調整好的權重（weight）存下來，做為後續偵測的核心引擎。

模型選擇與效能挑戰：輕量 vs. 精準的抉擇

接下來，當使用者把可疑文字貼到 AskSense，系統只要將新訊息「拍成」一串數字向量，然後用「餘弦相似度」快速比對快取好的五萬多條在地詐騙範例向量，便能在毫秒之內判定：這句話是否與典型詐騙範例高度重合。對一般民眾而言，這就像有一位貼身防詐助理，當你在聊天室或簡訊看到哪句話覺得怪怪的，只要一鍵轉傳、貼上，立刻就能收到「高度可疑」或「安全無虞」的回覆，免去閱讀冗長關鍵字清單與人工判斷的麻煩。

整體而言，這套「先類化再個化」的策略，讓 AskSense 不僅能處理中英文混合訊息，還能針對臺灣常見的騙術有更高的敏銳度。從選模型、蒐資料、標註、微調、驗證到最終部署，每一步都像是在打怪升級：既要考慮效能（速度要快）、也要顧及準確度（誤報率要低），最後才能真正做到在使用者毫無防備時，就以接近秒殺的速度幫你識破陷阱，守護每個人的財產安全。

優化冷啟動：向量快取與並行序列化

有時候，我們打開一個應用程式或網站時，會因為要「先準備好資料」而卡在轉圈畫面好幾秒，這種等待會讓人感到不耐煩，甚至懷疑程式是不是掛掉了。原本 AskSense 每次啟動都要重新把五萬多條詐騙範例「一條條讀進來，再算一次它們的語意特徵」，導致冷啟動時間長達將近 20 秒——對於習慣秒回應的使用者來說，這段等待就像被隔離在一扇看不到的牆之外，無法立刻得到保護與幫助。

為了解決這個瓶頸，我把「一次算好、以後直接拿來用」的概念運用到 AskSense 上：就好比你事先準備好一大鍋湯，放進冰箱裡，下一次要喝的時候只要拿出來加熱就能馬上享用。技術上，我讓系統在第一次運行時計算並存好所有範例的「語意指紋」，之後每次啟動都直接讀取這份已經準備好的檔案，而不用再花時間重頭運算。再搭配「多個員工同時幫忙分批打包和拆包資料」的方式（就像廚房裡多個廚師同時動手），將原本耗時的處理程序大幅壓縮，讓冷啟動時間從 20 秒降到不到 2 秒。

這項優化對一般民眾而言，最直接的好處就是——從你點開 AskSense 那一刻起，就能瞬間看到是否有可疑訊息被攔截，完全不必等待。無論是在終端機輸入查詢，還是在網頁介面點擊按鈕，都能享受「秒開、秒回應」的流暢體驗。當詐騙手法日益翻新，使用者只要放心輸入任何可疑文字，AskSense 隨時待命，用最快的速度幫你揭穿陷阱，真正做到在最關鍵的瞬間守護你的財產與安心。

核心功能一覽：即問即答的詐騙判讀神器

許多人以為「多語言模型」只是能念多國語言，但對防詐系統來說，它的真正價值在於能跨越用詞差異，準確抓住相同意圖。AskSense 採用的 paraphrase-multilingual-MiniLM-L12-v2，就像一位通曉中、英雙語的偵探，不管詐騙集團是用「Your account is locked」還是「您的帳戶已鎖定」，它都能在語意層面判定：這兩句話其實在傳遞同一個威脅訊息。對一般使用者而言，就是不需要煩惱詐騙簡訊是用英文還是中文，它都能一視同仁、可靠辨識。

在「向量比對」階段，AskSense 並非比對單一關鍵字，而是把整句話轉換成一組數字（向量），再運用 PyTorch 的 pytorch_cos_sim 計算「夾角大小」——這就像比對兩個人的指紋，指紋越相似，夾角越小，數值越接近 1。對用戶來說，這意味著即便詐騙話術換了詞序、加了贅詞，或把「點此驗證」改成「請先確認」，只要整體意圖接近既有詐騙範例，系統就能一眼識破，不會因為幾個字不一樣而放過陷阱。

至於「秒級回應」，想像一開始每次都要親手把所有案例拿出來一張張比對，就像商店裡店員要翻完整間倉庫才能找到一件商品，耗時又搞毛。而 AskSense 透過「向量快取」把所有案例的向量一次算好存起來，並準備引入 FAISS 這項黑科技索引，就像把商品都放進自動倉儲系統，按一下按鈕就能定位到貨架位置。結果就是，不管背後有多少條詐騙範例，用戶在搜尋框輸入完可疑訊息、按下 Enter，那道防詐「雷達」瞬間掃描、立刻回報──幾毫秒內就能知道：「小心，這可能是詐騙！」真正讓防詐從「等待比對」變成「即刻警示」。

用戶體驗與部署：從 CLI 到雲端防線

當初我們以為最簡單的方式，就是將 AskSense 的檢測功能包成一個網頁介面（於 Streamlit 簡易架站），使用者只要打開瀏覽器就能貼上可疑文字並一鍵得到分析結果；但真正操作時才發現，將訓練好、數 GB 的 .pt 權重檔部署到 Streamlit Community Cloud 並非想像中那麼順利。首先，模型檔案太大，超過了免費方案的上傳限制；即便能上傳，初次啟動時也得重新載入權重，耗時往往超過 20 秒，使用者只見頁面轉圈、卻拿不到任何回應。更麻煩的是，Streamlit 的檔案系統是無狀態的，每次重新部署都要重新拉取並解壓整個模型，導致頻繁超時或部署失敗，反覆測試多次仍難以達到「秒開即用」的體驗。

在這樣的瓶頸下，我們決定轉換思路：既然大多數人最常使用的就是手機上的通訊軟體 LINE，那麼何不把防詐助手變成一個 LINE Bot？這樣我們不必再為龐大的模型檔案和網頁伺服器環境傷腦筋；只要將 .pt 權重和檢測程式放在後端伺服器，使用者將可疑簡訊或聊天內容「轉傳」給 LINE Bot，Bot 在後台快速載入向量檢測模組並回傳結果。前端完全交給 LINE 來顯示，使用者不需下載新 App，也不用學習新的操作流程，只要以慣用的對話方式互動，就能享受 AskSense 的智能防詐服務。

雖然目前這項服務還在測試階段，但這個改變將為一般大眾帶來極大便利：一旦收到任何讓人猶豫的文字，直接在 LINE 聊天視窗裡長按「轉傳 (share)」到 AskSense Bot，就能在幾秒內得到「高風險」、「疑似詐騙」或「安全無虞」的回覆；整個流程如同向朋友求證，只需動動手指即可，免除繁瑣的網頁載入與等待。如此一來，我們既保留了強大的語意檢測引擎，也讓使用者體驗更直覺、更貼近日常習慣，真正實現「防詐零距離」，有效提升了系統的易用性和可靠度。

以上就是【AskSense 八部曲：第一篇】完整版：從「真實詐騙場景」切入，以「資料準備」、「模型挑選」、「效能優化」、「多語言支援」、「介面佈署」等多層面詳細闡述 AskSense 如何從零開始，一步步克服挑戰，成為真正讀心思的詐騙偵測利器。下一篇，我將拆解最初的向量化實驗—從 BoW、TF-IDF 到 SBERT 的心路歷程，敬請期待！

Search This Blog

J’s Digest