【AskSense 八部曲:第 1 篇】當搜尋也能讀心思:AskSense 誕生的祕密推手
啟發契機:生活中的詐騙陷阱 你是不是也有過類似的經驗,收到一封看起來超正式的簡訊或郵件,上面寫著「您的帳戶出現異常交易,請立即驗證」?你心想:「哇,好像很重要,趕快點!」殊不知這正是詐騙集團的拿手好戲,他們用「官方口吻+緊迫感」當釣餌,讓你根本沒時間思考就上鉤。傳統防詐系統只會傻傻地掃描「異常交易」、「驗證」這些字眼,就像只看食材卻不會下廚,遇到同義詞或變化就瞬間傻眼,結果很多人防線看似固若金湯,卻還是被耍得團團轉。 為了讓每個人都能在第一時間分辨詐騙,我們需要一種能「讀懂整句話」的技術。現在,我們有了 AskSense,就好像口袋裡多帶了一位超靈敏的「語意偵探」,它不只盯字,還「讀句子背後的意思」。當一段可疑文字進來,AskSense 會把整句話拿去跟上萬條已知詐騙範例比對,只要兩個數學向量的夾角夠小(意圖夠接近),就會立刻警報:「嘿!這很可能是在耍你!」不管詐騙語句怎麼花俏包裝,都逃不過這道智慧防線。 資料庫大揭密:打造乾淨的詐騙知識庫 許多民眾並不知道,防詐系統的「智慧」其實來自於背後龐大的範例資料庫。為了讓 AskSense 能夠識別各種精心包裝的詐騙話術,我收集了超過 54,500 條在臺灣真實流傳的詐騙訊息,並額外蒐錄了許多用戶親身遭遇的受騙案例。這些原始文字先經過嚴格清洗:重複的句子被刪除,與詐騙無關的短句或垃圾訊息被過濾,並利用工具自動統一簡體與繁體、將「恭喜發財」「紅包」等容易誤判的慣用語標準化。這樣一來,模型訓練時只「看見」真正有助於辨別詐騙的高品質樣本,不必浪費運算力在無意義的噪聲上。 更進一步地,我為這套系統量身打造了一份「停用詞表」,把「您好」「請問」這類純禮貌用語排除在外,讓語意向量計算時更能專注於那些最具威脅性的詞彙,如「驗證」「交易」「退款」等核心字眼。想像一下,如果一個系統每次只盯著「驗證」這個詞,卻忽略了前後語境,它很容易把合法銀行通知和詐騙簡訊混為一談;但透過停用無用詞、強化重要詞,AskSense 就能在高維向量空間中精準判斷——只要句子整體意圖接近已知騙局範例,立即發出警示,保護你免於財產損失。 AskSense 願景:什麼都能聽得懂 在打造 AskSense 的過程中,我們一開始就選用一個既懂中文、也能處理英文的「多語言 Sentence-BERT」模型(paraphrase-multilingual-M...