前進GenAI魔法世界 戴上大型語言模型的分類帽:淺談文本分類任務

作者:Morty Lai

近幾年,許多台灣品牌都已開始使用社群聆聽 (Social Listening)工具,在進行網路輿情分析時,僅憑簡單的關鍵字判讀常常會帶來大量不相關的訊息,例如,當使用者搜索「iPhone」相關內容時,搜索結果往往充斥著各類抽獎活動,這顯然與用戶實際需求不符。因此,為了強化搜索效率與精確度,系統運用AI人工智慧技術,對文本進行深入分析和分類,但是,過去的分類技術需要花費大量時間進行資料註記和模型訓練,才能實現更細致或準確的分類。不過,現在隨著AI技術的進步與GPT的加持,文本分類已經能夠迅速反應市場需求,讓使用者可以透過類別篩選,快速地找出更精準的輿情資訊。就彷彿進入到GenAI的魔法世界,透過分類帽能快速將學生分類到相對應且合適的學院。

常見文本分類任務大致有三種,分別為「二分類任務(Binary Classification)」、「多分類任務(Multi-class Classification)」和「多標籤任務(Multi-label Classification)」。二分類任務適用於解答是非問題,例如在輿情的情緒分析中,它可以用來判斷文章是否表達正面情緒。與二分類任務相比,多分類任務更像是選擇題,在同樣的情緒分析應用中,判斷文章情緒為正面、中立或負面即屬於多分類任務。更複雜的是多標籤任務,相當於複選題,用於解析輿情內容的多個類別,因為一篇文章可以同時包含多個面向,從而屬於多個類別。例如「震央越來越靠近陸地?403強震後餘震逾千起,不排除有較大規模地震」,這類型的句子同時涉及了新聞、生活和氣象。

在運用GPT進行多標籤任務時,由於提示內容會對於結果帶來不小的影響,所以需要嘗試不同的提示設計策略與內容,進而找出最佳的提示方式。舉例來說,對於「震央越來越靠近陸地?403強震後餘震逾千起,不排除有較大規模地震」進行分類時,雖然提供的類別都是「新聞、生活、時事、氣象」,但使用「分析文章內容和哪些類別相關」和「提供和文章內容相關的類別」做為提示,則可能得到不一樣的判斷結果。最常見的提示設計方式是,根據經驗列出數個提示內容,並使用相同的資料集進行測試,找出最佳的提示內容。除了可以自己設計提示內容之外,也可以讓GPT或不同的大型語言模型生成,再從中找出最佳的提示內容。除此之外,也可以考慮到類別和文章的相關性,並對於每個類別找出最適當的類別樣本加入提示,進而提升分類的準確度。

大數據股份有限公司運用全新的生成式AI技術和大型語言模型,推出全新改版的《KEYPO大數據關鍵引擎》,不僅加快了對文章類別的解析速度,也能更加彈性的對於文章分類進行調整,這讓企業品牌更能快速地定位,並聚焦於特定類型的熱議話題。提供使用者可以迅速、準確地掌握網路輿情、市場趨勢及競爭對手動態,更能夠從中挖掘出深層次的原因和影響,協助企業品牌擬訂精準行銷策略,從而迅速抓住潛在消費者目光。

想了解更多《KEYPO 大數據關鍵引擎》輿情分析系統強大功能?請立即與我們聯絡以取得更多資訊。

Image by freepik