生成式AI助一臂之力！「主題模型」成化繁為簡的重要關鍵

作者：Morty Lai

網路社群的發展，改變了現代人的閱讀及生活習慣，傳統的新聞媒播方式已逐漸式微，Facebook、Instagram、YouTube、X、TikTok、Threads等社群平台逐漸發展成為一種新興的媒體溝通工具。平均每天約多出超過數百萬筆網路輿情資料，其擴散程度既深又廣，一般直接從Google上是很不容易查詢到特定人物、議題、時間、地點及產品的所有評論，甚至針對聲量做頻道統計、好感度或等深度分析，因此輿情分析系統就成為強而有力的助手。究竟如何從巨量的網路輿情中進行分析與洞察呢？除了自動化摘要技術(Automatic Summarization)之外，「主題模型(Topic Modeling)」也是常見的重要技術之一。以下將針對主題模型做簡單的說明：

「主題模型」是指在機器學習(Machine Learning)和自然語言處理(Natural Language Processing，NLP)等領域用來將一系列文檔中發現抽象主題的一種統計模型。主題模型會深入分析文章內容，自動識別並生成多個主題，然後根據這些主題對文章進行分類，彷彿物流倉儲自動掃讀分揀般方便。簡單來說，假設一篇文章有一個中心思想，那麼一些特定詞語就會更頻繁的出現。例如，如果有篇文章是在講台灣地震的，那「芮氏」、「傷亡」、「921」等詞出現的頻率會高些。這可以讓使用者能夠進行無需預設任何類別，就可以從大量的文章中找出趨勢、主題和焦點。相比之下，自動化摘要技術雖然能夠提供文章的精簡概述，但難以得知各項敘述相關的原始文章。因此，基於主題模型的特點，除了讓使用者快速了解到網路輿情的重要主題之外，也可以了解到每個主題背後的關鍵詞彙、聲量大小，以及主題之間的關聯性。

雖然主題模型能夠將大量文章按主題進行分類，並從中提煉出每個主題的關鍵詞彙，但對於一般使用者而言，這些分散的關鍵詞彙的含義可能不直觀。若要能夠對於主題模型的生成結果提供更深層內涵，往往需要領域專家的協助，讓專家基於自身的知識和經驗，對於主題與關鍵詞彙進行深入的解讀與闡述，為一般使用者帶來對主題更全面、更深刻的認識，也能理解這些訊息背後更深的含義與更豐富的價值。

近年生成式人工智能(GenAI)崛起，ChatGPT仍無法完全取代領域專家，但對於主題模型生成結果，已經能提供有價值的闡述。若要評估ChatGPT的闡述與洞察的能力，需要與領域專家合作，並對其生成內容進行深入解讀。整體評估流程主要包括主題生成、主題解讀及主題評估等三個階段。首先，主題生成階段需要考慮常見的隱含狄利克雷分佈(Latent Dirichlet allocation，LDA)或模糊潛在語意分析單詞(Fuzzy Latent Semantic Analysis-Words, FLSA-W)等不同的主題生成方法，以及其生成品質，如此一來才能對效能評估有更深入的理解。在主題解讀階段，可由領域專家與ChatGPT對同一主題提供各自的解讀，藉此比較兩者間的差異。最終階段，交由領域專家評估ChatGPT的生成品質，以判斷其提供的內容是否具有實際價值。不過，主題生成品質也與ChatGPT的生成品質呈現正相關。主題生成品質通常會考慮詞彙的一致性及主題間的差異性。詞彙一致性是指在同一主題內部，詞彙應該共同反映一個明確的概念或話題。主題間的差異性，則是評估每個主題提供資訊的獨特性，藉此避免主題之間的重疊程度。若是主題的相關詞彙缺乏獨特性，都是涉及許多可能主題的詞彙，則ChatGPT的撰寫內容，可能闡述與領域專家意見不同面向之內容。抑或是主題內的關鍵詞彙過於發散，這也會導致ChatGPT的生成內容無法聚焦，導致生成的內容不夠深入。透過上述的評估模式，在多數情況下，ChatGPT提供的內容皆能夠得到領域專家的認可，這也凸顯出ChatGPT作為輿情探索和洞察工具的實力。

《KEYPO大數據關鍵引擎》是大數據股份有限公司旗下一套結合擁有每月處理上千億中文數據，超過30億筆大數據輿情資料庫，最新「GPT智能輿情分析」不僅運用了摘要技術，還結合了獨特的主題模型技術與ChatGPT生成能力，不僅讓使用者可以對網路輿情進行主題分析，並能獲取細膩且具深度的主題解析內容。大數據(股)公司技術團隊秉持著精益求精的精神，定期優化《KEYPO大數據關鍵引擎》輿情分析功能，以確保「GPT智能輿情分析」所產出的報告在品質和實用性皆能保持最佳狀態，提供使用者可以迅速、準確地掌握網路輿情、市場趨勢及競爭對手動態，更能夠從中挖掘出深層次的原因和影響，協助企業品牌擬訂精準行銷策略，從而迅速抓住潛在消費者目光。

想了解更多全台首創結合「GPT 智能輿情分析」的《 KEYPO 大數據關鍵引擎》輿情分析系統強大功能了嗎？請立即與我們聯絡以取得更多資訊。

Image by rawpixel.com on Freepik