生成式AI助一臂之力!「主題模型」成化繁為簡的重要關鍵

作者:Morty Lai

網路社群的發展,改變了現代人的閱讀及生活習慣,傳統的新聞媒播方式已逐漸式微,Facebook、Instagram、YouTube、X、TikTok、Threads等社群平台逐漸發展成為一種新興的媒體溝通工具。平均每天約多出超過數百萬筆網路輿情資料,其擴散程度既深又廣,一般直接從Google上是很不容易查詢到特定人物、議題、時間、地點及產品的所有評論,甚至針對聲量做頻道統計、好感度或等深度分析,因此輿情分析系統就成為強而有力的助手。究竟如何從巨量的網路輿情中進行分析與洞察呢?除了自動化摘要技術(Automatic Summarization)之外,「主題模型(Topic Modeling)」也是常見的重要技術之一。以下將針對主題模型做簡單的說明:

「主題模型」是指在機器學習(Machine Learning)和自然語言處理(Natural Language Processing,NLP)等領域用來將一系列文檔中發現抽象主題的一種統計模型。主題模型會深入分析文章內容,自動識別並生成多個主題,然後根據這些主題對文章進行分類,彷彿物流倉儲自動掃讀分揀般方便。簡單來說,假設一篇文章有一個中心思想,那麼一些特定詞語就會更頻繁的出現。例如,如果有篇文章是在講台灣地震的,那「芮氏」、「傷亡」、「921」等詞出現的頻率會高些。這可以讓使用者能夠進行無需預設任何類別,就可以從大量的文章中找出趨勢、主題和焦點。相比之下,自動化摘要技術雖然能夠提供文章的精簡概述,但難以得知各項敘述相關的原始文章。因此,基於主題模型的特點,除了讓使用者快速了解到網路輿情的重要主題之外,也可以了解到每個主題背後的關鍵詞彙、聲量大小,以及主題之間的關聯性。

雖然主題模型能夠將大量文章按主題進行分類,並從中提煉出每個主題的關鍵詞彙,但對於一般使用者而言,這些分散的關鍵詞彙的含義可能不直觀。若要能夠對於主題模型的生成結果提供更深層內涵,往往需要領域專家的協助,讓專家基於自身的知識和經驗,對於主題與關鍵詞彙進行深入的解讀與闡述,為一般使用者帶來對主題更全面、更深刻的認識,也能理解這些訊息背後更深的含義與更豐富的價值。

近年生成式人工智能(GenAI)崛起,ChatGPT仍無法完全取代領域專家,但對於主題模型生成結果,已經能提供有價值的闡述。若要評估ChatGPT的闡述與洞察的能力,需要與領域專家合作,並對其生成內容進行深入解讀。整體評估流程主要包括主題生成、主題解讀及主題評估等三個階段。首先,主題生成階段需要考慮常見的隱含狄利克雷分佈(Latent Dirichlet allocation,LDA)或模糊潛在語意分析單詞(Fuzzy Latent Semantic Analysis-Words, FLSA-W)等不同的主題生成方法,以及其生成品質,如此一來才能對效能評估有更深入的理解。在主題解讀階段,可由領域專家與ChatGPT對同一主題提供各自的解讀,藉此比較兩者間的差異。最終階段,交由領域專家評估ChatGPT的生成品質,以判斷其提供的內容是否具有實際價值。不過,主題生成品質也與ChatGPT的生成品質呈現正相關。主題生成品質通常會考慮詞彙的一致性及主題間的差異性。詞彙一致性是指在同一主題內部,詞彙應該共同反映一個明確的概念或話題。主題間的差異性,則是評估每個主題提供資訊的獨特性,藉此避免主題之間的重疊程度。若是主題的相關詞彙缺乏獨特性,都是涉及許多可能主題的詞彙,則ChatGPT的撰寫內容,可能闡述與領域專家意見不同面向之內容。抑或是主題內的關鍵詞彙過於發散,這也會導致ChatGPT的生成內容無法聚焦,導致生成的內容不夠深入。透過上述的評估模式,在多數情況下,ChatGPT提供的內容皆能夠得到領域專家的認可,這也凸顯出ChatGPT作為輿情探索和洞察工具的實力。

《KEYPO大數據關鍵引擎》是大數據股份有限公司旗下一套結合擁有每月處理上千億中文數據,超過30億筆大數據輿情資料庫,最新「GPT智能輿情分析」不僅運用了摘要技術,還結合了獨特的主題模型技術與ChatGPT生成能力,不僅讓使用者可以對網路輿情進行主題分析,並能獲取細膩且具深度的主題解析內容。大數據(股)公司技術團隊秉持著精益求精的精神,定期優化《KEYPO大數據關鍵引擎》輿情分析功能,以確保「GPT智能輿情分析」所產出的報告在品質和實用性皆能保持最佳狀態,提供使用者可以迅速、準確地掌握網路輿情、市場趨勢及競爭對手動態,更能夠從中挖掘出深層次的原因和影響,協助企業品牌擬訂精準行銷策略,從而迅速抓住潛在消費者目光。

想了解更多全台首創結合「GPT 智能輿情分析」的《 KEYPO 大數據關鍵引擎》輿情分析系統強大功能了嗎?請立即與我們聯絡以取得更多資訊。

Image by rawpixel.com on Freepik