開源大型語言模型浪潮來襲!啟動中文自然語言處理新局面

近年來,大型語言模型(Large Language Model,LLM)已成為自然語言處理(Natural Language Processing,NLP)領域的熱門研究方向,尤其在美國新創科技公司 OpenAI 以基於生成式 AI 打造的強大語言模型 GPT-4,透過大量的語言材料與資料訓練等技術的 ChatGPT 推出,火速於全球掀起風靡熱潮,背後的大型語言模型進展也相當受矚。

作者:Morty Lai

近年來,大型語言模型(Large Language Model,LLM)已成為自然語言處理(Natural Language Processing,NLP)領域的熱門研究方向,尤其在美國新創科技公司 OpenAI 以基於生成式 AI 打造的強大語言模型 GPT-4,透過大量的語言材料與資料訓練等技術的 ChatGPT 推出,火速於全球掀起風靡熱潮,背後的大型語言模型進展也相當受矚。過去的大型語言模型已經在單一任務上取得了優異表現,例如情感分析和相似詞識別,並被廣泛應用於各種服務中。現在,大型語言模型的研究越來越關注於多任務學習,就像是 ChatGPT 能夠同時進行文本摘要、情感分析和詞性標註等多種任務一樣。這也證明大型語言模型在多任務上的卓越表現。

儘管現今已經有許多知名的大型語言模型可提供多樣化的服務,不僅可輸入文字進行問答,現在還能給出圖片讓AI去解讀,甚至可以要求AI生成所需要的圖片範例。但要自己訓練或搭建模型,需要大運算資源、大AI模型及大量訓練資料,無論是硬體或訓練資料建置,都要付出極高的成本。另外,即使能夠取得預先訓練好的大型語言模型,想要在商業行為中應用,也有可能會受到授權條款的限制。因此,可以看出大型語言模型在開發和應用上,仍面臨著許多困難和限制。

為了擺脫知名大型語言模型的授權限制,已有研究單位提出開源語言模型, pythia-12B 是相當著名的開源模型之一。 Databricks 在 pythia-12B 上,使用自行建置的資料集 databricks-dolly-15k 進行訓練,並提供一個開放商業授權的大型語言模型。另一方面, Open Assistant 透過網路社群的協作力量,建立了資料集 OASST1 ,結合 pythia-12B 提供開源的預先訓練模型。雖然開源模型的效能可能和知名大型語言模型略有差異,但因為採用開放的授權條件,能讓更多人進行自主研究和商業使用。同時,Open Assistant 與 ChatGPT 作對比進行相關評測,包括多段對答內容,每段內容都包含一個問題以及兩個模型的回答,並採問卷方式進行滿意度調查。結果顯示, ChatGPT 的滿意度高於 Open Assistant ,分別為 51.7% 和 48.3% 。即便 ChatGPT 有較好的表現,但考慮到開源模型的參數量較少,且使用自願者提供的資料進行訓練,這意味擁有一個與 ChatGPT 相仿,可自行訓練的商用大型語言模型,已是指日可待。

開源模型的表現相當出色,但在中文領域的資訊仍相對匱乏。大數據股份有限公司一直致力於發展AI NLP相關技術,精準高效的抽取高階語意,以人工智慧感知文章脈絡,剖析網友意見,並運用《KEYPO大數據關鍵引擎》輿情分析系統涵蓋國內各大主流媒體與網站的海量資料進行相關測試。隨著大型語言模型的演進,《KEYPO大數據關鍵引擎》也不斷嘗試強化中文自然語言處理技術,不同於同業依賴關鍵詞與句法邏輯進行「詞意」意見分析,智能語意判讀才可掌握全貌,以提供豐富且獨特的輿情分析服務。藉由自然語言處理,大規模的分析工作能在短時間迅速完成,並根據得到的結果擬訂精準行銷策略,從而迅速抓住潛在顧客目光。

想進一步瞭解《 KEYPO 大數據關鍵引擎》輿情分析系統各項功能嗎?請立即與我們聯絡以取得更多資訊。