AI打敗AI!瑞萊智慧發布全新RealSafe,自動對齊研究員方法落地
允中 發自 凹非寺
量子位 | 公眾號 QbitAI
最近,OpenAI宣布,表示計劃投入更多資源並成立新的研究團隊,研究如何確保人工智慧對人類的安全性,最終實現用人工智慧來監督人工智慧,並提出了新概念「自動對齊研究員」。
無獨有偶,2023WAIC世界人工智慧大會上,RealAI已將「自動對齊研究員」這一人工智慧安全提升方法落地了。
清華大學人工智慧研究院孵化企業瑞萊智慧RealAI發布全新人工智慧安全平台RealSafe3.0,該平台功能與OpenAI提出的「自動對齊研究員」類似——
通過自動化的訓練方法優化大模型,以期在通用人工智慧加速賦能人類社會的同時,為人類築起抵禦人工智慧威脅的安全之盾。
瑞萊智慧聯合創始人、演算法科學家蕭子豪認為,大模型「落地難」的本質在於,當前仍處於「野蠻生長」階段,還沒有找到場景、風險和規範三者之間的平衡點。而在探尋這一平衡點的過程中,缺少易用和標準化的工具,即在技術層面上缺乏有力抓手,能夠科學評判大模型在場景中能否同時滿足規範和低風險,且能夠進一步定位問題並給出優化建議,助力模型上線運行。
集成主流及RealAI獨有的世界領先的安全評測技術,RealSafe3.0版本能夠提供端到端的模型安全性測評解決方案,解決當前通用大模型安全風險難以審計的痛點問題。
相較上一版本,RealSafe3.0新增了對通用大模型的評測,在評測維度上,它已覆蓋數據安全、認知任務、通用模型特有漏洞、濫用場景等近70個評測維度,全方位多維度地評測通用大模型的性能,且未來還會持續擴增測評維度的數量。
對黑盒不可解釋的通用大模型,自研紅隊對抗模型取代人工設計問題。該模型數據集中,不僅包含了自有數據集,還包含了模型自生成的數據,因此它能夠自動化地挖掘出更多的漏洞,真正從源頭上緩解安全問題。
教練模型則通過對被測大模型進行多輪次的提問-回答訓練,並以訓練好的評分模型對問答結果進行評分,再將評分結果反饋給大模型,使其不斷強化學習到好壞答案的要點及區別,直至問答能力逐步迭代至最優。
除了定製化的訓練框架,教練模型理想的模型效果還得益於夯實的數據基礎,瑞萊智慧自有數據集經過數十位價值觀領域的專家論證,以確保輸入的數據無誤,質量高且領域多元,未來也將持續更新補充。
除此之外,瑞萊智慧還升級了能夠防範生成式人工智慧惡意濫用的DeepReal2.0。
據悉,DeepReal此前名為深度偽造內容檢測平台,現已正式更名為生成式人工智慧內容檢測平台,因為它除了能夠檢測Deepfake內容,還新增兩個功能模塊,可以檢測Diffusion、LLM這兩類新方法生成的數據,支持對圖像、視頻、音頻、文本進行是否偽造的檢測。
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態

