當前位置:
首頁 > 科技 > AI打敗AI!瑞萊智慧發布全新RealSafe,自動對齊研究員方法落地

AI打敗AI!瑞萊智慧發布全新RealSafe,自動對齊研究員方法落地

允中 發自 凹非寺

量子位 | 公眾號 QbitAI


最近,OpenAI宣布,表示計劃投入更多資源並成立新的研究團隊,研究如何確保人工智慧對人類的安全性,最終實現用人工智慧來監督人工智慧,並提出了新概念「自動對齊研究員」。

無獨有偶,2023WAIC世界人工智慧大會上,RealAI已將「自動對齊研究員」這一人工智慧安全提升方法落地了。

清華大學人工智慧研究院孵化企業瑞萊智慧RealAI發布全新人工智慧安全平台RealSafe3.0,該平台功能與OpenAI提出的「自動對齊研究員」類似——

通過自動化的訓練方法優化大模型,以期在通用人工智慧加速賦能人類社會的同時,為人類築起抵禦人工智慧威脅的安全之盾。

瑞萊智慧聯合創始人、演算法科學家蕭子豪認為,大模型「落地難」的本質在於,當前仍處於「野蠻生長」階段,還沒有找到場景、風險和規範三者之間的平衡點。而在探尋這一平衡點的過程中,缺少易用和標準化的工具,即在技術層面上缺乏有力抓手,能夠科學評判大模型在場景中能否同時滿足規範和低風險,且能夠進一步定位問題並給出優化建議,助力模型上線運行。

集成主流及RealAI獨有的世界領先的安全評測技術,RealSafe3.0版本能夠提供端到端的模型安全性測評解決方案,解決當前通用大模型安全風險難以審計的痛點問題。

相較上一版本,RealSafe3.0新增了對通用大模型的評測,在評測維度上,它已覆蓋數據安全、認知任務、通用模型特有漏洞、濫用場景等近70個評測維度,全方位多維度地評測通用大模型的性能,且未來還會持續擴增測評維度的數量。

對黑盒不可解釋的通用大模型,自研紅隊對抗模型取代人工設計問題。該模型數據集中,不僅包含了自有數據集,還包含了模型自生成的數據,因此它能夠自動化地挖掘出更多的漏洞,真正從源頭上緩解安全問題。

教練模型則通過對被測大模型進行多輪次的提問-回答訓練,並以訓練好的評分模型對問答結果進行評分,再將評分結果反饋給大模型,使其不斷強化學習到好壞答案的要點及區別,直至問答能力逐步迭代至最優。

除了定製化的訓練框架,教練模型理想的模型效果還得益於夯實的數據基礎,瑞萊智慧自有數據集經過數十位價值觀領域的專家論證,以確保輸入的數據無誤,質量高且領域多元,未來也將持續更新補充。

除此之外,瑞萊智慧還升級了能夠防範生成式人工智慧惡意濫用的DeepReal2.0。

據悉,DeepReal此前名為深度偽造內容檢測平台,現已正式更名為生成式人工智慧內容檢測平台,因為它除了能夠檢測Deepfake內容,還新增兩個功能模塊,可以檢測Diffusion、LLM這兩類新方法生成的數據,支持對圖像、視頻、音頻、文本進行是否偽造的檢測。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

純路端感知實現L4自動駕駛!全球首次,輕車熟路,背後玩家是他們