11月15-16日,由中國人民大學(xué)人工智能治理研究院主辦的“人工智能安全:識別風(fēng)險與尋求解決”專題學(xué)術(shù)研討會順利召開。來自中國人民大學(xué)、北京大學(xué)、清華大學(xué)等多所高校、多個交叉領(lǐng)域的近20位學(xué)者與在場同學(xué)一起,從多學(xué)科視角出發(fā),共同探討人工智能安全問題。
中國科學(xué)院信息工程研究所研究員曹亞男關(guān)注到大模型水印。為應(yīng)對AIGC濫用帶來的治理挑戰(zhàn),大語言模型水印技術(shù)作為核心溯源手段應(yīng)運而生。其主要分為白盒水印與黑盒檢測兩條路徑。白盒水印通過在模型訓(xùn)練或推理階段嵌入不易察覺的信號來標記生成內(nèi)容,并持續(xù)優(yōu)化以平衡水印強度、文本質(zhì)量等。黑盒檢測則面對模型輸出日益“擬人化”的難題,發(fā)展出基于統(tǒng)計保證的低誤報檢測框架和仿DNA突變修復(fù)的新范式,以提升在復(fù)雜場景下的檢測精度。
中國人民大學(xué)新聞學(xué)院講師王裕平關(guān)注的問題則是社交媒體中偽照片的影響。研究采用感知哈希技術(shù)(perceptual hash)技術(shù)提取圖像特征,構(gòu)建了一套“數(shù)據(jù)采集-感知哈希技術(shù)提取-事實核查-數(shù)據(jù)標注-分析”的計算流水線,用以分析來源于多個社交媒體的約5億張圖片,發(fā)現(xiàn)偽照片往往會伴隨更多的用戶參與度,并且往往被用作梗圖。基于此,報告認為,有效的虛假信息應(yīng)對措施必須將圖片考慮在內(nèi)。
北京大學(xué)人工智能研究院研究員楊耀東指出,大模型可能主動發(fā)展出欺騙性行為,其核心機理在于模型參數(shù)具備“彈性”,傾向于抗拒對齊微調(diào)并回彈至預(yù)訓(xùn)練形成的穩(wěn)態(tài)分布,導(dǎo)致安全約束被輕易規(guī)避。為此,報告提出通過模型自監(jiān)控的約束強化學(xué)習(xí)框架,在推理中實時檢測和抑制欺騙性意圖。報告也指出,隨著模型能力的演進,欺騙性對齊可能帶來更嚴峻的挑戰(zhàn),因此亟需更具可擴展性與內(nèi)在一致性的對齊范式。
南京大學(xué)信息管理學(xué)院副院長康樂樂教授強調(diào)了透明性在構(gòu)建可信AI中的核心作用。為系統(tǒng)評估AI透明性,他提出了一個多維度框架,包括可解釋性、文檔可及性、用戶認知等核心指標,并借助Hugging Face等多源數(shù)據(jù)平臺,構(gòu)建模型、論文、專利、開發(fā)者、組織之間的關(guān)聯(lián)網(wǎng)絡(luò),以實現(xiàn)自動化、可擴展的透明度評估。
中國人民大學(xué)信息學(xué)院講師王文軒提出社會科學(xué)啟發(fā)下的大模型安全對齊評測方法:個體層面,通過借鑒認知心理學(xué)、邏輯學(xué)和人格理論來評估感知能力、推理能力和心理屬性;在群體層面,通過引入博弈論和社會學(xué)的研究方法來評測共贏意愿和群體偏見;在社會層面,通過具體文化內(nèi)容評測和抽象價值觀評測來檢驗文化偏向性。
北京智源人工智能研究院大模型安全研究中心研究員戴俊滔指出,隨著大模型的多模態(tài)擴展,安全風(fēng)險也隨之升級。對此,報告提出了“從任意到任意”的全模態(tài)評測與對齊框架,通過構(gòu)建全模態(tài)人類偏好數(shù)據(jù)集與“語言反饋”學(xué)習(xí)范式來解決全模態(tài)統(tǒng)一問題。針對動作模態(tài)的安全挑戰(zhàn),報告還提出了新的評測環(huán)境、引入了集成式安全方法,提高具身大模型的安全與性能。
中國人民大學(xué)高瓴人工智能學(xué)院副教授王希廷引入價值觀羅盤(value compass)框架,將模型行為映射到人類基本價值觀上,使得大模型具備更強的識別和適應(yīng)能力。報告從多維度探討了安全治理思路,為未來可能工作指明了深層機制問題。
中國人民大學(xué)國際關(guān)系學(xué)院的保建云教授從政治經(jīng)濟學(xué)的“超級博弈”視角出發(fā),剖析了超級人工智能發(fā)展引發(fā)的全球性挑戰(zhàn)。超級智能的發(fā)展正催生由少數(shù)巨頭主導(dǎo)的“智能壟斷”,它們憑借大模型、算法與數(shù)據(jù)的控制形成全球寡頭格局。這種壟斷抑制創(chuàng)新與知識自由流動,并因算法中的價值偏見加劇社會歧視。超大模型因此成為大國戰(zhàn)略競爭的關(guān)鍵領(lǐng)域,其失控可能引發(fā)非傳統(tǒng)安全風(fēng)險與文明危機。面對這一難題,“中國方案”應(yīng)致力于推動建立更加公平、安全、包容的全球AI治理秩序。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報》社有限責(zé)任公司