国产日韩视频在线播放,国产真人做爰毛片视频直播,亚洲天堂av线

“人工智能安全：識別風(fēng)險與尋求解決”專題學(xué)術(shù)研討會舉行

2025-11-19 14:16:27: 來源：科技日報　作者：張蓋倫
分享到：

11月15-16日，由中國人民大學(xué)人工智能治理研究院主辦的“人工智能安全：識別風(fēng)險與尋求解決”專題學(xué)術(shù)研討會順利召開。來自中國人民大學(xué)、北京大學(xué)、清華大學(xué)等多所高校、多個交叉領(lǐng)域的近20位學(xué)者與在場同學(xué)一起，從多學(xué)科視角出發(fā)，共同探討人工智能安全問題。

中國科學(xué)院信息工程研究所研究員曹亞男關(guān)注到大模型水印。為應(yīng)對AIGC濫用帶來的治理挑戰(zhàn)，大語言模型水印技術(shù)作為核心溯源手段應(yīng)運而生。其主要分為白盒水印與黑盒檢測兩條路徑。白盒水印通過在模型訓(xùn)練或推理階段嵌入不易察覺的信號來標記生成內(nèi)容，并持續(xù)優(yōu)化以平衡水印強度、文本質(zhì)量等。黑盒檢測則面對模型輸出日益“擬人化”的難題，發(fā)展出基于統(tǒng)計保證的低誤報檢測框架和仿DNA突變修復(fù)的新范式，以提升在復(fù)雜場景下的檢測精度。

中國人民大學(xué)新聞學(xué)院講師王裕平關(guān)注的問題則是社交媒體中偽照片的影響。研究采用感知哈希技術(shù)（perceptual hash）技術(shù)提取圖像特征，構(gòu)建了一套“數(shù)據(jù)采集-感知哈希技術(shù)提取-事實核查-數(shù)據(jù)標注-分析”的計算流水線，用以分析來源于多個社交媒體的約5億張圖片，發(fā)現(xiàn)偽照片往往會伴隨更多的用戶參與度，并且往往被用作梗圖。基于此，報告認為，有效的虛假信息應(yīng)對措施必須將圖片考慮在內(nèi)。

北京大學(xué)人工智能研究院研究員楊耀東指出，大模型可能主動發(fā)展出欺騙性行為，其核心機理在于模型參數(shù)具備“彈性”，傾向于抗拒對齊微調(diào)并回彈至預(yù)訓(xùn)練形成的穩(wěn)態(tài)分布，導(dǎo)致安全約束被輕易規(guī)避。為此，報告提出通過模型自監(jiān)控的約束強化學(xué)習(xí)框架，在推理中實時檢測和抑制欺騙性意圖。報告也指出，隨著模型能力的演進，欺騙性對齊可能帶來更嚴峻的挑戰(zhàn)，因此亟需更具可擴展性與內(nèi)在一致性的對齊范式。

南京大學(xué)信息管理學(xué)院副院長康樂樂教授強調(diào)了透明性在構(gòu)建可信AI中的核心作用。為系統(tǒng)評估AI透明性，他提出了一個多維度框架，包括可解釋性、文檔可及性、用戶認知等核心指標，并借助Hugging Face等多源數(shù)據(jù)平臺，構(gòu)建模型、論文、專利、開發(fā)者、組織之間的關(guān)聯(lián)網(wǎng)絡(luò)，以實現(xiàn)自動化、可擴展的透明度評估。

中國人民大學(xué)信息學(xué)院講師王文軒提出社會科學(xué)啟發(fā)下的大模型安全對齊評測方法：個體層面，通過借鑒認知心理學(xué)、邏輯學(xué)和人格理論來評估感知能力、推理能力和心理屬性；在群體層面，通過引入博弈論和社會學(xué)的研究方法來評測共贏意愿和群體偏見；在社會層面，通過具體文化內(nèi)容評測和抽象價值觀評測來檢驗文化偏向性。

北京智源人工智能研究院大模型安全研究中心研究員戴俊滔指出，隨著大模型的多模態(tài)擴展，安全風(fēng)險也隨之升級。對此，報告提出了“從任意到任意”的全模態(tài)評測與對齊框架，通過構(gòu)建全模態(tài)人類偏好數(shù)據(jù)集與“語言反饋”學(xué)習(xí)范式來解決全模態(tài)統(tǒng)一問題。針對動作模態(tài)的安全挑戰(zhàn)，報告還提出了新的評測環(huán)境、引入了集成式安全方法，提高具身大模型的安全與性能。

中國人民大學(xué)高瓴人工智能學(xué)院副教授王希廷引入價值觀羅盤（value compass）框架，將模型行為映射到人類基本價值觀上，使得大模型具備更強的識別和適應(yīng)能力。報告從多維度探討了安全治理思路，為未來可能工作指明了深層機制問題。

中國人民大學(xué)國際關(guān)系學(xué)院的保建云教授從政治經(jīng)濟學(xué)的“超級博弈”視角出發(fā)，剖析了超級人工智能發(fā)展引發(fā)的全球性挑戰(zhàn)。超級智能的發(fā)展正催生由少數(shù)巨頭主導(dǎo)的“智能壟斷”，它們憑借大模型、算法與數(shù)據(jù)的控制形成全球寡頭格局。這種壟斷抑制創(chuàng)新與知識自由流動，并因算法中的價值偏見加劇社會歧視。超大模型因此成為大國戰(zhàn)略競爭的關(guān)鍵領(lǐng)域，其失控可能引發(fā)非傳統(tǒng)安全風(fēng)險與文明危機。面對這一難題，“中國方案”應(yīng)致力于推動建立更加公平、安全、包容的全球AI治理秩序。

編輯：韓夢晨

相關(guān)閱讀：

版權(quán)與免責(zé)聲明:
①凡本站注明稿件來源為：中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權(quán)均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本網(wǎng)授權(quán)使用作品的，被授權(quán)人應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
② 任何單位或個人認為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權(quán)益，應(yīng)該及時向本網(wǎng)站書面反饋，并提供身份證明，權(quán)屬證明及詳細侵權(quán)情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權(quán)的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權(quán)和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內(nèi)進行。電話：010-68667266 電子郵件：dbrmt#chih.org　(請將“#”換為“@”)

亚洲中文字幕日本无线码_亚洲国产人成中文幕一级二级_中文字幕无码精品三级在线电影_中文字幕人妻丝袜乱一区三区