×

掃碼關(guān)注微信公眾號(hào)

山海大模型SuperBench榜單名列前茅,期待云知聲上市新征程

2024/10/21 17:08:41      企業(yè)供稿

近日,國(guó)內(nèi)人工智能領(lǐng)域的權(quán)威機(jī)構(gòu)——清華大學(xué)基礎(chǔ)模型研究中心,正式發(fā)布了SuperBench九月綜合榜單。此次評(píng)測(cè)匯集全球24個(gè)大模型,經(jīng)過(guò)多輪激烈角逐,山海大模型憑借其在多項(xiàng)評(píng)測(cè)中的優(yōu)異表現(xiàn),再次證明其全球大模型比拼名列前茅的綜合實(shí)力。

作為國(guó)內(nèi)大模型測(cè)評(píng)的權(quán)威基準(zhǔn),SuperBench由清華大學(xué)人工智能研究院基礎(chǔ)模型研究中心攜手多家知名機(jī)構(gòu)共同打造,旨在為大模型領(lǐng)域提供一套科學(xué)、客觀的測(cè)評(píng)體系。本次評(píng)測(cè)數(shù)據(jù)集全面覆蓋語(yǔ)義、對(duì)齊、代碼、智能體、安全、數(shù)理邏輯和指令遵循等七大類別,共計(jì)32個(gè)子類,全方位評(píng)估大模型的各項(xiàng)能力。

在備受關(guān)注的人類對(duì)齊能力評(píng)測(cè)中,山海大模型3.0以8.21分的高分脫穎而出,排名全球第五、國(guó)內(nèi)第二。特別是在中文語(yǔ)言方面,山海大模型與o1-preview并列全球第二,得分高達(dá)8.41,充分展示其在中文語(yǔ)言處理領(lǐng)域的深厚實(shí)力。在細(xì)分評(píng)測(cè)項(xiàng)中,山海大模型更是屢創(chuàng)佳績(jī),基本任務(wù)、綜合問(wèn)答、文本寫(xiě)作三項(xiàng)均進(jìn)入前三,并在文本寫(xiě)作評(píng)測(cè)中榮獲桂冠。

image.png

智能體能力評(píng)測(cè)中,山海大模型同樣不負(fù)眾望,以3.44分排名全球第七、國(guó)內(nèi)第五。尤其是在網(wǎng)絡(luò)購(gòu)物評(píng)測(cè)中,其得分遠(yuǎn)超70,位列全球第二,彰顯出其在智能體應(yīng)用方面的顯著優(yōu)勢(shì)。

安全和價(jià)值觀能力評(píng)測(cè)方面,山海大模型3.0以89.4分的高分位居全球第二。在倫理道德、攻擊冒犯、身體健康、隱私財(cái)產(chǎn)等關(guān)鍵評(píng)測(cè)項(xiàng)中,它均表現(xiàn)出色,位列前三,并在身體健康和隱私財(cái)產(chǎn)評(píng)測(cè)中奪得榜首,充分體現(xiàn)了其在保障用戶安全和維護(hù)正確價(jià)值觀方面的堅(jiān)定承諾。

image.png

自2023年5月問(wèn)世以來(lái),山海大模型已在多個(gè)權(quán)威評(píng)測(cè)中屢獲殊榮,包括OpenCompass大模型評(píng)測(cè)、SuperCLUE中文大模型基準(zhǔn)測(cè)評(píng)、MedBench評(píng)測(cè)、Flageval大模型評(píng)測(cè)等多個(gè)權(quán)威評(píng)測(cè),充分展現(xiàn)其業(yè)界領(lǐng)先的通用能力和行業(yè)大模型實(shí)力。此次SuperBench評(píng)測(cè)再次印證了山海大模型的綜合實(shí)力和技術(shù)創(chuàng)新能力。

未來(lái),山海大模型將繼續(xù)深耕智慧醫(yī)療、智慧座艙、智慧交通、智慧營(yíng)銷等多個(gè)領(lǐng)域,推動(dòng)大模型技術(shù)的創(chuàng)新發(fā)展和產(chǎn)業(yè)升級(jí),為各行各業(yè)帶來(lái)更加高效、智能的解決方案!