激情国产一区二区,亚洲激情男女视频,欧美日韩国产高清一区二区,欧美午夜影院一区

昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試

2024-11-27 10:46:19來源:今日熱點網(wǎng)

今天,昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

Skywork o1是由昆侖萬維集團發(fā)布的具有慢思考推理能力的系列模型。這是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復(fù)現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準測試集上成為生態(tài)位SOTA。

此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強的專用版本:

1,Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態(tài)位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復(fù)雜數(shù)學(xué)任務(wù)。該模型的發(fā)布也將幫助加速國內(nèi)開源社區(qū)復(fù)現(xiàn)o1的進程。

2,Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數(shù)學(xué)、中文邏輯和推理類問題上表現(xiàn)突出。

3,Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質(zhì)量的推理。

其中,我們開源的Skywork o1 Open,在各項數(shù)學(xué)和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數(shù)學(xué)推理任務(wù)(如24點計算)。這也為推理模型在輕量級設(shè)備上部署提供了可能性。

同時,我們也將開源兩個推理任務(wù)的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社區(qū)現(xiàn)有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區(qū)8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務(wù)的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎(chǔ)模型,使用不同PRM在數(shù)學(xué)和代碼評測集上的評估結(jié)果。

除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務(wù)進行專門優(yōu)化,故不進行代碼任務(wù)的相關(guān)對比。

詳細技術(shù)報告也將在不久后發(fā)布。目前模型和相關(guān)介紹在Huggingface開源(開源地址:https://tinyurl.com/skywork-o1

強推理以及自我反思的能力是如何練成的?

Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案:

1,推理反思能力訓(xùn)練:通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。,

2,推理能力強化學(xué)習(xí):團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強化算法進一步加強模型推理和思考能力。

3,推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。

關(guān)于天工 Q*算法,更多詳情可見:https://arxiv.org/abs/2406.14283

亮點功能與實測

Skywork o1模型具有以下能力和亮點功能:

1,模型思考和規(guī)劃能力

2,模型自我反思能力

3,模型自我驗證能力

相較于此前(長文本任務(wù))大模型,無論是常識推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉(zhuǎn)彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復(fù)雜問題分析、思考反思過程、輸出答案質(zhì)量上均有大幅提升。

首先,我們拿一道「2024年全國碩士研究生入學(xué)統(tǒng)一考試數(shù)學(xué)(一)試題」考考它(如下圖所示),測試一下它的“智力水平”。

面對難度不小的最新考研數(shù)學(xué)題,Skywork o1 Preview盡管花費了一些時間,但還是一步步推理出了正確結(jié)果。

那么,之前大模型經(jīng)常翻車的比大小問題,Skywork o1現(xiàn)在的回答水平如何了?

從它的思考過程可以看出,Skywork o1的模型思考和規(guī)劃能力大幅提升。這個解題邏輯非常像人類的思考方法了,“如果整數(shù)部分相同,那么就要開始比較小數(shù)部分了”。通過嚴謹?shù)耐评磉^程,準確得出8.8大于8.11,且多給出了一步差值計算。

此外,模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,還可以給出后續(xù)對話建議。

盡管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉(zhuǎn)換為中文”,它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力,它主動發(fā)現(xiàn)了“西詩”是不對的說法,而是“西施”。

同樣的,對于之前的大模型來說,“算24點”的游戲很容易把模型搞崩潰了,但是對于Skywork o1來說,可謂是小菜一碟。它不僅給出了正確答案,重點是它在過程中進行了「自我驗證」。它在計算過后,又檢查了一遍,確認過程和答案全部符合命題要求,才給出最終答案。

除了上述給出的數(shù)學(xué)推理、比大小、中文邏輯以及24點計算的任務(wù)外,Skywork o1在其他復(fù)雜的場景也有較好表現(xiàn):

競賽數(shù)學(xué):Skywork o1拿到2024 AIME第一題(如下圖所示),也從容應(yīng)對。計算邏輯清晰、公式展示流暢,計算時長也明顯具有優(yōu)勢。

密碼解密:在復(fù)雜密碼解密任務(wù)中,Skywork o1擁有強大的自我探索和推理能力。

在已知「原文→密文」的前提下,經(jīng)過一系列復(fù)雜推理后成功給出答案(如下圖所示)。

如果反過來呢?已知一段「密文→原文」,能否找出新密文所對應(yīng)的原文。Skywork o1表示小菜一碟。

智力問答:在復(fù)雜的中文推理問題上,Skywork o1表現(xiàn)優(yōu)異,并給出了完整的思考鏈路。

最后,再讓我們再給他出一些有趣的“弱智”問題,來看看它的回答是不是合理。

1,為什么我爸媽結(jié)婚的時候沒邀請我參加婚禮?

2,被門夾過的核桃,還能補腦嗎?

3,午餐肉,我可以晚上吃嗎?

令人驚喜的是,Skywork o1不但沒有被問題繞進去,還分析的頭頭是道,甚至透露出“大智慧”,引申出了一些更底層的思考。

進階版的復(fù)雜人類思考能力的解鎖也將進一步在垂類領(lǐng)域增強大模型的應(yīng)用,例如:

1,中英文常見邏輯推理和復(fù)雜任務(wù),如數(shù)學(xué)/代碼類任務(wù),科學(xué)研究

2,高質(zhì)量內(nèi)容生成,如創(chuàng)意寫作,行業(yè)報告寫作

3,深度搜索,解鎖復(fù)雜搜索任務(wù)的拆解

2024年以來,昆侖萬維天工AI持續(xù)進化,陸續(xù)發(fā)布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式發(fā)布的「天工大模型4.0」 o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措,更是我們構(gòu)建AI技術(shù)棧的重要一步。我們將秉持“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。

免責(zé)聲明:市場有風(fēng)險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞:

責(zé)任編輯:孫知兵

免責(zé)聲明:本文僅代表作者個人觀點,與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
如有問題,請聯(lián)系我們!

關(guān)于我們 - 聯(lián)系方式 - 版權(quán)聲明 - 招聘信息 - 友鏈交換 - 網(wǎng)站統(tǒng)計
 

太平洋財富主辦 版權(quán)所有:太平洋財富網(wǎng)

?中國互聯(lián)網(wǎng)違法和不良信息舉報中心中國互聯(lián)網(wǎng)違法和不良信息舉報中心

Copyright© 2012-2020 太平洋財富網(wǎng)(m.8899ip.com) All rights reserved.

未經(jīng)過本站允許 請勿將本站內(nèi)容傳播或復(fù)制 業(yè)務(wù)QQ:3 31 986 683

 

激情国产一区二区,亚洲激情男女视频,欧美日韩国产高清一区二区,欧美午夜影院一区
亚洲第一页自拍| 欧美二区不卡| 欧美精品一区二区三区高清aⅴ| 尤物精品在线| 国产精品美女主播| 欧美一站二站| 亚洲丁香婷深爱综合| 国产美女高潮久久白浆| 久久国产精彩视频| 亚洲国产成人午夜在线一区| 国产精品日韩一区| 久久青青草综合| 亚洲精品美女免费| 亚洲第一综合天堂另类专| 欧美精品成人一区二区在线观看 | 国产精品国产三级国产aⅴ浪潮| 亚洲天堂第二页| 国产综合亚洲精品一区二| 国产精品久久久999| 久久久久久久97| 日韩一区二区精品| 在线观看视频一区| 欧美日韩国产精品一区| 欧美国产先锋| 亚洲欧美日本国产专区一区| 黄色资源网久久资源365| 国产精品羞羞答答| 欧美成人免费全部| 久久天堂精品| 一区二区三区免费网站| 国产午夜精品在线| 国产精品私房写真福利视频| 麻豆成人在线观看| 久久一区欧美| 亚洲欧美国产不卡| 亚洲高清毛片| 亚洲欧洲另类| 国产日韩成人精品| 国产农村妇女毛片精品久久麻豆 | 国产日本欧美一区二区三区| 麻豆精品在线播放| 老巨人导航500精品| 亚洲午夜精品17c| 一区视频在线看| 影音先锋久久久| 国产精品色婷婷| 国产精品尤物| 欧美伦理在线观看| 欧美日韩一区二区三区免费看| 久久成人精品无人区| 一区二区三区国产精品| 亚洲神马久久| 亚洲黄色免费网站| 亚洲人成精品久久久久| 国产亚洲欧美日韩美女| 国产一区成人| 国产精品老牛| 国产亚洲欧美另类中文| 国产精品黄色在线观看| 国产精品综合色区在线观看| 欧美伦理a级免费电影| 欧美日韩免费观看一区=区三区| 久久久久**毛片大全| 久久性天堂网| 欧美资源在线| 久久午夜电影| 久久成人免费日本黄色| 老司机精品视频网站| 久久国内精品视频| 免费成人毛片| 久久男人资源视频| 欧美精品乱人伦久久久久久| 久久在线视频| 欧美国产高清| 免费成人毛片| 欧美日韩国产色站一区二区三区| 噜噜噜噜噜久久久久久91| 欧美日韩国产专区| 欧美精品一区二区三区视频| 国产精品扒开腿做爽爽爽软件| 欧美精品播放| 国产精品视频自拍| 国产精品欧美久久久久无广告| 国产一区二区中文| 国产一区二区三区在线免费观看| 亚洲第一中文字幕在线观看| 一区二区在线观看视频在线观看| 亚洲日本成人在线观看| 亚洲国产美国国产综合一区二区| 日韩一区二区福利| 亚洲精品在线电影| 欧美一区二区三区视频免费播放| 久久综合五月| 麻豆成人在线播放| 国产精品成人一区二区艾草| 欧美日韩一卡| 一区视频在线看| 亚洲第一区在线观看| 亚洲网站视频福利| 久久亚裔精品欧美| 女人天堂亚洲aⅴ在线观看| 欧美视频日韩视频在线观看| 欧美色欧美亚洲另类二区 | 亚洲狼人综合| 亚洲欧美国产精品va在线观看| 久久综合久久综合这里只有精品| 久久久久久久网| 欧美性猛交xxxx乱大交退制版| 欧美午夜精品久久久| 黑丝一区二区| 亚洲国产另类 国产精品国产免费| 亚洲午夜精品一区二区| 老妇喷水一区二区三区| 女同性一区二区三区人了人一 | 亚洲自拍偷拍福利| 美女脱光内衣内裤视频久久影院| 免费亚洲一区二区| 国产日韩欧美不卡在线| 狠狠色噜噜狠狠色综合久| 亚洲性xxxx| 牛牛影视久久网| 欧美视频导航| 91久久中文| 久久视频在线看| 欧美日韩成人在线视频| 亚洲承认在线| 一本色道久久综合亚洲精品不卡| 久久深夜福利免费观看| 国产精品普通话对白| 国产在线日韩| 亚洲欧美亚洲| 欧美视频一区二区三区| 国产日韩欧美另类| 亚洲自拍三区| 欧美四级在线观看| 国内成人精品视频| 香蕉av777xxx色综合一区| 欧美亚洲第一区| 好吊妞这里只有精品| 午夜在线成人av| 国产精品久久久久久久午夜片| 国产综合香蕉五月婷在线| 香蕉久久夜色精品| 国产精品国产三级国产普通话三级 | 在线日韩av永久免费观看| 午夜在线播放视频欧美| 国产精品九色蝌蚪自拍| 国产一区二区三区黄视频| 亚洲免费在线| 国产精品久久久久秋霞鲁丝| 激情一区二区三区| 久久xxxx精品视频| 国产午夜精品在线观看| 亚洲精品一区二区网址| 欧美精品啪啪| 亚洲美女电影在线| 欧美国产成人精品| 国产人久久人人人人爽| 午夜欧美精品久久久久久久| 国产精品久久久久久五月尺| 亚洲成人在线视频播放| 久久婷婷人人澡人人喊人人爽| 国语精品一区| 久久亚洲高清| 国产精品区二区三区日本| 亚洲免费伊人电影在线观看av| 国产精品久久久久久久久免费| 1000部国产精品成人观看| 开元免费观看欧美电视剧网站| 在线观看视频亚洲| 欧美电影在线| 国产在线一区二区三区四区| 久久久久久久欧美精品| 在线免费观看一区二区三区| 老鸭窝毛片一区二区三区| 国产老肥熟一区二区三区| 欧美在线视频观看| 在线观看视频一区| 欧美成人午夜影院| 黄色一区二区三区| 欧美成人有码| 99国产精品久久久久久久| 欧美日韩在线观看一区二区三区| 永久免费毛片在线播放不卡| 免费精品视频| 日韩午夜av在线| 国产精品毛片高清在线完整版| 亚洲精品久久久久久久久| 欧美三级电影网| 亚洲欧美日韩天堂一区二区| 国产亚洲一级高清| 欧美www视频| 黄色一区二区在线观看| 欧美激情久久久| 亚洲午夜高清视频| 国内精品一区二区| 免费在线观看精品| 在线观看亚洲精品视频| 欧美激情无毛| 香蕉精品999视频一区二区 |