大模型å‚åŠ é«˜è€ƒï¼Œèƒ½è€ƒå¤šå°‘åˆ†ï¼Ÿè¿‘æ—¥ï¼Œç§‘æŠ€åˆ›æ–°äº¤æµå¹³å°æžå®¢å…¬å›å‘å¸ƒé«˜è€ƒæ–°è¯¾æ ‡â… å·å¤§æ¨¡åž‹è¯„测报告,在å‚试大模型ä¸ï¼ŒGPT-4o以562分的æˆç»©æŽ’åæ–‡ç§‘第一。å‚åŠ è¯„æµ‹çš„8款国产大模型ä¸ï¼Œå—节跳动旗下的豆包æˆç»©æ˜¯542.5分,其åŽä¾æ¬¡æ˜¯ç™¾åº¦æ–‡å¿ƒä¸€è¨€4.0çš„537.5åˆ†å’Œç™¾å·æ™ºèƒ½“百å°åº””çš„521分。本次大模型高考评测与河å—çœè€ƒå·å®Œå…¨ç›¸åŒï¼Œä»¥ä¸Š3款国产大模型å‡è¶…è¿‡æ²³å—æ–‡ç§‘一本线521分。GPT-4oçš„562åˆ†åœ¨æ²³å—æ–‡ç§‘考生ä¸å¯æŽ’å8811å,相当于å‰2.45%;豆包处于å‰4.27%,接近顶尖大模型的水平。
文综评测ä¸ï¼ŒGPT-4o获237分,优于多数人类考生。国产大模型ä¸ï¼Œè±†åŒ…文综æˆç»©æœ€é«˜ï¼Œå¾—分224.5分,其ä¸åކå²è¾¾åˆ°82.5分,在所有9æ¬¾å¤§æ¨¡åž‹ä¸æŽ’ç¬¬ä¸€ã€‚åœ°ç†è€ƒå·æœ‰å¤§é‡å›¾ç‰‡è€ƒé¢˜ï¼Œå›¾åƒç†è§£èƒ½åŠ›è¾ƒå¼ºçš„GPT-4o得到最高分,但仅有68分。
è¯æ–‡ã€è‹±è¯è¯„测ä¸ï¼Œå¤šå®¶å¤§æ¨¡åž‹åœ¨å®¢è§‚题上拿满分。但写作文是弱项。多次å‚åŠ å…¨å›½é«˜è€ƒè¯æ–‡é˜…å·çš„åŒ—äº¬å¸‚çº§éª¨å¹²æ•™å¸ˆã€æ€€æŸ”åŒºè¯æ–‡å¦ç§‘带头人å¤è€å¸ˆæ˜¯æœ¬æ¬¡è¯„测的作文阅å·äººã€‚她认为,“AI作文有清晰完整的结构,有逻辑性,è¯è¨€é€šé¡ºæµç•…ï¼Œä½†ç¼ºä¹æ„Ÿæƒ…和感染力”。åŒç†ï¼Œåœ¨40分的英è¯å†™ä½œè€ƒè¯•ä¸ï¼Œå¤§æ¨¡åž‹çš„æœ€é«˜åˆ†åªæœ‰29分,主è¦ä¸¢åˆ†åœ¨è¡¨è¾¾ç©ºæ³›ã€ç¼ºå°‘细节上。
值得注æ„的是,大模型高考呈现出严é‡çš„å科现象:数å¦ã€ç‰©ç†ã€åŒ–å¦ç‰æ•°ç†å¦ç§‘全线ä¸åŠæ ¼ï¼Œæ€»åˆ†æœ€é«˜åˆ†ä¸åˆ°480。而河å—ç†ç§‘一本线是511åˆ†ã€‚æœ€é¡¶å°–çš„å¤§æ¨¡åž‹æ— æ³•è¿›å…¥ç†ç§‘考生的å‰30%。
æ•°å¦è¯„测ä¸ï¼Œä»…GPT-4oã€æ–‡å¿ƒä¸€è¨€4.0和豆包获得60分以上æˆç»©ï¼ˆæ»¡åˆ†150分)。大模型能准确è¿ç”¨æ±‚导公å¼å’Œä¸‰è§’函数定ç†ï¼Œä½†é¢å¯¹è¾ƒä¸ºå¤æ‚çš„æŽ¨å¯¼å’Œè¯æ˜Žé—®é¢˜å°±å¾ˆéš¾å¾—åˆ†ã€‚ç‰©ç†æœ‰ä¸€é“é€åˆ†çš„é€‰æ‹©é¢˜ï¼Œäººç±»è€ƒç”Ÿæ ¹æ®“æ—¶é—´ä¸ä¼šå€’æµ”å¯ä»¥è½»æ˜“é€‰å¯¹ç”æ¡ˆï¼Œå¤§æ¨¡åž‹åˆ™å…¨å†›è¦†æ²¡ã€‚
“ç›®å‰çš„大è¯è¨€æ¨¡åž‹æœ¬è´¨ä¸Šæ˜¯æ–‡å—接龙,基于海é‡èµ„料,预测下一个最å¯èƒ½å‡ºçŽ°çš„è¯å¥ã€‚é€šè¿‡ä¸æ–预测,生æˆè¿žè´¯å’Œå®Œæ•´çš„æ–‡æœ¬ã€‚应对文科考试,大模型的用è¯ä¸å‡†æˆ–用了近义è¯ï¼Œä¸å¤ªå½±å“评分。但ç†ç§‘考试考验推ç†å’Œè®¡ç®—,比如一é“é¢˜æœ‰äº”æ¥æŽ¨ç†ï¼Œå¤§æ¨¡åž‹èµ°å一æ¥ï¼Œç”案就全错。而且大模型的è®ç»ƒæ•°æ®ä¸ï¼Œæ–‡ç§‘è¯æ–™è¦è¿œè¿œå¤§äºŽç†ç§‘è¯æ–™ã€‚”国内一ä½å¤§æ¨¡åž‹ç ”å‘专家告诉科技日报记者。
近期,有一些国内外大模型在奥数题评测(éžå¥¥æ•°çŽ°åœºæ¯”èµ›ï¼‰ä¸Šæ‹¿åˆ°ä¸é”™çš„æˆç»©ã€‚å¯¹æ¤ï¼Œè¯¥ä¸“家解释,用大家都è®ç»ƒè¿‡çš„公开数æ®é›†è¯„测,大模型的准确率很高;但用比较新的数æ®é›†åŽ»æµ‹è¯•ï¼Œå‡†ç¡®çŽ‡å°±å¤§å¤§ä¸‹é™ã€‚最新的高考题是哪家大模型都没有è®ç»ƒè¿‡çš„ï¼Œè€ƒéªŒçš„æ˜¯æ•°å¦æŽ¨ç†å’Œè®¡ç®—çš„æ³›åŒ–èƒ½åŠ›ï¼Œè¿™å°±æš´éœ²äº†å¤§æ¨¡åž‹çš„çŸæ¿ã€‚
北京大å¦è®¡ç®—è¯è¨€å¦ç ”究所教授穗志方近日也表示,大模型在ä¸å›½é«˜è€ƒã€å…¬åŠ¡å‘˜è€ƒè¯•å’Œç¾Žå›½SATè€ƒè¯•ç‰æ ‡å‡†åŒ–考试ä¸çš„表现是优劣兼具的。一些大模型在SATæ•°å¦æµ‹è¯•ä¸è¡¨çŽ°ä¼˜å¼‚ï¼Œä½†åœ¨å¤æ‚æŽ¨ç†æˆ–特定知识领域ä¸çš„表现ä¸å¤Ÿå‡ºè‰²ã€‚
“åœ¨å¤§æ¨¡åž‹å†…åœ¨æœºç†æ²¡æœ‰æŽ¢ç©¶æ¸…楚的情况下,我们目å‰çš„评测路径åªèƒ½ä¾é ä»Žå¤–éƒ¨è¡¨çŽ°æ¥æŽ¨æµ‹å†…åœ¨èƒ½åŠ›ã€‚”穗志方说,未æ¥åº”å‘å±•æ›´ç³»ç»Ÿçš„è¯„æµ‹å¤§çº²ã€æ›´å…·æŒ‘æˆ˜çš„è¯„æµ‹ä»»åŠ¡ã€æ›´ç§‘å¦çš„评测方法。AIæ˜¯å¦æ¯”人类更适åˆè€ƒè¯•?尚未å¯å®šè®ºã€‚(æ¥æºï¼šç§‘技日报)
|