今天是  
首页 走进科å 科学知识 ç§‘å­¦æ™®åŠ å­¦ä¼šå­¦æœ¯ 组织建设 通知公告 下载专区 专题特区  
çµå·åŽ¿ 全州县 兴安县 æ°¸ç¦åŽ¿ 阳朔县 çŒé˜³åŽ¿ 龙胜县 资æºåŽ¿ å¹³ä¹åŽ¿ è”æµ¦å¸‚ æ­åŸŽåŽ¿ 象山区 秀峰区 å å½©åŒº 七星区 é›å±±åŒº 临桂区
滚动公告:
科学知识
首页  ã€‹   科学知识   ã€‹   科学知识
 
AIå‚加高考,为何å科严é‡

大模型å‚加高考,能考多少分?近日,科技创新交æµå¹³å°æžå®¢å…¬å›­å‘布高考新课标Ⅰå·å¤§æ¨¡åž‹è¯„测报告,在å‚试大模型中,GPT-4o以562分的æˆç»©æŽ’åæ–‡ç§‘第一。å‚加评测的8款国产大模型中,字节跳动旗下的豆包æˆç»©æ˜¯542.5分,其åŽä¾æ¬¡æ˜¯ç™¾åº¦æ–‡å¿ƒä¸€è¨€4.0çš„537.5åˆ†å’Œç™¾å·æ™ºèƒ½“百å°åº””çš„521分。本次大模型高考评测与河å—çœè€ƒå·å®Œå…¨ç›¸åŒï¼Œä»¥ä¸Š3款国产大模型å‡è¶…è¿‡æ²³å—æ–‡ç§‘一本线521分。GPT-4oçš„562åˆ†åœ¨æ²³å—æ–‡ç§‘è€ƒç”Ÿä¸­å¯æŽ’å8811å,相当于å‰2.45%;豆包处于å‰4.27%,接近顶尖大模型的水平。

文综评测中,GPT-4o获237分,优于多数人类考生。国产大模型中,豆包文综æˆç»©æœ€é«˜ï¼Œå¾—分224.5分,其中历å²è¾¾åˆ°82.5分,在所有9款大模型中排第一。地ç†è€ƒå·æœ‰å¤§é‡å›¾ç‰‡è€ƒé¢˜ï¼Œå›¾åƒç†è§£èƒ½åŠ›è¾ƒå¼ºçš„GPT-4o得到最高分,但仅有68分。

语文ã€è‹±è¯­è¯„测中,多家大模型在客观题上拿满分。但写作文是弱项。多次å‚加全国高考语文阅å·çš„åŒ—äº¬å¸‚çº§éª¨å¹²æ•™å¸ˆã€æ€€æŸ”区语文学科带头人å¤è€å¸ˆæ˜¯æœ¬æ¬¡è¯„测的作文阅å·äººã€‚她认为,“AI作文有清晰完整的结构,有逻辑性,语言通顺æµç•…ï¼Œä½†ç¼ºä¹æ„Ÿæƒ…和感染力”。åŒç†ï¼Œåœ¨40åˆ†çš„è‹±è¯­å†™ä½œè€ƒè¯•ä¸­ï¼Œå¤§æ¨¡åž‹çš„æœ€é«˜åˆ†åªæœ‰29分,主è¦ä¸¢åˆ†åœ¨è¡¨è¾¾ç©ºæ³›ã€ç¼ºå°‘细节上。

值得注æ„的是,大模型高考呈现出严é‡çš„å科现象:数学ã€ç‰©ç†ã€åŒ–学等数ç†å­¦ç§‘全线ä¸åŠæ ¼ï¼Œæ€»åˆ†æœ€é«˜åˆ†ä¸åˆ°480。而河å—ç†ç§‘一本线是511分。最顶尖的大模型无法进入ç†ç§‘考生的å‰30%。

数学评测中,仅GPT-4oã€æ–‡å¿ƒä¸€è¨€4.0和豆包获得60分以上æˆç»©ï¼ˆæ»¡åˆ†150分)。大模型能准确è¿ç”¨æ±‚导公å¼å’Œä¸‰è§’函数定ç†ï¼Œä½†é¢å¯¹è¾ƒä¸ºå¤æ‚çš„æŽ¨å¯¼å’Œè¯æ˜Žé—®é¢˜å°±å¾ˆéš¾å¾—åˆ†ã€‚ç‰©ç†æœ‰ä¸€é“é€åˆ†çš„选择题,人类考生根殓时间ä¸ä¼šå€’æµ”å¯ä»¥è½»æ˜“选对答案,大模型则全军覆没。

“ç›®å‰çš„大语言模型本质上是文字接龙,基于海é‡èµ„料,预测下一个最å¯èƒ½å‡ºçŽ°çš„è¯å¥ã€‚é€šè¿‡ä¸æ–­é¢„测,生æˆè¿žè´¯å’Œå®Œæ•´çš„æ–‡æœ¬ã€‚应对文科考试,大模型的用è¯ä¸å‡†æˆ–用了近义è¯ï¼Œä¸å¤ªå½±å“评分。但ç†ç§‘考试考验推ç†å’Œè®¡ç®—,比如一é“题有五步推ç†ï¼Œå¤§æ¨¡åž‹èµ°å一步,答案就全错。而且大模型的训练数æ®ä¸­ï¼Œæ–‡ç§‘语料è¦è¿œè¿œå¤§äºŽç†ç§‘语料。”国内一ä½å¤§æ¨¡åž‹ç ”å‘专家告诉科技日报记者。

近期,有一些国内外大模型在奥数题评测(éžå¥¥æ•°çŽ°åœºæ¯”èµ›ï¼‰ä¸Šæ‹¿åˆ°ä¸é”™çš„æˆç»©ã€‚å¯¹æ­¤ï¼Œè¯¥ä¸“å®¶è§£é‡Šï¼Œç”¨å¤§å®¶éƒ½è®­ç»ƒè¿‡çš„å…¬å¼€æ•°æ®é›†è¯„测,大模型的准确率很高;但用比较新的数æ®é›†åŽ»æµ‹è¯•ï¼Œå‡†ç¡®çŽ‡å°±å¤§å¤§ä¸‹é™ã€‚最新的高考题是哪家大模型都没有训练过的,考验的是数学推ç†å’Œè®¡ç®—的泛化能力,这就暴露了大模型的短æ¿ã€‚

北京大学计算语言学研究所教授穗志方近日也表示,大模型在中国高考ã€å…¬åŠ¡å‘˜è€ƒè¯•å’Œç¾Žå›½SAT考试等标准化考试中的表现是优劣兼具的。一些大模型在SATæ•°å­¦æµ‹è¯•ä¸­è¡¨çŽ°ä¼˜å¼‚ï¼Œä½†åœ¨å¤æ‚æŽ¨ç†æˆ–特定知识领域中的表现ä¸å¤Ÿå‡ºè‰²ã€‚

“åœ¨å¤§æ¨¡åž‹å†…åœ¨æœºç†æ²¡æœ‰æŽ¢ç©¶æ¸…楚的情况下,我们目å‰çš„评测路径åªèƒ½ä¾é ä»Žå¤–éƒ¨è¡¨çŽ°æ¥æŽ¨æµ‹å†…åœ¨èƒ½åŠ›ã€‚”穗志方说,未æ¥åº”å‘å±•æ›´ç³»ç»Ÿçš„è¯„æµ‹å¤§çº²ã€æ›´å…·æŒ‘æˆ˜çš„è¯„æµ‹ä»»åŠ¡ã€æ›´ç§‘学的评测方法。AIæ˜¯å¦æ¯”人类更适åˆè€ƒè¯•?尚未å¯å®šè®ºã€‚(æ¥æºï¼šç§‘技日报)

å·²æµè§ˆ512次  å‘布日期: 2024-7-5 12:43:55  å‘布:admin
ç§‘å简介  |  站点地图  |  éšç§è¯´æ˜Žã€€ |  版æƒå£°æ˜Ž
桂林市科学技术å会主办
地å€ï¼šæ¡‚林市临桂区é’莲路8å·æŠ•èµ„å‘å±•å•†åŠ¡å¤§åŽ¦å—æ¥¼25层
 邮编:541199 电è¯ï¼š07732822009  传真:07732801095  
ç‰ˆæƒæ‰€æœ‰ © 桂林市科学技术å会 æ¡‚ICP备12001458å·
关闭