当前位置首页 > 初中物理 > 综合其它

北京市2022高考语文、数学、英语、生物的考试题

更新时间:2024-03-14 文章作者:佚名 信息来源:网络整理 阅读次数:

GPT-4进入北京2022年高考考点时会有怎样的表现?PSj物理好资源网(原物理ok网)

石头再冷,坐三年就会暖和起来。PSj物理好资源网(原物理ok网)

GPT-4是最近流行的一种大规模语言模型,可以在多个任务上达到人类水平的性能。 在最新发布的技术报告中,GPT-4在GRE中文考试等考试类测试中表现出色,取得了169分(满分170分)的成绩。 但如果说考试,从考试的范围来说,那就非高考莫属了。 问题是,如果2022年北京高考采用GPT-4,结果会如何? 本文将帮助您进行此测试。 我们对2022年北京高考语文、数学、英语、物理、化学、生物、历史、生物的试题进行了汇总,力求把主观题和客观题全部考虑进去。 这篇文章和现有的高考评价不同的是,以前大家只关注选择题。 在这次评估中,我们特意纳入了非选择题。 同时,我们还针对一些大规模计算题(如物理计算题)逐句分析了GPT-4。 答案的过程而不是仅仅看答案。 另外,如果你答错了,还会被问到为什么GPT-4会这样回答。 我们之所以这样做,是因为我们试图从做高考题的角度来深入分析GPT-4的能力边界,希望对大模型有更全面的认识。PSj物理好资源网(原物理ok网)

1. 考试成绩PSj物理好资源网(原物理ok网)

话不多说,让我们直接看考试结果。 我们整理了2022年北京高考语文、数学、英语、物理、化学、生物的试题,包括所有主观题和客观题。 题及答案来自2022年高考真题|2022年高考真题答案|2022年高考真题答案解析--中国教育在线。 考试成绩如下:PSj物理好资源网(原物理ok网)

总分正确率PSj物理好资源网(原物理ok网)

中国人PSj物理好资源网(原物理ok网)

39PSj物理好资源网(原物理ok网)

30PSj物理好资源网(原物理ok网)

77%PSj物理好资源网(原物理ok网)

数学PSj物理好资源网(原物理ok网)

106PSj物理好资源网(原物理ok网)

38.9PSj物理好资源网(原物理ok网)

37%PSj物理好资源网(原物理ok网)

英语PSj物理好资源网(原物理ok网)

75PSj物理好资源网(原物理ok网)

73.5PSj物理好资源网(原物理ok网)

98%PSj物理好资源网(原物理ok网)

物理PSj物理好资源网(原物理ok网)

42PSj物理好资源网(原物理ok网)

25.5PSj物理好资源网(原物理ok网)

61%PSj物理好资源网(原物理ok网)

化学PSj物理好资源网(原物理ok网)

33%PSj物理好资源网(原物理ok网)

生物学PSj物理好资源网(原物理ok网)

22PSj物理好资源网(原物理ok网)

22PSj物理好资源网(原物理ok网)

100%PSj物理好资源网(原物理ok网)

政治PSj物理好资源网(原物理ok网)

42PSj物理好资源网(原物理ok网)

33PSj物理好资源网(原物理ok网)

79%PSj物理好资源网(原物理ok网)

历史PSj物理好资源网(原物理ok网)

39PSj物理好资源网(原物理ok网)

36PSj物理好资源网(原物理ok网)

92%PSj物理好资源网(原物理ok网)

地理PSj物理好资源网(原物理ok网)

(注:2022年北京地理考试测试中,所有题目均与图强相关,因此无法给出评价)PSj物理好资源网(原物理ok网)

以上分数未考虑英语听力听力测试(50分)以及卷子中大部分需要看图的题。 如果按照平均准确率粗略计算的话,大约是72%。 按总分750分计算,约为541分,比北京高考本科批次录取控制分(北京第一、二门合并入本科批次)高出116分。 幸运的是,我们不必担心填写 GPT-4 的申请。 本次评测只是为了让大家对GPT-4的能力有个直观的了解。 稍后我们会在评估过程中详细讲一下我们GPT-4的细分能力。 发现。PSj物理好资源网(原物理ok网)

2. 评估方法PSj物理好资源网(原物理ok网)

虽然考题有参考答案,但我们的评估过程仍然面临以下挑战:PSj物理好资源网(原物理ok网)

(1)图像的表示。 这个问题在科学和地理学领域尤为突出。 我们分三种情况来处理。 首先,最简单的情况下,图标的有无并不影响问题的理解,所以可以直接忽略。 其次,更复杂的是该图提供了额外的信息(例如物理学中的极板电荷的极性)。 我们将以括号辅助的形式将其添加到问题中,以帮助 GPT-4 理解。 前两种情况相对较少。 最困难、最常见的情况是,题目中包含难以用文字详细描述但对解决问题至关重要的图像(物理中的电路图、化学中的大化学公式、地理中的地图等),而我们只能跳过它们 本题不会使用统计数据。 (注:截至撰写之日,我们尚未获得GPT-4支持图像输入的方法)PSj物理好资源网(原物理ok网)

(2)计算符号的表示。 关于数学和物理中的公式,我们发现无论是使用文本输入(如t_0)还是乳胶输入(如t_0)并不影响对GPT-4的理解。 为了统一,我们尽可能使用latex来表达问题。 因此,所有考试题目均由作者手写公式输入。 如有遗漏,难免会采用文字输入。 不过我们测试过,这不会影响对GPT-4的理解。PSj物理好资源网(原物理ok网)

(3)非选择题的答案是不确定的。 这种情况涵盖了文科论文题和理科证明题。 由于很难给出令人信服的分数,因此我们不会在上面的统计表中给出分数。 不过,在后续的分析中,我们仍然会考虑这些问题,探索 GPT-4 的能力。PSj物理好资源网(原物理ok网)

3、知识存储PSj物理好资源网(原物理ok网)

大型语言模型通常都有常识积累,比如天空是蓝色的,足球是圆的。 但这里所关注的知识侧重于通过学习书本而不是体验生活可以获得的知识。 我们主要分两部分来考虑,文科知识,即中国古诗词、历史知识等,和科学规律,如牛顿物理定律、化学元素特性等。PSj物理好资源网(原物理ok网)

3.1 文科知识PSj物理好资源网(原物理ok网)

语文考试诗歌补充题中,有的诗歌填错了。 只有(3)是正确的,其他都是错误的。PSj物理好资源网(原物理ok网)

高考语文14题PSj物理好资源网(原物理ok网)

我们尝试从知识记忆和问题理解两个角度来理解出错的原因。 首先,经过测试,发现GPT-4的知识储备还是很强的。 以问题(1)为例,如果我们重新打开窗口,分别询问中间的两联“锦瑟”,我们会得到正确的答复:PSj物理好资源网(原物理ok网)

测试“锦瑟”PSj物理好资源网(原物理ok网)

即使我们将这个范围扩展到其他教科书文章,我们也能收到正确的回应。 以朱自清的散文《背影》为例。 第一句是“两年多没见到父亲了,最忘不了的是他的背影”。 GPT-4 回复:PSj物理好资源网(原物理ok网)

测试“后视图”PSj物理好资源网(原物理ok网)

看起来记忆知识没有问题,但是做题时理解问题的要求可能有问题。 于是,我们降低了题目难度,直接将题改为“帮我把下面空白处的诗词填一下。”(一)《锦瑟》中间两联:“庄生晓梦痴迷蝶” ,帝王春心由杜鹃支撑。 ,. “经过多次测试,发现GPT-4还是很难答对,总是很容易填入其他诗歌中的句子。然而,在GPT-3.5的测试中,虽然原来的问题很容易答错,使用上面提到的简化方法,问题可以快速对应到正确答案,那么GPT-4这里的考虑就有点混乱了。PSj物理好资源网(原物理ok网)

对于其他科目,这里举简单的例子,比如政考中的“基本认识”,比如“全面建设小康社会是改革开放以来党的一切理论和实践的主题” “上”是正确的,“取得的历史性成就表明我国已进入社会主义高级阶段”是错误的;历史考查中,对史料中涉及的历史事件按时间顺序的正确排列中物理试题,表明记忆历史事实也是正确的。PSj物理好资源网(原物理ok网)

3.2 科学定律PSj物理好资源网(原物理ok网)

对于理科科目来说,需要记忆的主要包括公式、定理和基本概念。 公式和定理的特点是它们只包含很少的符号,但不能有任何错误,否则所有的计算都将毫无意义。 化学和生物的基本概念和文科的内容有些类似,需要死记硬背。 通过测试发现这些对于GPT-4来说都不是问题。 例如,数学考试中的基本数学公式:计算复数的模、圆到直线的距离; 物理考试中电场强度的计算公式; 生物学考试细菌是原核生物,其DNA分布在细胞质中,而不是在细胞核中;PSj物理好资源网(原物理ok网)

高考生物题1PSj物理好资源网(原物理ok网)

在化学考试的化学反应方程式中,将氯气通入硫化氢溶液中会产生黄色沉淀。 GPT-4可以清楚地描述反应生成的各种物质;PSj物理好资源网(原物理ok网)

高考化学第6题PSj物理好资源网(原物理ok网)

高考化学第六题答案PSj物理好资源网(原物理ok网)

具体例子这里就不一一列举了。PSj物理好资源网(原物理ok网)

4.阅读理解PSj物理好资源网(原物理ok网)

阅读理解本身就是大规模语言模型的强项。 例如,它已经可以根据人类指令完成特定任务中物理试题,例如机器翻译、情感分类等。但是,在高考背景下,GPT-4 存在一些特殊的困难。 我们将在纯文本和符号类别中分别讨论它们。 首先,对于纯文本类别,我们所有的测试都是在全中文场景下进行测试,而GPT-4一般被认为英文表达能力最强,所以跨语言理解是一个潜在的问题,比如问题是否理解是否正确,尤其是在汉语考试中,对古文、古诗词的理解是否正确会影响GPT-4考试的准确性。 另外,对于符号问题,更直接的情况就是数学公式。 此外,还有化学表达式(如水H_2O的表达式)等,我们下面分别讨论。PSj物理好资源网(原物理ok网)

4.1 文本理解PSj物理好资源网(原物理ok网)

首先,我们可以看一下汉语的诗歌鉴赏话题。 诗歌语言所涉及的汉语理解能力要求远高于简单的理解题。 例如,高考语文诗词欣赏中,杜甫的《病柏》,第13题询问了本周诗词的主要意象是什么,并分别解释了这些意象的含义。PSj物理好资源网(原物理ok网)

《病柏》
有柏生崇冈,童童状车盖。
偃蹙龙虎姿,主当风云会。
神明依正直,故老多再拜。
岂知千年根,中路颜色坏。
出非不得地,蟠据亦高大。
岁寒忽无凭,日夜柯叶改。
丹凤领九雏,哀鸣翔其外。
鸱鸮志意满,养子穿穴内。
客从何乡来,伫立久吁怪。
静求元精理,浩荡⑥难倚赖。
PSj物理好资源网(原物理ok网)

参考答案没有固定形式,但提到了2个关键点:PSj物理好资源网(原物理ok网)

(1)意象包含病柏,丹凤和鸱鸮
(2)病柏由盛而衰的变化,象征了唐朝从强盛到衰落的沧桑巨变;丹凤哀鸣,象征正直之人被摈斥在外;
鸱鸮意满,象征了奸佞小人盘踞于朝中。诗人借助这些意象表达了对国运时局的忧虑。
PSj物理好资源网(原物理ok网)

将GPT-4与以上几点进行对比,我们首先可以看出GPT-4对每张图像都有比较准确的理解。 例如,柏树与世界上不可预测的事件有关。 但这个答案其实很难评分,因为关键点上有“时代背景”。 这是一个重要的内容。 GPT-4对文章的理解是基于诗人自身的经历,而不是他对国家命运和现状的情感。 从本质上来说,这道题似乎是一种答题技巧,可以通过多做题来培养。 总体来说,感觉古诗理解到这个程度就还可以了。PSj物理好资源网(原物理ok网)

高考语文第13题PSj物理好资源网(原物理ok网)

另外,在历史考试的一道题中,我们发现GPT-4有时对题意的理解存在问题。 例如:PSj物理好资源网(原物理ok网)

高考历史题7PSj物理好资源网(原物理ok网)

这道题的正确答案是B。其实GPT-4之所以答错这道题,是因为对这道题最后一句“this的意思是“中””这个词的理解。显然GPT-4是理解的正如清政府的做法,其实正确答案似乎是在问“英国的要求”是什么意思。PSj物理好资源网(原物理ok网)

纵观所有考试,GPT-4在理解语文题,甚至理解古文、诗词方面大体符合标准,但偶尔还是会出现一些理解偏差的问题。PSj物理好资源网(原物理ok网)

4.2 符号理解PSj物理好资源网(原物理ok网)

科学考试中经常出现符号表达,如化学中的数学公式、符号等。 对于数学考试,我们发现无论你使用文本输入符号还是乳胶输入,都不会影响对GPT-4的理解。 这其实也在我们的预料之中。 更有趣的是,化学符号对于GPT-4来说其实并不是问题。PSj物理好资源网(原物理ok网)

(1)化学表达式的理解。 之前的高考化学第六题涉及到各种物质溶液,如硫化氢(H_2S)溶液等,能够正确理解,同时根据下式可以推断出发生的反应方程式问题要求。 同时,一些特殊的写法也没有问题,比如_{38}Sr代表化学元素锶,38代表原子序数。PSj物理好资源网(原物理ok网)

(2)物理变量的理解。 物理试题中的变量通常采用数字加单位的形式,例如h_1=2.5m,其中m代表米而不是新变量。 在物理测试中,GPT-4仍然可以很好地处理这些问题。PSj物理好资源网(原物理ok网)

5.复杂的计算PSj物理好资源网(原物理ok网)

在处理科学问题时,GPT-4的回答方法遵循循序渐进的思维模式。 即会先将题意分解,然后根据理解表达公式,最后统一解决。 这个思路没有问题,但是我们发现GPT-4的解题思路可能是正确的,但是最终的答案是错误的。 主要原因是解方程能力还存在问题。PSj物理好资源网(原物理ok网)

(1)方程求解错误且难以修正。 这里我们还以高考物理测试第18题为例。 GPT-4 成功分析了问题的含义,并正确列出了方程 frac{d}{2} = frac{1}{2} cdot frac{qU}{md} cdot t_1^2,其中需要求解 对于 t_1 的表达式,正确答案是 t_1 = sqrt{frac{md^2}{qU}},但是 GPT-4 永远无法正确求解,即使它重新打开一个单独的窗口并生成答案多次,对于这个方程求解 t_1 仍然是错误的。 相反,同样的问题在GPT-3.5中可以正确解决。 这里确实值得讨论。 感觉GPT-4解方程的能力似乎有所下降。PSj物理好资源网(原物理ok网)

GPT-3.5 求解方程PSj物理好资源网(原物理ok网)

求解方程时出现 GPT-4 错误PSj物理好资源网(原物理ok网)

(2) 计算中存在笔误,可以更正。 同样,对于高考物理19题(3),GPT-4在初始公式上存在问题,导致整体计算错误。 有趣的是,你可以在问题后问“请检查你所做的过程是否正确”。 GPT-4可以及时纠正并给出正确答案。 与之前的情况不同,我们可以将其理解为“笔误”,可以通过及时检查来纠正。PSj物理好资源网(原物理ok网)

高考物理第十九题(3)问错列公式PSj物理好资源网(原物理ok网)

可以通过提示修改来纠正PSj物理好资源网(原物理ok网)

对于已经正确的答案,如果多次提示核对,正确答案基本不会被改正。PSj物理好资源网(原物理ok网)

6. 可探索的方向PSj物理好资源网(原物理ok网)

通过整体测试,我们大概对GPT-4的高考题有了比较全面的了解。 有人可能会问,我只是想要一个能回答标准答案的GPT-4。 有什么办法吗? 简单来说,可能有以下几种想法:PSj物理好资源网(原物理ok网)

(1)多做真题。 从古文答案中可以看出,GPT-4的理解能力到位,但作答技巧有所欠缺。 要解决这个问题,我们最简单的办法就是多做高考真题。 对于GPT-4来说,这个问题其实可以简化为高考问答场景中的模型微调问题。 我们的目标是让模型看到更多的示例问题和标准答案,并尽量使其回答与标准答案更加一致。PSj物理好资源网(原物理ok网)

(2)计算能力有待提高。 从物理题的答案来看,大多数情况下,GPT-4都能根据题意列出正确的表达式,但解方程的能力还有待加强。 对比GPT-3.5时,我们发现GPT-4的能力似乎有所下降。 然而,给定一个计算方程,它实际上可以作为一个独立的模块使用。 考虑连接到外部工具来执行将是一个更简单的解决方案。PSj物理好资源网(原物理ok网)

(3)报到时间。 从前面第5部分的经验来看,我们可以通过提示“请检查您正在做的过程是否正确”来敦促GPT-4进行检查,这可能会降低错误率。PSj物理好资源网(原物理ok网)

7. 工作的未来PSj物理好资源网(原物理ok网)

本文尽力给GPT-4一个完整的高考分数,但仍然无法避免以下局限性。 后续我们将继续完善整体评价流程。PSj物理好资源网(原物理ok网)

(1)缺乏插图。 虽然GPT-4号称可以输入图像,但截至目前,我们还没有找到可用的方法,所以我们只在文本输入的情况下进行了一轮评估。 如果我们能在不久的将来获得支持图像输入的GPT,-4测试资格将进一步提高当前的评估水平。PSj物理好资源网(原物理ok网)

(二)试题限制。 我们目前只评估北京2022年高考。 考虑到不同地区、不同年份的高考题有所不同,为了综合评价大语言模型的高考水平,我们计划增加不同年份、不同地区的高考题评价。 努力实现自动化、更全面的评估。PSj物理好资源网(原物理ok网)

八、总结PSj物理好资源网(原物理ok网)

我们总结了GPT-4在高考测试中的成绩,综合测量了GPT-4的常识记忆和推理能力。 我们发现:GPT-4在常识记忆和阅读理解方面表现良好,但在复杂计算方面存在一些缺陷。 。 具体来说,GPT-4可以很好地记忆文科知识和理科规则,并且在阅读理解方面表现良好。 英语考试几乎满分。 就连古文的阅读理解和科学符号的理解也基本正确。 不过我们也发现GPT-4存在问题,在推理考试中表现比较差,比如解方程。 综上所述,虽然GPT-4在很多方面表现良好,但我们也必须承认它存在一些缺陷,只有进一步了解它的边界,才会有助于整个社区的发展。PSj物理好资源网(原物理ok网)

发表评论

统计代码放这里