所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

论PISA测试结果的可靠性

什洛莫Yitzhaki*

哈大沙学院和希伯来大学,以色列

*通讯作者:
什洛莫Yitzhaki
哈大沙学院和希伯来大学,以色列
电子邮件: (电子邮件保护)

收到:11/01/2016接受:15/02/2016发表:29/02/2016

更多相关文章请访问研究与评论:社会科学杂雷竞技苹果下载志

摘要

知识是一个隐藏的变量,因此我们需要一个测试,以便根据受试者的知识水平对他们进行排名。考试是一系列难度不同的问题。测试结果构成了一个有序变量,因为人们不能像身高或体重那样定量地衡量知识。考试只是根据学生的知识水平对他们进行排名。根据参加某项国际考试的学生的平均成绩,对各国教育制度的成功程度进行排名,这是一种常见的做法。其中一个例子就是PISA测试,以色列在33个经合组织国家中排名第29位。对定量变量求平均是有效的,但对序数变量则不行,因为序数变量的项只能排序。由于序数变量可以排名,但不能平均,一些基于平均的排名是不可靠的,因为人们可以设计出另一种测试,用不同难度的问题来改变平均分数的排名。本文阐述了构成一种可能改变平均分数排名的替代测试的理论条件,并对以色列和其他经合组织国家之间所有可能的比较进行了这些案例的实证检验。调查结果表明,存在替代测试,可以改变以色列与经合组织一半成员国的平均分数排名。 This means that in exactly half the comparisons between the OECD countries and Israel, an alternative test exists that would alter the ranking. A further finding indicates that the greater the gap between the mean scores, the less likely one is to find an alternative test that would alter the ranking of the mean scores. The conclusion to be drawn is that one should attach less importance

关键字

排名,平均,发展,经合组织,理论条件

简介

国际学生评估项目(PISA)进行了一系列测试,将以色列的教育系统与其他国家的教育系统进行比较。这些测试由工业化国家组织(OECD)管理,面向发达国家的数百万名学童,耗资数百万美元。结果的公布得到广泛报道,并对参与测试的国家的决策者和公众舆论产生相当大的影响。

在这篇文章中,我试图检验与来自不同国家的学生从PISA测试中获得的平均分数排名相关的数据的影响程度,并确保最终排名的影响程度与测试的可靠性程度相对应。我们将设法确定是否存在与同一知识领域相关的替代测试,其结果改变了各国的平均分数排名。如果这样的测试确实存在,这意味着我们不应该那么重视PISA测试的结果,因为排名结果取决于测试的制定方式。通过试题难度的分布,出题者有意无意地决定了平均分的排名。另一方面,如果我们发现没有其他测试可以改变平均值的排名,那么我们可以肯定目前对PISA测试中平均分数排名的相当重要性和可靠性。我们应该强调,这不是一个统计显著性的问题,统计显著性解决的是随机错误对测试结果的影响。在本文中,我们假设如果我们重复相同的测试,我们将获得相同的结果,从而获得相同的平均分排名。人们不应该把“考试分数”这个变量当作是衡量一个人身高时的一个度量单位,比如厘米。这是因为,虽然改变考试中问题难度的分布并不会改变考生的排名,但它会改变分数本身和考生之间的分数距离,因此组中个体的平均分数也可能会发生变化。在本文的第一部分中,我们将解释,由于知识是一个隐藏变量,为了量化它,我们必须运行一个测试。 We then proceed to list the theoretical conditions necessary to compose an alternative test that would alter the ranking of the mean scores. The second section of the article will examine whether one can apply these conditions in the PISA test to Israel’s position on the ranking among OECD countries. This procedure is necessary since there may be theoretical conditions that do not exist in empirical reality.

1.测试的必要性和测试问题的难度对平均分数排名的影响

知识是一个隐藏的变量,因为它储存在主体的头脑中。检验学生知识水平的方法是通过考试。基本的假设是,考生的知识水平越高,他们正确回答问题的机会就越大。第二个假设是,题目越难,能答对的考生就越少。第三个假设是,回答一个问题有一个随机的组成部分,这取决于一些额外的因素,如考生的疲劳程度或警惕程度,他对问题类型的熟悉程度,等等。因此,如果我们要重复同样的考试,我们不应该期望在两种情况下发现考生正确回答的问题是相同的。然而,如果我们假设考生的知识水平不同,我们应该会发现,如果我们反复考察同一知识领域的科目,随机因素会减少,考生的排名会变得更加稳定。与身高或体重相反,知识不是一个可以根据给定的测量单位(如厘米或公斤)来测量的定量变量。考生正确回答问题的数量取决于所提问题的难易程度。一个问题的难度是由回答正确的人数比例来衡量的。 The variable of knowledge is therefore an ordinal variable, namely a variable that enables us to rank examinees according to the level of knowledge they demonstrate in the test. We are, however, unable to measure the distance between scores / examinees in given units of measurement. The score that an examinee achieves is an ordinal variable, since the number of correct answers depends on the distribution of the difficulty of the questions. As long as we rank examinees while taking into account that the variable is ordinal, no problem regarding the ranking arises. The problem arises when we employ ranking as if it were a quantitative variable. The rule that applies to ordinal variables may be articulated thus: If the distributions of the scores of two groups of examinees on a test within a certain field intersect, then we can always find an alternative test in the same field that would yield a ranking of mean scores in inverse relation to the ranking that emerged on the present test, provided that the two tests differ solely in the distribution of the difficulty of the questions. But if the cumulative distributions do not intersect, then we are unable to find an alternative test that would alter the ranking of the mean scores. We can prove this theorem mathematically, as demonstrated in several articles on economics, such as Schröder and Yitzhaki 2015 which replicate the propositions developed in financial literature and income distribution and apply them in the area of measurement in education1。在这里,我们只需要一个基于累积分布轴反转的简单演示就足够了,就像在“仪仗队”的情况下一样。虽然累积分布是一种统计概念,但每当一位受人尊敬的人物访问或离开这个国家时,电视上就会出现仪仗队。[1]。仪仗队是由仪仗队中站着的人排成一排,彼此之间保持相等的距离,按照身高排列。第一个位置由小组中最矮的人占据,第二个位置由小组中第二矮的人占据,在一行的末尾(或另一端的开始)站着小组中最高的人。为保证仪仗队不依赖于人数,确定仪仗队的长度使仪仗队与仪仗队之间的距离为1/N-1, N代表仪仗队人数2。这样做的实际结果是,我们将排名转换为“仪仗队”的百分比,而不是根据组成仪仗队的人数进行排名。上面描述的仪仗队是轴互换时的累积分布。换句话说,如果不是常规的仪仗队,我们交换坐标轴的标题,那么横轴表示参与者的身高,纵轴表示人口的累积百分比。下面的两幅图说明了累积分布图和仪仗队的末端(或另一端的起点)之间的轴的互换,该组中最高的参与者站在该组中。(图1而且2).为了说明根据平均分对各组进行排名所产生的问题,让我们假设我们希望比较两个仪仗队,一个由男孩组成,另一个由女孩组成。两个仪仗队都站在一个屏幕后面,以模拟一个隐藏变量。每个仪仗队由两人组成。男生的身高分别是160厘米和190厘米,女生的身高分别是170厘米和180厘米。测试只包含一个问题。一个肯定的答案得一分,而一个否定的答案得零分。让我们假设测试问题是:谁的身高超过185厘米?男生的平均分是(1 + 0)/ 2=0.5,女生的平均分是0,因为她们的身高都小于185厘米。因此,我们可以得出男孩比女孩高的结论。 If, however, the test question is, who is taller than 165 centimeters, then the mean height of the girls would be 1, whereas the boys’ mean would be 0.5. We would thus conclude that the girls were taller than the boys. Therefore, if the guards of the boys and the girls intersect, we would conclude that an alternative test exists that would alter the ranking of the means. If we were to add questions to the test, then the result regarding the relative rankings of the means of the boys and the girls would be dependent on the frequency of “easy” test questions relative to the “difficult” questions. The possibility that the mean scores may be inverted by altering the difficulty distribution of the test questions lies in the ability to divide the guards of the girls and the boys into two parts–up to the point of intersection and above it. In the case of our example, up to the point of intersection, which is the point at which fifty per cent of both the boys and the girls are located, the shortest of the girls is taller than the shortest of the boys, whereas the tallest boy is taller than the tallest girl. And by altering the difficulty of the questions, the examiner can determine on which group the test questions will focus: is the test designed to find geniuses or does it focus on the weaker children? To justify focusing on the weak students, we may argue that the policy of the education system is “no child is left behind.” To justify a test that contains mainly difficult questions, we may argue that the test is designed to locate gifted children. If, on the other hand, the cumulative distributions (or the guards of honor) do not intersect, namely if the cumulative percentage of short girls is always greater than the cumulative percentage of short boys, then the mean height of the boys will always be greater than the mean height of the girls, and therefore no alternative test could alter the ranking of the mean scores. If there is only one point of intersection between the groups, the level of difficulty of the test determines which group will have the higher mean score [23.]。只要两组至少相交一次,我们就可以找到两种不同的测试,它们将以相反的方式对男孩和女孩的平均分进行排名。让我们来说明当有两个交点时会发生什么。为此,让我们在仪仗队中再加一个男孩,这样男孩的身高(从矮到高)分别是160厘米、175厘米和190厘米,让我们假设女孩的身高分别是170厘米和180厘米。测试只包含一个问题。以下表1根据测试的难度,给出问题的可能答案——哪一组更好。如果交集的数量大于1,通过确定问题的级别来改变我们所选择的特定组的平均分就变得更加困难。这是因为存在一个更困难和更容易的测试,可以提高我们试图提高其平均值的组的平均分数。在这种情况下,分组的平均分排名是随机的,因此没有意义[4]。我们断言,平均分数与组的成功排名的比较取决于组的分数累积分布相交的程度。在有交叉的情况下,方法的排序取决于试题难度的分布。因此,排名取决于测试的制定者,他们可能故意(如果他或她是老练的)或随机(如果他或她没有意识到他们的行为的重要性)。

social-sciences-Cumulative-Distribution-Height

图1:随高度的累积分布。

social-sciences-Cumulative-Percentage-Honor-Guard

图2:仪仗队累积百分比。

测试问题:谁比谁高 男生平均得分 女生平均得分 平均分数越高
165厘米 (1+1+0) /3 = 2/3 (1+1) / 2 = 1 女孩
172厘米 02-Mar ½ 男孩
176厘米 01-Mar ½ 女孩
181厘米 01-Mar 0 男孩
185厘米 01-Mar 0 男孩

表1谁的平均分更高——男孩还是女孩?

正态分布

为了结束这一节,我们将作进一步的理论断言。方差表示受试者之间的分数分布。假设被试群体(男孩和女孩)的能力分布是正态的,如果群体之间的方差不同,那么累积分布总是相交的。另一方面,如果组的方差相同,则累积分布将不会相交。

证明:正态分布呈钟形分布。方差越大,钟形信号的振幅就越大。振幅越大,弱考生和强考生的数量就越高。因此,假设知识的分布是正态分布,那么累积分布正好相交一次。这个定理允许我们断言,任何假设我们的能力是正态分布的人实际上都认为,只要两组之间的方差是不同的,那么总会有另一种测试来改变平均分数的排名。

实证比较:以色列与其他经合组织国家

在本节中,我将介绍前一节中所作的理论断言的经验意义。为此,我们将比较以色列在2012年PISA测试中的累积分布的交集。由于许多国家都参加了PISA测试,为了避免读者阅读过多的细节,并寻求与领先国家进行比较,比较将与-à-vis经合组织的其他32个成员国进行比较,其中包括西欧国家、美国、澳大利亚、新西兰、韩国和日本。表2给出了以色列累积分布的交叉实例的摘要。最左边一栏的“数字”是经合组织33个成员国根据2012年数学测试平均成绩的排名。左起第二列,标题为“排名”,表示该国在当年参加PISA测试的所有国家中的位置。从左边起的第三列显示了国家的名称。第四列表示参加数学考试的学生所取得的平均成绩。第五列表示每个国家科目分数的方差。第六列显示该国与-à-vis以色列的累积分布是否有交集,如果有,这是什么样的交集:从上面,从下面,还是多个交集。以色列排名第29位th在33个经合组织成员国中(和41从参与测试的62个国家中)。通过检查“方差”一栏,我们发现以色列学生分数的方差在经合组织国家中最高3.从表面上看,根据上一节中提出的定理(关于正态分布),如果数学技能的分布是正态分布,我们应该期望以色列学生成绩的累积分布与所有经合组织国家的累积分布相交。对累积分布交叉点的检查显示,对于-à-vis 16个国家,累积分布没有交叉点,因此不存在可导致不同平均分数排名的替代检验。所有与分布没有交集的国家的平均得分排名都高于以色列。另一方面,对于排名低于以色列的四个国家,确实存在另一种测试,可以降低以色列的平均得分排名。应当指出的是,关于与累积分布相交的平均分数排名在以色列之上的12个国家,这并不意味着存在将以色列排在第17位的备选测试,因为是分别与每个国家进行比较的。对一些国家来说,替代测试会比较容易,而对另一些国家来说,替代测试会比较困难。我们没有确定以色列可以爬的最大等级,因为可以执行这个计算的算法还没有开发出来。

数量 排名 国家 数学平均分 方差 十字路口
1 5 韩国 554 9291 没有一个
2 7 日本 536 8273 没有一个
3. 9 瑞士 531 8344 没有一个
4 10 荷兰 523 8006 没有一个
5 11 爱沙尼亚 521 6105 没有一个
6 12 芬兰 519 6783 没有一个
7 13 加拿大 518 7412 没有一个
8 14 波兰 518 7680 没有一个
9 15 比利时 515 9934 没有一个
10 16 德国 514 8821 没有一个
11 18 奥地利 506 8065 多个
12 19 澳大利亚 504 8809 没有一个
13 20. 爱尔兰 501 6724 多个
14 21 斯洛文尼亚 501 7949 多个
15 22 丹麦 500 6299 以上
16 23 新西兰 500 9379 没有一个
17 24 捷克共和国 499 8547 没有一个
18 25 法国 495 9029 没有一个
19 26 英国 494 8429 多个
20. 27 冰岛 493 7861 以上
21 29 卢森堡 490 8502 没有一个
22 30. 挪威 489 7677 多个
23 31 葡萄牙 487 8361 多个
24 32 意大利 485 8123 多个
25 33 西班牙 484 7228 多个
26 35 斯洛伐克 482 9685 没有一个
27 36 美国 481 7622 多个
28 38 瑞典 478 7896 多个
29 41 以色列 466 10411 ---------
30. 42 希腊 453 7081 以上
31 44 火鸡 448 7769 多个
32 50 智利 423 6037 以上
33 52 墨西哥 413 4970 以上

表2。2012年PISA测试的结果,以及与以色列累积分布交叉的实例。

调查结果摘要

如上所述,变量“知识”或“能力”是一个隐藏变量,没有自然的测量单位适用。为了确定知识水平,我们需要测试。该测试包括一些问题,旨在揭示考生的知识水平。然而,由于考试的分数取决于问题难度的分布,问题越简单,分数就越高。我们所能期望的统计方法是根据知识水平对考生进行排名。尽管存在这种局限性,专家和经济学家倾向于计算不同分组的考生的平均成绩,有些人还应用回归法来寻找学业成功与其他领域成功之间的相关性。在本文中,我们制定了一些规则,使我们能够确保不存在具有不同难度分布的替代测试,这将改变平均分数的排名。在对表明考生在2012年PISA数学测试中取得成功的结果进行实证检查时,我们发现在50%的情况下,存在有效的替代测试,使我们能够改变以色列相对于-à-vis其他国家的排名。随机选择一个经合组织(OECD)国家,然后抛一枚均匀的硬币,也能得到类似程度的准确性。抛硬币比测试的好处是,抛硬币比测试数百万名学生便宜。 We further found that the smaller the differences in mean achievement, the higher the likelihood of finding an alternative test that would alter Israel’s ranking. This conclusion can only be determined by an exam. Finally, it should be noted that if we are dealing with an ordinal variable, the use of the regression method of identifying a correlation between examinees’ knowledge and economic variables, as is common practice among economists, is similarly flawed. That is, it is possible that an alternative test exists that would alter the sign of the regression coefficient. For a demonstration, Schröder and Yitzhaki(2015).

确认

我非常感谢哈大沙学术学院的德维尔·米勒,他协助分析了这些数据。我要感谢Nili Gefen、Ruth Klinov、Ashik Movshovitz、Ruth Ottolenghi和Guy Yitzhaki,他们阅读了本文的前一份草稿,他们的意见帮助我改进了研究结果的表述。

1参见Hadar和Russel (1969), Hanoch和Levy(1969)关于金融,以及Atkinson (1970)
和Shorrocks(1984)在收入分配领域的研究。

2由于最矮和最高的参与者分别站在第0和第1点,因此仪仗队成员之间的“距离”等于参与者人数减1。

3.我们承认,这就是选择以色列来表明我们观点的原因。

参考文献

全球科技峰会