所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

在PISA测试的结果的可靠性

什洛莫Yitzhaki*

沙龙学术学院和希伯来大学、以色列

*通讯作者:
什洛莫Yitzhaki
沙龙学术学院和希伯来大学、以色列
电子邮件: (电子邮件保护)

收到:11/01/2016接受:15/02/2016发表:29/02/2016

访问更多的相关文章研究和评论:社会科学杂雷竞技苹果下载志》上

文摘

知识是一个隐藏的变量,因此,我们需要一个测试为了学科排名根据他们的水平的知识。一个测试是一个电池的问题不同程度的困难。构成一个序数变量的测试结果,因为一个人不能定量测量知识,作为一个身高或体重。测试可以根据他们的水平仅仅排名学科的知识。这是常见的做法对教育系统的成功在不同的国家根据学生的平均分数达到一定国际测试。这样的一个例子是PISA测试中,在以色列排名29日的33个经合组织国家。平均是一个有效的程序一个定量变量,但不是一个序数变量,物品只能排名。由于一个序数变量可以排名但不平均,一些基于平均排名是不可靠的,因为一个可能设计了一个替代测试不同难度的问题,改变了排名的平均分数。本文制定的理论条件构成另一种测试,以改变意味着分数的排名,和收益实证检验这些情况下对所有可能的以色列和其他经合组织国家之间的比较。研究结果表明,替代测试存在,改变以色列的平均分数的排名与一半的经合组织成员国。 This means that in exactly half the comparisons between the OECD countries and Israel, an alternative test exists that would alter the ranking. A further finding indicates that the greater the gap between the mean scores, the less likely one is to find an alternative test that would alter the ranking of the mean scores. The conclusion to be drawn is that one should attach less importance

关键字

排名,意思是,开发、经合组织、理论条件

介绍

PISA(国际学生评估项目)运行一系列的测试构成指数的成功以色列的教育系统与其他国家相比。测试由工业化国家的组织(OECD)在发达国家中数以百万计的学生花费数百万美元。出版的结果被广泛报道,并对政策制定者和公众舆论有显著影响的国家之一,参与测试。

在本文中,我试图分析影响的程度,应该归因于数据与平均分数的排名通过来自不同国家的学生摆脱PISA测试,并确保结果的影响程度排名对应测试的可靠程度。我们将试图确定是否存在另一种测试,涉及到相同的知识领域,结果改变各国的平均分数的排名。应该这样一个测试确实存在,这意味着我们应该更重视PISA测试的结果,因为排名结果取决于测试制定。通过测试的困难的分布问题,作曲家的问题有意或无意中决定意味着分数的排名。另一方面,我们应该发现不存在替代测试,改变了排名的方式,然后我们可以确认目前在相当大的重要性和可靠性的结果排名意味着PISA考试成绩。我们应该强调,这不是统计学意义,这解决了随机误差对测试结果的影响。在本文中,我们假设我们重复相同的测试我们将获得相同的结果,因此相同的平均成绩排名。我们不应该把“成绩”变量等如果它反映了测量厘米在测量一个人的高度。这是因为改变困难的问题的分布在一个测试不改变考生的排名,它改变评分和考生之间的距离的分数,因此组中个体的平均评分也可能改变。在本文的第一部分我们将解释,因为知识是一个隐藏的变量,为了量化它我们必须运行测试。 We then proceed to list the theoretical conditions necessary to compose an alternative test that would alter the ranking of the mean scores. The second section of the article will examine whether one can apply these conditions in the PISA test to Israel’s position on the ranking among OECD countries. This procedure is necessary since there may be theoretical conditions that do not exist in empirical reality.

1。需要测试和试题的难度的影响排名的平均分数

知识是一个隐藏的变量,因为它是存储在主题的想法。暴露的程度的方法是通过测试学生的知识。基本假设是,高考生的知识水平,更好的机会,他们正确地回答这个问题。第二个假设是更加困难的问题,更少的考生将答案正确。第三个假设是,有一个随机的组件来回答问题,更多的取决于很多因素如疲劳或提醒考生的是,他熟悉的类型问题,等等。因此,如果我们要重复相同的检查,我们不应该期望发现考生回答正确的问题是相同的。然而,如果我们假设考生有不同的知识水平,我们应该期望发现如果我们反复检查受试者在同一知识领域,随机元素将减少和考生的排名将变得更加稳定。身高或体重相反,知识不是一个可以测量定量变量,根据给定的计量单位,如厘米或公斤。问题一个考生答案正确的数量取决于水平的困难所带来的问题。困难的问题是衡量那些回答正确的比例。 The variable of knowledge is therefore an ordinal variable, namely a variable that enables us to rank examinees according to the level of knowledge they demonstrate in the test. We are, however, unable to measure the distance between scores / examinees in given units of measurement. The score that an examinee achieves is an ordinal variable, since the number of correct answers depends on the distribution of the difficulty of the questions. As long as we rank examinees while taking into account that the variable is ordinal, no problem regarding the ranking arises. The problem arises when we employ ranking as if it were a quantitative variable. The rule that applies to ordinal variables may be articulated thus: If the distributions of the scores of two groups of examinees on a test within a certain field intersect, then we can always find an alternative test in the same field that would yield a ranking of mean scores in inverse relation to the ranking that emerged on the present test, provided that the two tests differ solely in the distribution of the difficulty of the questions. But if the cumulative distributions do not intersect, then we are unable to find an alternative test that would alter the ranking of the mean scores. We can prove this theorem mathematically, as demonstrated in several articles on economics, such as Schröder and Yitzhaki 2015 which replicate the propositions developed in financial literature and income distribution and apply them in the area of measurement in education1。在这里我们将满足简单的演示基于反演的一个累积分布的轴,如“仪仗队。“虽然累积分布是一个统计的概念,在电视上显示了仪仗队当一位受人尊敬的人物访问或者离开这个国家1]。仪仗队是由将那些在站成一排在一个相等的距离,与参与者要求根据高度。第一个位置是由最短的个体,第二,第二组中最短,最后的一行(或一开始另一端)站在最高的参与者。确保仪仗队并不取决于其数量的参与者,这是确定它的长度,这样参与者之间的距离是1 / N, N表示参与者的数量2。实际的后果,而不是用人排名的数量取决于参与者组成的仪仗队,我们排名转化为“仪仗队的百分位数。“上述仪仗队是累积分布轴时互换。换句话说,如果,而不是常规的仪仗队,我们交换轴的字幕,所以,水平轴描绘了参与者和纵轴的高度代表了累积的人口比例。下面两个图说明图之间的轴的交换累积分布和仪仗队的一行(或一开始另一端)站在最高的参与者。(图12)。演示的问题出现在使用组根据平均评分的排名,让我们假设我们想比较两个仪仗队,组成的一个男孩和另一个女孩组成。两个仪仗队站在一个屏幕上,为了模拟一个隐藏的变量。每一个仪仗队由两个人组成。男孩的身高160 - 190厘米,而女孩们的高度是170和180厘米。测试只包含一个问题。一个肯定的答复,一个点,而消极的答案是零分。让我们假设测试的问题是:谁是比185厘米高?男孩的平均评分(1 + 0)/ 2 = 0.5,虽然女孩的平均分数是0,因为所有小于185厘米。我们可以得出这样的结论,男孩比女孩高。 If, however, the test question is, who is taller than 165 centimeters, then the mean height of the girls would be 1, whereas the boys’ mean would be 0.5. We would thus conclude that the girls were taller than the boys. Therefore, if the guards of the boys and the girls intersect, we would conclude that an alternative test exists that would alter the ranking of the means. If we were to add questions to the test, then the result regarding the relative rankings of the means of the boys and the girls would be dependent on the frequency of “easy” test questions relative to the “difficult” questions. The possibility that the mean scores may be inverted by altering the difficulty distribution of the test questions lies in the ability to divide the guards of the girls and the boys into two parts–up to the point of intersection and above it. In the case of our example, up to the point of intersection, which is the point at which fifty per cent of both the boys and the girls are located, the shortest of the girls is taller than the shortest of the boys, whereas the tallest boy is taller than the tallest girl. And by altering the difficulty of the questions, the examiner can determine on which group the test questions will focus: is the test designed to find geniuses or does it focus on the weaker children? To justify focusing on the weak students, we may argue that the policy of the education system is “no child is left behind.” To justify a test that contains mainly difficult questions, we may argue that the test is designed to locate gifted children. If, on the other hand, the cumulative distributions (or the guards of honor) do not intersect, namely if the cumulative percentage of short girls is always greater than the cumulative percentage of short boys, then the mean height of the boys will always be greater than the mean height of the girls, and therefore no alternative test could alter the ranking of the mean scores. If there is only one point of intersection between the groups, the level of difficulty of the test determines which group will have the higher mean score [2,3]。每当组织至少一次相交,我们可以发现两种不同的测试,将男孩和女孩的平均成绩排名以逆转的方式。让我们举例说明当有两个点的十字路口。为此,让我们向仪仗队添加另一个男孩,那男孩的高度(从最短到最高)将160年,175年,190厘米,让我们假设女孩的身高是170和180厘米。测试只包含一个问题。以下表1显示了这个问题的可能的答案——这是更好的组织,根据测试的难度。如果十字路口的数量大于1,就变得很难改变一个特定组的平均评分我们选择通过确定的水平问题。这是因为存在更困难和更简单的测试,可以提高群体的平均评分平均我们寻求改善。在这种情况下,组织的排名根据他们获得的平均分数是随机的,因此毫无意义(4]。我们断言,比较平均成绩排名的团体的成功取决于在多大程度上的累积分布组的分数相交。在案件中,有一个十字路口,意味着的排名取决于测试的困难的分布问题。排名因此取决于测试的配方设计师,他们可能故意行为(如果他或她是复杂的)或随机(如果他或她不知道他们的行动的意义)。

social-sciences-Cumulative-Distribution-Height

图1:累积分布与高度。

social-sciences-Cumulative-Percentage-Honor-Guard

图2:仪仗队的累积百分比。

测试问题:谁是比高 男孩的平均评分 女孩的平均评分 平均评分越高
165厘米 (1 + 1 + 0)/ 3 = 2/3 (1 + 1)/ 2 = 1 女孩
172厘米 02-Mar ½ 男孩
176厘米 01-Mar ½ 女孩
181厘米 01-Mar 0 男孩
185厘米 01-Mar 0 男孩

表1谁有更高的平均评分——男孩或女孩?

正态分布

结束这一节,我们将进一步理论断言。方差代表的传播主体之间的分数。假设的分布的能力组的受试者(男孩和女孩)是正常的,如果组织不同于彼此的差异,然后累积分布总是相交。另一方面,如果组的方差是相同的,那么累积分布不会相交。

证明:正态分布的钟形。更大的差异意味着贝尔的振幅是广泛的。更广泛的振幅显示数量相对较高的软弱和坚强的考生。因此,假设的分布知识是正常的,然后累积分布完全相交一次。这个定理可以让我们断言,那些假定我们有一个正态分布的能力实际上认为,只要两组之间的差异是不同的,然后总是会有另一种测试,改变意味着分数的排名。

实证对比:以色列和其他经合组织国家

在这一节中我将介绍的经验意义理论断言在前一节中。为此我们将比较的交集的累积分布以色列在2012年PISA测试。由于许多国家参加PISA测试中,以业余读者的过载细节和寻求与主要国家进行比较,将比较与其他32经合组织的成员国,包括西欧国家、美国、澳大利亚、新西兰、日本和韩国。表2总结了实例的以色列累积分布的一个十字路口。最左列,名为“数字”表示33个经合组织成员国家的排名根据均值在2012年数学测试中得分。从左边第二列,题为“排名”,表示国家的位置在所有的国家参加了PISA测试。第三列从左边显示国家的名称。第四列表示平均评分通过的学生把数学测试。第五列显示得分的方差的受试者在每个国家。第六列显示是否有一个十字路口的累积分布相对于以色列的国家,如果是这样,什么样的十字路口这是:从上面,从下面,或多个十字路口。以色列排名29th从33个经合组织成员国(41出的所有62个国家参加了测试)。检查“方差”专栏中,我们发现以色列学生得分的方差在经合组织成员国中最高的3表面上,根据前一节中给出的定理(关于正态分布),如果数学技能分布的分布通常情况下,我们应该期待的累积分布等级的以色列学生相交的累积分布所有经合组织国家。检查累积分布表明,相对于十字路口的16个国家没有交点累积分布,因此不存在替代测试,将导致不同的平均成绩排名。所有没有交叉分布的国家有一个平均成绩排名高于以色列。另一方面,关于这四个国家排名低于以色列也存在另一种测试,以以色列的排名意味着的得分越低。应该注意的是,对于上面的12个国家位于以色列的平均分数的排名累积分布相交,这并不意味着存在另一种测试排名17岁的以色列,因为比较分别与每一个国家。对于一些国家替代测试会更容易,而对于其他国家替代测试会更加困难。我们没有确定的最大数量排名,以色列可以攀爬,因为一个算法,可以执行此计算尚未被开发。

数量 排名 国家 平均评分在数学 方差 十字路口
1 5 韩国 554年 9291年 没有一个
2 7 日本 536年 8273年 没有一个
3 9 瑞士 531年 8344年 没有一个
4 10 荷兰 523年 8006年 没有一个
5 11 爱沙尼亚 521年 6105年 没有一个
6 12 芬兰 519年 6783年 没有一个
7 13 加拿大 518年 7412年 没有一个
8 14 波兰 518年 7680年 没有一个
9 15 比利时 515年 9934年 没有一个
10 16 德国 514年 8821年 没有一个
11 18 奥地利 506年 8065年 多个
12 19 澳大利亚 504年 8809年 没有一个
13 20. 爱尔兰 501年 6724年 多个
14 21 斯洛文尼亚 501年 7949年 多个
15 22 丹麦 500年 6299年 以上
16 23 新西兰 500年 9379年 没有一个
17 24 捷克共和国 499年 8547年 没有一个
18 25 法国 495年 9029年 没有一个
19 26 英国 494年 8429年 多个
20. 27 冰岛 493年 7861年 以上
21 29日 卢森堡 490年 8502年 没有一个
22 30. 挪威 489年 7677年 多个
23 31日 葡萄牙 487年 8361年 多个
24 32 意大利 485年 8123年 多个
25 33 西班牙 484年 7228年 多个
26 35 斯洛伐克 482年 9685年 没有一个
27 36 美国 481年 7622年 多个
28 38 瑞典 478年 7896年 多个
29日 41 以色列 466年 10411年 - - - - - - - - - - - -
30. 42 希腊 453年 7081年 以上
31日 44 土耳其 448年 7769年 多个
32 50 智利 423年 6037年 以上
33 52 墨西哥 413年 4970年 以上

表2。2012年PISA测试的结果和实例的一个十字路口与以色列的累积分布。

总结调查结果

如前所述,这个变量“知识”或“能力”是一个隐藏的变量没有自然计量单位适用。我们需要一个测试确定水平的知识。测试包括很多问题旨在揭示了考生的知识水平。然而,自从考试分数达到取决于分布问题的困难,问题,越容易将分数越高。我们可以预期的统计方法是排名显示考生的知识水平。尽管有这样的限制,专家和经济学家倾向于计算意味着成功的考生不同的分组,和一些应用回归设计找到成功之间的相关性研究和在其他领域的成功。在本文中,我们制定规则,使我们能够确保没有替代测试,不同分布的困难的问题存在,这将改变意味着分数的排名。在进行比较的实证检验结果表明考生在2012年PISA测试的成功在数学中,我们发现,在50%的情况下检查一个有效的替代测试的存在,将使我们能够改变以色列的排名相对于其他国家。随机选择一个经合组织国家,抛硬币会给类似的精确度。抛一枚硬币在测试的优点是,抛一枚硬币是便宜的比检查数以百万计的学生。 We further found that the smaller the differences in mean achievement, the higher the likelihood of finding an alternative test that would alter Israel’s ranking. This conclusion can only be determined by an exam. Finally, it should be noted that if we are dealing with an ordinal variable, the use of the regression method of identifying a correlation between examinees’ knowledge and economic variables, as is common practice among economists, is similarly flawed. That is, it is possible that an alternative test exists that would alter the sign of the regression coefficient. For a demonstration, Schröder and Yitzhaki(2015).

确认

我感激Dvir米勒的沙龙学术学院协助分析数据。谢谢Nili Gefen,露丝Klinov Ashik Movshovitz,露丝·图蓝基和盖Yitzhaki阅读本文之前的草案的评论帮助我改善结果的表示。

1看到别人在哈达尔发现,罗素(1969),哈诺和利维(1969)关于金融,和阿特金森(1970)
和夏洛克斯(1984)在收入分配领域。

2以来最短的和最高的参与者站在点0和1之间的“距离”站在仪仗队的参与者的数量等于- 1。

3我们承认这是选择以色列的原因来证明我们的观点。

引用

全球技术峰会