准确预测高校高考录取分数对高考志愿填报具有重要意义

基于LSTM的院校中考投档分数预测研摘要:确切预测院校中考投档分数对中考志愿补报具有重要意义。文章使用线上百分位作为投档度量,建立了用于预测院校中考投档分数的长短时记忆网路,使用前4年的平均投档百分位和最低投档百分位作为输入,预测得到第年最低投档分数。在山东大专一批理科2010至2023年各院校投档分数据集上的测试结果表明,基于LSTM方式的预测结果急剧优于传统平均排位法。关键词:长短时记忆网路,平均排位法,中考,投档分数预测一、引言在中考志愿补报中,精准预测一所院校的投档分数可以有效防止志愿补报的盲目性。因为历年中考试卷在难易度上有所不同,中考分数也会急剧上下浮动,因而未能按照某院校前几年度投档分数直接恐怕出当初投档分数。目前,各市考试院还会公布众多中考数据,包括分批次、分文理科的院校投档最低分、平均分、录取人数信息、分文理科一分一档表、省控线信息等。目前比较流行的院校投档分数预测方式包括线差法、等效分法、平均排位法等,都是通过对高考信息的某种线性变换实现的。但是院校投档人数的变化、历史数据年份的长短等诱因以某种不可预知的非线性关系也在影响院校投档分数,因而须要一种才能充分吸纳那些非线性诱因的新预测方式,以实现更为精准的院校中考投档分数预测。
二、相关研究目前对院校中考投档分数预测的主流方式包括线差法、等效分法、平均排位法、修正的平均排位法、组合预测模型、神经网路等。线差法是用“当年省控线+上年投档分与省控线的差值(线差)”作为预测投档分数的一种方式。该方式估算简便,但预测精度较低,尤其是距离省控线越远预测精度越低。等效分法首先依照上年一分一档表将上年投档分映射为排行,再依照当初一分档表将排行反向映射成预测投档分的一种技巧。该方式预测确切度相对较高,但未考虑考生总容量和省控线变化对预测的影响。平均排位法是一种改进的等效分法,它使用前n-1年最低投档分排行平均值预测第n年的投档分,同样存在预测精度不高、受考生总容量和省控线变化的影响等问题。修正的平均排位法使用上年院校排行和当初投档人数增减变化修正平均排位法结果,才能部份提高排行靠前的院校投档分预测精度。组合预测模型是通过各类不同的单项预测模型所组成的一种模型。周帆三种不同的单项预测模型组合在一起,通过最小二加法运算得出所须要的最优变权重的系数,最后再借助常用的偏差平方和做对比验证。通过2002——2008年上海市工科二批投档分数实验得出,组合模型的预测精度高。但此模型并无法解决中考分数线受题目难易程度的影响等诱因。
#
李敬文等采用能用物理思维论述不分明现象的模糊物理和须要较少观测数据的白色预测模型相结合的方法建立模糊白色模型,此模型综合考虑省控线、招生计划人数、学生对中学的喜好程度等诱因。通过成都学院和长沙交通学院2006——2011年的数据进行剖析检验,得出此模型的预测精度相对较好,但此模型所选定的实验数据较为单一,不能更好说明模型预测的精准度。贾妮采用神经网路模型,将两年重庆工业学院数据进行处理,通过主成份剖析进行聚类来实现影响诱因的归一化处理,最终由BP反向传播算法估算最佳的权重值,增强了预测精度,此方式仍然存在测试样本集较少问题,不具有代表性。综上,只有充分考虑历年分数、排名、省控线、招生人数等诱因以及互相之间的非线性影响,才会更为精确地预测院校中考投档分数。三、模型设计1.线上百分位。线上百分位是一种综合考虑省控线和排位的投档水平度量,其取值在0%到100%之间。0%表示投档分与省控线相同;100%表示投档分达到上一批次省控线(专科二批或高职本科批)或全国排行第一(专科一批)。排行反向映射为成绩的函数,其中,r为考生排行,c为考生成绩,s为考生所在省份,k为文理科,y为中考年份。在s,k,y相对固定的情况下(后续内容均在此假定基础之上),上述映射可以简化为:r=f(c),c=g(r),可通过查询当初一分一档表获得。
设c1为专科一批分数线,c2为专科二批分数线,则考生成绩c对应的一本线上平均百分位或二本线上平均百分位分别为:使用线上百分位作为院校中考投档分数高低的度量可以有效的化解因考试题目难易程度而导致的分数不同问题,同时也间接实现了LSTM模型数据输入前的归一化问题。2.平均排位法。平均排位法是通过对院校前n-1的录取分数对应的全国排行的平均值所对应的分数即为这一年度院校投档录取分。3.长短时记忆(LSTM)神经网路。长短时记忆网路(,LSTM)作为一种特殊存在的循环网路结构,它还能较好的处理神经网路中的常年依赖情况。由和在1997链式结构示意图,如图1。LSTM奇特之处在于拥有三扇“门”分别为输入、遗忘和输出门,门的作用主要是借助激活函数神经网路层和点乘来实现。本文所建立的LSTM神经网路模型,如图2所示。其中本文选定最低分线上百分位、平均分线上百分位作为输入变量,输出变量为最低线上百分位。用四年的数据预测下一年的投档分数,再经过全链接神经网路最终输出第三年预测最低分线上百分位。
四、模型实现1.数据集的采集与归一化处理。本文采集的数据院校在广东省招收大专一、二批文理科学生的投档平均分和最低分,并借此估算得到对应的最低分线上百分位和平均分线上百分位,将数据归一化处理。其中院校数据采集输入、输出数据如表1所示。滚动选定前n-1年数据作为输入,第n年数据作为预测输出,即用2010—2013数据预测2014投档成绩;2011—2014数据预测2023投档成绩。训练样本集数据取自2010—2023年各院校在广东省大专一、二批文理科投档分数的最低线上百分位、平日线上百分位和2023年大专一批工科投档分数的最低线上百分位。测试样本集数据取自2013—2023安徽省大专一批理科投档成绩。在输入数据选定过程中,首先剔除年份残缺的不完整数据,得到5078个训练数据,同时为了确保线上百分位较高的高校投档分数预测精度,将北大学院、北京学院等481个输出最低线上百分位在95%以上的训练数据重复加入训练数据集,最终得到训练样本集数据5559个,测试样本集数据2512.参数设置。搭建LSTM神经网路模型,将前四年的最低分线上百分位和平均分线上百分位作为输入变量,即输入为4个cell,8个变量,将预测当初的最低分线上百分位作为输出变量,即输出为1个变量。 #
将LSTM模型隐藏维度()设为32,mini-batch设为200,学习率()设为0.0001,采用偏差平方和作为损失函数。表2显示了训练到12000时测试数据集上的偏差平方和。可以看出,随着训练次数epoch的降低最新2024一本录取分数线预测,LSTM预测的最低分偏差平方和逐步减少,当epoch超过12000时,LSTM的最低分偏差平方和未出现显著增长趋势,反倒略有上升。随epoch降低而变化的LSTM最低分偏差平方和变化趋势如所示:3.模型求解。将LSTM神经网路模型输出的预测分数与实际分数、传统的平均排位法预测分数进行对比剖析,如表3。通过对2023年大专理科一批各高校的投档成绩预测结果剖析,用偏差平方和比较平均排位法与LSTM模型两种方式的预测确切度。其中平均排位法最低分的偏差平方和为36681,LSTM最低分的偏差平方和为17424,LSTM预测的确切度远低于平均排位法。通过对投档分数的预测结果剖析,得到如下推论:(1)LSTM预测结果确切度显著低于平均排位法预测结果。在LSTM的预测结果中,可以看出大多数院校投档分数的预测值确切度都低于或等于平均排位预测值。 #
但在招生人数存在显著变化的院校中,LSTM的预测值确切度远低于平均排位法的确切度。如表4、表5、图4。(2)对于投档分数较高的某些高校投档成绩预测,LSTM的预测值不如平均排位法精准。如表6。本文在实验高考虑到此项问题,并通过重复降低高分高校的样本数目进行训练,以达到充足的样本数,确保实验训练结果。(3)LSTM能预测出投档最低分的趋势,进而使预测精准度进一步提高,通过平均排位法和LSTM方式预测分数对比,LSTM最低分偏差平方和大于平均排位法最低分偏差平方和,说明LSTM预测更确切。通过历年院校投档最低、平日线上百分位分布图得出LSTM方式能较为确切地预测出投档分数趋势,进一步提升预测确切度。五、结论与展望1.LSTM方式可以有效预测院校投档分数,但是预测确切度远低于传统的平均排位法。2.LSTM能较为确切地预测到院校投档分数的未来趋势,进一步提升投档分数预测确切度。3.本文LSTM方式在未考虑招生人数变化的情况下,对于扩招高校投档分数预测的结果好于传统的平均排位法,若将招生人数变化情况考虑到模型中,预测结果是否提高有待进一步实验研究。
注释:周帆.变权重组合预测法预测上海市中考分数线[J].科教文汇(上季刊),2009(9):287-288李敬文.组合预测模型在中考数据预测中的应用研究[J].计算机工程与应用,2014,50(7):259~292贾妮.大数据处理技术在投档分数线预测中的应用[J]研究价值工程,2023.200-201DengL,YuD.Deep:,2014,7(3/4):197-387S,.Longshort-term[J].,1997,9(8):1735-1780山东省教育考试院.全省普通院校在广东招生投档分数分布统计[M].石家庄:山东人民出版社,2023白盛楠,申晓留.基于LSTM循环神经网路的PM_(2.5)预测[J].计算机应用与软件,2023,36(01):73-76+110吴强,方睿,韩斌,贾川,闵行.基于决策树-LMBP神经网路的中学生成绩剖析及预测模型的研究[J].北京信息工程学院学报,2023,03:274-280作者简介:第一作者,王宏利(1990—),女最新2024一本录取分数线预测,硕士研究生,主要研究方向:信息化与管理创新;第二作者,边帅(1986—),女,硕士研究生,讲师,主要研究方向:信息化与管理创新;第三作者,孙全亮(1985—),男,上海格学教育科技有限公司总工总监、技术经理;第四作者,吕震宇(1976—),通信作者,男,院长,硕士生导师,主要研究方向:信息管理与系统、数据分析与挖掘。-全文完-