【摘要】本文是基于BP人工神经网络的“iwrite2.0”英语写作教学与评阅系统的语用研究。首先追溯了以PEG、IEA和E—rater为表性的三大国外自动作文评阅系统理论依据的形成背景:然后比较iwrite与国内“冰果”和“句酷”评阅系统之间的异同特点,凸显自身两大特征:“联想词库”内容评价法和GEc“错误类型”识别法;接着提出基于BP人工神经网络的新技术:最后阐释了该系统测评维度上“重语义,轻语用”的弊端,并给与有效建议。
【关键词】BP人工神经网络;iwrite英语写作教学与评阅系统;语用研究
在大数据和云计算的时代背景下,伴随着现代信息技术和英语教学的密切融合,为变革传统写作课堂大班教学、批阅效率极低的不力局面,为满足英语学习者提升英文写作素养的多维诉求,摆脱写作时问和空间的局限,人工智能与英语写作教学的结合无异于一场创新性的革命,经历了无数次语料库和自然语言处理技术的拆分和重组,英语写作智能评阅系统就此应运而生。该系统整合传统英语写作模式,给学习者提供了新颖有趣、个性自由的学习平台,实现了“人”与“机器”的无缝对接。近年来,国内写作智能评阅系统受到越来越多专家学者的关注,相关研究大致分为国内写作智能评阅系统的评分信度和效度的实证研究以及该系统对学生写作技能的影响效力两个方向。研究对象大都以“冰果”系统和“句酷”批改网为主,对“iWrite 2.0”系统的研究少之甚少。冈此。本文比较iWrite英语写作教学与评阅系统与上述两大主流评阅系统的异同,总结其自特点功能,提出基于BP人工神经网络技术的新应用,对该系统在内容和篇章结构上的语用维度剖析缺失提出了有效建议。
1自动作文评阅系统在国外发展的的理论依据和形成背景
迄今为止,随着国外教育的发展,自动作文评分(AES)技术从1966年问世以来,经历了从青涩到日趋成熟的发展程,先后采用了统计数据、自然语言处理、信息检索等技术进人到现在的实际应用阶段。而国外最具代表性的三种作文自动评分系统分别为:PEG、IEA和E—rater。
1.1 PEG(Project Essay Grade)自动评分系统
最早的写作智能评阅系统可追溯到四十年以前,是由美国杜克大学Ellis Batten Page的团队研发的Proiect Essav Grade系统,他被称之为“智能评分系统AES的开拓者”。PEG评分系统给作文评分之前先建立评分模板,它基于从文本中提取的表面特征,如:流利度通过文本长度展现,用词通过单词长度差异来体现,句子结构通过介词数、代词数以及其他词性标记特征来表现等[1]‘姆坚信作文质量可通过文本表层特征项来解释,作文的内在因素无需分析。计算机获取文本特征之后,系统自动从两个维度进行分析:一个是自变量,即人工评分:另一个是自变量,即文本特征。在文本中通过自然语言处理技术提取代表作文水平的变量典型特征,采用多元分析归纳回归方程,凭借统计技术预测作文成绩,参考阅卷者作文评分语料库,最终构建评分模式的智能系统。系统的优点是能客观地利用词汇量、语法或符号、字数等因素分析语言质量,对作文语言质量有效分析;缺点表现在两方面:一是对作文的内容实质、篇章结构、体裁等方面完全忽视;二是只对文本的表层特征进行分析,技术上无法有效评价作者立场等更深层次的因素。
1.2IEA(InteUigent Essav Assessor)自动评分系统
在90年代末,科罗拉多大学Thomas Lan.dauer等人根据潜在语义分析法fLatent SemanticAnalvsis)研发了Intelligent Essav Assessor作文自动评分系统。此评分系统通过潜在语义分析来比较“被测文本”与“评分文本”之问的相似点和异同点,即通过分析文本内容里传递的信息要点,将“待评作文”和“范文模板”矢量对比,内容关联度的问题会得以解决。潜伏语义分析不同于其他的常用矢量空间模型,是一种通过减少维数的矢量空间模型技术,在获取潜在语义结构过程中排除一切干扰信息,实现奇异值分解(SingularValue Decom—position)的矩阵运算。通过核运算减少维数后,重建矩阵,最终有效保存潜在语义结构,即最重要的语义联想关系。潜在语义分析最早在信息检索领域被开发利用,其本质是根据数据统计手段比较同一文本中词项的出现频率并归纳异同点的方法。Landauer等人把该方法引人IEA作文自动评分领域,并利用LSA分析法来获取待评作文与范文语句问相似度的比较,经过转换得到机器评分,最终实现语义准确度的提升。这可以有效规避同义词、近义词以及歧义词等问题的出现,大大提高测评的效度和信度。IEA评分系统以内容分析技术见长,注重作文内容层面,而缺点表现为轻视作文的语言质量和篇章结构,因此它的评分效度欠佳。尽管IEA重内容、轻形式的特征没有使其在信度和效度实现臻美,然而它在作文自动评分史上仍然是一个不可或缺的基石。
1.3 E—rater(E1ectronic Essay Rater)自动评分系统
1997年,由Burstein为代表等人研制的作文自动评分系统Electronic Essay Rater分别于1999年和2005年先后在GMAT考试和托福考试的作文评分体系。E—rater系统将语料库、矢量空问模型、自然语言和数据统计等技术相融合,从句子结构、篇章内容和作文思路三个维度进行分析,是迄今为止发展较完善的评分系统。该系统的最大特点是基于线性回归模块,或称“三大模块”:第一模块是话语篇章结构分析模块:第二模块是句法多样性分析模块:第一模块是文本内容分析模块。前者是利用识别语篇连接词和句法结构的手段实现文本中的语篇分析。第二模块是借用词性赋码的方法实现句法分析,以句子结构语言质量的多样性为评分标准进行评判。后者是借助矢量空间模型提取变量,比较文本中词汇与主题关键词匹配的相似度。系统不但注重文本的形式,也关注文本的语义内容。综合地兼顾作文的语篇结构、语言句法质量以及内容主题三个方面的综合考量,因此是一套更符合写作测试标准的多元化混合自动评分系统。其优势为各自独立分开的三大模块设计,为学习者提供关于文风和思路的多方面反馈信息。不足表现为:一、对篇章结构的分析拘泥于文本的表层特征,会产生反拨作用。二、从句法角度来看,只分析了文本中的句法多样性,而对包括词汇和语法在内的语言质量分析不够精准。三、对文本内容质量分析不足,就矢量空问模型技术领域的使用而言,E—rater无法成功规避文本中如近义词、同义词等干扰项,这种主题词分析识别能力差强人意,影响评分结果。相比而言,E—rater的三个模块与人工评分因素更加接近,算是一套较为全面的智能写作评分系统。
2英语写作智能评阅系统在国内的发展现状
20世纪初,由于借鉴了国外的经验,国内很多专家学者开始了对写作智能评阅系统的研究。由于国内对该领域的研究起步较晚,目前只取得了初级阶段性的成功。而今,国内最具代表性且出具规模的三大主流写作智能评阅系统分别为:“冰果”系统、“句酷”批改网系统和“iWrite 2.0”英语写作教学与评阅系统。
2.1“冰果”英语写作智能评阅系统
2011年面向全国高校,浙江大学外国语学院、北京词网科技公司和外研社合作开发出一款“冰果英语作文智能评阅系统”,它是一款依托计算机自动批改批量线上作文的英语教学服务产品。作为目前英语写作教学中使用最具广泛性的平台之一,冰果系统利用自动评分驱动技术,借用网络写作平台为媒介,建立两大平台:“建议平台”和“优秀作文题目征集平台”。可以将学习者有效融人系统中,完美打造出一个不断改进、循环升级的教学应用软件。冰果系统独特的界面设计使学习者存操作中运用导航、图表等辅助工具自由切换学习元素,以期实现用户和软件的即时互动目的。总之,其优点是提高教师批阅质量,改进学生作文水平,局限性为机器评分和人工评分仍有较大出入,会出现高分低判或低分高判的现象。
2.2“iwrite 2.0”英语写作教学与评阅系统
在2005年,外国语大学的研究专家梁茂成教授主持开发了“大规模考试英语作文自动评分系统”,开启了研究国内英语写作智能评阅系统的先河。2014年,外研社联合梁茂成教授协同其研究团队,针对中国学生二外写作学习的文本特征,共同研发了iWrite2.0英语写作教学与评阅系统。该系统采用有监督的机器学习方式,基于语言、内容、篇章结构和技术规范多个评价构念,通过统计词族、可读性指数、TTR、LTTR、形符、类符等复杂度分析作文文本的错误类型、比例分配和具体信息来源等多种特征,实现对不同话题作文全方位测评,能提供有效的诊断性和个性化反馈。该系统的原理为:将词汇辨析、句子杂难度、中心主题、组织线索等文本特征作为衡量因子不断分析和提取变量,通过分析内容的潜在语义,利用多元回归统计和信息检索技术得出评分。它包括创建课程作业,题库选题,设置批改界面,扩大数据中心,机器自动评阅,学生多稿修改以及人机互评等功能。近年来在外研社举办的全国性大学生写作竞赛和众多高校中广泛采用,据悉该系统已经对上千万篇学生作文进行评阅和修改,功能强大。该系统能夯实学生英语知识基础,减轻教师评阅工作负担,在大学英语写作的里程碑上有划时代的意义。
2.3“句酷”批改网的英语写作智能评阅系统
句酷批改网是由北京词网科技研发的一款基于语料库和云计算技术的英语作文自动批改在线服务系统,是国内目前使用率和接受度较高的一款评阅系统软件,正在全国众多高校范围内被认可和使用。句酷系统是通过核算出测试者作文和语料库数据问的距离,它能映射得分、评语和按句点评等因素。该系统可从文本的百个维度进行测量和分析,通过数据对比、词频、搭错误分布等各维度加权得出一个平均值,能为学生提供全面、客观、个性化的评分结果。同时对反复提交的作文就词汇、语法正反面以及句式中出现的错误即时给予反馈。语料库系统自动在线为打分,系统记录学生的写作次数和修改信息,提供形成性分析。教师可以进行时时监控和跟踪,以了解学生成绩的高低分、排名和学生表现等全方位的情况。句酷系统做为智能辅助评阅系统,最大的短板是用向量对文章进行评估时,只能指出作文中词汇和语法的错误,而对语义结构无法给出有效评估。
3“iWrite 2.0”评阅系统之特点比较与归纳
iWrite2.0系统跟冰果和句酷系统相比有很多共性,总结如下:第一、从系统自身的角度来看,个性化和差异化的反馈信息具象清晰,都能做到反馈及时、全面精准。作文一经批改,可以点赞美句,挖掘作文亮点;做到按句批改,逐行批改,展示详尽评价语,其中包括:单词拼写错误、词汇辨析、语法解释、句型提示、以及标点错误。第二、从学生的角度来看,平台帮助学生实现“大量操练、多次更改”的目的以提高其英语写作素养。每当学生提交作业时,系统自动生成错误提示,通过横向对比或者纵向对比各版本的机阅评语了解自我写作能力改进情况,随时随地存线主动修改。,这种多稿多改的修稿过程是一个螺旋循环而非线形的过程,每次修改后评语的不断升级必然调动学生的积极性,使其在自我完善的过程中,激发了英语写作的热情与兴趣,帮助其提升写作效率。第三、从教师的角度来看,改变传统单一的人工批阅方式,通过线上机辅、线下面授开启了人机共评的混合式写作教学、续写教学等新模式,解决了大班型写作教学教师批改作文量超负荷的的问题,将教师从繁琐的作文批阅工作中解脱出来,让教师省时省力,易于教师存档,方便其教学管理。而且,iWrite2.0较之其他,具有下面两大鲜明特色。
3.1以“联想词库”为内核的内容评价法
iWrite2.0的作文质量构成要素包括语言、内容、篇章结构和技术规范四个维度。其独创的内容评价方法源于联想词库的范畴,基于关键词背后庞大的英语母语语料库和英语联想词库,从“切题度”和“连贯性”两个方面进行诊断和测评。一方面,当教师布置写作任务时,设置3—5个英文关键词来规划写作范围。每个关键词背后都联系着一个庞大的联想同群,读取与关键词在语义上最为接近的若干词汇,构成一个语义网络,提供作文切题度的判断来分析作文是否跑题。另一方面,连贯性也有相同的原理,完成对作文中语句或段落之问联想词语义网络的对比分析运算。并且联想词语义网络之问的相似度越高,证明作文的连贯性越好:反之亦然。大数据的研究表明,基于联想词库测得的数值与专家的评判结果高度一致,成为作文评价模型中最为稳定的变量之一。
3.2基于GEC“错误类型”的语误识别法
iWrite2.0在语言识别技术上采用了行业内独家的“Grammar Error Correction”错误类型反馈体系,在利用error gravitv这一概念实现语言层面的批改反馈,即根据不同程度错误类型形成的语误识别体系手段,在每个类别下实行二级划分。该机评维度设计是指每个评测维度下有若干子维度,所有汇集子维度提供一个总分。把语言分为准确度、流利度和复杂度,根据准确度可再把错误体系二级划分成词法类、句法类、搭配类等三十六种错误子类。例如在检测词法和句法的语法错误时,语法规则模板可分为依据词、词元和词性顺序编写的线性错误模板以及依据语法依存关系编写的句法规则模板:而在检测介词或冠词类搭配类的错误时,则使用训练语料构建的大数据统计模型。
4BP人工神经网络技术在“iWrite 2.0”评阅系统中的应用
时至今日,梁茂成教授带领团队在iWrite2.0系统里加入了新的尝试——基于BP人工神经网络的作文自动评分技术。人工神经网络(Arti“一cial Neural Network)是人们受到生物神经网络功能的运作启发而发展起来的一种新型智能信息处理技术,它由大量的人工神经元连接构成一个非线性的复杂网络系统,可以发现知识、学习知识,实现类似人脑的记忆、模拟等功能,是一种模仿人脑功能的信息处理系统。1986年由Rumelhalt等人提出的BP算法开启了人工神经网用于联想记忆的优化计算机的新篇章。它是一种有监督的多层前向网络,利用调整作文评分过程中各维度的综合交叉数据,最终获得作文评测总分,也是目前人工神经网络应用最广泛和成功的算法模型之一。现阶段多重交叉验证(N一fold cross—validation)结果表明:当iWrite2.0在对文本进行处理的时候,在大量同题作文里提取复杂多变的文本特征,采用该算法模型进行计算,获取和推理专家评分经验,就此形成了BP神经网络拟合各项特征与作文测评之问的映射关系,能有效完成对作文质量的评估结果。作为BP神经网络功能之一的联想记忆功能,在iWrite系统处理文本时起到了至关重要的作用,其两大特点为具有分布式存储和并行计算,它是通过单元之问信息处理的集体行为来实现的,并且可以从已知的数据中对未知的信息进行预测和预测。
5局限性与建议
综上所述,iWrite2.0评阅系统除了以上特点之外,也不是没有自身的局限性,主要表现为:为了杜绝学生的剽窃行为,要增加抄袭自动检测功能以增强学术诚信意识;为提高用户互动性,应加人生生互动环节以期学生作文水平的共同进步。iWrite系统的使用目的是回归知识与信息加工处理,即便基于BP人工神经网络技术的联想记忆功能帮助该系统从语言、内容、篇章结构和技术规范四个维度来测评作文文本,然而系统过多关注词汇、句法等语义角度,缺乏向语篇结构的上升和过渡,存在内容语用层面的剖析缺失。这些语用层面的误判或零判断势必忽视了语篇衔接的连贯性。为满足使用者的文本期待,系统对作文语用角度汉英思维转换的表达评判技术有待提高。目前,iWrite系统的研发团队如何将语用衡量因素纳入系统的运用之中?除此之外,现有文本特征的选定是否有效、建构效度和维度比重是否合理,这些问题都需持续的颠覆传统和自我革命。国内评阅系统的平台建设从最初提供词汇和语法反馈到行文风格的校对,到未来语用层面的细化还需要很长的一段路要走,为满足智能评阅后台作文语料库越来越多的教学需求,为提升线上使用者的英语写作教学质量,大数据时代背景下iWrite 2.0英语写作教学与评阅系统的实践应用亟待深入探索且任重道远。
基于BP人工神经网络的iWrite英语写作教学与评阅系统的语用探究来自辽宁教育行政学院学报,参考文献详见辽宁教育行政学院学报官网。