首页 > 申请文书 > 美国大学申请文书的内容和风格与家庭收入和SAT录取分数密切相

美国大学申请文书的内容和风格与家庭收入和SAT录取分数密切相

在线咨询

在美国,大量证据已经证实家庭收入与大学入学标准化考试(SAT)成绩之间存在着相关性,但很少有研究将申请文书的语言特征和风格纳入上述相关性的考量。该研究使用了包含60,000位加州大学系统申请人的24万篇申请文书的语料库,来测量文书内容、自报家庭收入和SAT成绩之间的相关性。本文作者使用correlated topic modeling(CTM)模型量化文书的内容,使用linguistic inquiry and word count(LIWC)量化文书的风格。研究发现,相比SAT成绩与自报家庭收入的相关性,文书的内容和风格与自报家庭收入的相关性更强。文书的内容与风格还解释了大部分SAT成绩的差异。该研究表明申请文书与SAT成绩所反映出的学生特质有一致性,并且呼吁大学录取方案应该进一步关注社会阶级与入学申请的非量化指标(如语言风格)的相关性。

问题的提出

由于美国的重点大学学位长久以来被认为具有较高的社会经济收益,因此其录取标准也一直在伦理上和政策上受到关注。标准化考试SAT的成绩经常被这些大学的录取官用来衡量申请者的学术能力。围绕在它周围的争论一直在持续,一方面,支持者认为SAT成绩是一种较为客观和公正的衡量标准;另一方面,大量的研究也表明SAT成绩与家庭社会经济背景密切相关,因此SAT考试也被称为“财富测试”。可以说,SAT成绩由于它的量化,易于比较的属性,被研究者大量关注。而申请材料中的其他部分,特别是申请人用自己的语言陈述自身观点的申请文书却较少地受到研究者的关注。换句话说,以往的研究鲜有探讨这些申请文书是否与申请者的家庭收入和SAT成绩具有相关性。机器学习的进步使得大规模量化分析个人陈述和其他这类以往研究无法量化的申请文书成为可能。基于以上的背景,该研究分析了包含60,000位加州大学系统(9个校区),申请人的24万篇申请文书的语料库,使用CTM和LIWC两类非监督式概率型机器学习的技术,来探究申请文书的内容和风格与自报家庭收入和SAT成绩之间的相关性。

数据和方法

(一)数据

该研究的分析主要集中在59,723名加州大学秋季年度入学申请人的随机样本上。由于每个申请人都提交了四篇文书,因此语料库包含238,892篇申请文书。平均每一篇文书包含348个单词,每个申请人在这四篇文书中平均提交了1395个单词。自然语言分析所处理的对象是该四篇文书合成的总文本。除了文书之外,家庭收入、SAT成绩以及每个申请人的主要人口学特征也被包括在内。

(二)方法

本研究主要运用主题模型分析大学申请文书。除了对文本进行例行的预处理(如移除停顿词,转化为英文词根和小写字母等),本文作者们还对主题模型进行了质量评估。他们使用R中的ldatuning软件包,获得了四个指标来估计合适的主题数量。模型被10到150个话题测试,每次测试增加10个主题。将四个方程的结果标准化后,研究者选择了在四个指标中,参数上表现最优的主题(70个来自合并文书的主题,50个来自单一文书的主题)。接着,研究者使用R中的stm(structural topic modeling [结构主题建模])软件包生成了他们通过ldatuning方法建议的主题。当省略协变量时,软件包中的stm函数默认为correlated topic modeling (CTM)。

研究发现

(一)文书内容

与文书内容相关的变量通过CTM生成。CTM是一种依赖于文本数据自身,而非外部语言模型的概率性分析。主题建模通过单词共现(co-occurrence)识别语义内容(即含义)。经常同时出现的单词会被归入同一主题中,反映出其语义的一致性(coherence)。一份文档假定由多个主题组成。CTM分析首先确定语料库中的主题数量,然后估计每个文档的主题混合比例。本文的研究者们在整个申请文书语料库中生成了70个主题,并将其作为自变量进行分析。这些主题包括了与所学专业相关的主题,以及比赛竞争,社会焦虑,语言学习等生活体验方面的主题。

研究者们观察到文书的主题与家庭收入和SAT分数之间的一系列关联。例如,关于“人性”和“寻求答案”的内容更多的文章往往是由SAT分数较高的申请人撰写的(r=0.53和r=0.57);相比之下,关于“时间管理”和“家庭关系”的文章往往是由SAT分数较低的申请人撰写的(r=−0.40和r=−0.26)。与家庭收入正相关的前五个主题(蓝色)和与收入负相关的前五个主题(红色),以及相关段落的摘录可以参考原文表1(该表格较长,故不复制在本文中)。

(二)文书风格

与文书风格相关的变量由LIWC生成。LIWC依赖于一个外部“字典”,它可以识别语言上的、情感上的、感知上的和其他可量化的类别,而这些类别可以建模为写作风格。LIWC基于给定文档和外部字典之间的单词或字符匹配生成了90个这样的特征(LIWC开发者将其描述为写作的“类别”;在本研究中,研究者将其称为“字典特征”)。这些特性包括简单的单词和标点符号计数、语法类别(例如代词和动词等)、情感分析、特定词汇(例如家庭或健康词汇),以及体裁(例如“叙事写作”)。

正如在CTM的分析中所观察到的,LIWC词典特征要么与家庭收入,要么与SAT分数之间存在着一系列关联。标点符号的使用(r=0.34)、逗号的使用(r=0.434)和超过6个字母的单词的使用(r=0.38)与SAT分数呈正相关。而虚词(如介词和冠词;r=−0.42)和动词(r=−0.47)与SAT分数呈负相关。家庭收入的相关性也遵循类似的模式。这些发现与之前的一个小样本研究相一致。

(三)文书的内容和风格相比于SAT分数更能解释家庭收入的变化

在建立了文书内容和风格的定量表达后,研究者估计了它们与家庭收入和SAT分数之间的关系强度。他们首先把家庭收入作为因变量。他们比较了三个样本外线性回归模型的校正R2:模型A使用SAT分数作为预测因子(SAT循证阅读和写作 [EBRW] 和SAT数学的分数分别进行检测);模型B和模型C分别使用主题和字典特征作为预测因子。模型A显示8%到12%的家庭收入的差异性可以用SAT分数来解释。这一估计结果与以前的研究结果相当。另外两个模型B和C显示,文书的内容和风格都比SAT分数更与家庭收入相关。主题与家庭收入的相关程度(R2=16%)比字典特征与其的相关程度(R2=13%)更高。

(四)文书的内容和风格能较强解释SAT分数的变化

接下来,研究者评估了文书的内容和风格是否可以解释申请人SAT分数的变化。二者对SAT分数的预测能力是可靠的:大约43%到49%的SAT总分的差异是由文书的内容和风格来解释的。文书的内容和风格在解释SAT EBRW和SAT数学分数的变化上也于前述比例相似。

(五)文书的内容和风格与SAT分数之间的相关性在家庭收入十分位数内持续存在

前面已经证明了文书的内容和风格与SAT分数的相关性;这种相关性的部分原因可能是SAT分数和文书的内容和风格两者都与收入有关。为了研究在控制了社会经济地位后,文书的内容和风格与SAT之间的相关性是否仍然存在,研究者将家庭收入以十分位数进行分组,然后在每个收入十分位数内重复(三)和(四)部分的测试。结果显示,文书的内容和风格仍然可以预测SAT分数。家庭收入最高的考生的文书特征与SAT分数的相关性最弱(内容R2=0.30和风格R2=0.25)。而在中等家庭收入的组别中,文书的内容和SAT分数之间的相关性最强(R2=0.40)。

总的来说,上述的研究结果表明,文书的内容和风格——主题、措辞、语法和标点符号——包含了关于家庭社会经济背景(由家庭收入反映)和学业成绩(由SAT分数反映)的大量信息。

结论与讨论

在美国,重点大学招生中使用标准化考试成绩作为其中一个录取指标,长期以来一直被视为一个有争议的策略,而许多大学正在重新考虑它的作用。录取流程的重大变化,如取消录取SAT分数作为录取指标,要求研究者重新考虑申请材料的其余部分与申请人人口学特征的关系。本研究发现,文书的内容和风格与家庭收入的相关性比SAT分数与家庭收入的相关性更强。另外,文书的内容和风格也是申请人SAT分数的强预测因子,在一些模型中的R2甚至接近50%。文书的内容和风格与SAT分数的关系在中等家庭收入的学生中最强,却在高家庭收入的学生中最弱。这些发现可以为围绕着录取过程中全面审查各项申请材料的公平性、偏见和透明度的讨论,提供一些关于家庭社会经济背景在何种程度上影响无法量化的申请材料的评估。而本研究结果表明,这种全面审查可能会以一种意想不到的方式被证实是多余的,即家庭收入、标准化考试成绩和文书的内容和风格是高度相关的。

该研究关于家庭收入、标准化考试成绩和申请文书内容和风格之间相互关系的发现,可以为当前的公共讨论提供有关大学申请材料中不同类型信息的意义和价值。简而言之,该研究结果表明,仅仅考虑取消SAT分数作为录取指标并不能消除申请材料中的阶层特征。对于社会经济地位和SAT分数的相关性讨论应该扩大到涵盖那些长期以来被理解为“定性”的,但当下可通过大规模计算阅读来测量的申请材料中。如果一系列的分析最终都发现了文书的内容和风格反映了社会经济资源的重要方面,那么大学录取对于文书的要求可能需要重新接受与标准化测试成绩相似的审视。这一系列的计算工具,毫无疑问,将被用在未来对其他文书,例如个人陈述的研究中并且成为评估它们的实操方法,而这种社会语言学的视角也会为理解和勾勒这些研究的结果提供一个有价值的分析视角。

申请文书最新推荐