如何确定英语句子的复杂性?


10

我正在开发一个应用程序,以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。

我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子(包括Barrons的800个单词和1000个最常见的英语单词)

整个数据可从https://buildmyvocab.in获得

为了保持内容的质量,我过滤掉了超过160个字符的句子,因为这些句子可能很难理解。

下一步,我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。

另外,您认为这可能吗?

Answers:


8

是。有各种指标,例如fogg索引。 python中的Textacy有一个不错的列表和实现。

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

您也可以查看熵或唯一词的百分比,但上述指标更为相关。
GrimSqueaker,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.