单词数量(Word Count):文本中单词的总数。
字符数量(Character Count):文本中字符的总数。
平均单词长度(Average Word Length):单词长度的平均值。
句子复杂度(Sentence Complexity):可以使用分号或逗号等来划分子句的数量。
语法树深度(Syntax Tree Depth):利用依存关系解析来计算语法树的深度。
词性标注特征(Part-of-Speech Features):如名词、动词、形容词等的计数。
依存关系特征(Dependency Features):文本中每种依存关系的计数。
情感得分(Sentiment Score):使用诸如TextBlob之类的工具来计算文本的情感倾向。
停用词数量(Stopwords Count):文本中常见停用词(如“the”,“and”等)的数量。
标点符号数量(Punctuation Count):文本中标点符号的数量。
词汇丰富度(Lexical Richness):使用不同单词数除以总单词数来度量。
命名实体识别(Named Entity Recognition):识别并计数文本中的人名、地名等命名实体。
n-gram频率(N-gram Frequency):n-gram(如双词组、三词组等)的频率。
TF-IDF权重(TF-IDF Weights):可以用于捕捉每个单词在文档集合中的重要性。
拼写错误数量(Spelling Errors Count):检测文本中拼写错误的数量。