新添加了一些HTML2.0 HTML3.2的字符实体名称列表,ISO字符身体名称列表,HTML中的关键字作为停用词。
同时,在分词FileProcessing之前,预处理:非(空格、字母、数字)清除,以空格替换。
将所有大写转换为小写。