本文共 742 字,大约阅读时间需要 2 分钟。
def cut_sentences(content): # 实现分句的函数,content参数是传入的文本字符串 end_flag = ['?', '!', '.', '?', '!', '。'] # 结束符号,包含中文和英文的 content_len = len(content) sentences = [] # 存储每一个句子的列表 tmp_char = '' for idx, char in enumerate(content): tmp_char += char # 拼接字符 if (idx + 1) == content_len: # 判断是否已经到了最后一位 sentences.append(tmp_char.strip().replace('\ufeff', '')) break if char in end_flag: # 判断此字符是否为结束符号 # 再判断下一个字符是否为结束符号,如果不是结束符号,则切分句子 next_idx = idx + 1 if not content[next_idx] in end_flag: sentences.append(tmp_char.strip().replace('\ufeff', '')) tmp_char = '' return sentences # 函数返回一个包含分割后的每一个完整句子的列表
转载地址:http://czlzi.baihongyu.com/