博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用Python将一段文本(纯中文或英文或者二者混合)分割成一个个完整的句子
阅读量:3959 次
发布时间:2019-05-24

本文共 742 字,大约阅读时间需要 2 分钟。

def cut_sentences(content):   # 实现分句的函数,content参数是传入的文本字符串    end_flag = ['?', '!', '.', '?', '!', '。']   # 结束符号,包含中文和英文的    content_len = len(content)    sentences = []   # 存储每一个句子的列表    tmp_char = ''    for idx, char in enumerate(content):        tmp_char += char   # 拼接字符        if (idx + 1) == content_len:   # 判断是否已经到了最后一位            sentences.append(tmp_char.strip().replace('\ufeff', ''))            break        if char in end_flag:   # 判断此字符是否为结束符号            # 再判断下一个字符是否为结束符号,如果不是结束符号,则切分句子            next_idx = idx + 1            if not content[next_idx] in end_flag:                sentences.append(tmp_char.strip().replace('\ufeff', ''))                tmp_char = ''                  return sentences   # 函数返回一个包含分割后的每一个完整句子的列表

转载地址:http://czlzi.baihongyu.com/

你可能感兴趣的文章