python
text = 这是一个测试。
words = text.split(' ')
print(words)
输出:
['这是一个测试。']
如果你需要更复杂的词分割(例如处理中文),可以使用 `jieba` 库:
python
import jieba
text = 这是一个测试。
words = jieba.lcut(text)
print(words)
输出:
['这是', '一个', '测试', '。']
4、按固定长度拆分
如果需要将文本按拆拆拆分成若干部分,可以使用以下方法:
python
def split_by_length(text, length):
return [text[i:i+length] for i in range(0, len(text), length)]
text = 这是一个很长的文本,我们需要将其拆分成小块。
chunks = split_by_length(text, 10)
print(chunks)
输出:
['这是一个很长的', '文本,我们', '需要将其拆', '分成小块。']
5.按按特定关键词拆分
可以根据某些关键词对文本进行拆分。
python
text = 苹果是一种水果。香蕉也是一种水果。
keywords = ['水果']
parts = re.split('|'.join(keywords), text)
print(parts)
输出:
['苹果是一种', '.香蕉也是一种', '。']
6、按字数拆分**
如果需要将文本按字数拆分,可以结合 `jieba` 或其他分词工具。
python
import jieba
text = 这是一个很长的文本,我们需要将其拆分成小块。
words = jieba.lcut(text)
chunk_size = 5
chunks = [''.join(words[i:i+chunk_size]) for i in range(0, len(words), chunk_size)]
print(chunks)