Python 爬虫常用处理技巧

采集回来的字段有可能经常会包含\xao,\n, 之类的特殊字符通过split()函数处理

''.join(item['title'].split())

import re
res = re.findall('\d+',item['shi']) //返回数组 根据索引去 res[0],res[1]

url ="https://www.nuxtv.com/article/570"
url[url.find('/')+2:url.find('.')]  //获取www
url[url.rfind('/')+1:]  //获取570

title.replace(" ","")