最近新加了几个git仓库,重新设定了一下几个ssh,结果博客部署的时候j就突然需要密码了,以前都是不需要的,明明设置好了ssh密钥的啊,百思不得其解。所以经过几番折腾,进展如下:
最近一直在学爬虫,从最基本的urllib
到requests
、beautifulsoup
到分布式爬虫框架scrapy
,现在终于感觉可以上路了。所以先基于scrapy
重写了我以前做的小说爬虫,代码都很简单,就不注释了。相关的知识点在我的python爬虫系列文章后面都会介绍到。
主要的参考文献:
1.搜索小说名,用requests+lxml
爬取结果,并让用户选择结果,返回小说目录的url
2.scrapy
根据目录url解析小说章节数以及每章的具体url,其中把小说章节数送给item
再到itempipeline
保存,每章的url则是生成异步请求,结果送给parse_chapter
进行下一步的解析
3.parse_chapter
解析每一章的内容,替换没用的\xa0
,写入到item
里,返回交给pipeline
处理
4.对于pipeline
为了写入文件章节顺序是对的,每次返回的item
都先保存到包括当前章节编号和内容
的字典里
5.爬取完毕,对字典进行排序,写入到小说文件中
主要就是用了xlrd
,代码如下,简单易懂就不注释了哈:
pythonimport xlrd
import time
from collections import Counter
t1 = time.time()
data = xlrd.open_workbook(r'C:\Users\pve_win10_1\Desktop\suanfa\text.xlsx')
table = data.sheet_by_index(1)
list1 = []
for i in range(table.nrows):
list1.append(table.cell(i,0).value)
b = Counter(list1)
for key,value in b.items():
if value > 1:
print('{}重复在:'.format(key),[i for i in range(len(list1)) if list1[i] == key])
t2 = time.time()
print('用时:',t2-t1,'s')
最近用python-docx写word,默认的字体大小不一很难受。
这里有一个方法可以更改z设置中文字体:
在style
对象中如下:
pythondoc.styles['Normal'].font.name = u'等线'
doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'),u'等线')
沙雕动画处女座出炉!
立下的flag终于拔掉了哈哈哈哈
准备做一个系列,讲小绿的故事
这是第一期:小绿是个头铁的人
PS:以后视频都在b站
发,感兴趣的请点击头像下面的bilibili
关注我哦
{% raw %}
{% endraw %}