Responsive image

天魔失坠! - 2021-01-20 16:13 [B62F]
mark


0dc42fca - 2021-01-20 16:16 [B63F]
mark


50d4f473 - 2021-01-20 16:19 [B64F]
马克


TokyoEto - 2021-01-20 16:23 [B65F]
amzaing


HighGrooce - 2021-01-20 16:36 [B66F]
来学习技术


岁月时代 - 2021-01-20 16:39 [B67F]
marl


国际娱乐机器 - 2021-01-20 16:45 [B68F]
果然搞黄色才是第一生产力,我从大二就开始想自学编程,几年下来连入门都没学完。
几个月前下黄小说的时候觉得实在太麻烦了,于是开始学习写爬虫。
和大家分享下我用来爬黄网小说的爬虫。
复制代码

  1. import requests
    import re
    import os
    # 输入链接地址
    short_url = input('short_url: ')
    url = 'http://www.dierbanzhu1.com/%s' % short_url            # 链接地址
    response = requests.get(url)                                # 请求网页响应
    response.encoding = 'gbk'                                    # 重编码 charset
    html = response.text                                        # 保存网页响应
    dl = re.findall(r'<dl>.*?</dl>',html,re.S)[0]                # 获取章节数据
    chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)    # 获取章节列表
    novel_title = re.findall(r'<meta property="og:title" content="(.*?)"/>',html)[0]

    def mkdir(path):                    # 新建文件保存小说内容
        folder = os.path.exists(path)
        if not folder:                    # 判断是否存在文件夹如果不存在则创建为文件夹
            os.makedirs(path)            # makedirs 创建文件时如果路径不存在会创建这个路径
            print("新建文件夹……")
            print("新建文件夹完成")
        else:
            print("已有文件夹")
            
    file = novel_title
    mkdir(file)
    #获取每章节信息
    for chapter_info in chapter_info_list:
        chapter_url = chapter_info[0]                                #章节链接地址
        chapter_url = "http://www.dierbanzhu1.com%s" % chapter_url    #章节网页响应
        chapter_response = requests.get(chapter_url)                #重编码
        chapter_response.encoding = 'gbk'                           #保存响应
        chapter_html = chapter_response.text                        #章节标题
        chapter_title = re.findall(r'<h1>(.*?)</h1>',chapter_html)[0]                    #章节内容
        chapter_content = re.findall(r'<div id="content".*?</div>',chapter_html,re.S)[0]#清洗文档
        chapter_content = chapter_content.replace(' ',' ')
        chapter_content = chapter_content.replace("<br />",' ')
        chapter_content = chapter_content.replace('<div id="content">',' ')
        chapter_content = chapter_content.replace('</div>',' ')        #保存文档
        fb = open(novel_title + '/' + '%s.txt' % chapter_title, 'w', encoding='utf-8')
        fb.write(chapter_title)
        fb.write(chapter_content)                                    #完成提醒
    print('完成')

http://www.dierbanzhu1.com/ 打开小说后,将url最后一部分输入即可下载。


kur1su - 2021-01-20 16:46 [B69F]
mark


空与白 - 2021-01-20 16:56 [B70F]
mark


おまんこ - 2021-01-20 16:57 [B71F]
好东西mark


Snake - 2021-01-20 16:58 [B72F]
来学习驾驶技术


兰州拉面 - 2021-01-20 17:00 [B73F]
先顶起,回家再研究


暴走大西瓜 - 2021-01-20 17:12 [B74F]
          


神秘的狗蛋 - 2021-01-20 17:16 [B75F]
mark


bluemoonsky - 2021-01-20 17:51 [B76F]
我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了
我可以重写在这一贴里吗?


adblock0 - 2021-01-20 17:54 [B77F]
引用
引用第77楼c7553675于2021-01-20 17:51发表的  :
我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了
我可以重写在这一贴里吗?


如果是被管理员删了,你最好还是先问问哪里违规了


f52ea63b - 2021-01-20 17:55 [B78F]
mark


bluemoonsky - 2021-01-20 17:57 [B79F]
好我这就去问,我不知道是他的贴子被管理员认为是询问类删帖,或是我的内容违规


19990609 - 2021-01-20 18:04 [B80F]


566b862c - 2021-01-20 18:11 [B81F]
各位大佬开火车的技术是真的棒。。。


hana - 2021-01-20 18:17 [B82F]


05c850e9 - 2021-01-20 18:31 [B83F]
mark


风间琉璃 - 2021-01-20 18:32 [B84F]
厉害,我等等也整一个开车小技巧


556c83b3 - 2021-01-20 18:36 [B85F]
mark


瓜皮超人 - 2021-01-20 18:39 [B86F]
Mark


树是山的苔藓 - 2021-01-20 19:13 [B87F]
mark


新月惹人思 - 2021-01-20 19:18 [B88F]
mark


bd7e31ed - 2021-01-20 19:21 [B89F]
宝藏帖子,马克了     


suzumi - 2021-01-20 19:36 [B90F]
牛逼      mark!


328f618b - 2021-01-20 19:55 [B91F]
马????


涩涩发抖 - 2021-01-20 20:17 [B92F]
mark






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.002446 second(s),query:3 Gzip enabled


Top