【南+论剑】悬赏1777sp，进来分享你的开车技巧/网站/工具茶楼南+ South Plus

天魔失坠！ - 2021-01-20 16:13 [B62F]

mark

0dc42fca - 2021-01-20 16:16 [B63F]

mark

50d4f473 - 2021-01-20 16:19 [B64F]

马克

TokyoEto - 2021-01-20 16:23 [B65F]

amzaing

HighGrooce - 2021-01-20 16:36 [B66F]

来学习技术

岁月时代 - 2021-01-20 16:39 [B67F]

marl

国际娱乐机器 - 2021-01-20 16:45 [B68F]

果然搞黄色才是第一生产力，我从大二就开始想自学编程，几年下来连入门都没学完。
几个月前下黄小说的时候觉得实在太麻烦了，于是开始学习写爬虫。
和大家分享下我用来爬黄网小说的爬虫。

复制代码

import requests
import re
import os
# 输入链接地址
short_url = input('short_url: ')
url = 'http://www.dierbanzhu1.com/%s' % short_url            # 链接地址
response = requests.get(url)                                # 请求网页响应
response.encoding = 'gbk'                                    # 重编码 charset
html = response.text                                        # 保存网页响应
dl = re.findall(r'<dl>.*?</dl>',html,re.S)[0]                # 获取章节数据
chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)    # 获取章节列表
novel_title = re.findall(r'<meta property="og:title" content="(.*?)"/>',html)[0]

def mkdir(path):                    # 新建文件保存小说内容
    folder = os.path.exists(path)
    if not folder:                    # 判断是否存在文件夹如果不存在则创建为文件夹
        os.makedirs(path)            # makedirs 创建文件时如果路径不存在会创建这个路径
        print("新建文件夹……")
        print("新建文件夹完成")
    else:
        print("已有文件夹")

file = novel_title
mkdir(file)
#获取每章节信息
for chapter_info in chapter_info_list:
    chapter_url = chapter_info[0]                                #章节链接地址
    chapter_url = "http://www.dierbanzhu1.com%s" % chapter_url    #章节网页响应
    chapter_response = requests.get(chapter_url)                #重编码
    chapter_response.encoding = 'gbk'                           #保存响应
    chapter_html = chapter_response.text                        #章节标题
    chapter_title = re.findall(r'<h1>(.*?)</h1>',chapter_html)[0]                    #章节内容
    chapter_content = re.findall(r'<div id="content".*?</div>',chapter_html,re.S)[0]#清洗文档
    chapter_content = chapter_content.replace(' ',' ')
    chapter_content = chapter_content.replace("<br />",' ')
    chapter_content = chapter_content.replace('<div id="content">',' ')
    chapter_content = chapter_content.replace('</div>',' ')        #保存文档
    fb = open(novel_title + '/' + '%s.txt' % chapter_title, 'w', encoding='utf-8')
    fb.write(chapter_title)
    fb.write(chapter_content)                                    #完成提醒
print('完成')

在http://www.dierbanzhu1.com/ 打开小说后，将url最后一部分输入即可下载。

kur1su - 2021-01-20 16:46 [B69F]

mark

空与白 - 2021-01-20 16:56 [B70F]

mark

おまんこ - 2021-01-20 16:57 [B71F]

好东西mark

Snake - 2021-01-20 16:58 [B72F]

来学习驾驶技术

兰州拉面 - 2021-01-20 17:00 [B73F]

先顶起，回家再研究

暴走大西瓜 - 2021-01-20 17:12 [B74F]

神秘的狗蛋 - 2021-01-20 17:16 [B75F]

mark

bluemoonsky - 2021-01-20 17:51 [B76F]

我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了

我可以重写在这一贴里吗?

adblock0 - 2021-01-20 17:54 [B77F]

引用
引用第77楼c7553675于2021-01-20 17:51发表的 :
我发现我前几天写给一个茶馆老哥的黄油下载管道分享被删了
我可以重写在这一贴里吗?

如果是被管理员删了，你最好还是先问问哪里违规了

f52ea63b - 2021-01-20 17:55 [B78F]

mark

bluemoonsky - 2021-01-20 17:57 [B79F]

好我这就去问，我不知道是他的贴子被管理员认为是询问类删帖，或是我的内容违规

19990609 - 2021-01-20 18:04 [B80F]

566b862c - 2021-01-20 18:11 [B81F]

各位大佬开火车的技术是真的棒。。。

hana - 2021-01-20 18:17 [B82F]

05c850e9 - 2021-01-20 18:31 [B83F]

mark

风间琉璃 - 2021-01-20 18:32 [B84F]

厉害，我等等也整一个开车小技巧

556c83b3 - 2021-01-20 18:36 [B85F]

mark

瓜皮超人 - 2021-01-20 18:39 [B86F]

Mark

树是山的苔藓 - 2021-01-20 19:13 [B87F]

mark

新月惹人思 - 2021-01-20 19:18 [B88F]

mark

bd7e31ed - 2021-01-20 19:21 [B89F]

宝藏帖子,马克了

suzumi - 2021-01-20 19:36 [B90F]

牛逼

mark！

328f618b - 2021-01-20 19:55 [B91F]

马????

涩涩发抖 - 2021-01-20 20:17 [B92F]

mark