Responsive image

keoki - 2020-11-28 16:34 [GF]
更新,爬虫贴出来了,试爬取了前100页列表的1000个资源,结果见帖中附件:
https://snow-plus.net/u.php?action-topic-uid-1156494.html




https://www.flhk.xyz/




偶然发现这个福利网站的的资源下载链接存在于HTML源码中,只不过页面没有显示出来:



这里点击CTRL + U打开页面源码,可以看到在<meta>标签里有下载链接和解压密码:




下面这一行:
复制代码

  1. <meta name="description" content="下载地址: https://pan.baidu.com/s/1gmKSva8pgMnwrr6vlD6_gw 提取码:nj26 解压密码:4956(下载完后缀名改成zip)">


这个站的资源还挺多的,如果哪位想的话,写个简单的爬虫就可以把整个站的资源都抓下来,不知道这个漏洞能用多久,毕竟挺低级的,估计站长不太懂技术,一键搭建WordPress网站。

各位抓紧了      
 
 



更新爬虫,有兴趣老哥可以尝试爬取资源,测试爬取5页所有资源用时14秒。

复制代码

  1. import asyncio
    from lxml import etree
    # import re
    import aiohttp
    import time
    # import uvloop
    import tqdm

    base_url = 'https://www.flhk.xyz/page/{}'

    # work_lst = []


    # asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
    async def get_dir_page(page, session):
        try:
            async with session.get(url=base_url.format(page)) as resp:
                text = await resp.text(encoding='utf-8')
                return text
        except:
            return None


    async def get_link_passwd(href, title, session):
        async with session.get(href) as resp:
            text = await resp.text(encoding='utf-8')
            html = etree.HTML(text)
            meta_descrp = html.xpath('//meta[@name="description"]/@content')
            if meta_descrp:
                link_and_passwd = meta_descrp[0]
                print('Get link and passwd:\n{} \n  {} {}'.format(
                    link_and_passwd, title, href))
                return title, href, link_and_passwd
            else:
                print('No download link available for {} {}'.format(title, href))


    async def Main():
        start = time.time()
        # global work_lst
        async with aiohttp.ClientSession() as session:
            tasks = [get_dir_page(page, session) for page in range(1, 5)]
            for rslt in tqdm.tqdm(asyncio.as_completed(tasks), total=len(tasks)):
                text = await rslt
                if text:
                    html = etree.HTML(text)
                    ajax_load_divs = html.xpath(
                        '//div[@class="ajax-load-con content wow fadeInUp"]')
                    sub_tasks_lst = []
                    for div in ajax_load_divs:
                        h2 = div.xpath('.//h2')[0]
                        href = h2.xpath('./a/@href')[0]
                        title = h2.xpath('./a/@title')[0]
                        sub_tasks_lst.append((href, title, session))
                    sub_tasks = [get_link_passwd(*tp) for tp in sub_tasks_lst]
                    for f in asyncio.as_completed(sub_tasks):
                        rslt_tp = await f
                        if rslt_tp:
                            with open("link_passwds.txt", "a+",
                                      encoding='utf-8') as file:
                                file.write(rslt_tp[1] + ": " + rslt_tp[0] + '\n')
                                file.write(rslt_tp[2] + '\n')
                                file.write('\n')

        end = time.time()
        total_secs = end - start
        print('total_secs:', total_secs)
        return 'done'


    loop = asyncio.get_event_loop()
    try:
        rslt = loop.run_until_complete(Main())
        print(rslt)
    finally:
        loop.close()



结果示意:





最后安利一下 (更新2020/11/28) 自己写的直播录制工具(支持斗鱼,b站, 虎牙), 可抓取显示弹幕
https://snow-plus.net/read.php?tid-1017998.html
欢迎各位测试


   - 2020-11-28 16:42 [B1F]
你这一公布。。。资源估计很快就失效了。。


光影交错 - 2020-11-28 16:43 [B2F]
梅 开 二 度

之前也有个这样能看的网站


炎易寒 - 2020-11-28 16:44 [B3F]
已成功


天道尽头 - 2020-11-28 16:45 [B4F]
mark 你是真正的雷锋


suzumi - 2020-11-28 16:45 [B5F]
mark,这个方法好啊。


check32 - 2020-11-28 16:45 [B6F]
用户被禁言,该主题自动屏蔽!


e86c73fc - 2020-11-28 16:47 [B7F]


0494b5fe - 2020-11-28 16:47 [B8F]
谢谢分享


インキュ - 2020-11-28 16:48 [B9F]
可以可以 学习一个


NANAYA - 2020-11-28 16:51 [B10F]
你这样一搞,回头大家都没得用


纯洁之人 - 2020-11-28 16:55 [B11F]
学到了


d418cdf7 - 2020-11-28 16:57 [B12F]
    


哥哥试 - 2020-11-28 16:58 [B13F]
程序员+


黑丝的大叔 - 2020-11-28 17:01 [B14F]
赶紧删了这贴 以前有个类似网站一样的情况 爆出来没多久就改了


father - 2020-11-28 17:05 [B15F]
看看


a243271010 - 2020-11-28 17:09 [B16F]
大家以为是站长蠢,其实老谋深算的站长早就把这一切都计算在其中了,这不过是他引流的方式罢了


JM - 2020-11-28 17:10 [B17F]
哈哈哈,我以前也发现过一个类似的网站,直接查看源代码


网上的水很深 - 2020-11-28 17:14 [B18F]
从这个资源的解压密码观察一看,就知道这网站本身内容也是扒的其他几个福利网站的那种。这种连重新解压上传都不愿意的其实挺ex的。当然我们白嫖就完事了。这个站相当于是二手贩子,不过网站没做好隐藏。


kagamine - 2020-11-28 17:14 [B19F]
看什么时候失效


糙汉 - 2020-11-28 17:16 [B20F]
哪个大佬给爬一下


eeVekananm - 2020-11-28 17:16 [B21F]
666


彳亍の男 - 2020-11-28 17:25 [B22F]
太强了兄弟,真有你的


asskun - 2020-11-28 17:30 [B23F]
       好兄弟 真有你的


做到一半 - 2020-11-28 17:31 [B24F]
白嫖怪来了


l8239402 - 2020-11-28 17:33 [B25F]
然而特么链接挂了


asskun - 2020-11-28 17:34 [B26F]
这。。。代码怎么用阿     


asskun - 2020-11-28 17:36 [B27F]
来个懂的老哥教教我  代码怎么用的 需要登陆账号码》   


asskun - 2020-11-28 17:39 [B28F]
   shabi 明明就在第7‘8 条 我居然看不见 搜不到


553a18ee - 2020-11-28 17:40 [B29F]
程序员永远的神


8240ae7e - 2020-11-28 17:41 [B30F]
牛的






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.002985 second(s),query:3 Gzip enabled


Top