Python爬取Konachan站图片

只要能看懂python代码，并且不懂的地方能查google，就可以试一下了。

本文运行环境：

Windows 10 家庭中文版
Python3.7 + Spyder （如果是Anaconda而非单个安装，就爽多了，虽然Anaconda有很多bug，但是用来做数据分析特别爽）

惯例，先贴上所有代码，再一一解释。代码直接复制到py文件里运行就可以：

# -*- coding: utf-8 -*-

import os
import requests
import json
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'
}

proxies_v2ray = {
'http':'socks5://127.0.0.1:10808',
'https':'socks5://127.0.0.1:10808',
}

proxies_ssr={
'http':'socks5://127.0.0.1:10807',
'https':'socks5://127.0.0.1:10807',
}

tags=input('Input:请输入您的tags（默认为空则爬取整个konachan站）:')
pages_num=int(input('Input:请输入您爬取的页数，默认为所有页数：'))

if tags==None:
    final_folder = './Konachan/'
else:
    final_folder = './Konachan/'+tags+'/'

os.makedirs(final_folder, exist_ok=True)

if pages_num<11486:
    pages_num=pages_num+1
else:
    pages_num=11487

for n in range(1,pages_num):
    url_com='https://konachan.com/post.json?page='+str(n)+'&tags='+tags
    url_net='https://konachan.com/post.json?page='+str(n)+'&tags='+tags
    req=requests.get(url_net,headers=headers,proxies=proxies_v2ray).content
    jsonlist=json.loads(req)
    if len(jsonlist)==0:
        break
    
    for i in range(len(jsonlist)):
        id_number=jsonlist[i]['id']
        file_suffix = os.path.splitext(jsonlist[i]['file_url'])[1]
        if os.access(final_folder+'%s'%id_number+file_suffix, os.F_OK):
            print('图片{}存在，跳过'.format(id_number))
        else:
            r=requests.get(jsonlist[i]['file_url'],headers=headers,proxies=proxies_v2ray)
            print('下载{}图片'.format(id_number))
            with open(final_folder+'%s'%id_number+file_suffix, 'wb') as f:
                f.write(r.content)
    
    print('进入休眠3s')
    time.sleep(3)

print('Finish!')

打开spyder，抬头会自动设置为 coding:utf-8，如果你用的是python3，那么编码问题就完美解决了。此处Python2用户请节哀。

我接触的爬虫来看，有三种思路的爬虫，每个网站都不太一样，

直接爬取网页，就是网站上显示的啥就爬啥。这种情况可以用于大部分的网站，缺点除了有些网站爬不下来（比如动漫之家等漫画网站，这种的需要selenium+phantomjs，我自己不会写代码但找到下载器看了下），还有就是麻烦（看不懂网页源代码，也就是html格式）
爬取json格式，此次爬取konachan就是用的这个，缺点是绝大多数网站不希望被爬虫，一般不会开放json（很麻烦才能找到）。Konachan特别友好，它提供了这种方式的下载（也就是开放了API）：http://konachan.com/help/api，作为python教程特别爽
爬取xml格式，这个其实我也不会，但是看到konachan的help里有在这种格式，我觉得也可以用来爬虫（虽然直接打开来看我懵了，不过和RSS很像，RSSHub或许可以开始工作了XD）

爬虫要设置请求头，就是python“假装”为某一标识来爬取，设置成什么网上有很多，比如手机或者chrome/firefox。

因为国内网络访问Konachan很很恨很恨很tm慢（被墙了），无论是18+的.com还是全年龄向的.net（也没全年龄到哪里去hhhhh），所以我用了ssr和v2ray做代理辅助，下面以v2rayN为例show一下我的设置：

我设置成socks5代理，端口为10808（这个数字可以改的，当时为了设置telegeam我才用的这个），反映在python中的代码是：

proxies_v2ray = {
'http':'socks5://127.0.0.1:10808',
'https':'socks5://127.0.0.1:10808',
}

哦对了，记得在pac文件里加上 ||koanchan的字样。ssr同理。

下面是在电脑上要存放的文件夹地址：

tags=input('Input:请输入您的tags（默认为空则爬取整个konachan站）:')

if tags==None:
    final_folder = './Konachan/'
else:
    final_folder = './Konachan/'+tags+'/'

os.makedirs(final_folder, exist_ok=True)

tags是指在konachan中的图片tags，也即在网站中的搜索框里输入的东西，比如我要爬取朝田诗乃的图片，tags就输入为“shinon_(sao)”就可以了。如果没有输入就直接enter键跳过……

os.makedirs比os.mkdir的用法更为高级，不需要考虑“啊提示konachan文件夹没有创建诶”这种rz问题……exist_ok参数标明只有在目录不存在时创建目录，目录已存在时不会抛出异常。

接下来是一个大的for循环，在循环之前，我们先来解析一下Konachan。konachan的网址中有俩参数：pages，tags（例如：http://konachan.com/post?page=5&tags=misaka_mikoto ）

screenshot-konachan.com-2020.03.29-20_48_56

但是requests.get获取本页面的json之后，会显示本页面所有图片的信息：http://konachan.com/post.json?page=5&tags=misaka_mikoto

json具体格式是啥我也不知道，但是用python的json包可以解析json为字典dict格式：jsonlist=json.loads(req)。随便一张图片的信息我们提取一下：

{'id': 194190,
 'tags': '2girls black_hair brown_hair kongou_mitsuko misaka_mikoto pakupaku_choppu ponytail to_aru_kagaku_no_railgun to_aru_majutsu_no_index wink',
 'created_at': 1420312375,
 'creator_id': 87866,
 'author': 'Freenight',
 'change': 817864,
 'source': 'http://i1.pixiv.net/img99/img/pinkygoldr/35427686.jpg',
 'score': 62,
 'md5': '6f63d46dcc45864751dd8ed41e99e63c',
 'file_size': 907578,
 'file_url': 'https://konachan.com/image/6f63d46dcc45864751dd8ed41e99e63c/Konachan.com%20-%20194190%202girls%20black_hair%20brown_hair%20kongou_mitsuko%20misaka_mikoto%20pakupaku_choppu%20ponytail%20to_aru_kagaku_no_railgun%20to_aru_majutsu_no_index%20wink.jpg',
 'is_shown_in_index': True,
 'preview_url': 'https://konachan.com/data/preview/6f/63/6f63d46dcc45864751dd8ed41e99e63c.jpg',
 'preview_width': 150,
 'preview_height': 94,
 'actual_preview_width': 300,
 'actual_preview_height': 188,
 'sample_url': 'https://konachan.com/image/6f63d46dcc45864751dd8ed41e99e63c/Konachan.com%20-%20194190%202girls%20black_hair%20brown_hair%20kongou_mitsuko%20misaka_mikoto%20pakupaku_choppu%20ponytail%20to_aru_kagaku_no_railgun%20to_aru_majutsu_no_index%20wink.jpg',
 'sample_width': 1280,
 'sample_height': 800,
 'sample_file_size': 0,
 'jpeg_url': 'https://konachan.com/image/6f63d46dcc45864751dd8ed41e99e63c/Konachan.com%20-%20194190%202girls%20black_hair%20brown_hair%20kongou_mitsuko%20misaka_mikoto%20pakupaku_choppu%20ponytail%20to_aru_kagaku_no_railgun%20to_aru_majutsu_no_index%20wink.jpg',
 'jpeg_width': 1280,
 'jpeg_height': 800,
 'jpeg_file_size': 0,
 'rating': 's',
 'has_children': False,
 'parent_id': None,
 'status': 'active',
 'width': 1280,
 'height': 800,
 'is_held': False,
 'frames_pending_string': '',
 'frames_pending': [],
 'frames_string': '',
 'frames': []}

很显然，id就是图片的id号（方便整理），tags就是图片的标签，source就是图片的来源，file_url就是图片的链接，这是我们想要提取的最主要信息。

剩下的工作就是遍历所有的图片链接，并下载下来，命名为id号，最后的后缀与图片链接的后缀保持相同即可。并且由于辣鸡代理（并不是辣鸡代理而是辣鸡墙），日常断开，最好还是检验一下如果待爬取图片已下载在本地（命名格式相同），那么就不用爬了直接跳过。

最后设置停止即在某一个pages下，json内容为空，则结束爬虫。至于大循环下设置range(1,11487),是因为整个konachan站下的页面数为11486页（截止到2020.03.28）。

给爷爬完之后记得给爷说一下Finish，整个代码就完成了。

说说感想吧。

不得不说konachan作为一个Anime Wallpaper站，真的太太太瑟琴了（wdnmd我裤子动了我不干了），

作为一个python的初学者，可以作为爬虫项目练习，比爬取什么JD、Taobao之类的友好多了。

唯一不足的是需要科学上网，否则速度不堪忍受。

其实我学习python应该是走Data Science方向的，是那种一上来就三行代码万年不变：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

爬虫只是满足我日常的满足感罢了，也正因如此，我的2T大移动硬盘都快满了emmm

看来需要再破费买一个WD硬盘了……

课后题环节！！

请仿照上述代码，爬取wallhaven.cc站的toplist高清图片：

import os
import requests
import json
import time

#请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'
}

proxies_v2ray = {
'http':'socks5://127.0.0.1:10808',
'https':'socks5://127.0.0.1:10808',
}

proxies_ssr={
'http':'socks5://127.0.0.1:10807',
'https':'socks5://127.0.0.1:10807',
}

api_key='此处涉及隐私，故略去'

final_folder = './wallhaven/'
os.makedirs(final_folder, exist_ok=True)

url_original='https://wallhaven.cc/api/v1/search?sorting=toplist'+'&apikey='+api_key
req_original=requests.get(url_original,headers=headers,proxies=proxies_v2ray).content
jsonlist_original=json.loads(req_original)
jsonlist_original_meta=jsonlist_original['meta']
pages_num=jsonlist_original_meta['last_page']

pages=input('Input:请输入您爬取的页数，默认为所有:')
if pages == '':
    pages_num=pages_num+1
else:
    pages_num_input=int(pages)
    if pages_num_input<pages_num:
        pages_num=pages_num_input+1
    else:
        pages_num=pages_num+1
print('共爬取{}页'.format(pages_num))

for n in range(1,pages_num):
    url_com='https://wallhaven.cc/api/v1/search?sorting=toplist&page='+str(n)+'&apikey='+api_key
    req=requests.get(url_com,headers=headers,proxies=proxies_v2ray).content
    jsonlist=json.loads(req)
    jsonlist_data=jsonlist['data']
    for i in range(len(jsonlist_data)):
        id_number=jsonlist_data[i]['id']
        file_suffix = os.path.splitext(jsonlist_data[i]['path'])[1]
        if os.access(final_folder+'%s'%id_number+file_suffix, os.F_OK):
            print('图片{}存在，跳过'.format(id_number))
        else:
            r=requests.get(jsonlist_data[i]['path'],headers=headers,proxies=proxies_v2ray)
            print('下载{}图片'.format(id_number))
            with open(final_folder+'%s'%id_number+file_suffix, 'wb') as f:
                f.write(r.content)
    
    print('进入休眠3s')
    time.sleep(3)

print('Finish!')