利用Python脚本轻松抓取站酷网首页图片资源-快创小站

从零开始学爬虫，我的Python爬虫之旅

　　大家好，最近我迷上了Python爬虫，经过几天的努力，终于做出了一个属于自己的爬虫工具。对于一个没什么编程基础的人来说，这个过程确实挺艰难的，但每一步都让我收获满满。

爬虫入门：从工具到基础知识

　　刚开始的时候，我连Pycharm怎么用都不太清楚，更别提写代码了。于是，我从最基础的Python语法学起，尤其是字典、列表和正则表达式这些核心概念。这些知识在爬虫中非常重要，因为它们能帮助我更好地解析网页数据。

　　如果你也对爬虫感兴趣，不妨从这些基础知识入手。爬虫不仅能帮你获取数据，还能为后续的数据打下基础。掌握了这些技能后，我准备深入学习Python的数据模块，进一步提升自己的能力。

爬虫实战：代码实现与注意事项

　　下面是我写的一个简单爬虫代码，主要功能是从某个网站爬取图片。代码仅供参考，大家可以根据自己的需求进行修改。不过要注意，爬虫技术虽然强大，但一定要合法使用，千万不要用于非法行为哦。

# coding = utf-8

import urllib

import re



# 加载基础模块

url = "http://www.zcool.com.cn"



def getHtml(url):

    '''下载网页'''

    page = urllib.urlopen(url)

    html = page.read()

    return html



html = getHtml(url)



def getimg(html):

    '''下载照片'''

    reg = 'href="(.+?s.html)"sst_t="click"'

    imgre = re.compile(reg)

    imglist = re.findall(imgre, html)

    url = []

    imglist = list(set(imglist))  # 去除重复数组

    for k in imglist:

        k1 = str(k)

        ki = k1[:41]

        web = ".html"

        ki = ki + web

        url.append(ki)  # 重建新的地址，站酷有意把地址添加一个增加获取地址的难度

    x = 0

    for i in url:

        img2 = getHtml(i)

        rex = 'src="(.+?.jpg)"'

        rax = re.compile(rex)

        getimg3 = re.findall(rax, img2)

        for i in getimg3:

            urllib.urlretrieve(i, '%s.jpg' % x)  # 下载照片

            x = x + 1

    return imglist



imgkk = getimg(html)