国产欧美日韩在线播放_夜夜春亚洲嫩草影视日日摸夜夜添夜_中文字幕久久综合_国产精品美女网站_性欧美精品一区二区三区在线播放 _91网免费观看_欧美大秀在线观看_91九色在线视频_久草一区二区_一本色道婷婷久久欧美

python爬蟲開發(fā)實(shí)例-爬取通遼當(dāng)?shù)啬尘W(wǎng)站的招聘信息

二次開發(fā) admin 發(fā)布時(shí)間:2026-01-12 16:27:05 瀏覽:
Python的功能很強(qiáng)大,特別是爬蟲功能。下面以爬取通遼當(dāng)?shù)啬尘W(wǎng)站的招聘欄目為例,具體講解Python爬蟲開發(fā)的過程。
 
import requests
import re
import time
from urllib.parse import urljoin
from collections import defaultdict

# 配置請(qǐng)求頭,模擬瀏覽器訪問
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8'
}

# 存儲(chǔ)已爬取的信息,用于去重
processed_data = defaultdict(str)


def get_page_content(url):
    """
    獲取頁面內(nèi)容,處理請(qǐng)求異常
    """
    try:
        response = requests.get(url, headers=HEADERS, timeout=10)
        response.raise_for_status()  # 拋出HTTP錯(cuò)誤
        response.encoding = 'utf-8'  # 該網(wǎng)站使用gb2312編碼
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"請(qǐng)求頁面 {url} 失敗: {e}")
        return None


def extract_links(main_url):
    """
    從主頁面提取所有招聘詳情頁鏈接
    """
    html = get_page_content(main_url)
    if not html:
        return []

    # 匹配詳情頁鏈接的正則表達(dá)式
    # link_pattern = re.compile(r'href="(\.\./gqxx/showfabus\.asp\?dadid=\d+&fa=4)"')
    link_pattern = re.compile(r'href="([^"]*showfabus\.asp[^"]*)"', re.I)
    links = link_pattern.findall(html)

    # 拼接完整URL
    full_links = [urljoin(main_url, link) for link in links]
    print(f"找到 {len(full_links)} 個(gè)招聘詳情頁鏈接")
    return full_links


def extract_job_info(html):
    """
    從詳情頁提取招聘內(nèi)容和電話號(hào)碼
    """
    if not html:
        return None, None

    # 提取招聘主要內(nèi)容(去除多余標(biāo)簽)
    content_pattern = re.compile(r'<span class="sf3">(.*)</span>', re.S)
    content_match = content_pattern.search(html)
    print(content_match)
    job_content = ""
    if content_match:
        # 去除HTML標(biāo)簽
        job_content = re.sub(r'<.*?>', '', content_match.group(1))
        # 去除多余空格和換行
        job_content = re.sub(r'\s+', ' ', job_content).strip()
    print(job_content)
    # 提取電話號(hào)碼(匹配手機(jī)號(hào)11位,座機(jī)號(hào)帶區(qū)號(hào)格式)
    # 第一步:匹配整個(gè)區(qū)間(兼容中英文括號(hào)、多余字符)
    range_pattern = re.compile(r'聯(lián)系電話[\s\S]*?[(\(]查看歸屬地[)\)]', re.S)
    range_match = range_pattern.search(html)

    if not range_match:

        phone_str ='空'

    else:
        # 第二步:在區(qū)間內(nèi)提取完整的手機(jī)號(hào)/座機(jī)號(hào)(修正后的規(guī)則)
        phone_pattern = re.compile(r'1[3-9]\d{9}|0\d{2,3}[-\s]?\d{7,8}')
        phone_list = phone_pattern.findall(range_match.group())
        #print("電話match:" + phone_matches)
        if phone_list:

            print(" | ".join(phone_list))
            # 去重并合并電話號(hào)碼
            phone_numbers = list(set(phone_list)) if phone_list else []
            phone_str = ' | '.join(phone_numbers) if phone_numbers else "未找到電話號(hào)碼"
            print("電話:" + phone_str)
        else:
            phone_str = '空'




    return job_content, phone_str


def save_to_file(filename, data):
    """
    將去重后的信息寫入文件
    """
    with open(filename, 'w', encoding='utf-8') as f:
        for idx, (phone, content) in enumerate(data.items(), 1):
            f.write(f"======== 招聘信息 {idx} ========\n")
            f.write(f"電話號(hào)碼: {phone}\n")
            f.write(f"招聘內(nèi)容: {content}\n")
            f.write("\n" + "-" * 50 + "\n\n")
    print(f"信息已保存到 {filename} 文件,共 {len(data)} 條去重后的招聘信息")


def main():
    # 目標(biāo)主頁面URL
    main_url = "http://www.tlxxw.com/gqxx/showfabu.asp?fa=4"
    # 輸出文件名
    output_file = "job.txt"

    # 1. 提取所有詳情頁鏈接
    detail_links = extract_links(main_url)
    if not detail_links:
        print("未找到任何招聘詳情頁鏈接")
        return

    # 2. 遍歷每個(gè)鏈接提取信息
    for idx, link in enumerate(detail_links, 1):

        link = link.replace('&amp;', '&')
        print(f"\n正在爬取第 {idx}/{len(detail_links)} 個(gè)鏈接: {link}")
        html = get_page_content(link)
        # print(html)

        if html:
            job_content, phone = extract_job_info(html)
            print(job_content)
            # 去重:以電話號(hào)碼為鍵(無號(hào)碼則用內(nèi)容摘要)
            key = phone if phone != "未找到電話號(hào)碼" else job_content[:50]
            if key and job_content:
                processed_data[key] = job_content

        # 延時(shí)1秒,避免請(qǐng)求過快被封IP
        time.sleep(1)

    # 3. 保存去重后的信息到文件
    save_to_file(output_file, processed_data)


if __name__ == "__main__":
    main()

爬取后寫入txt文件。下面是結(jié)果的一部分內(nèi)容:

======== 招聘信息 3 ========
電話號(hào)碼: 1327485672
招聘內(nèi)容: 同樂發(fā)飲用水誠聘配送人員 身體健康,勤奮刻苦,敬業(yè)愛崗 保底5000以上加提成 自帶電動(dòng)車,多勞多得 電話:13274856722 15248339633

--------------------------------------------------

======== 招聘信息 4 ========
電話號(hào)碼: 1874759588
招聘內(nèi)容: 世紀(jì)良緣禮儀公司高薪誠聘: 崗位一:婚禮策劃師 工資待遇:4000元―――12000元。 工作描述:向準(zhǔn)新人介紹婚禮慶典服務(wù)項(xiàng)目,并達(dá)成協(xié)議.全程策劃實(shí)施婚禮慶典全過程.有無工作經(jīng)驗(yàn)均可,公司提供一對(duì)一專業(yè)培訓(xùn).要求口才好應(yīng)變能力強(qiáng),有敬業(yè)精神,有文化底蘊(yùn),能長期從事此項(xiàng)工作。有過銷售或教師,導(dǎo)游,企劃人員等從業(yè)經(jīng)驗(yàn)者。會(huì)運(yùn)用電腦PS者。 崗位二:平面設(shè)計(jì)師:(熟練使用各種設(shè)計(jì)類軟件。)工資面議。 聯(lián)系人:18747595885

--------------------------------------------------

======== 招聘信息 5 ========
電話號(hào)碼: 1556759999
招聘內(nèi)容: 招聘單位:鉑愛美容會(huì)館 招聘崗位:美容師美體師 薪資待遇:月薪5000元 員工待遇:包吃包住 招聘要求:有經(jīng)驗(yàn)者 聯(lián)系人:王院長 聯(lián)系電話:15567599999

--------------------------------------------------

可以看出還有一些瑕疵,比如電話號(hào)碼少一位。也可以繼續(xù)增加功能,比如把爬取的內(nèi)容寫入數(shù)據(jù)庫等,可以繼續(xù)完善。
另外做爬蟲主要是對(duì)正則表達(dá)式要比較熟悉,可以用下面的網(wǎng)站在線調(diào)試正則
https://regex101.com/
很方便,可以把網(wǎng)頁代碼復(fù)制進(jìn)去,然后寫正則,會(huì)顯示匹配結(jié)果。

如果需要開發(fā)爬蟲,可以聯(lián)系我QQ:804752009 


在線咨詢

點(diǎn)擊這里給我發(fā)消息售前咨詢專員

點(diǎn)擊這里給我發(fā)消息售后服務(wù)專員

在線咨詢

免費(fèi)通話

24h咨詢:0475-2793529


如您有問題,可以咨詢我們的24H咨詢電話!

免費(fèi)通話

微信掃一掃

微信聯(lián)系
返回頂部
国产欧美日韩在线播放_夜夜春亚洲嫩草影视日日摸夜夜添夜_中文字幕久久综合_国产精品美女网站_性欧美精品一区二区三区在线播放 _91网免费观看_欧美大秀在线观看_91九色在线视频_久草一区二区_一本色道婷婷久久欧美
欧美一区自拍| 精品国产精品国产偷麻豆| 欧美日韩精品在线一区| 国产午夜一区| 欧洲激情综合| 成人日韩在线观看| 国产精品18| 欧美三级第一页| 亚洲区第一页| 中文字幕一区二区三区日韩精品| 91精品推荐| 久久婷婷亚洲| 999国产精品999久久久久久| 日韩一区二区三区免费播放| 成人va天堂| 精品三级久久| 欧美理论视频| 亚洲一区二区三区四区五区午夜| 免费不卡中文字幕在线| 久久亚洲国产| 99精品99| 日韩精品免费观看视频| 日韩高清中文字幕一区| 日韩一区精品| 欧美精品导航| 国内一区二区三区| 伊人久久视频| 91精品二区| 视频在线观看国产精品| 四虎成人精品一区二区免费网站| 91亚洲精品视频在线观看| 国产亚洲久久| 日韩在线二区| 99亚洲视频| 日韩高清电影免费| 久久精品日韩欧美| 激情久久五月| 欧美精品中文字幕亚洲专区| av中文资源在线资源免费观看| 久久精品免费一区二区三区| 国产精品美女| 国产精品对白久久久久粗| 久久久久免费| 奶水喷射视频一区| 久久久亚洲欧洲日产| 一区二区三区四区在线看| 亚洲欧洲国产精品一区| 国产极品一区| 亚洲特色特黄| 国产亚洲一卡2卡3卡4卡新区 | 国产欧美日韩在线一区二区| 国产不卡精品| 免费精品视频在线| 成人日韩av| 日韩在线一二三区| 成人在线视频区| 亚洲青青久久| 四虎884aa成人精品最新| 日韩在线a电影| 久久久久久久久丰满| 国产欧美日韩一级| 欧美亚洲激情| 91亚洲自偷观看高清| 亚洲va久久久噜噜噜久久| 久久久久久久欧美精品| 国产精品美女久久久久久不卡| 91免费精品| 免费日韩av片| 久久久水蜜桃av免费网站| 日韩国产91| 国产婷婷精品| 中文在线免费视频| 国产欧美综合一区二区三区| 免费不卡在线观看| 亚洲伦乱视频| 久久三级中文| 欧美有码在线| 欧美日韩视频一区二区三区| 久久精品国产999大香线蕉| 丝袜亚洲另类欧美| 欧美日韩精品免费观看视欧美高清免费大片| 日韩中文字幕麻豆| 亚洲男女自偷自拍| 欧美国产91| 日韩欧美二区| 日韩精品91| 不卡专区在线| 国产成人精品福利| 国产欧美大片| 亚洲精品韩国| 日韩精品福利一区二区三区| 日韩视频精品在线观看| 久久免费国产| 国产欧美一区二区三区精品酒店| 日韩av资源网| 欧美日本久久| 麻豆一区二区99久久久久| 欧美日韩va| 国产精品中文字幕制服诱惑| 欧美一区二区三区久久精品| 久久狠狠久久| 日本麻豆一区二区三区视频| 日本不卡视频一二三区| 国产视频久久| 三级欧美在线一区| 国产日产一区| 国产精品久久久久77777丨| 亚洲欧美专区| 蜜桃视频一区二区三区在线观看| 久久高清免费观看| 日韩高清一区| 久久99偷拍| 精品国产乱码久久久| 精品视频高潮| 成人影视亚洲图片在线| 亚洲综合在线电影| 久久亚洲风情| 久久99视频| 999精品色在线播放| 日韩在线欧美| 国产精品美女| 欧美国产精品| 色爱综合av| 日韩三级一区| 精品亚洲a∨一区二区三区18| 国产一区日韩| 久久高清精品| 日韩美女国产精品| 国产精品一区免费在线| 欧美日韩中文| 久久视频国产| 亚洲香蕉久久| 日韩一区三区| 美女被久久久| 久久精品福利| 色8久久久久| 欧美成人亚洲| 久久免费影院| 亚洲一区二区日韩| 中文在线免费视频| 日韩激情啪啪| 99精品在线| 免费一区二区三区在线视频| 黑丝一区二区三区| 国产亚洲一区二区三区不卡| 国产综合色区在线观看| 亚洲免费在线| 97精品国产| 久久香蕉国产| 国产精品久久国产愉拍| 蜜桃视频欧美| 欧美日韩尤物久久| 久久精品72免费观看| 久久狠狠婷婷| 精品中文在线| 五月精品视频| | 国产精品女主播一区二区三区| 国产欧美日韩综合一区在线播放| 欧美亚洲激情| 久久国产中文字幕| 不卡一二三区| 久久精品系列| 麻豆视频一区二区| 国产精品入口久久| 免费人成在线不卡| 欧美日韩国产综合网| 久久久精品五月天| 日韩久久视频| 久久久精品五月天| 亚洲一级网站| 午夜欧美精品久久久久久久| 久久视频一区| 国产精品亚洲一区二区三区在线观看| 麻豆一区二区99久久久久| 免费视频一区二区三区在线观看| 久久精品 人人爱| 国产亚洲精品美女久久| 国产精品一区二区精品视频观看 | 99久久夜色精品国产亚洲1000部| 日韩av片子| 日韩精品欧美| 午夜久久福利| 日韩综合小视频| 国产欧美欧美| 综合日韩av| 欧美.日韩.国产.一区.二区| 欧美在线资源| 婷婷视频一区二区三区| 日本亚洲欧美天堂免费| 国产亚洲欧美日韩精品一区二区三区 | 亚洲二区免费| 免费成人性网站| 日本欧美一区二区在线观看| 国产日本精品| 欧美sss在线视频| 视频在线观看国产精品| 国产调教精品| 日韩av免费| 日韩成人av影视|