加入手动处理逻辑。

2025-12-22 16:45:43 +08:00
parent 190271e239
commit e484263cb9
1 changed files with 175 additions and 0 deletions
--- a/utils/sehuatang/shehuatang-undetected.py
+++ b/utils/sehuatang/shehuatang-undetected.py
@@ -0,0 +1,175 @@
 import time
 import os
 import requests
 from io import BytesIO
 import undetected_chromedriver as uc
 from selenium.webdriver.common.by import By
 from selenium.webdriver.support.ui import WebDriverWait
 from selenium.webdriver.support import expected_conditions as EC
 from bs4 import BeautifulSoup
 from reportlab.lib.pagesizes import A3
 from reportlab.lib import colors
 from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image, PageBreak
 from reportlab.lib.styles import getSampleStyleSheet
 from reportlab.pdfbase.ttfonts import TTFont
 from reportlab.pdfbase import pdfmetrics
 from datetime import datetime
 from PIL import Image as PILImage
 import re
 from PyPDF2 import PdfReader, PdfWriter
 from loguru import logger
 def download_image(url, session):
    """使用同步的 session 下载图片，确保 Cookie 一致"""
    try:
        if not url.lower().endswith(('.jpg', '.jpeg', '.png')):
            return None
        response = session.get(url, timeout=15)
        response.raise_for_status()
        return BytesIO(response.content)
    except Exception as e:
        logger.warning(f"下载图片失败: {e}")
        return None
 def add_pdf_encryption(pdf_file, password="4000"):
    try:
        pdf_writer = PdfWriter()
        pdf_reader = PdfReader(pdf_file)
        for page in pdf_reader.pages:
            pdf_writer.add_page(page)
        pdf_writer.encrypt(password)
        with open(pdf_file, "wb") as output_pdf:
            pdf_writer.write(output_pdf)
        logger.debug("PDF加密成功")
    except Exception as e:
        logger.error(f"PDF加密失败: {e}")
 def fetch_and_create_pdf(url):
    driver = None
    try:
        options = uc.ChromeOptions()
        # 规避检测的关键配置
        options.headless = False
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-gpu')
        options.add_argument('--disable-dev-shm-usage')
        # 如果依然在 Headless 触发检测，建议第一次运行设为 False 手动通过
        driver = uc.Chrome(options=options, headless=True)
        logger.info(f"正在访问: {url}")
        driver.get(url)
        # 等待 Cloudflare 5秒盾结束，并处理“满18岁”按钮
        time.sleep(8)
        try:
            enter_btn = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.XPATH, '//a[contains(text(), "满18岁，请点此进入")]'))
            )
            enter_btn.click()
            logger.debug("点击了年龄确认按钮")
            time.sleep(3)
        except Exception:
            logger.debug("未发现年龄验证按钮，可能已过检测")
        # 确保列表加载
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'tbody[id^="normalthread"]'))
        )
        # 提取数据
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        posts = [p for p in soup.find_all('tbody', {'id': lambda x: x and x.startswith('normalthread')}) if
                 p.find('span', {'class': 'xi1'})]
        today_posts = posts[::-1]
        # 字体注册
        pdfmetrics.registerFont(TTFont('SimHei', 'fonts/simhei.ttf'))
        styles = getSampleStyleSheet()
        title_style = styles['Heading1']
        title_style.fontName = 'SimHei'
        title_style.textColor = colors.red
        normal_style = styles['Normal']
        normal_style.fontName = 'SimHei'
        # 路径逻辑
        save_path = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))), 'temp')
        if not os.path.exists(save_path): os.makedirs(save_path)
        pdf_filename = os.path.join(save_path, f"JAV-{datetime.now().strftime('%Y-%m-%d')}-{len(today_posts)}.pdf")
        doc = SimpleDocTemplate(pdf_filename, pagesize=A3)
        content = []
        max_w, max_h = (A3[0] - 72) * 0.95, (A3[1] - 72) * 0.7
        # 同步 Session
        session = requests.Session()
        ua = driver.execute_script("return navigator.userAgent")
        session.headers.update({'User-Agent': ua, 'Referer': 'https://www.sehuatang.net/'})
        for c in driver.get_cookies():
            session.cookies.set(c['name'], c['value'])
        # 循环帖子
        for post in today_posts:
            title_tag = post.find('a', {'class': 's xst'})
            if not title_tag: continue
            p_title = title_tag.get_text()
            p_url = 'https://www.sehuatang.net/' + title_tag.get('href')
            logger.info(f"详情页: {p_title}")
            try:
                resp = session.get(p_url, timeout=15)
                p_soup = BeautifulSoup(resp.text, 'html.parser')
                div = p_soup.find('div', {'class': 't_fsz'})
                if div:
                    content.append(Paragraph(f" {p_title}", title_style))
                    magnets = re.findall(r'magnet:\?[^ \u4e00-\u9fff]+', div.get_text())
                    for m in magnets:
                        content.append(Paragraph(f"<b>{m}</b>", normal_style))
                    for img_tag in div.find_all('img'):
                        src = img_tag.get('zoomfile')
                        if src and 'http' in src:
                            img_io = download_image(src, session)
                            if img_io:
                                with PILImage.open(img_io) as p_img:
                                    iw, ih = p_img.size
                                    sc = min(max_w / iw, max_h / ih, 1.0)
                                    img_io.seek(0)
                                    content.append(Image(img_io, width=iw * sc, height=ih * sc))
                    if post != today_posts[-1]: content.append(PageBreak())
            except Exception as e:
                logger.error(f"帖子处理失败: {e}")
        doc.build(content)
        add_pdf_encryption(pdf_filename)
        return pdf_filename
    except Exception as e:
        logger.exception(f"抓取异常: {e}")
        return ""
    finally:
        # --- 解决 [WinError 6] 句柄无效的关键 ---
        if driver:
            try:
                logger.debug("正在安全关闭浏览器...")
                driver.close()  # 先关闭窗口
                driver.quit()  # 再退出进程
            except Exception:
                # 捕获因句柄失效导致的退出异常，避免污染控制台
                pass
 def pdf_file_path():
    url = 'https://www.sehuatang.net/forum.php?mod=forumdisplay&fid=103&filter=typeid&typeid=481'
    return fetch_and_create_pdf(url)
 if __name__ == "__main__":
    pdf_file_path()