抖音解析改为本地页面优先

1. 参考外部 DouyinParser 项目，新增基于分享页 HTML 和 _ROUTER_DATA 的本地解析链路。 2. 抖音解析现在按本地页面解析 -> 原内网接口 -> 原外部接口的顺序依次兜底。 3. 放宽链接匹配范围到 douyin.com / iesdouyin.com，并新增本地解析超时配置项。
2026-05-01 11:49:46 +08:00
parent c0a6ee6c21
commit 6e0483a49e
2 changed files with 257 additions and 8 deletions
--- a/plugins/douyin_parser/config.toml
+++ b/plugins/douyin_parser/config.toml
@@ -4,6 +4,12 @@ enable = true
 # 发送模式: card(发送卡片) 或 file(下载并发送文件)
 download_mode = "card"

+# 本地页面解析超时（秒）：
+# 1. 现在抖音解析会优先直接请求分享页并从 HTML 中提取作品数据；
+# 2. 如果本地网络偶尔较慢，可以适当调大这个值；
+# 3. 本地解析超时或失败后，插件仍会继续走原来的内网接口和外部接口兜底。
+local_parse_timeout_seconds = 12
+
 # Http代理设置（用于获取真实链接发送卡片，如果家里有ipv6，可以设置为空）
 # 格式: http://用户名:密码@代理地址:代理端口
 # 例如：http://127.0.0.1:7890
--- a/plugins/douyin_parser/main.py
+++ b/plugins/douyin_parser/main.py
@@ -2,6 +2,8 @@ import os
 import re
 import time
 import traceback
+import html
+import json
 import requests
 import io
 from typing import Dict, Any, List, Optional, Tuple
@@ -31,6 +33,17 @@ class DouyinParserPlugin(MessagePluginInterface):
    # 功能权限常量
    FEATURE_KEY = "DOUYIN_PARSER"
    FEATURE_DESCRIPTION = "🎵 抖音解析功能 [自动解析抖音链接]"
+    # 参考本地解析项目，把链接匹配范围放宽到 douyin.com / iesdouyin.com：
+    # 1. 原来只匹配 `v.douyin.com` 短链，用户直接转发长链时插件不会命中；
+    # 2. 本地页面解析本身就是基于真实分享页 HTML，因此长链也应该纳入同一套入口；
+    # 3. 这里统一抽 URL 后再做清洗，避免句尾标点被误带入请求。
+    DOUYIN_URL_RE = re.compile(r'https?://[^\s<>"]+?(?:douyin\.com|iesdouyin\.com)[^\s<>"]*')
+    # 参考项目优先从 `window._ROUTER_DATA` 里拿 `loaderData -> videoInfoRes -> item_list[0]`：
+    # 1. 这是当前抖音分享页里最稳定的一份结构化首屏数据；
+    # 2. 能同时覆盖视频作品和图文作品；
+    # 3. 命中后可以直接绕开外部接口，减少第三方依赖。
+    ROUTER_DATA_RE = re.compile(r"window\._ROUTER_DATA\s*=\s*({.*?})\s*</script>", re.S)
+    LEGACY_PLAY_ADDR_RE = re.compile(r'"play_addr":\s*{\s*"uri":\s*"[^"]*",\s*"url_list":\s*\[([^\]]*)\]')

    @property
    def name(self) -> str:
@@ -67,7 +80,7 @@ class DouyinParserPlugin(MessagePluginInterface):
    def __init__(self):
        super().__init__()
        self.LOG = logger
-        self.url_pattern = re.compile(r'https?://v\.douyin\.com/[^\s/]+/?')
+        self.url_pattern = self.DOUYIN_URL_RE
        # 注册功能权限
        self.feature = self.register_feature()
        # 修改为使用插件目录下的down_load_dir文件夹
@@ -95,6 +108,11 @@ class DouyinParserPlugin(MessagePluginInterface):
        self.cookie = douyin_config.get("cookie", "") or ""
        self.cookie_file = douyin_config.get("cookie_file", "") or ""
        self.download_mode = douyin_config.get("download_mode", "card")  # card或file
+        # 本地页面解析走真实抖音分享页，网络链路通常比内网接口更长一些：
+        # 1. 这里单独给一个本地解析超时，避免抖音页面偶发慢响应时无限挂起；
+        # 2. 超时只作用于“本地 HTML 解析优先链路”，不会改变后续旧接口的既有配置；
+        # 3. 若后续你觉得本地网络较慢，只需要改配置即可，不必再动代码。
+        self.local_parse_timeout_seconds = max(int(douyin_config.get("local_parse_timeout_seconds", 12) or 12), 5)

        self.LOG.debug(f"[{self.name}] 插件初始化完成，代理设置: {self.http_proxy}")
        return True
@@ -118,8 +136,7 @@ class DouyinParserPlugin(MessagePluginInterface):
        if message.get("type") != MessageType.TEXT:
            return False
        content = str(message.get("content", "")).strip()
-        match = self.url_pattern.search(content)
-        return match is not None
+        return self._extract_douyin_url(content) is not None

    @plugin_stats_decorator(plugin_name="抖音解析")
    async def process_message(self, message: Dict[str, Any]) -> Tuple[bool, Optional[str]]:
@@ -136,11 +153,10 @@ class DouyinParserPlugin(MessagePluginInterface):
            return False, "没有权限"

        try:
-            match = self.url_pattern.search(content)
-            if not match:
+            original_url = self._extract_douyin_url(content)
+            if not original_url:
                return False, "未找到抖音链接"

-            original_url = self._clean_url(match.group(0))
            self.LOG.info(f"发现抖音链接: {original_url}")

            media_info = self._parse_douyin(original_url)
@@ -216,6 +232,22 @@ class DouyinParserPlugin(MessagePluginInterface):
        self.LOG.debug(f"[抖音] 清理后的URL: {cleaned_url}")
        return cleaned_url

+    def _extract_douyin_url(self, content: str) -> Optional[str]:
+        """从消息文本中提取第一条抖音链接。
+
+        这里参考外部项目的做法，把句尾常见中文标点一并裁掉：
+        1. 用户经常直接把“复制打开抖音……”整段文案贴进群里；
+        2. 链接后面常跟着 `，。！？)` 这类符号，若不清洗会导致请求 404 或跳错页；
+        3. 抽取逻辑统一收口后，`can_process` 和 `process_message` 可以复用同一套结果。
+        """
+        text = str(content or "").strip()
+        if not text:
+            return None
+        match = self.url_pattern.search(text)
+        if not match:
+            return None
+        return self._clean_url(match.group(0).rstrip("，。,.!！?？)）"))
+
    def _clean_response_data(self, data: Dict[str, Any]) -> Dict[str, Any]:
        """清理响应数据"""
        if not data:
@@ -237,12 +269,20 @@ class DouyinParserPlugin(MessagePluginInterface):
    def _parse_douyin(self, url: str) -> Dict[str, Any]:
        try:
            clean_url = self._clean_url(url)
-            # 第一优先级：本地业务解析服务（内网），该链路与你指定的项目实现思路最接近，稳定性最高。
+            # 第一优先级：本地页面解析。
+            # 1. 参考你给的 DouyinParser 项目，先直接请求分享页并解析 HTML 中的 `_ROUTER_DATA`；
+            # 2. 这样成功时完全不依赖第三方解析 API，也更符合“本地优先”的目标；
+            # 3. 只有页面结构变化或网络异常时，才继续走你原来的内网接口和外部接口兜底。
+            local_primary = self._parse_from_local_page(clean_url)
+            if local_primary and (local_primary.get('url') or local_primary.get('images')):
+                return self._clean_response_data(local_primary)
+
+            # 第二优先级：保留原有本地业务解析服务（内网）。
            primary = self._parse_from_internal_api(clean_url)
            if primary and (primary.get('url') or primary.get('images')):
                return self._clean_response_data(primary)

-            # 第二优先级：外部接口兜底。
+            # 第三优先级：外部接口兜底。
            secondary = self._parse_from_external_api(clean_url)
            if secondary and (secondary.get('url') or secondary.get('images')):
                return self._clean_response_data(secondary)
@@ -276,6 +316,209 @@ class DouyinParserPlugin(MessagePluginInterface):
            headers["Cookie"] = self.cookie
        return headers

+    def _build_local_parse_headers(self) -> Dict[str, str]:
+        """构建本地页面解析专用请求头。
+
+        这里刻意切成移动端 Safari UA，原因有三点：
+        1. 抖音分享页在移动端更容易直接返回完整作品页，而不是额外的跳转或限制提示；
+        2. 参考项目就是用移动端 UA 解析，现成经验已经验证过这条链路更稳；
+        3. 只在本地 HTML 解析链路生效，不会影响你原来的内网/外部接口调用头。
+        """
+        headers = self._build_request_headers()
+        headers["User-Agent"] = (
+            "Mozilla/5.0 (iPhone; CPU iPhone OS 14_0 like Mac OS X) "
+            "AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Mobile/15E148 Safari/604.1"
+        )
+        headers["Accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
+        return headers
+
+    def _parse_from_local_page(self, clean_url: str) -> Optional[Dict[str, Any]]:
+        """优先走本地页面解析。
+
+        处理流程：
+        1. 先跟随分享短链跳转，拿到最终作品页 HTML；
+        2. 优先解析 `window._ROUTER_DATA`，提取视频或图文结构化数据；
+        3. 若新版结构失效，再用旧版 `play_addr` 正则做一次视频兜底。
+        """
+        try:
+            response = requests.get(
+                clean_url,
+                headers=self._build_local_parse_headers(),
+                timeout=self.local_parse_timeout_seconds,
+                proxies=self._build_proxies(),
+                allow_redirects=True,
+            )
+            if response.status_code != 200:
+                return None
+            html_content = response.text or ""
+            if not html_content:
+                return None
+            result = self._parse_local_page_html(html_content)
+            if result:
+                result["source_url"] = str(response.url or clean_url)
+            return result
+        except Exception:
+            return None
+
+    def _parse_local_page_html(self, html_content: str) -> Optional[Dict[str, Any]]:
+        """解析抖音分享页 HTML。"""
+        item = self._extract_aweme_item_from_router_data(html_content)
+        if item:
+            note_result = self._parse_local_note_item(item)
+            if note_result:
+                return note_result
+
+            video_result = self._parse_local_video_item(item)
+            if video_result:
+                return video_result
+
+        return self._parse_local_legacy_video(html_content)
+
+    def _extract_aweme_item_from_router_data(self, html_content: str) -> Optional[Dict[str, Any]]:
+        """从 `_ROUTER_DATA` 中抽出作品主数据节点。"""
+        match = self.ROUTER_DATA_RE.search(html_content or "")
+        if not match:
+            return None
+
+        try:
+            router_data = json.loads(match.group(1))
+        except json.JSONDecodeError as e:
+            self.LOG.debug(f"[抖音] 解析 _ROUTER_DATA 失败: {e}")
+            return None
+
+        loader_data = router_data.get("loaderData")
+        if not isinstance(loader_data, dict):
+            return None
+
+        for page_data in loader_data.values():
+            if not isinstance(page_data, dict):
+                continue
+            video_info = page_data.get("videoInfoRes")
+            if not isinstance(video_info, dict):
+                continue
+            item_list = video_info.get("item_list")
+            if isinstance(item_list, list) and item_list and isinstance(item_list[0], dict):
+                return item_list[0]
+        return None
+
+    def _parse_local_note_item(self, item: Dict[str, Any]) -> Optional[Dict[str, Any]]:
+        """解析图文作品。"""
+        image_url_groups = self._pick_local_image_url_groups(item)
+        if not image_url_groups:
+            return None
+
+        desc = self._clean_local_text(item.get("desc"))
+        author = self._clean_local_text((item.get("author") or {}).get("nickname"))
+        images = [group[0] for group in image_url_groups if group]
+        if not images:
+            return None
+
+        return {
+            "type": "image",
+            "images": images,
+            "image_url_groups": image_url_groups,
+            "title": desc,
+            "author": author,
+            "cover": images[0],
+        }
+
+    def _pick_local_image_url_groups(self, item: Dict[str, Any]) -> List[List[str]]:
+        """从图文作品中提取每一张图的候选地址列表。"""
+        image_url_groups: List[List[str]] = []
+        seen_groups = set()
+        for image_info in item.get("images") or item.get("image_infos") or []:
+            if not isinstance(image_info, dict):
+                continue
+            candidates: List[str] = []
+            seen_urls = set()
+            for image_url in image_info.get("url_list") or []:
+                if not isinstance(image_url, str) or not image_url.startswith("http"):
+                    continue
+                decoded_url = self._decode_local_value(image_url)
+                if decoded_url in seen_urls:
+                    continue
+                candidates.append(decoded_url)
+                seen_urls.add(decoded_url)
+            group_key = tuple(candidates)
+            if candidates and group_key not in seen_groups:
+                image_url_groups.append(candidates)
+                seen_groups.add(group_key)
+        return image_url_groups
+
+    def _parse_local_video_item(self, item: Dict[str, Any]) -> Optional[Dict[str, Any]]:
+        """解析视频作品。"""
+        video = item.get("video")
+        if not isinstance(video, dict):
+            return None
+        if int(video.get("duration") or 1) == 0:
+            return None
+
+        play_addr = video.get("play_addr") or {}
+        urls = play_addr.get("url_list") or []
+        cleaned_urls = [self._decode_local_value(url).replace("playwm", "play") for url in urls if isinstance(url, str) and url]
+        video_url = self._prefer_v3_v10(cleaned_urls)
+        if not video_url:
+            return None
+
+        cover = video.get("cover") or {}
+        cover_urls = cover.get("url_list") or []
+        cover_url = self._decode_local_value(cover_urls[0]) if cover_urls else ""
+
+        return {
+            "type": "video",
+            "url": video_url,
+            "title": self._clean_local_text(item.get("desc")),
+            "author": self._clean_local_text((item.get("author") or {}).get("nickname")),
+            "cover": cover_url,
+        }
+
+    def _parse_local_legacy_video(self, html_content: str) -> Optional[Dict[str, Any]]:
+        """旧版页面结构兜底：直接从 HTML 里正则抽 `play_addr.url_list`。"""
+        match = self.LEGACY_PLAY_ADDR_RE.search(html_content or "")
+        if not match:
+            return None
+
+        raw_urls = [url.strip().strip('"') for url in match.group(1).split(",")]
+        cleaned_urls = [self._decode_local_value(url).replace("playwm", "play") for url in raw_urls if url]
+        video_url = self._prefer_v3_v10(cleaned_urls)
+        if not video_url:
+            return None
+
+        title = self._match_local_json_string(html_content, "desc")
+        author = self._match_local_json_string(html_content, "nickname")
+        cover_match = re.search(r'"cover":\s*{\s*"url_list":\s*\[\s*"([^"]+)"', html_content or "")
+        cover_url = self._decode_local_value(cover_match.group(1)) if cover_match else ""
+
+        return {
+            "type": "video",
+            "url": video_url,
+            "title": title,
+            "author": author,
+            "cover": cover_url,
+        }
+
+    def _match_local_json_string(self, text: str, key: str) -> str:
+        """从页面原始 JSON 片段中提取单个字符串字段。"""
+        match = re.search(rf'"{re.escape(key)}":\s*"([^"]*)"', text or "")
+        if not match:
+            return ""
+        return self._clean_local_text(self._decode_local_value(match.group(1)))
+
+    def _decode_local_value(self, value: str) -> str:
+        """解码 HTML 实体和 `\\uXXXX` 形式的转义文本。"""
+        text = str(value or "")
+        try:
+            text = text.encode("utf-8").decode("unicode_escape")
+        except Exception:
+            pass
+        return html.unescape(text)
+
+    def _clean_local_text(self, value: Any) -> str:
+        """清洗页面里读出来的标题、作者等文本字段。"""
+        if value is None:
+            return ""
+        return html.unescape(str(value)).strip()
+
    def _parse_from_internal_api(self, clean_url: str) -> Optional[Dict[str, Any]]:
        try:
            endpoint = "http://192.168.2.32:8999/api/hybrid/video_data"