merge #3796: [twitter] extract TwitPic URLs in text (#3792)

2023-05-25 14:59:07 +02:00
parent 243de697b9 d4fb4ff47f
commit 3dc862c7fc
1 changed files with 28 additions and 2 deletions
--- a/gallery_dl/extractor/twitter.py
+++ b/gallery_dl/extractor/twitter.py
@@ -13,6 +13,7 @@ from .. import text, util, exception
 from ..cache import cache
 import itertools
 import json
+import re

 BASE_PATTERN = r"(?:https?://)?(?:www\.|mobile\.)?(?:[fv]x)?twitter\.com"

@@ -75,6 +76,10 @@ class TwitterExtractor(Extractor):
        else:
            seen_tweets = None

+        if self.twitpic:
+            self._find_twitpic = re.compile(
+                r"https?://(twitpic\.com/\w+)").finditer
+
        for tweet in self.tweets():

            if "legacy" in tweet:
@@ -231,12 +236,27 @@ class TwitterExtractor(Extractor):
            files.append({"url": url})

    def _extract_twitpic(self, tweet, files):
-        for url in tweet["entities"].get("urls", ()):
+        # collect urls
+        urls = []
+        for url in tweet["entities"].get("urls") or ():
            url = url["expanded_url"]
            if "//twitpic.com/" not in url or "/photos/" in url:
                continue
            if url.startswith("http:"):
                url = "https" + url[4:]
+            urls.append(url)
+        tget = tweet.get
+        for match in self._find_twitpic(
+                tget("full_text") or tget("text") or ""):
+            urls.append(text.ensure_http_scheme(match.group(1)))
+
+        # extract actual urls
+        seen = set()
+        for url in urls:
+            if url in seen:
+                self.log.debug("Skipping %s (previously seen)", url)
+                continue
+            seen.add(url)
            response = self.request(url, fatal=False)
            if response.status_code >= 400:
                continue
@@ -781,7 +801,13 @@ class TwitterTweetExtractor(TwitterExtractor):
        ("https://twitter.com/i/web/status/112900228289540096", {
            "options": (("twitpic", True), ("cards", False)),
            "pattern": r"https://\w+.cloudfront.net/photos/large/\d+.jpg",
-            "count": 3,
+            "count": 2,  # 1 duplicate
+        }),
+        # TwitPic URL not in 'urls' (#3792)
+        ("https://twitter.com/shimoigusaP/status/8138669971", {
+            "options": (("twitpic", True),),
+            "pattern": r"https://\w+.cloudfront.net/photos/large/\d+.png",
+            "count": 1,
        }),
        # Twitter card (#1005)
        ("https://twitter.com/billboard/status/1306599586602135555", {