[Jpgchurch] Add Jpgchurch extractor

2022-06-30 19:57:44 +05:30
parent 853435f437
commit a9b8a2430d
2 changed files with 122 additions and 0 deletions
--- a/gallery_dl/extractor/init.py
+++ b/gallery_dl/extractor/init.py
@@ -66,6 +66,7 @@ modules = [
    "instagram",
    "issuu",
    "itaku",
+    "jpgchurch",
    "kabeuchi",
    "keenspot",
    "kemonoparty",
--- a/gallery_dl/extractor/jpgchurch.py
+++ b/gallery_dl/extractor/jpgchurch.py
@@ -0,0 +1,121 @@
+# -*- coding: utf-8 -*-
+
+# Copyright 2022 Mike Fährmann
+#
+# This program is free software; you can redistribute it and/or modify
+# it under the terms of the GNU General Public License version 2 as
+# published by the Free Software Foundation.
+
+from .common import Extractor, Message
+from .. import text
+
+BASE_PATTERN = r"(?:https?://)?jpg\.church"
+
+
+class JpgchurchImageExtractor(Extractor):
+    """Base Extractor for Jpgchurch Images"""
+    category = "Jpgchurch"
+    subcategory = "image"
+    directory_fmt = ("{category}", "{user}")
+    filename_fmt = "{filename}"
+    pattern = BASE_PATTERN + r"/img/([\w\d\-\.]+)"
+    root = "https://jpg.church"
+    test = ("https://jpg.church/img/funnymeme.LecXGS",)
+
+    def __init__(self, match):
+        Extractor.__init__(self, match)
+        self.image = match.group(1)
+
+    def items(self):
+        data = self.metadata()
+        for image in self.images():
+            if "album" in image or "user" in image:
+                data.update(image)
+            yield Message.Directory, data
+            yield Message.Url, image["url"], image
+
+    def metadata(self):
+        """Return general metadata"""
+        return {}
+
+    def images(self):
+        """Return an iterable containing the image(s)"""
+        url = "{}/img/{}".format(self.root, self.image)
+        return [self._get_images(url)]
+
+    def _get_images(self, url):
+        page = self.request(url).text
+        data = self._extract_image(page)
+        data.update({
+            "user": data["user"].split("/")[-1],
+            "extension": text.ext_from_url(data["url"])
+        })
+        return data
+
+    @staticmethod
+    def _extract_image(page):
+        _page = text.extract(
+            page,
+            '<div class="header-content-right">', '<span class="user-image')[0]
+        return text.extract_all(_page, (
+            ('url', '<a href="', '" download='),
+            ('filename', '"', '" class'),
+            ('user', '<a href="', '" class="user-image">')))[0]
+
+
+class JpgchurchAlbumExtractor(JpgchurchImageExtractor, Extractor):
+    """Extractor for Jpgchurch Albums"""
+    subcategory = "album"
+    directory_fmt = ("{category}", "{user}", "{album}",)
+    pattern = BASE_PATTERN + r"/a(?:lbum)?/([\w\d\-\.]+)"
+    test = ("https://jpg.church/album/CDilP/?sort=date_desc&page=1",)
+
+    def __init__(self, match):
+        Extractor.__init__(self, match)
+        self.album = match.group(1).split('.')[-1]
+
+    def metadata(self):
+        return {"album": self.album}
+
+    def images(self):
+        url = "{}/a/{}".format(self.root, self.album)
+        for _url in self._get_album_images(url):
+            yield self._get_images(_url)
+
+    def _pagination(self, url):
+        """Uses recursion to yield the next page"""
+        yield url
+        page = self.request(url).text
+        _next = text.extract(
+            page, '<a data-pagination="next" href="', '" ><')[0]
+        if _next:
+            url = _next
+            yield from self._pagination(_next)
+
+    def _get_album_images(self, url):
+        for _url in self._pagination(url):
+            page = self.request(_url).text
+            _page = text.extract_iter(
+                page, '<div class="list-item-image ', 'image-container')
+            for image in _page:
+                yield text.extract(image, '<a href="', '" class')[0]
+
+
+class JpgchurchUserExtractor(JpgchurchAlbumExtractor, Extractor):
+    """Extractor for Jpgchurch Users"""
+    subcategory = "user"
+    directory_fmt = ("{category}", "{user}",)
+    pattern = BASE_PATTERN + r"/(?!img|a(?:lbum)?)([\w\d\-\.]+)"
+    test = ("https://jpg.church/exearco",)
+
+    def __init__(self, match):
+        Extractor.__init__(self, match)
+        self.user = match.group(1)
+
+    def metadata(self):
+        return {"user": self.user}
+
+    def images(self):
+        url = "{}/{}".format(self.root, self.user)
+        for _url in self._get_album_images(url):
+            yield self._get_images(_url)