[exhentai] provide fallback URLs (#1021, #4745)

2023-11-04 17:06:46 +01:00
parent f4e61fd1d5
commit 69b931b9bb
1 changed files with 17 additions and 0 deletions
--- a/gallery_dl/extractor/exhentai.py
+++ b/gallery_dl/extractor/exhentai.py
@@ -275,15 +275,19 @@ class ExhentaiGalleryExtractor(ExhentaiExtractor):
        self.key_next = extr("'", "'")
        iurl = extr('<img id="img" src="', '"')
        nl = extr(" nl(", ")").strip("\"'")
        orig = extr('hentai.org/fullimg', '"')
        try:
            if self.original and orig:
                url = self.root + "/fullimg" + text.unescape(orig)
                data = self._parse_original_info(extr('ownload original', '<'))
                data["_fallback"] = ("{}?nl={}".format(url, nl),)
            else:
                url = iurl
                data = self._parse_image_info(url)
                data["_fallback"] = self._fallback(
                    None, self.image_num, nl)
        except IndexError:
            self.log.debug("Page content:\n%s", page)
            raise exception.StopExtraction(
@@ -317,6 +321,8 @@ class ExhentaiGalleryExtractor(ExhentaiExtractor):
            imgkey = nextkey
            nextkey, pos = text.extract(i3, "'", "'")
            imgurl , pos = text.extract(i3, 'id="img" src="', '"', pos)
            nl     , pos = text.extract(i3, " nl(", ")", pos)
            nl = (nl or "").strip("\"'")
            try:
                pos = i6.find("hentai.org/fullimg")
@@ -325,9 +331,12 @@ class ExhentaiGalleryExtractor(ExhentaiExtractor):
                    url = text.unescape(origurl)
                    data = self._parse_original_info(text.extract(
                        i6, "ownload original", "<", pos)[0])
                    data["_fallback"] = ("{}?nl={}".format(url, nl),)
                else:
                    url = imgurl
                    data = self._parse_image_info(url)
                    data["_fallback"] = self._fallback(
                        imgkey, request["page"], nl)
            except IndexError:
                self.log.debug("Page content:\n%s", page)
                raise exception.StopExtraction(
@@ -401,6 +410,14 @@ class ExhentaiGalleryExtractor(ExhentaiExtractor):
            raise exception.NotFoundError("image page")
        return page
    def _fallback(self, imgkey, num, nl):
        url = "{}/s/{}/{}-{}?nl={}".format(
            self.root, imgkey or self.key_start, self.gallery_id, num, nl)
        page = self.request(url, fatal=False).text
        if page.startswith(("Invalid page", "Keep trying")):
            return
        yield self.image_from_page(page)[0]
    @staticmethod
    def _parse_image_info(url):
        for part in url.split("/")[4:]: