From: Tithen-Firion <Tithen-Firion@users.noreply.github.com>
Date: Thu, 4 Dec 2014 01:54:25 +0000 (+0100)
Subject: [tvp] Update extractor
X-Git-Url: http://git.oshgnacknak.de/?a=commitdiff_plain;h=29f400b97d00cc7bd8b1a7549417584a45e38df8;p=youtube-dl

[tvp] Update extractor
---

diff --git a/youtube_dl/extractor/tvp.py b/youtube_dl/extractor/tvp.py
index a64580005..6b95e2ed1 100644
--- a/youtube_dl/extractor/tvp.py
+++ b/youtube_dl/extractor/tvp.py
@@ -1,37 +1,112 @@
+# -*- coding: utf-8 -*-
 from __future__ import unicode_literals
 
+import re
+
 from .common import InfoExtractor
 
 
 class TvpIE(InfoExtractor):
     IE_NAME = 'tvp.pl'
-    _VALID_URL = r'https?://www\.tvp\.pl/.*?wideo/(?P<date>\d+)/(?P<id>\d+)'
-
-    _TEST = {
-        'url': 'http://www.tvp.pl/warszawa/magazyny/campusnews/wideo/31102013/12878238',
-        'md5': '148408967a6a468953c0a75cbdaf0d7a',
-        'info_dict': {
-            'id': '12878238',
-            'ext': 'wmv',
-            'title': '31.10.2013 - Odcinek 2',
-            'description': '31.10.2013 - Odcinek 2',
+    _VALID_URL = r'https?://(?P<type>vod|www)\.tvp\.pl/.*/(?P<id>\d+)$'
+
+    _TESTS = [
+        {
+            'url': 'http://www.tvp.pl/warszawa/magazyny/campusnews/wideo/31102013/12878238',
+            'info_dict': {
+                'id': '12878238',
+                'ext': 'wmv',
+                'title': 'CAMPUSnews, 31.10.2013 - Odcinek 2',
+                'description': '',
+            },
+            'skip': 'Download has to use same server IP as extraction. Therefore, a good (load-balancing) DNS resolver will make the download fail.',
+        }, {
+            'url': 'http://vod.tvp.pl/filmy-fabularne/filmy-za-darmo/ogniem-i-mieczem/wideo/odc-2/4278035',
+            'info_dict': {
+                'id': '4278035',
+                'ext': 'wmv',
+                'title': 'Ogniem i mieczem, odc. 2',
+                'description': 'Bohun dowiaduje siÄ o zÅamaniu przez kniahiniÄ danego mu sÅowa i wyrusza do RozÅogÃ³w. Helenie w ostatniej chwili udaje siÄ uciec dziÄki pomocy ZagÅoby.',
+            },
+            'skip': 'As above',
+        }, {
+            'url': 'http://vod.tvp.pl/seriale/obyczajowe/czas-honoru/sezon-1-1-13/i-seria-odc-13/194536',
+            'info_dict': {
+                'id': '194536',
+                'ext': 'mp4',
+                'title': 'Czas honoru, I seria â odc. 13',
+                'description': 'WÅADEK\nCzesÅaw prosi MariÄ o dostarczenie WÅadkowi zarazki tyfusu. JeÅli zachoruje zostanie przewieziony do szpitala skÄd Åatwiej bÄdzie go odbiÄ. Czy matka zdecyduje siÄ zaraziÄ syna? Karol odwiedza WandÄ przyznaje siÄ, Å¼e jÄ oszukiwaÅ, ale ostrzega teÅ¼, Å¼e grozi jej aresztowanie i nalega, Å¼eby wyjechaÅa z Warszawy. Czy dziewczyna zdecyduje siÄ znÃ³w oddaliÄ od ukochanego? Rozpoczyna siÄ akcja odbicia WÅadka.',
+            },
+        }, {
+            'url': 'http://www.tvp.pl/there-can-be-anything-so-i-shortened-it/17916176',
+            'info_dict': {
+                'id': '17916176',
+                'ext': 'mp4',
+                'title': 'rozmaitosci, TVP GorzÃ³w pokaÅ¼e filmy studentÃ³w z podroÅ¼y dookoÅa Åwiata',
+                'description': '',
+            },
+            'params': {
+                # m3u8 download
+                'skip_download': 'true',
+            },
+        }, {
+            'url': 'http://vod.tvp.pl/seriale/obyczajowe/na-sygnale/sezon-2-27-/odc-39/17834272',
+            'info_dict': {
+                'id': '17834272',
+                'ext': 'mp4',
+                'title': 'Na sygnale, odc. 39',
+                'description': 'Ekipa Wiktora ratuje mÅodÄ matkÄ, ktÃ³ra spadÅa ze schodÃ³w trzymajÄc na rÄkach noworodka. Okazuje siÄ, Å¼e dziewczyna jest surogatkÄ, a biologiczni rodzice dziecka prÃ³bujÄ zmusiÄ jÄ do oddania synkaâ¦',
+            },
+            'params': {
+                # m3u8 download
+                'skip_download': 'true',
+            },
         },
-        'skip': 'Download has to use same server IP as extraction. Therefore, a good (load-balancing) DNS resolver will make the download fail.'
-    }
+    ]
 
     def _real_extract(self, url):
-        video_id = self._match_id(url)
-        webpage = self._download_webpage(url, video_id)
-        json_url = 'http://www.tvp.pl/pub/stat/videofileinfo?video_id=%s' % video_id
-        params = self._download_json(
-            json_url, video_id, "Downloading video metadata")
-        video_url = params['video_url']
-
-        return {
+        mobj = re.match(self._VALID_URL, url)
+        video_id = mobj.group('id')
+        webpage = self._download_webpage(
+            'http://www.tvp.pl/sess/tvplayer.php?object_id=%s' % video_id, video_id)
+        title = self._og_search_title(webpage)
+        series = self._search_regex(
+            r'{name:\s*([\'"])SeriesTitle\1,\s*value:\s*\1(?P<series>.*?)\1},',
+            webpage, 'series', group='series', default=None)
+        if series is not None and series not in title:
+            title = '%s, %s' % (series, title)
+        info_dict = {
             'id': video_id,
-            'title': self._og_search_title(webpage),
-            'ext': 'wmv',
-            'url': video_url,
-            'description': self._og_search_description(webpage),
+            'title': title,
             'thumbnail': self._og_search_thumbnail(webpage),
+            'description': self._og_search_description(webpage, default=''),
         }
+        if mobj.group('type') == 'vod' and info_dict['description'] == '':
+            info_dict.update({
+                'description': self._html_search_regex(
+                    r'(?s)<div\s+class=[\'"]opis.*?</div>',
+                    self._download_webpage(url, video_id), 'description', group=0),
+            })
+
+        video_url = self._search_regex(
+            r'0:{src:([\'"])(?P<url>.*?)\1', webpage, 'formats', group='url', default=None)
+        if video_url is None:
+            video_url = self._download_json(
+                'http://www.tvp.pl/pub/stat/videofileinfo?video_id=%s' % video_id,
+                video_id)['video_url']
+
+        ext = video_url.rsplit('.', 1)[-1]
+        if ext != 'ism/manifest':
+            if '/' in ext:
+                ext = 'mp4'
+            info_dict.update({
+                'ext': ext,
+                'url': video_url,
+            })
+        else:
+            m3u8_url = re.sub('([^/]*)\.ism/manifest', r'\1.ism/\1.m3u8', video_url)
+            formats = self._extract_m3u8_formats(m3u8_url, video_id, 'mp4')
+            info_dict.update({
+                'formats': formats,
+            })
+        return info_dict