[bbccouk] Improve extraction (Closes #5530)

author Sergey M․ <dstftw@gmail.com>

Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)

committer Sergey M․ <dstftw@gmail.com>

Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)
author Sergey M․ <dstftw@gmail.com>
Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)
committer Sergey M․ <dstftw@gmail.com>
Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)
diff --git a/youtube_dl/extractor/bbccouk.py b/youtube_dl/extractor/bbccouk.py

index abc34a5761487b5a900294dac59db4a053b95cb0..22c2843beaa230182b3dc78567c517ac8f780e05 100644 (file)
--- a/youtube_dl/extractor/bbccouk.py
+++ b/youtube_dl/extractor/bbccouk.py
@@ -3,7 +3,10 @@ from __future__ import unicode_literals
  import xml.etree.ElementTree
  
  from .common import InfoExtractor
-from ..utils import ExtractorError
+from ..utils import (
+    ExtractorError,
+    int_or_none,
+)
  from ..compat import compat_HTTPError
  
  
@@ -326,16 +329,29 @@ class BBCCoUkIE(InfoExtractor):
  
          webpage = self._download_webpage(url, group_id, 'Downloading video page')
  
-        programme_id = self._search_regex(
-            r'"vpid"\s*:\s*"([\da-z]{8})"', webpage, 'vpid', fatal=False, default=None)
+        thumbnail = self._og_search_thumbnail(webpage)
+
+        programme_id = None
+
+        tviplayer = self._search_regex(
+            r'mediator\.bind\(({.+?})\s*,\s*document\.getElementById',
+            webpage, 'player', default=None)
+
+        if tviplayer:
+            player = self._parse_json(tviplayer, group_id).get('player', {})
+            duration = int_or_none(player.get('duration'))
+            programme_id = player.get('vpid')
+
+        if not programme_id:
+            programme_id = self._search_regex(
+                r'"vpid"\s*:\s*"([\da-z]{8})"', webpage, 'vpid', fatal=False, default=None)
+
          if programme_id:
-            player = self._download_json(
-                'http://www.bbc.co.uk/iplayer/episode/%s.json' % group_id,
-                group_id)['jsConf']['player']
-            title = player['title']
-            description = player['subtitle']
-            duration = player['duration']
              formats, subtitles = self._download_media_selector(programme_id)
+            title = self._og_search_title(webpage)
+            description = self._search_regex(
+                r'<p class="medium-description">([^<]+)</p>',
+                webpage, 'description', fatal=False)
          else:
              programme_id, title, description, duration, formats, subtitles = self._download_playlist(group_id)
  
@@ -345,6 +361,7 @@ class BBCCoUkIE(InfoExtractor):
              'id': programme_id,
              'title': title,
              'description': description,
+            'thumbnail': thumbnail,
              'duration': duration,
              'formats': formats,
              'subtitles': subtitles,
author	Sergey M․ <dstftw@gmail.com>
	Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)
committer	Sergey M․ <dstftw@gmail.com>
	Thu, 30 Apr 2015 21:59:13 +0000 (03:59 +0600)