[slideshare] fix description extraction

author Remita Amine <remitamine@gmail.com>

Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)

committer Remita Amine <remitamine@gmail.com>

Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)
author Remita Amine <remitamine@gmail.com>
Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)
committer Remita Amine <remitamine@gmail.com>
Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)
diff --git a/youtube_dl/extractor/slideshare.py b/youtube_dl/extractor/slideshare.py

index 0b717a1e42b8dd2c3d8a88d602f001876cf99e03..4967c1b7752e4ebfd0c1aac9b0d079c2dc843363 100644 (file)
--- a/youtube_dl/extractor/slideshare.py
+++ b/youtube_dl/extractor/slideshare.py
@@ -9,6 +9,7 @@ from ..compat import (
  )
  from ..utils import (
      ExtractorError,
+    get_element_by_id,
  )
  
  
@@ -40,7 +41,7 @@ class SlideshareIE(InfoExtractor):
          bucket = info['jsplayer']['video_bucket']
          ext = info['jsplayer']['video_extension']
          video_url = compat_urlparse.urljoin(bucket, doc + '-SD.' + ext)
-        description = self._html_search_regex(
+        description = get_element_by_id('slideshow-description-paragraph', webpage) or self._html_search_regex(
              r'(?s)<p[^>]+itemprop="description"[^>]*>(.+?)</p>', webpage,
              'description', fatal=False)
  
@@ -51,5 +52,5 @@ class SlideshareIE(InfoExtractor):
              'ext': ext,
              'url': video_url,
              'thumbnail': info['slideshow']['pin_image_url'],
-            'description': description,
+            'description': description.strip() if description else None,
          }
author	Remita Amine <remitamine@gmail.com>
	Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)
committer	Remita Amine <remitamine@gmail.com>
	Tue, 5 Jul 2016 11:01:04 +0000 (12:01 +0100)