[mediasite] Add support for dashed ids and named catalogs (closes #20531)

author Sergey M․ <dstftw@gmail.com>

Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)

committer Sergey M․ <dstftw@gmail.com>

Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)
author Sergey M․ <dstftw@gmail.com>
Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)
committer Sergey M․ <dstftw@gmail.com>
Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)
diff --git a/youtube_dl/extractor/extractors.py b/youtube_dl/extractor/extractors.py

index a1a0f9cd58a24ec5928139f4834d563dc397ce7a..124764e2bf9d14752f0bba078a8766bf2109551b 100644 (file)
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@@ -635,6 +635,7 @@ from .mediaset import MediasetIE
  from .mediasite import (
      MediasiteIE,
      MediasiteCatalogIE,
+    MediasiteNamedCatalogIE,
  )
  from .medici import MediciIE
  from .megaphone import MegaphoneIE
diff --git a/youtube_dl/extractor/mediasite.py b/youtube_dl/extractor/mediasite.py

index 5c9e49d90ab1b5aab894eca31d532adf1f3c5e08..694a264d672288b47c2700b9265bfc0635158ff2 100644 (file)
--- a/youtube_dl/extractor/mediasite.py
+++ b/youtube_dl/extractor/mediasite.py
@@ -22,7 +22,7 @@ from ..utils import (
  )
  
  
-_ID_RE = r'[0-9a-f]{32,34}'
+_ID_RE = r'(?:[0-9a-f]{32,34}|[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12,14})'
  
  
  class MediasiteIE(InfoExtractor):
@@ -98,6 +98,11 @@ class MediasiteIE(InfoExtractor):
              'url': 'https://mediasite.ntnu.no/Mediasite/Showcase/default/Presentation/7d8b913259334b688986e970fae6fcb31d',
              'only_matching': True,
          },
+        {
+            # dashed id
+            'url': 'https://hitsmediaweb.h-its.org/mediasite/Play/2db6c271-681e-4f19-9af3-c60d1f82869b1d',
+            'only_matching': True,
+        }
      ]
  
      # look in Mediasite.Core.js (Mediasite.ContentStreamType[*])
@@ -264,6 +269,10 @@ class MediasiteCatalogIE(InfoExtractor):
      }, {
          'url': 'https://medaudio.medicine.iu.edu/Mediasite/Catalog/Full/9518c4a6c5cf4993b21cbd53e828a92521/97a9db45f7ab47428c77cd2ed74bb98f14/9518c4a6c5cf4993b21cbd53e828a92521',
          'only_matching': True,
+    }, {
+        # dashed id
+        'url': 'http://events7.mediasite.com/Mediasite/Catalog/Full/631f9e48-530d-4543-8154-9f955d08c75e',
+        'only_matching': True,
      }]
  
      def _real_extract(self, url):
@@ -333,3 +342,25 @@ class MediasiteCatalogIE(InfoExtractor):
              catalog, lambda x: x['CurrentFolder']['Name'], compat_str)
  
          return self.playlist_result(entries, catalog_id, title,)
+
+
+class MediasiteNamedCatalogIE(InfoExtractor):
+    _VALID_URL = r'(?xi)(?P<url>https?://[^/]+/Mediasite)/Catalog/catalogs/(?P<catalog_name>[^/?#&]+)'
+    _TESTS = [{
+        'url': 'https://msite.misis.ru/Mediasite/Catalog/catalogs/2016-industrial-management-skriabin-o-o',
+        'only_matching': True,
+    }]
+
+    def _real_extract(self, url):
+        mobj = re.match(self._VALID_URL, url)
+        mediasite_url = mobj.group('url')
+        catalog_name = mobj.group('catalog_name')
+
+        webpage = self._download_webpage(url, catalog_name)
+
+        catalog_id = self._search_regex(
+            r'CatalogId\s*:\s*["\'](%s)' % _ID_RE, webpage, 'catalog id')
+
+        return self.url_result(
+            '%s/Catalog/Full/%s' % (mediasite_url, catalog_id),
+            ie=MediasiteCatalogIE.ie_key(), video_id=catalog_id)
author	Sergey M․ <dstftw@gmail.com>
	Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)
committer	Sergey M․ <dstftw@gmail.com>
	Mon, 1 Apr 2019 18:13:52 +0000 (01:13 +0700)
youtube_dl/extractor/extractors.py		patch \| blob \| history
youtube_dl/extractor/mediasite.py		patch \| blob \| history