Fix 3.8 tests.

python · ambv · May 5, 2021 · Apr 29, 2021 · Apr 29, 2021 · Apr 30, 2021
commit 9a1d1f73202633cd7837588d290f2cbd04369866
diff --git a/Lib/test/test_urlparse.py b/Lib/test/test_urlparse.py
@@ -613,7 +613,7 @@ def test_urlsplit_attributes(self):
             p.port
 
     def test_urlsplit_remove_unsafe_bytes(self):
-        # Remove ASCII tabs and newlines from input
+        # Remove ASCII tabs and newlines from input, for http common case scenario.
         url = "http://www.python.org/java\nscript:\talert('msg\r\n')/#frag"
         p = urllib.parse.urlsplit(url)
         self.assertEqual(p.scheme, "http")
@@ -627,7 +627,7 @@ def test_urlsplit_remove_unsafe_bytes(self):
         self.assertEqual(p.port, None)
         self.assertEqual(p.geturl(), "http://www.python.org/javascript:alert('msg')/#frag")
 
-        # Remove ASCII tabs and newlines from input as bytes.
+        # Remove ASCII tabs and newlines from input as bytes, for http common case scenario.
         url = b"http://www.python.org/java\nscript:\talert('msg\r\n')/#frag"
         p = urllib.parse.urlsplit(url)
         self.assertEqual(p.scheme, b"http")
@@ -641,6 +641,16 @@ def test_urlsplit_remove_unsafe_bytes(self):
         self.assertEqual(p.port, None)
         self.assertEqual(p.geturl(), b"http://www.python.org/javascript:alert('msg')/#frag")
 
+        # any scheme
+        url = "x-new-scheme://www.python.org/java\nscript:\talert('msg\r\n')/#frag"
+        p = urllib.parse.urlsplit(url)
+        self.assertEqual(p.geturl(), "x-new-scheme://www.python.org/javascript:alert('msg')/#frag")
+
+        # Remove ASCII tabs and newlines from input as bytes, any scheme.
+        url = b"x-new-scheme://www.python.org/java\nscript:\talert('msg\r\n')/#frag"
+        p = urllib.parse.urlsplit(url)
+        self.assertEqual(p.geturl(), b"x-new-scheme://www.python.org/javascript:alert('msg')/#frag")
+
     def test_attributes_bad_port(self):
         """Check handling of invalid ports."""
         for bytes in (False, True):

diff --git a/Lib/urllib/parse.py b/Lib/urllib/parse.py
@@ -417,6 +417,11 @@ def _checknetloc(netloc):
             raise ValueError("netloc '" + netloc + "' contains invalid " +
                              "characters under NFKC normalization")
 
+def _remove_unsafe_bytes_from_url(url):
+    for b in _UNSAFE_URL_BYTES_TO_REMOVE:
+        url = url.replace(b, "")
+    return url
+
 def urlsplit(url, scheme='', allow_fragments=True):
     """Parse a URL into 5 components:
     <scheme>://<netloc>/<path>?<query>#<fragment>
@@ -446,6 +451,7 @@ def urlsplit(url, scheme='', allow_fragments=True):
             if '?' in url:
                 url, query = url.split('?', 1)
             _checknetloc(netloc)
+            url = _remove_unsafe_bytes_from_url(url)
             v = SplitResult('http', netloc, url, query, fragment)
             _parse_cache[key] = v
             return _coerce_result(v)
@@ -460,8 +466,7 @@ def urlsplit(url, scheme='', allow_fragments=True):
                 # not a port number
                 scheme, url = url[:i].lower(), rest
 
-    for b in _UNSAFE_URL_BYTES_TO_REMOVE:
-        url = url.replace(b, "")
+    url = _remove_unsafe_bytes_from_url(url)
 
     if url[:2] == '//':
         netloc, url = _splitnetloc(url, 2)