问题:在Python中构造URL时如何联接路径的组成部分
例如,我想将前缀路径连接到资源路径(例如/js/foo.js)。
我希望结果路径相对于服务器的根目录。在上面的示例中,如果前缀为“ media”,则我希望结果为/media/js/foo.js。
os.path.join确实做得很好,但是它如何连接路径取决于OS。在这种情况下,我知道我的目标是网络,而不是本地文件系统。
当您使用已知将在URL中使用的路径时,是否有最佳选择?os.path.join是否可以正常工作?我应该自己滚吗?
回答 0
从OP发布的评论看来,由于他似乎不想保留联接中的“绝对URL”(这是;-的关键工作之一)urlparse.urljoin
,因此我建议避免这种情况。 os.path.join
出于完全相同的原因也会很糟糕。
因此,我将使用类似的命令'/'.join(s.strip('/') for s in pieces)
(如果/
必须也忽略引导符-如果引导件必须是特殊情况,那当然也是可行的;-)。
回答 1
您可以使用urllib.parse.urljoin
:
>>> from urllib.parse import urljoin
>>> urljoin('/media/path/', 'js/foo.js')
'/media/path/js/foo.js'
但要注意:
>>> urljoin('/media/path', 'js/foo.js')
'/media/js/foo.js'
>>> urljoin('/media/path', '/js/foo.js')
'/js/foo.js'
之所以得到不同的结果/js/foo.js
,js/foo.js
是因为前者以斜杠开头,表示它已经从网站根目录开始。
在Python 2上,您必须做
from urlparse import urljoin
回答 2
就像您说的那样,os.path.join
基于当前os连接路径。posixpath
是在posix系统上命名空间下使用的基础模块os.path
:
>>> os.path.join is posixpath.join
True
>>> posixpath.join('/media/', 'js/foo.js')
'/media/js/foo.js'
因此,您可以仅导入posixpath.join
URL并将其用作URL,URL可用并且可以在任何平台上使用。
编辑: @Pete的建议是一个好建议,您可以为导入添加别名以提高可读性
from posixpath import join as urljoin
编辑:如果您查看的源os.py
代码,我认为这会变得更清楚,或者至少帮助我理解了(此处的代码来自Python 2.7.11,此外我还做了一些修整)。其中有条件导入,os.py
可以选择要在namespace中使用哪个路径模块os.path
。所有底层模块(posixpath
,ntpath
,os2emxpath
,riscospath
),其可以在进口os.py
,别名为path
,在那里,存在要在所有系统中使用。os.py
仅os.path
根据当前的操作系统在运行时选择要在命名空间中使用的模块之一。
# os.py
import sys, errno
_names = sys.builtin_module_names
if 'posix' in _names:
# ...
from posix import *
# ...
import posixpath as path
# ...
elif 'nt' in _names:
# ...
from nt import *
# ...
import ntpath as path
# ...
elif 'os2' in _names:
# ...
from os2 import *
# ...
if sys.version.find('EMX GCC') == -1:
import ntpath as path
else:
import os2emxpath as path
from _emx_link import link
# ...
elif 'ce' in _names:
# ...
from ce import *
# ...
# We can use the standard Windows path.
import ntpath as path
elif 'riscos' in _names:
# ...
from riscos import *
# ...
import riscospath as path
# ...
else:
raise ImportError, 'no os specific module found'
回答 3
这很好地完成了工作:
def urljoin(*args):
"""
Joins given arguments into an url. Trailing but not leading slashes are
stripped for each argument.
"""
return "/".join(map(lambda x: str(x).rstrip('/'), args))
回答 4
urllib程序包中的basejoin函数可能正是您想要的。
basejoin = urljoin(base, url, allow_fragments=True)
Join a base URL and a possibly relative URL to form an absolute
interpretation of the latter.
编辑:我之前没有注意到,但是urllib.basejoin似乎直接映射到urlparse.urljoin,使后者成为首选。
回答 5
使用furl, pip install furl
它将是:
furl.furl('/media/path/').add(path='js/foo.js')
回答 6
我知道这比OP要求的要多,但是我拥有以下URL的组成部分,并且正在寻找一种简单的方法来加入它们:
>>> url = 'https://api.foo.com/orders/bartag?spamStatus=awaiting_spam&page=1&pageSize=250'
环顾四周:
>>> split = urlparse.urlsplit(url)
>>> split
SplitResult(scheme='https', netloc='api.foo.com', path='/orders/bartag', query='spamStatus=awaiting_spam&page=1&pageSize=250', fragment='')
>>> type(split)
<class 'urlparse.SplitResult'>
>>> dir(split)
['__add__', '__class__', '__contains__', '__delattr__', '__dict__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__getslice__', '__getstate__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__slots__', '__str__', '__subclasshook__', '__weakref__', '_asdict', '_fields', '_make', '_replace', 'count', 'fragment', 'geturl', 'hostname', 'index', 'netloc', 'password', 'path', 'port', 'query', 'scheme', 'username']
>>> split[0]
'https'
>>> split = (split[:])
>>> type(split)
<type 'tuple'>
因此,除了在其他答案中已经回答过的路径联接之外,要获得我一直在寻找的内容,我还执行了以下操作:
>>> split
('https', 'api.foo.com', '/orders/bartag', 'spamStatus=awaiting_spam&page=1&pageSize=250', '')
>>> unsplit = urlparse.urlunsplit(split)
>>> unsplit
'https://api.foo.com/orders/bartag?spamStatus=awaiting_spam&page=1&pageSize=250'
根据文档,它只需要5部分元组。
使用以下元组格式:
方案0 URL方案说明符空字符串
netloc 1网络位置部分为空字符串
路径2分层路径空字符串
查询3查询组件为空字符串
片段4片段标识符为空字符串
回答 7
符文·卡加德(Rune Kaagaard)为我提供了一个出色而紧凑的解决方案,我对此进行了一些扩展:
def urljoin(*args):
trailing_slash = '/' if args[-1].endswith('/') else ''
return "/".join(map(lambda x: str(x).strip('/'), args)) + trailing_slash
这样,无论尾随斜杠和尾部是什么斜杠,所有参数都可以连接在一起,同时保留最后一个斜杠(如果存在)。
回答 8
为了稍微改善Alex Martelli的响应,以下内容将不仅清理多余的斜杠,而且保留尾随的(结束)斜杠,这有时可能有用:
>>> items = ["http://www.website.com", "/api", "v2/"]
>>> url = "/".join([(u.strip("/") if index + 1 < len(items) else u.lstrip("/")) for index, u in enumerate(items)])
>>> print(url)
http://www.website.com/api/v2/
它不是那么容易阅读,并且不会清除多个多余的斜杠。
回答 9
我发现上述所有解决方案都不受欢迎,所以我提出了自己的解决方案。此版本可确保零件以单个斜杠连接,而单独保留前导斜杠和尾随斜杠。不pip install
,不urllib.parse.urljoin
奇怪。
In [1]: from functools import reduce
In [2]: def join_slash(a, b):
...: return a.rstrip('/') + '/' + b.lstrip('/')
...:
In [3]: def urljoin(*args):
...: return reduce(join_slash, args) if args else ''
...:
In [4]: parts = ['https://foo-bar.quux.net', '/foo', 'bar', '/bat/', '/quux/']
In [5]: urljoin(*parts)
Out[5]: 'https://foo-bar.quux.net/foo/bar/bat/quux/'
In [6]: urljoin('https://quux.com/', '/path', 'to/file///', '//here/')
Out[6]: 'https://quux.com/path/to/file/here/'
In [7]: urljoin()
Out[7]: ''
In [8]: urljoin('//','beware', 'of/this///')
Out[8]: '/beware/of/this///'
In [9]: urljoin('/leading', 'and/', '/trailing/', 'slash/')
Out[9]: '/leading/and/trailing/slash/'
回答 10
>>> import re
>>> import furl
>>> p = re.compile(r'(\/)+')
>>> url = furl.furl('/media/path').add(path='/js/foo.js').url
>>> url
'/media/path/js/foo.js'
>>> p.sub(r"\1", url)
'/media/path/js/foo.js'
>>> url = furl.furl('/media/path').add(path='js/foo.js').url
>>> url
'/media/path/js/foo.js'
>>> p.sub(r"\1", url)
'/media/path/js/foo.js'
>>> url = furl.furl('/media/path/').add(path='js/foo.js').url
>>> url
'/media/path/js/foo.js'
>>> p.sub(r"\1", url)
'/media/path/js/foo.js'
>>> url = furl.furl('/media///path///').add(path='//js///foo.js').url
>>> url
'/media///path/////js///foo.js'
>>> p.sub(r"\1", url)
'/media/path/js/foo.js'