无论OS /路径格式如何,都从路径中提取文件名


794

无论使用哪种操作系统或路径格式,我都可以使用哪个Python库从路径提取文件名?

例如,我希望所有这些路径返回我c

a/b/c/
a/b/c
\a\b\c
\a\b\c\
a\b\c
a/b/../../a/b/c/
a/b/../../a/b/c

Answers:


781

使用os.path.splitos.path.basename建议使用并非在所有情况下都行得通:如果您在Linux上运行脚本并尝试处理经典的Windows样式路径,它将失败。

Windows路径可以使用反斜杠或正斜杠作为路径分隔符。因此,该ntpath模块(在Windows上运行时等效于os.path)将适用于所有平台上的所有(1)路径。

import ntpath
ntpath.basename("a/b/c")

当然,如果文件以斜杠结尾,则基名将为空,因此请使用您自己的函数来处理它:

def path_leaf(path):
    head, tail = ntpath.split(path)
    return tail or ntpath.basename(head)

验证:

>>> paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c', 
...     'a/b/../../a/b/c/', 'a/b/../../a/b/c']
>>> [path_leaf(path) for path in paths]
['c', 'c', 'c', 'c', 'c', 'c', 'c']


(1)有一个警告:Linux文件名可能包含反斜杠。因此,在Linux上,r'a/b\c'始终引用文件夹b\c中的a文件,而在Windows上,始终引用c文件b夹的子文件夹中的a文件。因此,在路径中同时使用正斜杠和反斜杠时,您需要了解关联的平台才能正确解释它。实际上,通常可以安全地假定它是Windows路径,因为Linux文件名中很少使用反斜杠,但是在编写代码时请记住这一点,以免造成意外的安全漏洞。


29
在Windows上,os.path仅在ntpath内部加载模块。使用此模块,'\\'甚至在Linux机器上也可以处理路径分隔符。对于Linux,该posixpath模块(resp。os.path)将简化路径操作,仅允许使用posix样式'/'分隔符。
moooeeeep 2011年

@moooeeeep所以我们可以使用Stranac的答案,它可靠吗?(“在其他情况下,使用os.path.split或os.path.basename不会在所有情况下都起作用:如果您在Linux上运行脚本并尝试处理经典的Windows样式路径,它将失败” - -引言来自劳里兹(Lauritz)的帖子-我不明白,这个警告是否涉及Stranac的回答?
约翰cj

3
@ johnc.j。仅当您需要r'C:\path\to\file.txt'在Linux机器上解析Windows样式路径(例如)时,才需要使用ntpath模块。否则,您可以使用os.path中的功能。这是因为Linux系统通常允许在文件名中使用反斜杠字符(如答案中所述)。
moooeeeep

2
您的解决方案不等于os.path.basename(os.path.normpath(path))吗?
Mr_and_Mrs_D

2
对于将来访问此问题的人来说有价值的是,我遇到了劳里茨警告的情况,而他的解决方案是唯一可行的解​​决方案。使用os时,不能仅输出文件名。因此,恕我直言,ntpath是必经之路。
哈拉贝克

1250

实际上,有一个函数可以完全返回您想要的

import os
print(os.path.basename(your_path))

22
如果要以独立于OS的方式处理路径,则对于os.path.basename(u“ C:\\ temp \\ bla.txt”)您将期望获得'bla.txt'。问题不是关于获取有效的文件名,而是提取路径的名称。
2014年

3
在我的Google搜索中,找到路径的文件名时,此答案最有帮助。无论如何,我的用例仅在Windows上。
Bobort's

2
os.path.basename(your_path)这工作了!我想要脚本路径:os.path.dirname(os.path.realpath(__file__))和脚本名称:os.path.basename(os.path.realpath(__file__))。谢谢!
TheWalkingData '17

@AdiRoiban请您详细说明一下?我在Windows 7上进行了测试,实际上得到了“ bla.txt”。简而言之,我没有发现任何问题(对我自己而言)
john cj

10
@ johnc.j。关键是,当您在Linux上尝试这样做时,您会得到'C:\\temp\\bla.txt'替代。
moooeeeep

218

os.path.split 是您要寻找的功能

head, tail = os.path.split("/tmp/d/a.dat")

>>> print(tail)
a.dat
>>> print(head)
/tmp/d

40
只是为了其他用户要小心,如果路径以“ /”或“ \”结尾,则返回“”
BuZz 2011年

当我尝试“ C:\ Users \ Dell \ Desktop \ ProjectShadow \ button \ button.py”时,除此以外,它都会返回“ ProjectShadow utton tton ”,它会返回正确的结果
amitnair92 '17

4
@ amitnair92-执行以下操作:r“ C:\ Users \ Dell \ Desktop \ ProjectShadow \ button \ button.py”或执行以下操作:“ C:\\ Users \\ Dell \\ Desktop \\ ProjectShadow \\ button \\ button .py“-” \ b“是一个特殊字符(我认为是系统的“钟”),类似于\ r或\ n表示换行符/回车符的方式。在字符串前面加上r“ C:\ ...”意味着使用给定的原始输入
Bruce Lamond

87

在python 3中

>>> from pathlib import Path    
>>> Path("/tmp/d/a.dat").name
'a.dat'

3.4至3.6或更高版本,具体取决于您使用的pathlib项。
LightCC

8
也可以使用Path(“ some / path / to / file.dat”)。stem获取不带文件扩展名的文件名
s2t2

47
import os
head, tail = os.path.split('path/to/file.exe')

尾部就是您想要的文件名。

有关详细信息,请参见python os模块文档


13
只是为了其他用户要小心,如果路径以“ /”或“ \”结尾,则返回“”
BuZz 2011年


12

在您的示例中,您还需要从右侧右侧去除斜线以返回c

>>> import os
>>> path = 'a/b/c/'
>>> path = path.rstrip(os.sep) # strip the slash from the right side
>>> os.path.basename(path)
'c'

第二级:

>>> os.path.filename(os.path.dirname(path))
'b'

更新:我认为lazyr已经提供了正确的答案。我的代码不适用于unix系统上类似Windows的路径,反之亦然,不适用于Windows系统上类似unix的路径。


您的答案将不适用于r"a\b\c"Linux,也不适用"a/b/c"于Windows。
Lauritz V. Thaulow 2011年

当然,os.path.basename(path)只会工作,如果os.path.isfile(path)True。因此,这path = 'a/b/c/'根本不是有效的文件名...
moooeeeep 2011年

1
@fmaas os.path.basename纯粹是一个字符串处理函数。不管文件是否存在,或者它是文件还是目录。由于斜杠而os.path.basename("a/b/c/")返回""
Lauritz V. Thaulow 2011年

lazyr你是对的!我没想到 这样做安全path = path.replace('\\', '/')吗?
滑雪

我想@@ Skirmantas,但是感觉不对。我认为路径处理应该使用为该工作而制作的内置工具来完成。还有很多更给路径比满足眼睛。
Lauritz V. Thaulow 2011年

11
fname = str("C:\Windows\paint.exe").split('\\')[-1:][0]

这将返回:paint.exe

根据您的路径或操作系统更改分割功能的sep值。


这是我喜欢的答案,但为什么不执行以下操作呢?fname = str(path).split('/')[-1]
asultan904

10

如果要自动获取文件名,可以执行

import glob

for f in glob.glob('/your/path/*'):
    print(os.path.split(f)[-1])

8

如果您的文件路径不是以“ /”结尾并且目录以“ /”分隔,则使用以下代码。众所周知,路径通常不以“ /”结尾。

import os
path_str = "/var/www/index.html"
print(os.path.basename(path_str))

但是在某些情况下,例如URL以“ /”结尾,然后使用以下代码

import os
path_str = "/home/some_str/last_str/"
split_path = path_str.rsplit("/",1)
print(os.path.basename(split_path[0]))

但是,当您的路径通常在Windows路径中以“ \”分隔时,则可以使用以下代码

import os
path_str = "c:\\var\www\index.html"
print(os.path.basename(path_str))

import os
path_str = "c:\\home\some_str\last_str\\"
split_path = path_str.rsplit("\\",1)
print(os.path.basename(split_path[0]))

您可以通过检查OS类型将两者组合为一个功能并返回结果。


7

这适用于Linux和Windows,以及标准库

paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
         'a/b/../../a/b/c/', 'a/b/../../a/b/c']

def path_leaf(path):
    return path.strip('/').strip('\\').split('/')[-1].split('\\')[-1]

[path_leaf(path) for path in paths]

结果:

['c', 'c', 'c', 'c', 'c', 'c', 'c']

6

这是仅用于正则表达式的解决方案,它似乎可与任何OS上的任何OS路径一起使用。

不需要其他模块,也不需要预处理:

import re

def extract_basename(path):
  """Extracts basename of a given path. Should Work with any OS Path on any OS"""
  basename = re.search(r'[^\\/]+(?=[\\/]?$)', path)
  if basename:
    return basename.group(0)


paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
         'a/b/../../a/b/c/', 'a/b/../../a/b/c']

print([extract_basename(path) for path in paths])
# ['c', 'c', 'c', 'c', 'c', 'c', 'c']


extra_paths = ['C:\\', 'alone', '/a/space in filename', 'C:\\multi\nline']

print([extract_basename(path) for path in extra_paths])
# ['C:', 'alone', 'space in filename', 'multi\nline']

更新:

如果您只想要一个潜在的文件名(如果存在)(即/a/b/dir,也是如此c:\windows\),则将正则表达式更改为:r'[^\\/]+(?![\\/])$'。对于“正则表达式挑战”,这会将某种斜杠的正向正向查找更改为负向正向查找,导致以所述斜杠结尾的路径名不返回任何内容,而不返回路径名中的最后一个子目录。当然,不能保证潜在的文件名实际上是指文件,并且为此os.path.is_dir()os.path.is_file()将需要使用。

这将匹配如下:

/a/b/c/             # nothing, pathname ends with the dir 'c'
c:\windows\         # nothing, pathname ends with the dir 'windows'
c:hello.txt         # matches potential filename 'hello.txt'
~it_s_me/.bashrc    # matches potential filename '.bashrc'
c:\windows\system32 # matches potential filename 'system32', except
                    # that is obviously a dir. os.path.is_dir()
                    # should be used to tell us for sure

可以在这里测试正则表达式。


您正在使用re,为什么不使用os模块?
索拉·钱德拉·帕特尔

@SaurabhChandraPatel已经很长时间了。如果我没记错的话,在这种情况下,将正则表达式用作跨平台解决方案。例如,您可以在Linux服务器上处理Windows文件名。
Eric Duminil

5

也许只是我的一站式解决方案,而没有重要的新特性(关于创建临时文件的临时文件:D)

import tempfile
abc = tempfile.NamedTemporaryFile(dir='/tmp/')
abc.name
abc.name.replace("/", " ").split()[-1] 

获取的值abc.name将是这样的字符串:'/tmp/tmpks5oksk7' 所以我可以用/空格替换.replace("/", " "),然后调用split()。那将返回一个列表,我得到列表的最后一个元素[-1]

无需导入任何模块。


2
如果文件名或目录包含空格怎么办?
克里斯,2015年

1
直接拆分(“ /”)[-1]怎么样?

4

我从未见过双反斜线路径,它们是否存在?python模块的内置功能对此os失败。其他所有工作方式,以及您对os.path.normpath()以下事项的警告:

paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c', 
...     'a/b/../../a/b/c/', 'a/b/../../a/b/c', 'a/./b/c', 'a\b/c']
for path in paths:
    os.path.basename(os.path.normpath(path))

这些不是双重背景。它们是单个反斜杠,因此需要转义。
Eric Duminil

3

Windows分隔符可以在Unix文件名或Windows路径中。Unix分隔符只能存在于Unix路径中。Unix分隔符的存在指示非Windows路径。

以下将通过操作系统特定的分隔符剥离(剪切尾随的分隔符),然后分割并返回最右边的值。这很丑陋,但基于上面的假设很简单。如果假设不正确,请更新,我将更新此回复以匹配更准确的条件。

a.rstrip("\\\\" if a.count("/") == 0 else '/').split("\\\\" if a.count("/") == 0 else '/')[-1]

样例代码:

b = ['a/b/c/','a/b/c','\\a\\b\\c','\\a\\b\\c\\','a\\b\\c','a/b/../../a/b/c/','a/b/../../a/b/c']

for a in b:

    print (a, a.rstrip("\\" if a.count("/") == 0 else '/').split("\\" if a.count("/") == 0 else '/')[-1])

1
另外,请随时向我发送有关如何在此场所进行格式化的指示。尝试了六次以使示例代码正确。
dusc2don '16

1

为了完整起见,这是pathlibpython 3.2+ 的解决方案:

>>> from pathlib import PureWindowsPath

>>> paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c', 
...          'a/b/../../a/b/c/', 'a/b/../../a/b/c']

>>> [PureWindowsPath(path).name for path in paths]
['c', 'c', 'c', 'c', 'c', 'c', 'c']

这适用于Windows和Linux。


1

在Python 2和3中,都使用pathlib2模块:

import posixpath  # to generate unix paths
from pathlib2 import PurePath, PureWindowsPath, PurePosixPath

def path2unix(path, nojoin=True, fromwinpath=False):
    """From a path given in any format, converts to posix path format
    fromwinpath=True forces the input path to be recognized as a Windows path (useful on Unix machines to unit test Windows paths)"""
    if not path:
        return path
    if fromwinpath:
        pathparts = list(PureWindowsPath(path).parts)
    else:
        pathparts = list(PurePath(path).parts)
    if nojoin:
        return pathparts
    else:
        return posixpath.join(*pathparts)

用法:

In [9]: path2unix('lala/lolo/haha.dat')
Out[9]: ['lala', 'lolo', 'haha.dat']

In [10]: path2unix(r'C:\lala/lolo/haha.dat')
Out[10]: ['C:\\', 'lala', 'lolo', 'haha.dat']

In [11]: path2unix(r'C:\lala/lolo/haha.dat') # works even with malformatted cases mixing both Windows and Linux path separators
Out[11]: ['C:\\', 'lala', 'lolo', 'haha.dat']

与您的测试用例:

In [12]: testcase = paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
    ...: ...     'a/b/../../a/b/c/', 'a/b/../../a/b/c']

In [14]: for t in testcase:
    ...:     print(path2unix(t)[-1])
    ...:
    ...:
c
c
c
c
c
c
c

这里的想法是将所有路径转换为的统一内部表示形式pathlib2,具体取决于平台而使用不同的解码器。幸运的是,它pathlib2包括一个可PurePath在任何路径上工作的通用解码器。如果此方法无效,则可以使用强制识别Windows路径fromwinpath=True。这会将输入字符串分成多个部分,最后一个是您要查找的叶子,因此是path2unix(t)[-1]

如果为参数nojoin=False,则路径将重新加入,以便输出只是转换为Unix格式的输入字符串,这对于跨平台比较子路径很有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.