在Python中从文件名提取扩展名


Answers:


1986

是。使用os.path.splitext(请参阅Python 2.X文档Python 3.X文档):

>>> import os
>>> filename, file_extension = os.path.splitext('/path/to/somefile.ext')
>>> filename
'/path/to/somefile'
>>> file_extension
'.ext'

与大多数手动字符串拆分尝试不同,os.path.splitext它将正确地/a/b.c/d视为没有扩展而不是具有extension .c/d,并且将被.bashrc视为没有扩展而不是具有extension .bashrc

>>> os.path.splitext('/a/b.c/d')
('/a/b.c/d', '')
>>> os.path.splitext('.bashrc')
('.bashrc', '')

15
的使用在basename这里有点混乱,因为os.path.basename("/path/to/somefile.ext")它将返回"somefile.ext"
Jiaaro

16
不会endswith()更便携,更pythonic吗?
塞巴斯蒂安·马赫

79
@ klingt.net那么,那.asd真的是扩展名!!如果您考虑一下,那foo.tar.gz是一个gzip压缩文件.gz),它恰好是tar文件.tar)。但这是一个gzip文件。我不希望它返回双扩展名。
nosklo 2014年

157
标准的Python函数命名约定确实很烦人-几乎每次我重新查找时,我都会误以为splittext。如果他们愿意做任何事情来表明此名称各部分之间的分隔符,那么识别它为splitExt或会容易得多split_ext。当然我不能成为唯一犯过此错误的人吗?
ArtOfWarfare 2015年

9
@Vingtoft您在评论中没有提到关于werkzeug的FileStorage的问题,这个问题与该特定情况无关。传递文件名的方式可能有问题。os.path.splitext('somefile.ext')=> ('somefile', '.ext')。随意提供一个实际的反例,而无需引用某些第三方库。
Gewthen '16

399
import os.path
extension = os.path.splitext(filename)[1]

15
出于好奇,为什么要import os.path代替from os import path
Kiswa 2011年

2
哦,我只是想知道背后是否有特定原因(约定除外)。我仍在学习Python,并想了解更多!
奇斯瓦,2011年

55
这确实取决于实际情况,如果您使用from os import path该名称,则该名称path将在您的本地范围内使用,查看代码的其他人可能不会立即知道该路径是来自os模块的路径。仿佛使用import os.path它一样,它将保留在os命名空间中,无论您在哪里调用,人们都会立即知道它path()来自os模块。
dennmat 2011年

18
我知道从语义上讲没有什么不同,但是我个人认为该结构_, extension = os.path.splitext(filename)看起来更好。
蒂姆·吉尔伯特

3
如果希望扩展作为更复杂的表达式的一部分,则[1]可能更有用: if check_for_gzip and os.path.splitext(filename)[1] == '.gz':
gerardw

238

3.4版的新功能。

import pathlib

print(pathlib.Path('yourPath.example').suffix) # '.example'

令人惊讶的是,还没有人提到它pathlibpathlib真是太棒了!

如果需要所有后缀(例如,如果有.tar.gz),.suffixes将返回它们的列表!


12
获取.tar.gz的示例:''.join(pathlib.Path('somedir/file.tar.gz').suffixes)
user3780389

好答案。我发现本教程比文档更有用:zetcode.com/python/pathlib
user118967

@ user3780389“ foo.bar.tar.gz”仍然不是有效的“ .tar.gz”吗?如果是这样,您的代码段.suffixes[-2:]应用于确保最多仅获取.tar.gz。
jeromej

111
import os.path
extension = os.path.splitext(filename)[1][1:]

只获取扩展名的文本,不带点。


73

一种选择可能是与点分开:

>>> filename = "example.jpeg"
>>> filename.split(".")[-1]
'jpeg'

文件没有扩展名时没有错误:

>>> "filename".split(".")[-1]
'filename'

但您必须小心:

>>> "png".split(".")[-1]
'png'    # But file doesn't have an extension

4
如果您上传x.tar.gz
Kirill

19
实际上不是。名为“ x.tar.gz”的文件的扩展名是“ gz”,而不是“ tar.gz”。os.path.splitext也以“ .os”作为扩展名。
穆拉特·乔鲁(MuratÇorlu),2012年

1
我们可以使用[1]而不是[-1]吗?我无法理解[-1]拆分
user765443

7
[-1]获取以点分隔的项目的最后一项。示例:"my.file.name.js".split('.') => ['my','file','name','js]
MuratÇorlu2013年

1
@BenjaminR啊,好的,您正在对结果列表进行优化。['file', 'tar', 'gz']'file.tar.gz'.split('.') vs ['file.tar', 'gz']搭配'file.tar.gz'.rsplit('.', 1)。是的,可能是。
穆拉特·乔鲁(MuratÇorlu),

40

值得在其中添加一个下标,这样您就不会怀疑自己为什么未在列表中显示JPG。

os.path.splitext(filename)[1][1:].strip().lower()

19

上面的任何解决方案都可以,但是在linux上,我发现扩展字符串的末尾有换行符,这将阻止匹配成功。将strip()方法添加到末尾。例如:

import os.path
extension = os.path.splitext(filename)[1][1:].strip() 

1
为了帮助我理解,请您解释一下第二索引/切片可防止哪些其他行为?(即[1:].splittext(filename)[1][1:]) -预先感谢您
塞缪尔·哈默

1
为自己弄清楚:(splittext()与如果使用“。”分割字符串不同)包括“。” 扩展名中的字符。额外[1:]的摆脱它。
塞缪尔·哈默

17

随着splitext有与双扩展名的文件的问题(例如file.tar.gzfile.tar.bz2等..)

>>> fileName, fileExtension = os.path.splitext('/path/to/somefile.tar.gz')
>>> fileExtension 
'.gz'

但应为: .tar.gz

可能的解决方案在这里


35
不,应该是.gz
Robert Siemer

1
两次获得2个扩展名吗?
maazza 2013年

1
@maazza是的。 gunzip somefile.tar.gz 输出文件名是什么?
FlipMcF

1
这就是为什么我们有扩展名'tgz'的原因,这意味着:tar + gzip!:D
Nuno Aniceto 2014年

1
@peterhil我认为您不希望您的python脚本了解用于创建文件名的应用程序。这有点超出问题的范围。不要选择该示例,“ filename.csv.gz”也非常有效。
FlipMcF 2014年

16

您可以在pathlib模块中找到一些很棒的东西(在python 3.x中可用)。

import pathlib
x = pathlib.PurePosixPath("C:\\Path\\To\\File\\myfile.txt").suffix
print(x)

# Output 
'.txt'

14

尽管这是一个古老的话题,但是我想知道为什么在这种情况下为什么没有提到一个叫做rpartition的非常简单的python api:

要获取给定文件绝对路径的扩展名,只需键入:

filepath.rpartition('.')[-1]

例:

path = '/home/jersey/remote/data/test.csv'
print path.rpartition('.')[-1]

会给你:'csv'


1
对于不熟悉API的用户,rpartition返回一个元组:("string before the right-most occurrence of the separator", "the separator itself", "the rest of the string")。如果未找到分隔符,则返回的元组将为:("", "", "the original string")
Nickolay

13

只是join全部pathlib suffixes

>>> x = 'file/path/archive.tar.gz'
>>> y = 'file/path/text.txt'
>>> ''.join(pathlib.Path(x).suffixes)
'.tar.gz'
>>> ''.join(pathlib.Path(y).suffixes)
'.txt'

12

惊讶的是尚未提及:

import os
fn = '/some/path/a.tar.gz'

basename = os.path.basename(fn)  # os independent
Out[] a.tar.gz

base = basename.split('.')[0]
Out[] a

ext = '.'.join(basename.split('.')[1:])   # <-- main part

# if you want a leading '.', and if no result `None`:
ext = '.' + ext if ext else None
Out[] .tar.gz

优点:

  • 我可以想到的任何东西都能按预期工作
  • 没有模块
  • 没有正则表达式
  • 跨平台
  • 易于扩展(例如,没有扩展引号,仅扩展的最后一部分)

作为功​​能:

def get_extension(filename):
    basename = os.path.basename(filename)  # os independent
    ext = '.'.join(basename.split('.')[1:])
    return '.' + ext if ext else None

1
如果文件没有任何扩展名,则会导致异常。
thiruvenkadam '16

4
如果文件名的名称中包含许多点,则此答案将完全忽略变体。示例get_extension('cmocka-1.1.0.tar.xz')=>'.1.0.tar.xz'-错误。
PADYMKO

@PADYMKO,恕我直言,不应将句号作为文件名的一部分来创建。上面的代码不应该导致“tar.xz”
的Douwe范德瓦Leest

2
只需更改为[-1]
PascalVKooten

11

您可以在split上使用filename

f_extns = filename.split(".")
print ("The extension of the file is : " + repr(f_extns[-1]))

这不需要额外的库


10
filename='ext.tar.gz'
extension = filename[filename.rfind('.'):]

2
filename如果文件名根本没有.,则导致返回最后一个字符。这是因为如果找不到该字符串则rfind返回-1
mattst,2016年

6

这是一种直接的字符串表示技术:我看到了很多解决方案,但我认为大多数都在考虑拆分。但是,拆分在每次出现“。”时都会执行。。您宁愿寻找的是分区。

string = "folder/to_path/filename.ext"
extension = string.rpartition(".")[-1]

2
rpartition已经由@weiyixie建议。
Nickolay

5

右拆分的另一种解决方案:

# to get extension only

s = 'test.ext'

if '.' in s: ext = s.rsplit('.', 1)[1]

# or, to get file name and extension

def split_filepath(s):
    """
    get filename and extension from filepath 
    filepath -> (filename, extension)
    """
    if not '.' in s: return (s, '')
    r = s.rsplit('.', 1)
    return (r[0], r[1])

5

即使这个问题已经被回答,我也会在正则表达式中添加解决方案。

>>> import re
>>> file_suffix = ".*(\..*)"
>>> result = re.search(file_suffix, "somefile.ext")
>>> result.group(1)
'.ext'

1
\.[0-9a-z]+$本文所述
16:02跳马

2

如果您喜欢正则表达式,则是真正的单线。而且即使您有其他“。”也没关系。在中间

import re

file_ext = re.search(r"\.([^.]+)$", filename).group(1)

结果请看这里:点击这里


0

这是在单行中同时获取文件名和扩展名的最简单方法

fName, ext = 'C:/folder name/Flower.jpeg'.split('/')[-1].split('.')

>>> print(fName)
Flower
>>> print(ext)
jpeg

与其他解决方案不同,您不需要为此导入任何软件包。


2
不适

0

对于趣味性...只需将扩展名收集到字典中,然后将所有扩展名跟踪到文件夹中即可。然后,只需拉出所需的扩展名即可。

import os

search = {}

for f in os.listdir(os.getcwd()):
    fn, fe = os.path.splitext(f)
    try:
        search[fe].append(f)
    except:
        search[fe]=[f,]

extensions = ('.png','.jpg')
for ex in extensions:
    found = search.get(ex,'')
    if found:
        print(found)

那是一个可怕的主意。您以前未添加的任何文件扩展名都会破坏代码!
罗伯特

0

尝试这个:

files = ['file.jpeg','file.tar.gz','file.png','file.foo.bar','file.etc']
pen_ext = ['foo', 'tar', 'bar', 'etc']

for file in files: #1
    if (file.split(".")[-2] in pen_ext): #2
        ext =  file.split(".")[-2]+"."+file.split(".")[-1]#3
    else:
        ext = file.split(".")[-1] #4
    print (ext) #5
  1. 获取列表中的所有文件名
  2. 分割文件名并检查倒数第二个扩展名,是否在pen_ext列表中?
  3. 如果是,则使用最后一个扩展名将其加入,并将其设置为文件的扩展名
  4. 如果不是,那么只需将最后一个扩展名作为文件的扩展名
  5. 然后检查一下

1
这打破了一堆特殊情况。请参阅已接受的答案。它只是以越野车的方式重塑了车轮。
罗伯特

我更新了答案
Ibnul Husainan

你好!尽管这段代码可以解决问题,但包括解释如何以及为什么解决该问题的说明,确实可以帮助提高您的帖子质量,并可能导致更多的投票。请记住,您将来会为读者回答问题,而不仅仅是现在问的人。请编辑您的答案以添加说明,并指出适用的限制和假设。
布赖恩

@布莱恩那样吗?
Ibnul Husainan

您只会使情况变得更糟,以新的方式打破它。foo.tar是有效的文件名。如果我将其扔给您的代码会怎样?怎么样.bashrc还是foo?为此,有一个库函数……
Robert

-2
# try this, it works for anything, any length of extension
# e.g www.google.com/downloads/file1.gz.rs -> .gz.rs

import os.path

class LinkChecker:

    @staticmethod
    def get_link_extension(link: str)->str:
        if link is None or link == "":
            return ""
        else:
            paths = os.path.splitext(link)
            ext = paths[1]
            new_link = paths[0]
            if ext != "":
                return LinkChecker.get_link_extension(new_link) + ext
            else:
                return ""

-3
def NewFileName(fichier):
    cpt = 0
    fic , *ext =  fichier.split('.')
    ext = '.'.join(ext)
    while os.path.isfile(fichier):
        cpt += 1
        fichier = '{0}-({1}).{2}'.format(fic, cpt, ext)
    return fichier

-5
name_only=file_name[:filename.index(".")

这将为您提供最常见的第一个“。”文件名。


1
首先,他不需要名字,而是扩展名。其次,即使他需要姓名,也可能会出现以下文件错误:file.name.ext
ya_dimon 2015年

如@ya_dimon所述,这不适用于带点的文件名。另外,他需要扩展!
Umar Dastgir
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.