正则表达式匹配DNS主机名或IP地址?


369

是否有人可以使用正则表达式来匹配任何合法的DNS主机名或IP地址?

编写一个可以在95%的时间内正常工作的代码很容易,但是我希望得到经过良好测试的东西,以与DNS主机名的最新RFC规范完全匹配。

Answers:


535

您可以单独使用以下正则表达式,也可以将它们组合为联合OR表达式。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex匹配有效的IP地址和ValidHostnameRegex的有效主机名。根据使用的语言,\可能必须使用\进行转义。


ValidHostnameRegex根据RFC 1123有效。最初,RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/主机名

RFC 952中主机名的原始规范要求标签不能以数字或连字符开头,并且不能以连字符结尾。但是,随后的规范(RFC 1123)允许主机名标签以数字开头。

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

3
此处:stackoverflow.com/questions/4645126/…-我解释了以数字开头的名称也被视为有效。另外,只有一个点是有问题的问题。希望对此有更多反馈。
BreakPhreak 2011年

16
您可能要添加IPv6。OP未指定哪种地址。(顺便说一下,可以在这里找到)
new123456'2

32
在人们盲目地在代码中使用它之前,请注意它并不完全准确。它忽略了RFC2181:“ DNS本身仅对可用于标识资源记录的特定标签施加了一个限制。该限制与标签的长度和全名有关。任何一个标签的长度都限于1和63个八位位组。完整的域名限制为255个八位位组(包括分隔符)。”
卢布

7
@UserControl:非拉丁(Punycoded)主机名必须首先转换为ASCII格式(éxämplè.com= xn--xmpl-loa1ab.com),然后进行验证。
Alix Axel

6
您的主机名表达式匹配一些无效值:我试过123.456.789.0,它说这是有效的主机名。
lbarreira 2014年

62

smink的主机名正则表达式未遵守主机名中各个标签长度的限制。有效主机名中的每个标签不得超过63个八位位组。

ValidHostnameRegex =“ ^([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \-] {0,61} [a-zA-Z0-9]) \
(\。([[a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \-] {0,61} [a-zA-Z0-9]))) * $”

请注意,第一行(上方)末尾的反斜杠是用于分隔长行的Unix shell语法。它不是正则表达式本身的一部分。

这仅是一行中的正则表达式:

^([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \-] {0,61} [a-zA-Z0-9])(\。 ([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \-] {0,61} [a-zA-Z0-9]))* $

您还应该单独检查主机名的总长度不能超过255个字符。有关更多信息,请查阅RFC-952和RFC-1123。


6
出色的主机模式。它可能取决于某人的语言的正则表达式实现,但对于JS来说,可以稍作调整以使其简短一些而不会丢失任何内容:/^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?(\.[a-z\d]([a-z\d\-]{0,61}[a-z\d])?)*$/i
分号

31

要匹配有效的IP地址,请使用以下正则表达式:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

代替:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

说明

许多正则表达式引擎匹配OR序列中的第一种可能性。例如,尝试以下正则表达式:

10.48.0.200

测试

测试之间的区别 VS


5
不要忘了开始^和结束$,否则也将匹配0.0.0.999或999.0.0.0。;)
andreas

1
是,以有效的字符串开头^和结束$是必需的,但是如果您要在文本中搜索IP,请不要使用它。
奥尔本

您识别出的意外“非贪婪”也适用于其他主机名解决方案。值得将其添加到您的答案中,因为其他人将不匹配完整的主机名。例如,([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]|[a-zA-Z0-9])(\.([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])|[a-zA-Z0-9]))*
ergohack '17

编辑:在上面,使用+末尾而不是*看到失败。
ergohack

5

我似乎无法编辑顶部帖子,因此我将在此处添加答案。

对于主机名-简单的答案,在此处的egrep示例上-http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

尽管这种情况并未考虑到第一个八位字节中的0值,以及大于254(ip addres)或255(netmask)的值。也许附加的if语句会有所帮助。

至于合法的dns主机名,假设您仅检查Internet主机名(而不检查Intranet),则我写下了以下内容,其中包含shell / php的组合,但它可以用作任何正则表达式。

首先访问ietf网站,下载并解析1级合法域名的列表:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

那应该给您一个不错的重新编码,以检查顶级域名的合法性,例如.com .org或.ca

然后根据此处的准则添加表达式的第一部分-http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和'-'符号,短划线都不应位于一个八位位组的开始或结尾。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后将它们放在一起(PHP preg_match示例):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

您可能还想添加一个if语句来检查所检查的字符串是否少于256个字符-http: //www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html


1
-1,因为它与“ 999.999.999.999”之类的伪造IP地址匹配。
bdesham 2014年

1
“尽管这种情况并未考虑到第一个八位字节中的0值,以及大于254(ip地址)或255(网络掩码)的值。”
Alex Volkov

我看到您的答案合格了,是的。我之所以投票,是因为您的那部分答案仍然没有用。
bdesham 2014年

3

值得注意的是,大多数语言的库通常都内置在标准库中,可以为您执行此操作。这些库的更新可能比四年前从Stack Overflow答案中复制并忘记的代码更新的频率要高得多。当然,他们通常还会将地址解析为一些可用的形式,而不是仅仅为您提供一组匹配项。

例如,在(POSIX)C中检测和解析IPv4:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

显然,如果您尝试例如在聊天消息中查找所有有效地址,则此类功能将不起作用-但即使在此处,使用简单但过于热情的正则表达式来查找潜在匹配项,然后使用库来解析它们。

例如,在Python中:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

2
def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))

你能解释一下这个正则表达式吗?确切地说,(?!-),(?<!-)是什么意思?
Scit 2016年

1
@Scit,如果您的正则表达式引擎允许使用它们,请确保它们不会以“-”字符开头或结尾。例如,来自PythonPerl
YLearn '16


1
"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"

1

这适用于有效的IP地址:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'

1
/^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/

0

这是我在Ant中使用的正则表达式,用于从ANT_OPTS中获取代理主机IP或主机名。这用于获取代理IP,以便在为派生的JVM配置代理之前,我可以运行Ant“可访问”测试。

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

这是一个\w在那里,它不会捕获IP,只在某些情况下,主机名。
Yaron 2014年

0

我发现这对于IP地址非常有效。它像最上面的答案一样进行验证,但也可以确保ip被隔离,因此在ip之前或之后没有文本或更多数字/小数。

(?<!\ S)(?:(?:\ d | [1-9] \ d | 1 \ d \ d | 2 [0-4] \ d | 25 [0-5])\ b |。 \ b){7}(?!\ S)


我尝试了很多,但是我在这里看不懂两件事。1. \ b指定单词边界我们为什么使用\ b?边界在哪里?和2.为什么它仅对{7}有效,据我了解,我认为应该是{4},但它不起作用。(可选)您可以说出为什么要使用非捕获块。
Srichakradhar


0

尝试这个:

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

在我的情况下有效。


0

关于IP地址,似乎存在一些关于是否包含前导零的争论。这曾经是一种普遍做法,并且被普遍接受,因此我认为无论当前的偏好如何,都应将其标记为有效。关于是否应该验证字符串之前和之后的文本,以及我认为应该对其进行验证,也存在一些歧义。1.2.3.4是有效的IP,但1.2.3.4.5无效,并且1.2.3.4部分和2.3.4.5部分都不应该导致匹配。使用此表达式可以解决一些问题:

grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)' 

不幸的是,在许多提供的解决方案中确实重复了验证八位字节的正则表达式部分。尽管这比模式实例更好,但是如果正在使用的正则表达式中支持子例程,则可以完全消除重复。下一个示例通过-P切换启用这些功能,grep并且还利用了超前和后向功能。(我为八位字节选择的函数名称为'o'。我可以使用'octet'作为名称,但希望简洁。)

grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])'

如果IP地址以句子形式的文本存在于文件中,则点的处理实际上可能会产生误报,因为句号可以不加点号的一部分而跟随。上面的变种可以解决以下问题:

grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))'

0
>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

0

新的网络框架具有针对结构IPv4Address和结构IPv6Address的失败初始化器,它们非常容易处理IP地址部分。使用所有正则表达式在IPv6中使用正则表达式很难做到这一点。

不幸的是,我对主机名没有一个好的答案。

请注意,网络框架是最新的,因此它可能会迫使您为最新的OS版本进行编译。

import Network
let tests = ["192.168.4.4","fkjhwojfw","192.168.4.4.4","2620:3","2620::33"]

for test in tests {
    if let _ = IPv4Address(test) {
        debugPrint("\(test) is valid ipv4 address")
    } else if let _ = IPv6Address(test) {
        debugPrint("\(test) is valid ipv6 address")
    } else {
        debugPrint("\(test) is not a valid IP address")
    }
}

output:
"192.168.4.4 is valid ipv4 address"
"fkjhwojfw is not a valid IP address"
"192.168.4.4.4 is not a valid IP address"
"2620:3 is not a valid IP address"
"2620::33 is valid ipv6 address"

-1

这个怎么样?

([0-9]{1,3}\.){3}[0-9]{1,3}

9999999999.0.0.9999999999也是如此:)但是对于大多数程序员来说,这种简短的方法就足够了。
andreas

3
-1,因为它匹配废话IP地址(如@Shebuka所述)。
bdesham 2014年

-1

在php上: filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'


2
尽管此代码可以回答问题,但通常代码旁边进行解释会使答案更加有用。请编辑您的答案,并提供一些上下文和解释。
user4642212'1

而且,除非我弄错了,否则FILTER_VALIDATE_IP是仅PHP的值。
DonGar

-2

检查主机名,例如... mywebsite.co.in,thangaraj.name,18thangaraj.in,thangaraj106.in等,

[a-z\d+].*?\\.\w{2,4}$

3
-1。OP要求“经过严格测试以完全符合最新的RFC规范”,但这与* .museum不匹配,而它将与* .foo匹配。是有效TLD 的列表
bdesham 2014年

我不确定将加号放在字符类(方括号)内是否是一个好主意,此外,还有5个字母的TLD(例如.expert)。
Yaron 2014年

完成RFC的最佳方法是使用系统/语言功能。inet_aton足够好
m3nda

-2

我考虑过这种用于IP地址匹配\ d + [。] \ d + [。] \ d + [。] \ d +的简单正则表达式匹配模式


1111.1.1.1不是有效的IP。如果您不关心子网,则无法真正测试ip格式。您至少应该注意类似的出现次数,^\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}但这当然不是正确的方法。如果您有编写脚本的语言,请确保您可以访问它的网络功能。检查REAL ip的最佳方法是告诉系统进行转换并将ip转换为正确的格式,然后检查true / false。如果是Python,我使用socket.inet_aton(ip)。需要PHP的情况inet_aton($ip)
m3nda

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.