我正在设置一个新服务器,并希望在我的Web应用程序中完全支持UTF-8。我过去曾在现有服务器上尝试过此操作,但最终似乎总是不得不退回到ISO-8859-1。
我到底需要在哪里设置编码/字符集?我知道我需要配置Apache,MySQL和PHP来执行此操作-是否可以遵循一些标准清单,或者对出现不匹配的地方进行故障排除?
这是用于运行Linux 5,PHP,5和Apache 2的新Linux服务器。
utf-8
为他们每个人seprately - MySQL的5,PHP 5或Apache 2
我正在设置一个新服务器,并希望在我的Web应用程序中完全支持UTF-8。我过去曾在现有服务器上尝试过此操作,但最终似乎总是不得不退回到ISO-8859-1。
我到底需要在哪里设置编码/字符集?我知道我需要配置Apache,MySQL和PHP来执行此操作-是否可以遵循一些标准清单,或者对出现不匹配的地方进行故障排除?
这是用于运行Linux 5,PHP,5和Apache 2的新Linux服务器。
utf-8
为他们每个人seprately - MySQL的5,PHP 5或Apache 2
Answers:
数据存储:
utf8mb4
在数据库的所有表和文本列上指定字符集。这使得MySQL物理上存储和检索以UTF-8本地编码的值。注意,utf8mb4
如果utf8mb4_*
指定了排序规则(没有任何显式字符集),MySQL将隐式使用编码。
在旧版本的MySQL(<5.5.3)中,不幸的是,您将被迫utf8
仅使用,仅支持Unicode字符的子集。我希望我在开玩笑。
资料存取:
在您的应用程序代码(例如PHP)中,无论使用哪种数据库访问方法,都需要将连接字符集设置为utf8mb4
。这样,当MySQL将数据交给您的应用程序时,MySQL不会从其本地UTF-8进行转换,反之亦然。
一些驱动程序提供了自己的用于配置连接字符集的机制,该机制既可以更新其自身的内部状态,又可以将要在连接上使用的编码通知MySQL-这通常是首选方法。在PHP中:
如果您使用PHP≥5.3.6的PDO抽象层,则可以charset
在DSN中指定:
$dbh = new PDO('mysql:charset=utf8mb4');
如果您使用的是mysqli,则可以调用set_charset()
:
$mysqli->set_charset('utf8mb4'); // object oriented style
mysqli_set_charset($link, 'utf8mb4'); // procedural style
如果您坚持使用普通的mysql,但碰巧正在运行PHP≥5.2.3,则可以致电mysql_set_charset
。
如果驱动程序不提供自己的设置连接字符集的机制,则可能必须发出查询以告知MySQL您的应用程序希望连接上的数据如何被编码:SET NAMES 'utf8mb4'
。
关于utf8mb4
/ utf8
适用与上述相同的考虑。
输出:
如果您的应用程序将文本传输到其他系统,则还需要告知他们字符编码。对于Web应用程序,必须告知浏览器发送数据的编码(通过HTTP响应标头或HTML元数据)。
在PHP中,您可以使用default_charset
php.ini选项,或Content-Type
自己手动发出MIME标头,这虽然工作更多,但效果相同。
使用编码输出时json_encode()
,请添加JSON_UNESCAPED_UNICODE
作为第二个参数。
输入:
不幸的是,在尝试存储或在任何地方使用它之前,您应该验证每个收到的字符串都是有效的UTF-8。PHP mb_check_encoding()
可以解决问题,但您必须谨慎使用。真的没有办法解决这个问题,因为恶意客户端可以使用他们想要的任何编码来提交数据,而且我还没有找到使PHP可靠地为您执行此操作的技巧。
从我对当前HTML规范的阅读中,对于现代HTML,以下子项目不再是必需的,甚至不再有效。我的理解是浏览器将使用为文档指定的字符集并提交数据。但是,如果您定位的是旧版HTML(XHTML,HTML4等),则以下几点可能仍然有用:
accept-charset
属性添加到所有<form>
代码中:<form ... accept-charset="UTF-8">
。<form>
标签。其他代码注意事项:
显然,将要提供的所有文件(PHP,HTML,JavaScript等)都应使用有效的UTF-8编码。
您需要确保每次处理UTF-8字符串时,都必须安全进行。不幸的是,这是最困难的部分。您可能需要大量使用PHP的mbstring
扩展。
PHP的内置字符串操作默认情况下不是 UTF-8安全的。 您可以使用正常的PHP字符串操作(例如串联)安全地进行某些操作,但是对于大多数事情,您应该使用等效的mbstring
功能。
要知道您在做什么(请阅读:不要搞砸),您确实需要了解UTF-8及其在最低级别上的工作方式。查看utf8.com上的任何链接,以获取一些好的资源,以学习您需要了解的所有内容。
我想添加一件事 chazomaticus的出色回答中:
不要忘记META标记(例如,或者HTML4或XHTML版本):
<meta charset="utf-8">
这看似微不足道,但IE7以前给我带来了问题。
我做对了一切。数据库,数据库连接和Content-Type HTTP标头都设置为UTF-8,并且在所有其他浏览器中都可以正常工作,但是Internet Explorer仍然坚持使用“西欧”编码。
原来,该页面缺少META标签。添加即解决了该问题。
编辑:
实际上,W3C有很大一部分专用于I18N。他们有许多与此问题相关的文章-描述了HTTP,(X)HTML和CSS方面的内容:
他们建议同时使用HTTP标头和HTML元标记(如果XHTML用作XML,则建议使用XML声明)。
除了default_charset
在php.ini中进行设置之外,您还可以header()
在任何输出之前使用代码中的来发送正确的字符集:
header('Content-Type: text/html; charset=utf-8');
只要您意识到大多数字符串函数不适用于Unicode,并且某些字符串函数可能会完全破坏字符串,在PHP中使用Unicode就很容易。PHP认为“字符”的长度为1个字节。有时这是可以的(例如,explode()
仅查找字节序列并将其用作分隔符-因此,无论要查找什么实际字符都没有关系)。但有时,当该功能实际上是设计用于字符时,PHP不知道您的文本具有使用Unicode找到的多字节字符。
phputf8是一个很好的库。这将重写所有“错误”功能,因此您可以安全地处理UTF8字符串。也有像mbstring扩展这样的扩展也尝试为您完成此操作,但是我更喜欢使用该库,因为它具有更高的可移植性(但是我写的是大众市场产品,所以对我来说很重要)。但是phputf8可以在后台使用mbstring来提高性能。
我发现有人在使用PDO时遇到问题,答案是将其用于PDO连接字符串:
$pdo = new PDO(
'mysql:host=mysql.example.com;dbname=example_db',
"username",
"password",
array(PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8"));
我从中获取该文件的网站已经关闭,但是幸运的是,我能够使用Google缓存来获取它。
$dbh->exec("set names utf8");
;我更喜欢此处介绍的方法)。顺便说一句。在PHP手册中也有类似的注释作为注释:php.net/manual/en/pdo.construct.php#96325。
首先,如果您使用的是<5.3PHP,则不会。您有很多问题要解决。
令我惊讶的是,没有人提到intl库,该库对unicode,graphemes,字符串操作,本地化等提供了很好的支持,请参见下文。
我将引用伊丽莎白·史密斯 (Elizabeth Smith)在PHPBenelux'14上的幻灯片中有关PHP对unicode支持的一些信息。
好:
坏:
stream_filter_append($fp, 'convert.iconv.ISO-2022-JP/EUC-JP')
我将更新此答案,以防万一事情改变了添加的功能等等。
--with-mysqli=mysqlnd --with-pdo-mysql=mysqlnd
选项编译php,他们也可以使用mysqlnd驱动程序。
我要添加到这些惊人答案中的唯一一件事就是强调以utf8编码保存文件,我注意到浏览器接受此属性,而不是将utf8设置为您的代码编码。任何体面的文本编辑器都会向您显示此内容,例如Notepad ++具有用于文件编码的菜单选项,它向您显示当前编码并允许您对其进行更改。对于我所有的php文件,我都使用不带BOM的utf8。
一段时间以前,有人要求我为其他人设计的php / mysql应用程序添加utf8支持,我注意到所有文件均以ANSI编码,因此我不得不使用ICONV转换所有文件,更改数据库表以使用utf8 charset和utf8_general_ci整理,在连接后将'SET NAMES utf8'添加到数据库抽象层(如果使用5.3.6或更早版本,则必须在连接字符串中使用charset = utf8)并更改字符串函数以使用php多字节等效的字符串函数。
我最近发现 strtolower()
会导致在特殊字符后截断数据的问题。
解决方案是使用
mb_strtolower($string, 'UTF-8');
mb_使用MultiByte。它支持更多字符,但总的来说要慢一些。
我刚刚经历了同样的问题,并在PHP手册中找到了一个很好的解决方案。
我将所有文件编码更改为UTF8,然后将连接上的默认编码更改为UTF8。这样就解决了所有问题。
if (!$mysqli->set_charset("utf8")) {
printf("Error loading character set utf8: %s\n", $mysqli->error);
} else {
printf("Current character set: %s\n", $mysqli->character_set_name());
}
set_charset('utf8mb4')
这没有用,但>set_charset("utf8")
确实有,其他答案中实际上没有显示。
set_charset("utf8")
可能有效,但行为会有所不同(请参阅有关utf8
和utf8mb4
和mysql版本历史记录之间差异的说明)。使用utf8
,如果你要 AND ONLY ,如果你知道你在做什么!
在PHP中,您将需要使用多字节函数或打开mbstring.func_overload。这样,如果字符占用的字节数超过一个字节,strlen之类的东西就可以工作。
您还需要确定响应的字符集。您可以如上所述使用AddDefaultCharset,或编写返回标头的PHP代码。(或者,您可以在HTML文档中添加META标签。)
最佳答案是极好的。这是我在常规的debian / php / mysql设置中必须执行的操作:
// storage
// debian. apparently already utf-8
// retrieval
// the mysql database was stored in utf-8,
// but apparently php was requesting iso. this worked:
// ***notice "utf8", without dash, this is a mysql encoding***
mysql_set_charset('utf8');
// delivery
// php.ini did not have a default charset,
// (it was commented out, shared host) and
// no http encoding was specified in the apache headers.
// this made apache send out a utf-8 header
// (and perhaps made php actually send out utf-8)
// ***notice "utf-8", with dash, this is a php encoding***
ini_set('default_charset','utf-8');
// submission
// this worked in all major browsers once apache
// was sending out the utf-8 header. i didnt add
// the accept-charset attribute.
// processing
// changed a few commands in php, like substr,
// to mb_substr
这就是全部了 !
如果您想要mysql解决方案,则在服务器迁移后,我的两个项目也遇到了类似的问题。在搜索并尝试了很多解决方案之后,我发现了这一解决方案(在此解决方案生效之前一无所获):
mysqli_set_charset($con,"utf8");
将这一行添加到我的配置文件后,一切正常!
当我想解决HTML查询中的插入内容时,我找到了此解决方案https://www.w3schools.com/PHP/func_mysqli_set_charset.asp
祝好运!