我有一个套接字服务器,应该从客户端接收UTF-8有效字符。
问题是某些客户端(主要是黑客)正在通过它发送所有错误的数据。
我可以轻松地区分真正的客户端,但是我会将所有发送的数据记录到文件中,以便以后进行分析。
有时我会得到这样的œ
导致UnicodeDecodeError
错误的字符。
我需要使字符串UTF-8带有或不带有这些字符。
更新:
对于我的特殊情况,套接字服务是MTA,因此我只希望接收ASCII命令,例如:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
我将所有这些都记录在JSON中。
然后,一些没有好主意的人决定出售各种垃圾。
这就是为什么对于我的特定情况,完全可以剥离非ASCII字符。