PDF复制粘贴时出现乱码


23

我正在尝试从PDF文件复制和粘贴文本。

但是,每当我粘贴原始文本时,都是乱七八糟的乱七八糟的字符。文本如下所示(这只是一小部分):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

我在Adobe和Foxit PDF阅读器中都尝试过。我在Adobe Reader中做了一个“另存为文本”,结果文本文件是相同的乱码文本。

有什么想法可以使我的文字不会出现乱码吗?(除了手动键入之外,还有很多文本要提取。)


尝试使用一些屏幕阅读器实用程序(可与jpeg一起使用,执行打印屏幕操作,然后就可以使用),或者使用另一种方法。(只是一个“猜测”,不要为此而me我。那时我使用的是第一种方式。希望有更多便捷的方式)。
Apache


至少从10.8.2版本开始,我还可以使用OS X确认此问题。我花了一些时间查看PDF文件结构,但不幸的是,我看不到任何修复损坏的方法。当对照PDF / A标准检查文件时,Acrobat Pro的“ PreFlight”确实报告了文件问题,并且“清单”报告显示了针对明显错误的Unicode字符映射的字形。我已经提出了有关Apple的错误报告-ID12655651。如果有任何更新,我将在这里报告。
KenD 2012年

Answers:


11

解决此问题的最简单方法是使用内置的PDF阅读插件最新版本的Google Chrome浏览器中打开文件。然后,您可以使用Chrome的搜索功能查找文本,然后复制粘贴即可正常工作。

我想对Shiki的答案投予pipitas的评论,但我没有资格:(问题可能是自定义字体编码,而不是加密。在Acrobat中,单击“文件”->“属性”,然后单击“字体”选项卡以查看编码,以及“安全性”标签以查看是否已加密。


确实,自定义字体编码是我的罪魁祸首。但是,Chrome不是解决方案。我用Ghostscript从PS生成PDF来部分解决了这个问题(我很幸运拥有PS源码)。LaTeX应用了连字的任何字符组(例如ff,c,fi等)都不会显示在PDF的复制文本中,在复制/粘贴时需要进行一些编辑。
Fuhrmanator

1
铬的同样问题
JinSnow 2015年

4

我发现了我创建的PDF的问题,并且相信可以找到问题的根源:使用Mac OS X的Preview来减小PDF文件的大小。

我已经使用Colorsync Utility创建了一些Quartz过滤器来压缩PDF中的图像,以减小带有图像的PDF的整体文件大小。如此处所述:http : //www.macosxhints.com/article.php?story=20031106133852693

我发现我可以轻松地从原始(未压缩的)PDF文件中复制和粘贴文本,但是在通过我创建的“缩小文件大小”过滤器运行该PDF之后,生成的压缩PDF无法清晰地复制粘贴(看起来像您发布的字符串)。

但是,通过Adobe Acrobat Pro的“文档”>“减小文件大小”功能运行相同的原始PDF,生成的压缩PDF可以成功复制和粘贴文本。

因此,这对于您的情况不是完全有帮助的,假设您的PDF文件是从其他地方收到的,并且您确实无法以某种方式进行压缩,则无法获得原始版本。但这可能是一种解释-文件以某种方式被破坏以减小文件大小。

这对于遇到类似问题(从PDF复制和粘贴文本)的内容创建者可能很有用-请谨慎使用OS X Quartz过滤器来缩小PDF!

--edit--将PDF与Preview结合使用时,我也注意到了这个问题。可以复制和粘贴两个源PDF,但是当将页面从一个文件拖到另一个文件中然后保存合并的PDF时,不能复制/粘贴合并的文档中的文本。这是两个文档,都是同时在Mac上使用Filemaker Pro 11生成的-我无法想象它们会有不同的编码或任何类似的东西。


我从Mac OS用户那里得到了一些pdf文件。选择是可以的,但复制粘贴只会给您带来垃圾。尝试一堆pdf到word的转换器,包括googledoc,adobe另存为文本,它们都使文本乱码。
tigr

我怀疑OS X PDF缩小是罪魁祸首。有人知道有什么方法可以“撤消”这种操作吗?谢谢!

我将pdf文件打印到了几台(虚拟)打印机上,然后得到了4倍大小的pdf文件。打印的文件明显是图像,无法选择文本,而可以选择原始文件(但会出现乱码)。
tigr

4

有另一种非常简单的解决方法:)

只需使用CutePdf,Adobe 2 Pdf打印机或任何类似的东西打印文档。最重要的是,您需要以pdf格式打印。

在许多情况下,它很容易消除问题。


2

对我有用的解决方案:

  • 将文档上传到Google云端硬盘/文档
  • Google将从2013年起将其导入为PDF
  • 打开PDF视图,然后选择“ 文件” >“ 打开方式” >“ Google文档”
  • 导出文件大约需要一分钟

结果并不完美,但是让我有80%的成功经验,并且为我提供了足够的文字,我无需重写所有内容!


2

已解决:(在Windows 8,Acrobat XI,Office 2010上为我工作)

选项1:

  1. 使用“ Microsoft XPS Document Writer”从Acrobat进行打印输出为:“您的文件名.oxps”
  2. 用XPS Viewer打开“ ... oxps”。*(请参阅下面评论中的下载链接)
  3. 使用最高分辨率(600 DPI)打印到PDF(Acrobat PDF或CutePDF)。
  4. 使用Acrobat打开并使用OCR(可搜索图像(精确))选项。

答对了!

评论:

  • 使用最高分辨率和可搜索图像(精确)将保存您的文本,而不会失去其清晰的外观。低分辨率将使您的文本可读,但看起来很cr脚。
  • 下载Microsoft XPS(文件):http : //www.microsoft.com/zh-cn/download/details.aspx?id=11816
  • 如果您不知道什么是OCR,或者在哪里可以找到可搜索的图像(精确),或者如何使用“ Microsoft XPS Document Writer”进行打印,请自行使用Google以获得最佳体验。

*仅在未安装XPS的情况下下载。

选项2:

进行类似的操作,但另存为图像(png,tiff等),则必须将所有页面组合回一个“ PDF”文件中。


1
当您可以直接跳至步骤3打印为PDF时,步骤1,2和3似乎很长。(例如从PDF阅读器内部)。无需通过XPS绕行。
Hennes

@Hennes执行步骤4会产生错误Acrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator

“可渲染的文本”听起来仍然需要绘制(渲染)。如果已经通过XPS,则可能已经这样做并存储为可OCR的位图。但这只是一个猜测。
Hennes

1

存在信息根本无法检索的风险。PDF文档本质上是一个覆盖另一个文档的文件,一个简单的文本,另一个为图片。从文档复制和粘贴时,您在查看图片时标记了文本,但是复制到剪贴板的是文本部分的相应部分。

根据创建文档的方式,文本部分的质量和可用性可能会有很大差异。如果使用Acrobat,Word,PDF打印机驱动程序或任何其他方法将PDF文件处理程序文档保存为PDF格式,则其质量通常很高,因为可以从原始文本创建文本文件。某些特殊字符可能会变形,但纯文本通常可以。

但是,如果文档是从扫描的图像创建的,则文本部分通常是通过图像的OCR处理来创建的,这可能会产生令人遗憾的结果,尤其是在原稿对于该目的而言不是最佳的情况下。

用于创建PDF的错误程序或错误的设置也可能导致文本部分完全乱码,可以理解的是,在文件创建后会对文件进行某种加密。

最重要的是,如果文档的文本部分确实很糟糕,则无法使其变得更好。最好的选择是完全删除文本部分,并使程序重做OCR进程。我认为在Acrobat中这可能是可行的,但我不确定。


1

造成这种情况的一个可能原因是,嵌入PDF的字体使用的是自定义编码,当从PDF复制文本时未正确应用该编码。

您可以应用其他方法来避免手动键入所有内容。

  1. 您是否尝试使用可从整个“网络”下载的“ pdftotext.exe”工具之一提取文本?(我建议使用ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip中包含的那个)。
  2. 最新版本的Acrobat Reader具有“另存为文本...”选项。这不使用“ copy'n'paste”(为您提供乱码的文本),但是可能使用与在屏幕上呈现文本相同的软件例程,因此可能会产生更多可用的结果。
  3. 如果为“ 2”。不起作用,并且如果您可以访问Acrobat Professional:请尝试使用一种嵌入字体的Distiller配置文件重新提取PDF。
  4. 如果为“ 3”。尽管您可以访问Acrobat Professional,但仍然无法使用:请尝试重新提取PDF,但是这次您应该使用“作为图像打印”选项(可通过主打印左下角的“高级”按钮使用)对话)。确保使用600dpi(尽管可能会产生很大的文件)。然后,您将在Acrobat Pro中再次打开生成的PDF。现在,将Acrobat的“ OCR”算法应用于文件,这将生成嵌入的文本(不用于在Reader中在屏幕上呈现,而是用于搜索和突出显示字符串)。现在,您可以尝试使用上述两种方法中的任何一种,从PDF中提取文本。

对我而言,使用Acrobat Pro XI重新打印为PDF 是窍门,而在“ 打印...”对话框的“ 高级...”按钮/子对话框中选中了“以图像打印”(以600 dpi分辨率)。然后,您终于可以正确地对结果进行OCR了。此页面提到的其他解决方案均无效。注意:对于大文件,这可能需要一段时间,并且结果PDF可能非常庞大。
Glenn Slayden '18年

@GlennSlayden:很高兴我的建议对您有用...它以为您仍然不应该接受它的缺失是什么呢?
库尔特·菲佛

嗯,我没有投票。对我来说,它仍然显示为“ 1”。我唯一的抱怨是您的答案在底部,我花了一段时间才找到答案(不是您的错...)
Glenn Slayden '18年

好吧,@ GlennSlayden,那么那赞誉肯定早就出现了(很久以前您没有在上面发表评论)。
Kurt Pfeifle,

不,我在写评论的同时投票赞成“ 12小时前” ...我仍然看到一个蓝色箭头,(我相信)蓝色箭头表示我的投票是当前已注册的(那个)投票。我确实记得,昨晚我投票之前是0。
Glenn Slayden '18年

1

我的一位用户刚刚报告了同样的问题(PDF是使用Distiller for Windows创建的),复制的文本只是乱码,他无法在文档中搜索。我在Mac上尝试过,没有发现任何问题。原来,我使用Apple的Preview应用程序,而他在Windows计算机上使用Adobe Reader。然后,我在Mac上尝试使用Adobe Reader时也遇到了同样的问题。对我来说,它看起来像:

  • Adobe Reader正在复制和搜索已保存的文本。

  • Apple的Preview将在应用编码向量后进行复制和搜索。

我不能肯定地说,但这可以解释我的观察。在保存合并/缩小的文件时,确实可以进行各种编码,如此处的另一篇文章所述:使用“预览”,您仍然可以再次获取文本。

首先,我认为将嵌入式字体子集编码为连续的条目而不是在内部留空或使用原始字符位置,这将是更合乎逻辑的。但是后来我意识到,通过对带有原始条目的字体子集使用编码矢量,经常使用的字符在其字节中可以设置为1的位更少,并且可以以更好的方式进行压缩(这可能会降低字体的这种方式的整体文字)。


1

将其上传到Google文档,然后使用“ 查看”>“HTML ”选项,可复制文本的正确度约为80%,而缺少一些空格。

线程具有对相同问题的公认答案,并以一个有效的示例进行了解释。


1

我尚未尝试使用Google Docs选项,因为我的办公室仍不支持该选项。但是,通过将文件打印到“ ScanSoft PDF Create!”。从“ Acrobat 9”(将整个文件打印到图像)并在“ Nuance PDF Converter”中打开打印的文件(它提示我是否要使图像文件可搜索和可编辑(我选择了)),我能够有一个我可以轻松复制和粘贴的Word文档。尽管只有大约80-90%的准确度,但这并不是完美的。但是,您仍然可以将原始PDF文件与无法修复的那些部分进行比较和抵消。节省输入整个内容的时间。我的2c。


0

我使用Windows XP的旧版Scansoft PDF Converter制作了一些可编辑文本的PDF,然后在Mac的Preview程序中合并了页面。对于每个单独的页面,我都可以从Mac上的Adobe Reader正确搜索,复制和导出文本。当通过Preview合并并保存为一个文件时,所有内容在屏幕上看起来都不错,但是只有少数段落可以正确搜索/导出。这个问题把我带到这里。

这里的帖子给了我一些很好的指导(谢谢!)。我查看了字体的文件属性。Win XP的单页文件(一切正常)表示编码为ANSI。在“预览”中合并的文件(其中复制的文本为乱码)显示大多数字体的编码为“内置”,而另一些则为“罗马”。

解决问题的方法一直困扰着我-Scansoft程序本身可以合并文件。当我使用Scansoft的组合器并在Mac上打开文件时,所有字体均显示为ANSI编码,并且所有文本均已完美导出/复制。我不知道为什么为什么我最初没有将它们合并到PDF Converter中。谢谢,海报!

在Linux系统上打开文件也是如此。

我知道这不能解释仅Windows的问题-除非PDF具有相似的混合来源?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.