最近,我发现scribd使用户(自由用户)很难浏览其网站上托管的文档。无法在文档中进行搜索,更不用说能够下载文档了。
使用javascript,它们可以按需在浏览器中加载页面,因此浏览器的“另存为”功能没有太大帮助。
令我惊讶的是,我什至看到将文本复制/粘贴到剪贴板时也很乱!为了检查出什么问题,我在浏览器中关闭了javascript,然后再次加载了相同的文档。瞧,我确实看到了胡言乱语。因此,似乎来自scribd的javascript会以某种方式解码乱码,然后将其显示在浏览器中。
现在,我的问题是,即使在启用javascript并在浏览器中正确呈现了文本之后,如果我去查看与所选文本相对应的DOM对象,我仍然会看到乱码。
所以,现在,我很困惑。文本将正确显示给用户,但是DOM对象仍然包含乱码。因此问题是,网站使用哪种javascript钩子/代码,以便能够在DOM对象中保留乱码并仍呈现解码后的文本?
有什么方法可以访问解码后的文本?我的意图不是对工程算法进行逆向工程以进行解码,而是要确定将解码后的文本存储在何处?
示例文档为:
看看打开/关闭Java脚本时会发生什么!