Questions tagged «parsing»

8
自动解析学术参考文献中的引文
是否有任何软件(或伪代码)可以自动扫描一段文本(粘贴到工具中或从.doc / .pdf中读取)并使用标准格式识别引文数据?然后,数据将被分成其组成字段,并以XML,CSV或其他某种结构化数据格式导出。我看过cb2Bib,但是它只能从哈佛风格的引用中提取年份,这还不够。

7
从SQL Server复制/粘贴数据到Excel将文本分成多列?
将数据从SQL Server 2005的结果网格粘贴到Excel 2007电子表格时遇到问题。 我在SQL Server中有一个查询,该查询返回2列(数字列和文本列) 在这里的一台计算机上,我可以很高兴地复制(右键单击>复制),然后右键单击并粘贴到Excel电子表格中。没问题。 在这里的另一台计算机上,当我尝试粘贴到excel时,它会拆分文本列,并根据单词之间的间距将文本粘贴到多个列中。 例如,如果其中一行具有... 请粘贴我 ...然后粘贴到excel中时,它将拆分文本并将每个单词粘贴到excel中的单独列中。 我们已经尝试将SQL Server和excel中的选项与可以正常运行但看不到差异的计算机进行比较。 任何想法欢迎 谢谢

3
将JSON数据导入Excel
我有一个json格式的文本文件,并想将其读入Excel。json文件的一个非常简化的示例具有以下结构: { [ { 'a': 10, 'b': 20 }, { 'a': 20, 'b': 22 }, { 'a': 11, 'b': 24 } ] } 我想将其转换为Excel,其中每个记录在excel中都以选定的参数作为列标题成为一行。

2
Powershell:从文件名获取初始字符串并从字符串创建目录,然后移动文件
我有一个包含以下文件名的文件夹: 00150005D201110172338427995.vpf 00150005D201110180005318058.vpf 00150013D201110180014448082.vpf 00150013D201110180022268098.vpf 00150013D201110180056118137.vpf 00150004D201110180102008142.vpf 00150004D201110180105398145.vpf 00150016D201110180115378151.vpf 00150016D201110180122168161.vpf 00150003Z201110180143308169.vpf 00150050S201110180232190009.vpf 每个文件都以9个字符串开头,该字符串是唯一标识符。我希望能够为每个文件解析这些文件夹,并基于9个字符的前缀,创建带有前缀名称的文件夹,然后将文件移至新创建的文件夹。 例: 之前: f:\ION\2011291 Contains the following files 00150005D201110172338427995.vpf 00150005D201110180005318058.vpf 00150013D201110180014448082.vpf 00150013D201110180022268098.vpf 00150013D201110180056118137.vpf 00150004D201110180102008142.vpf 00150004D201110180105398145.vpf 00150016D201110180115378151.vpf 00150016D201110180122168161.vpf 00150003Z201110180143308169.vpf 00150050S201110180232190009.vpf 后: F:\ION\2011291 contins only folders no files F:\ION\2011291\00150005D contains 00150005D201110172338427995.vpf 00150005D201110180005318058.vpf F:\ION\2011291\00150013D\ contains 00150013D201110180014448082.vpf 00150013D201110180022268098.vpf 00150013D201110180056118137.vpf F:\ION\2011291\00150004D \contains 00150004D201110180102008142.vpf …

1
如何从命令行解析XML文件(对于GeekTool)?
我想找到一个可以在http://api.twitter.com/1/statuses/user_timeline.xml?screen_name=SOMEUSERNAME&count=1上提取文件的终端命令, 并解析它以查找用户的Twitter状态。状态位于树上的“状态 - >状态 - >文本”位置内。 我查看了libxml和xmllint。我想我用xmllint正确的方向,但我不确定。随着xmllint,我知道我可以做的xmllint --shell file.xml,然后cat //statuses/status/text。但是,我更喜欢能够做一些像CURL | 这样的命令 XMLLINT | SED将下载文件,解析它,并一举返回状态。
4 terminal  xml  parsing 

2
获取目录中每个文件名的前两个字符串作为txt文件
我需要清理像这样的字符串(我在一组图像名称中读取),其中我只想要前两个字符串(目前我正在使用,在Windows 7 cmd行 - dir / a / b / p> TextFile.txt的): Acaena inermis没有倒钩dbot_25Dec15_40.JPG Coprosma Taiko PB121944 invbot.rs.JPG Cortaderia richardii InvBot P6260038.JPG Anemanthele lessoniana LIC.nestmaker.CC BY-SA 2.0.jpg Myosotidium hort ibot PB109882 sqr rs.JPG 看起来像这样(单词空格词和剥离其余): Acaena inermis Coprosma Taiko Cortaderia richardii Anemanthele lessoniana 肌肉萎缩 有没有办法使用cmd或批处理来简化这个?通常每次执行此操作时都会解析15个文件。我不是一个cmd-line大师!

3
Excel表示法,使FIND能够查找多个字符串
所以我一直在使用一个包含学校名称列表的电子表格。我从此电子表格中提取数据以创建一个限制每个单元格中文本大小的名单。为了让学校名称合适,我必须从名称中删除学校类型。 示例:原始名称=>处理名称 Generic Elementary =>通用 未命名的中学=>无名 跨城镇高中=>穿越城镇 我找不到第一个空间,因为有些学校的名字长了两个字。我已经能够使用高度嵌套的IF语句来完成这项工作。 =IFERROR(LEFT(J2,FIND("Elementary",J2)-2),IFERROR(LEFT(J2,FIND("Middle",J2)-2),IFERROR(LEFT(J2,FIND("High",J2)-2),J2))) 我对这个解决方案的问题是它真的很长。我想要的是让FIND函数搜索多个文本字符串的方法。我觉得这会把这个公式减少到更容易阅读的东西。 有没有人有任何想法?有没有更优雅的方式来做到这一点? 提前致谢

3
从数字范围的网页中提取链接
我想从这样的数字序列中提取链接: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html 我想要的输出是一个文本文件,其中包含从这些页面上的链接收集的URL: http://www.test.com/index.html http://www.google.com http://www.superuser.com/questions 要清楚,我不想下载页面,我只想要一个链接列表。 Windows软件很有意思,但Linux也可以。我能想到的只是用Xidel编写一个长批处理脚本,但遇到错误时它不会很强大。Curl可以下载页面范围,但是我需要以某种方式解析它们。 感谢Enigman让我走上正轨。我创建了一个Perl脚本,它从文件中读取URL并吐出与$ site中存储的字符串匹配的链接: use warnings; use LWP; $site = "twitter.com"; my $browser = LWP::UserAgent->new; my @ns_headers = ( 'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36', 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language' => 'en-GB,en;q=0.8', ); open …

2
解析两个输入文件并比较行存在
我需要获取两个文本文件并检查文件A中是否存在文件A中存在的行。 应将文件A中不存在于文件B中的每一行复制到输出日志中。 我的一个朋友建议SED,但我以前从未使用它,所以我该怎么做呢?

1
如何快速解析大型ASCII文件以匹配记录?
我有很多包含数据记录的文件,存储为以空格分隔的ASCII文件。每条记录都是一个包含数字数据的行,其中一些列为整数,其他列为浮点数。 1 1 5711 4 22280.365035 75.917899 55.485326 4.0260 3.9460 1.7921 11.2400 0.0000 2.6735 54.7331 52.7375 我想根据简单的标准(第2列== 1,第6列> = 53.275等)解析这些数据,并将匹配的记录转储到另一个文件。 每个文件大小约为1GB,对应于~9M记录。目前我有一些逐行运行的MATLAB代码,但这需要很长时间(每个文件约2小时)。我使用MATLAB的唯一原因就是我将在以后处理数据。 如何更有效地解析/处理此问题?是否值得使用“适当”的语言,或者我不太可能看到显着的速度提升?

3
如何解析字符串?
我是bash的新手,我正在创建一个脚本,该脚本循环遍历目录中的文件,并基于文件名的一部分对文件进行某些处理,到目前为止,我具有以下功能: #!/bin/bash DIR="/Users/me/Documents/import/*" for f in "$DIR" do t=?????? echo "Loading $f into $t..." done 因此$f将输出如下内容:/Users/me/Documents/import/time_dim-1272037430173 除此之外,我想t等于time_dim,目录可以是可变长度,并且-1272037430173是固定长度(这是unix时间戳btw)。 最好的方法是什么?

1
将Powerpoint有效转换为Tex文件的轮廓
我作为powerpoint讲课。我想将文本和列表转换为tex文件。如果有图片,可以将标记留给文件。我可以单独添加图片。 我试图将ppt文档保存到RF中,但是有很多特殊的语法解析为tex可能很麻烦。 什么是将Powerpoint概述转换为tex文档的有效方法?

1
如何轻松地从文件中提取字符串并存储在变量中?
我想我正在考虑awk vs PHP vs Perl vs cut。也许。 我想看看wp-config.php并看看这些线: define('DB_NAME', 'mydb'); define('DB_USER', 'myuser'); define('DB_PASSWORD', 'xx'); 并拉出字符串“mydb”和“myuser”以及密码,这样我就可以用它做一些事情,例如: #!/bin/sh ..insert magical code here to store strings into DBNAME, USERNAME, PASSWORD... mysqldump -u $USERNAME -p$PASSWORD $DBNAME > /tmp/blah.sql 有什么建议么?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.