Questions tagged «text-processing»

通过程序,脚本等操作或检查文本

5
将bash中的定界文本文件解析为命令参数
我有一个文本文件,像这样拆分: field1,field2,field3 xield1,xield2,xield3 dield1,dield2,dield3 gield1,gield2,gield3 这些列中的每一列都是程序的参数,我希望每行都调用该程序 我希望循环,就像: for $i in file command $field2 -x $field3 -PN -$field1 >> output done 在bash中完成这样的事情的最佳方法是什么?

3
将文本文件拆分为短行以进行阅读?
是否有一个程序可以使用长行的纯文本文件,并在一定数量的字符后添加换行符(仅在单词上分开)以使其可读?例如,采取以下方法: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aliquam vel lectus ac enim venenatis porttitor in et est. Curabitur ut eros quis risus consequat dictum a a lectus. Integer ut risus quis augue lobortis molestie vel id nibh. Aliquam sit amet mattis lorem, vel ornare felis. Donec pulvinar tempus …

3
删除两个特定字符串之间的文本
我有一个如下文件: mime PI Name: ISHO SUCCESS RATE RT, Value: 95.663826 scr PI Name: RRC Access Failures due to UU, Value: 0.13394141 prog PI Name: RRC Access Failures due to UU, Value: 0.16077702 sch PI Name: RRC Access Failures due to UU, Value: 0.11781933 我要删除文本PI直到Value:。我试过了 sed '/<PI>/,/<\/Value:>/d' 有什么帮助吗?

4
如何编写sed单线在每第三个字符后添加一个字符?
所以,我有一个看起来像这样的字符串: AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 我想将字符串分成3个字符的块,并用'+'号分隔。 AUG+GCC+AUG+GCG+CCC+AGA+ACU+GAG+AUC+AAU+AGU+ACC+CGU+AUU+AAC+GGG+UGA 我想和我的好朋友做到这一点sed。 我试过了 cat codons | sed -r 's/([A-Z]\{3\})/\1\+/g' ...没有成功。 我sed可以使用什么命令?

3
如何找到两个时间戳之间的差异(以毫秒为单位)?
我是Shell脚本的新手。我的脚本的核心是找出两个时间戳之间的差值,最高可达毫秒。和我一起,我有一个只包含时间戳内容的文件 2012-09-13 15:00:29,290 2012-09-13 15:00:29,297 2012-09-13 15:00:29,428 2012-09-13 15:00:29,447 像这样,我大约有3万条记录,执行脚本时应该不会遇到任何性能问题。当我尝试为此编写脚本时,许多因素都会出现,例如leap年,31天的月份等。 有人可以帮我吗?

1
不精确的文字搜索
是否有类似grep或什至uniq除非精确搜索之外的实用程序,还是我自己编写? 我的意思是,它将查找90%(数量可能有所不同)的匹配项或类似内容。例如我有几个字符串的文件: abc123 abd123 abc223 qwe938 在这种情况下,此类实用程序应返回前三个字符串或说它们是相似的。当然,我不知道文件内容的任何模式,例如使用grep或uniq。

3
将字符串替换为非常大的文件
我有一连串的网址,没有分隔符,格式如下: http://example.comhttp://example.nethttp://example.orghttp://etc... 我希望每个URL都换一行。我试图通过使用sed将“ http://”的所有实例替换为“ \ nhttp://”来做到这一点 sed 's_http://_\nhttp://_g' urls.txt 但是发生分段错误(内存冲突)。我只能推测文件的绝对大小(超过100GB)导致sed超过了一些限制。 我可以将文件分成几个较小的文件进行处理,但是“ http://”的所有实例都需要保持完整。 有一个更好的方法吗?


1
如何从一开始就跟随二进制文件(la“ tail -f”)?
是否可以从头开始遵循二进制文件la tail -f? 在某些情况下,这很有用,例如,如果我正在scp将文件发送到远程服务器,同时又想将其提供给另一个进程(是的,我知道我可以使用ssh+ cat技巧)。 据我从FM所读的内容,tail在编写时要考虑到文本文件。 是否有使用标准posix工具进行此类操作的简单方法?


2
如何用两个空格替换文件系统分支中每个文件中的所有选项卡?
我对Scala进行编码,习惯上是在每个级别使用双倍空格进行标识。但是使用不同的编辑器会使我的资源充满空格和制表符。 我想自动重构所有文件(* .scala文件,但没有必要指定它)(在给定目录和所有基础FS分支中(递归)),将所有选项卡替换为双空格。我相信使用经典的Unix / GNU工具有一种简单而美观的方法,但是我在这方面没有任何经验。您愿意帮我吗?

2
我的“ uniq”或“ sort -u”行哪里去了,带有一些unicode字符
以下代码段中发生了什么?我没有得到预期的输出。 我认为这是一个错误,但是它发生在2个不同的程序(uniq和sort)上,所以我怀疑这与...有关,嗯,我不知道该怎么办。 前4个示例中的前3个有效,但第4个失败! 我希望所有字符都具有相同的行为。 即。打印出2行(从输入的3行)...但是在第4种情况下,我只有1行(对于sort -u和uniq);两条相同的林消失了! 我已将输出'\ n'转换为空格以实现视图的紧凑性。 我正在使用uniq并从(GNU coreutils)7.4 排序 ...在Ubuntu 10.04.3 LTS桌面上运行。 剧本: { locale -k LC_COLLATE echo for c1 in x 〼 ;do for c2 in z 〇 ;do echo -n "asis : "; echo -e "$c1\n$c2\n$c2" |tr '\n' ' ';echo echo -n "uniq : "; echo …




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.