Questions tagged «bioinformatics»

使用此标签可解决与在* nix系统上执行的常见生物信息学任务有关的问题。在标准生物文本格式之间进行操作/转换,从此类格式中提取感兴趣的数据等。

3
如何基于两列的匹配合并两个文件?
我有喜欢的文件: 0 AFFX-SNP-000541 NA 0 AFFX-SNP-002255 NA 1 rs12103 0.6401 1 rs12103_1247494 0.696 1 rs12142199 0.7672 和一个file2: 0 AFFX-SNP-000541 1 0 AFFX-SNP-002255 1 1 rs12103 0.5596 1 rs12103_1247494 0.5581 1 rs12142199 0.4931 并且想要一个file3这样的: 0 AFFX-SNP-000541 NA 1 0 AFFX-SNP-002255 NA 1 1 rs12103 0.6401 0.5596 1 rs12103_1247494 0.696 0.5581 1 …


1
用于科学计算的最佳Linux发行版?[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意测验或进一步的讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 6年前关闭。 最近,我在家时买了一台新笔记本电脑用于科学研究。该机器具有Intel i7处理器,具有8核,4 GB RAM和Nvidia的图形卡(2 GB,Ivy Bridge)。我最需要计算的程序是MATLAB和Python。 我尝试安装Ubuntu(版本12.10和13.04),但它们都很慢。当MATLAB 100%使用1个核心时,整个操作系统将冻结。无法同时执行任何操作。同样,图形卡显然没有充分发挥其潜力(我要么使用optirun要么在启动程序时给出DRI_PRIME标志),并且Unity完全不使用。 就我而言,其他操作系统会比Ubuntu更好吗?另外,我怎么能为操作系统分配几个内核,为MATLAB / Python分配几个内核,以及其他程序(Chrome,Messaging,LaTeX等)专用的内核?


5
删除每一列中包含NA的行
我有一个制表符分隔的文件,如下所示: gene v1 v2 v3 v4 g1 NA NA NA NA g2 NA NA 2 3 g3 NA NA NA NA g4 1 2 3 2 每行中的字段数是固定的,并且相同。我想从上述文件中删除那些行,其中从第2列到最后一列的每一行的所有字段均为NA。然后输出应如下所示: gene v1 v2 v3 v4 g2 NA NA 2 3 g4 1 2 3 2

3
提取与另一个文件中的单词列表匹配的行
我有以下行的文件1: ATM 1434.972183 BMPR2 10762.78192 BMPR2 10762.78192 BMPR2 1469.14535 BMPR2 1469.14535 BMPR2 1738.479639 BMS1 4907.841667 BMS1 4907.841667 BMS1 880.4532628 BMS1 880.4532628 BMS1P17 1249.75 BMS1P17 1249.75 BMS1P17 1606.821429 BMS1P17 1606.821429 BMS1P17 1666.333333 BMS1P17 1666.333333 BMS1P17 2108.460317 BMS1P17 2108 文件2包含单词列表: ATM BMS1 因此,输出将如下所示: ATM 1434.972183 BMS1 4907.841667 BMS1 4907.841667 BMS1 880.4532628 BMS1 …

2
删除方括号之间的所有内容
我只想删除以方括号“>”开头的行(包括方括号)在内的所有内容。有sed替代方法吗?另外,想按字母顺序对行进行排序,也就是以“>”开头的行及其下一行。 输入示例: >ID:000:FLKLNFIA_00192 |[Ignicoccus_hospitalis_KIN4-I.gbfspecies]|strain|Ignicoccus_hospitalis_KIN4-I.gbf|LSU ribosomal protei..|447|FLKLNFIA_1(1297538):162644-163090:1 ^^ Archaeagenomesparanahui Ignicoccus_hospitalis_KIN4-I.gbfspecies strain strain.|neighbours:ID:000:FLKLNFIA_00191(1),ID:000:FLKLNFIA_00193(1)|neighbour_genes:LSU ribosomal protei..,SSU ribosomal protei..| ATGAGTGTGACTA---TTT---GCAATCAGCTAGCTACTACGTACTGATCGTAGCTGACG >ID:000:MGCDKLCO_01184 |[Archaeoglobus_fulgidus_DSM_4304.gbfspecies]|strain|Archaeoglobus_fulgidus_DSM_4304.gbf|50S ribosomal protei..|471|MGCDKLCO_1(2178400):1005279-1005749:1 ^^ Archaeagenomesparanahui Archaeoglobus_fulgidus_DSM_4304.gbfspecies strain strain.|neighbours:ID:000:MGCDKLCO_01183(1),ID:000:MGCDKLCO_01185(1)|neighbour_genes:LSU ribosomal protei..,SSU ribosomal protei..| ATGCGCGCGATAGCTAGCTAGCTAGCTTTAGGGGGATTAGCTA----ACTCTGATTCGGA 预期产量: >Archaeoglobus_fulgidus_DSM_4304.gbfspecies ATGCGCGCGATAGCTAGCTAGCTAGCTTTAGGGGGATTAGCTA----ACTCTGATTCGGA >Ignicoccus_hospitalis_KIN4-I.gbfspecies ATGAGTGTGACTA---TTT---GCAATCAGCTAGCTACTACGTACTGATCGTAGCTGACG 谢谢

1
根据第二列排序,并从最高到最低列出
TGAAACATGCCTTTCACCTCCTGCCATGATTGTGAGGCCT 2 GTGTTGCCCAGGTTGGTTTCAAACTCAGCTCAAGTGATCT 1 GAGACTCCTTCAGGAGACTGGTCCCCTGTCCTCGCCTCTC 3 CATGTTCTCCTGGAAGCCATGTGAGGAAGGCACATCATGG 8 AAGGACATAATCTCATTACTTTTATGGCCGCATAGTATTC 4 AGAGGCAGTGTAAGTGAGGTAGTTGAAAGTATGGACTCTG 2 我想使用第二列将行从最高编号重新排列到最低编号 预期产量 CATGTTCTCCTGGAAGCCATGTGAGGAAGGCACATCATGG 8 AAGGACATAATCTCATTACTTTTATGGCCGCATAGTATTC 4 GAGACTCCTTCAGGAGACTGGTCCCCTGTCCTCGCCTCTC 3 AGAGGCAGTGTAAGTGAGGTAGTTGAAAGTATGGACTCTG 2 TGAAACATGCCTTTCACCTCCTGCCATGATTGTGAGGCCT 2 GTGTTGCCCAGGTTGGTTTCAAACTCAGCTCAAGTGATCT 1
-1 awk  python  sort  bioinformatics  r 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.