我试图找到使用括号在文本中指定的完整形式的首字母缩略词。
这是一个例子:
据报道,异常DNA甲基化是癌症中主要的表观遗传改变之一,在结肠直肠癌(CRC)的一个子集中积累,即所谓的CpG岛甲基化表型(CIMP),已知其与微卫星减少的不稳定性相关( MSI) - 高CRC
在这里,我希望能够形成一个简短/完整形式的列表,如:
CRC - 结直肠癌
CIMP - CpG岛甲基化表型
微星 - 微型卫星降低了不稳定性
事情是我能够找到所有使用括号的实体 re.findall('(\(.*?\))', s)
但是找到相应的完整形式证明是困难的。
假设所有这些完整形式都在括号的左侧,我想使用以下内容 2 在括号中捕获缩写的完整形式的条件 -
- 单词数不超过3+ | SF |哪里| SF |是短形式的字符数(微卫星减少不稳定性(MSI) - 这里全格有4个字,而短形有3个字)
- 完整形式的第一个单词以短格式的第一个字符开头(例如。 C 结直肠癌( C RC))
以我目前的理解 regex
,我还没能写出来 regex
这解决了上述两个条件,并在文本中找到所有这些情况。
能不能给我一些指示?