Bio.ExPASy.cellosaurus 模块
ExPASy 的 cellosaurus.txt 文件解析器。
参见 https://web.expasy.org/cellosaurus/
已通过版本 18(2016 年 7 月)的发布进行测试。
- 函数
read 读取包含一个细胞系条目。
parse 读取包含多个细胞系条目的文件
- 类
Record 保存细胞系数据。
示例
此示例下载 Cellosaurus 数据库并解析它。请注意,urlopen 返回字节流,而解析器需要纯字符串流,因此我们使用 TextIOWrapper 使用 UTF-8 编码将字节转换为字符串。如果您提前下载了 cellosaurus.txt 文件并打开它,则不需要这样做(请参阅下面的注释)。
>>> from urllib.request import urlopen
>>> from io import TextIOWrapper
>>> from Bio.ExPASy import cellosaurus
>>> url = "ftp://ftp.expasy.org/databases/cellosaurus/cellosaurus.txt"
>>> bytestream = urlopen(url)
>>> textstream = TextIOWrapper(bytestream, "UTF-8")
>>> # alternatively, use
>>> # textstream = open("cellosaurus.txt")
>>> # if you downloaded the cellosaurus.txt file in advance.
>>> records = cellosaurus.parse(textstream)
>>> for record in records:
... if 'Homo sapiens' in record['OX'][0]:
... print(record['ID'])
...
#15310-LN
#W7079
(L)PC6
0.5alpha
...
- Bio.ExPASy.cellosaurus.parse(handle)
解析细胞系记录。
此函数用于解析包含多个记录的细胞系文件。
- 参数
handle - 文件的句柄。
- Bio.ExPASy.cellosaurus.read(handle)
读取一个细胞系记录。
此函数用于解析仅包含一个记录的细胞系文件。
- 参数
handle - 文件的句柄。
- class Bio.ExPASy.cellosaurus.Record
Bases:
dict
将 ExPASy Cellosaurus 记录中的信息作为 Python 字典保存。
每个记录包含以下键
行代码
内容
在条目中的出现
ID
标识符(细胞系名称)
一次;开始一个条目
AC
登录号 (CVCL_xxxx)
一次
AS
辅助登录号
可选;一次
SY
同义词
可选;一次
DR
交叉引用
可选;一次或多次
RX
参考标识符
可选:一次或多次
WW
网页
可选;一次或多次
CC
评论
可选;一次或多次
ST
STR 谱数据
可选;两次或多次
DI
疾病
可选;一次或多次
OX
物种来源
一次或多次
HI
层次结构
可选;一次或多次
OI
源于同一人
可选;一次或多次
SX
细胞的性别
可选;一次
AG
采样时供体的年龄
可选;一次
CA
类别
一次
DT
日期(条目历史记录)
一次
//
终止符
一次;结束一个条目
- __init__()
初始化类。
- __repr__()
返回 Record 对象的规范字符串表示形式。
- __str__()
返回 Record 对象的可读字符串表示形式。