Bio.ExPASy.cellosaurus 模块

ExPASy 的 cellosaurus.txt 文件解析器。

参见 https://web.expasy.org/cellosaurus/

已通过版本 18(2016 年 7 月)的发布进行测试。

函数
  • read 读取包含一个细胞系条目。

  • parse 读取包含多个细胞系条目的文件

  • Record 保存细胞系数据。

示例

此示例下载 Cellosaurus 数据库并解析它。请注意,urlopen 返回字节流,而解析器需要纯字符串流,因此我们使用 TextIOWrapper 使用 UTF-8 编码将字节转换为字符串。如果您提前下载了 cellosaurus.txt 文件并打开它,则不需要这样做(请参阅下面的注释)。

>>> from urllib.request import urlopen
>>> from io import TextIOWrapper
>>> from Bio.ExPASy import cellosaurus
>>> url = "ftp://ftp.expasy.org/databases/cellosaurus/cellosaurus.txt"
>>> bytestream = urlopen(url)
>>> textstream = TextIOWrapper(bytestream, "UTF-8")
>>> # alternatively, use
>>> # textstream = open("cellosaurus.txt")
>>> # if you downloaded the cellosaurus.txt file in advance.
>>> records = cellosaurus.parse(textstream)
>>> for record in records:
...     if 'Homo sapiens' in record['OX'][0]:
...         print(record['ID'])  
...
#15310-LN
#W7079
(L)PC6
0.5alpha
...
Bio.ExPASy.cellosaurus.parse(handle)

解析细胞系记录。

此函数用于解析包含多个记录的细胞系文件。

参数
  • handle - 文件的句柄。

Bio.ExPASy.cellosaurus.read(handle)

读取一个细胞系记录。

此函数用于解析仅包含一个记录的细胞系文件。

参数
  • handle - 文件的句柄。

class Bio.ExPASy.cellosaurus.Record

Bases: dict

将 ExPASy Cellosaurus 记录中的信息作为 Python 字典保存。

每个记录包含以下键

行代码

内容

在条目中的出现

ID

标识符(细胞系名称)

一次;开始一个条目

AC

登录号 (CVCL_xxxx)

一次

AS

辅助登录号

可选;一次

SY

同义词

可选;一次

DR

交叉引用

可选;一次或多次

RX

参考标识符

可选:一次或多次

WW

网页

可选;一次或多次

CC

评论

可选;一次或多次

ST

STR 谱数据

可选;两次或多次

DI

疾病

可选;一次或多次

OX

物种来源

一次或多次

HI

层次结构

可选;一次或多次

OI

源于同一人

可选;一次或多次

SX

细胞的性别

可选;一次

AG

采样时供体的年龄

可选;一次

CA

类别

一次

DT

日期(条目历史记录)

一次

//

终止符

一次;结束一个条目

__init__()

初始化类。

__repr__()

返回 Record 对象的规范字符串表示形式。

__str__()

返回 Record 对象的可读字符串表示形式。