Bio.SeqIO.SeqXmlIO 模块
Bio.SeqIO 对 “seqxml” 文件格式 SeqXML 的支持。
此模块用于将 SeqXML 格式文件读写为 SeqRecord 对象,预期通过 Bio.SeqIO API 使用。
SeqXML 是一种轻量级 XML 格式,旨在替代 FASTA 文件。有关更多信息,请参见 http://www.seqXML.org 和 Schmitt 等人 (2011) , https://doi.org/10.1093/bib/bbr025
- class Bio.SeqIO.SeqXmlIO.ContentHandler
基类:
ContentHandler
处理解析器生成的 XML 事件(私有)。
- __init__()
创建一个处理程序来处理 XML 事件。
- startDocument()
找到 XML 声明时设置 XML 处理程序。
- startSeqXMLElement(name, qname, attrs)
处理 seqXML 元素的开始。
- endSeqXMLElement(name, qname)
处理 seqXML 元素的结束。
- startEntryElement(name, qname, attrs)
使用 id 和可选的条目源设置新条目(私有)。
- endEntryElement(name, qname)
处理条目元素的结束。
- startEntryFieldElementVersion01(name, qname, attrs)
接收条目元素的字段并将其转发给版本 0.1。
- startEntryFieldElement(name, qname, attrs)
接收条目元素的字段并将其转发给版本 >=0.2。
- startSpeciesElement(attrs)
解析物种信息。
- endSpeciesElement(name, qname)
处理物种元素的结束。
- startDescriptionElement(attrs)
解析描述。
- endDescriptionElement(name, qname)
处理描述元素的结束。
- startSequenceElement(attrs)
解析 DNA、RNA 或蛋白质序列。
- endSequenceElement(name, qname)
处理序列元素的结束。
- startDBRefElement(attrs)
解析数据库交叉引用。
- endDBRefElement(name, qname)
处理 DBRef 元素的结束。
- startPropertyElement(attrs)
处理属性元素的开始。
- endPropertyElement(name, qname)
处理属性元素的结束。
- characters(data)
处理字符数据。
- class Bio.SeqIO.SeqXmlIO.SeqXmlIterator(stream_or_path, namespace=None)
-
seqXML 文件解析器。
解析 seqXML 文件并创建 SeqRecords。假设有效的 seqXML,请事先进行验证。假设一个记录的所有信息都可以在记录元素或其上找到。当元素的开始标记到达时,会调用两种类型的。要仅在元素的结束标记到达之前接收元素的属性,请实现 _attr_TAGNAME。要获得元素及其子元素作为 DOM 树,请实现 _elem_TAGNAME。DOM 树中的所有内容都不会触发任何其他方法调用。
- BLOCK = 1024
- __init__(stream_or_path, namespace=None)
创建对象并初始化 XML 解析器。
- parse(handle)
开始解析文件,并返回一个 SeqRecord 生成器。
- iterate(handle)
遍历 XML 文件中的记录。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.SeqXmlIO.SeqXmlWriter(target, source=None, source_version=None, species=None, ncbiTaxId=None)
基类:
SequenceWriter
将 SeqRecords 写入 seqXML 文件。
SeqXML 要求 SeqRecord 注释指定分子类型;分子类型必须包含术语“DNA”、“RNA”或“蛋白质”。
- __init__(target, source=None, source_version=None, species=None, ncbiTaxId=None)
创建对象并启动 xml 生成器。
- 参数
target - 以二进制模式打开的输出流,或指向文件的路径。
source - 文件的源程序/数据库,例如 UniProt。
source_version - 源程序或数据库的版本或发布号,其中数据来源于此。
species - 文件中所有条目来源物种的学名。
ncbiTaxId - 物种来源的 NCBI 分类标识符。
- write_header()
使用文档元数据写入根节点。
- write_record(record)
写入一条记录。
关闭根节点并完成 XML 文档。