Bio.PDB.PDBList 模块
通过互联网访问 PDB(例如,下载结构)。
- class Bio.PDB.PDBList.PDBList(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)
基类:
object
快速访问 PDB 或其镜像上的结构列表。
此类提供对 PDB 服务器或其镜像上的结构列表的快速访问。结构列表包含四字母 PDB 代码,表示结构是新的、已修改或已过时的。这些列表每周发布一次。
它还提供一个函数从服务器检索 PDB 文件。要正确使用它,请准备一个名为 /pdb 或类似名称的目录,用于存储 PDB 文件。
所有可用的文件格式(PDB、PDBx/mmCif、PDBML、mmtf)都受支持。请注意,大型结构(包含 >62 条链和/或 99999 行 ATOM)不再存储为单个 PDB 文件,默认情况下(选择 PDB 格式时)不会下载。
大型结构可以下载为其他格式,包括 PDBx/mmCif 或 .tar 文件(给定结构的 PDB 格式文件的集合)。
如果您想从代理内部使用此模块,请将代理变量添加到您的环境中,例如在 Unix 中:export HTTP_PROXY=’http://realproxy.charite.de:888’(这也可以添加到 ~/.bashrc 中)
- PDB_REF = '\n The Protein Data Bank: a computer-based archival file for macromolecular structures.\n F.C.Bernstein, T.F.Koetzle, G.J.B.Williams, E.F.Meyer Jr, M.D.Brice, J.R.Rodgers, O.Kennard, T.Shimanouchi, M.Tasumi\n J. Mol. Biol. 112 pp. 535-542 (1977)\n http://www.pdb.org/.\n '
- __init__(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)
使用默认服务器或自定义服务器初始化类。
参数 pdb 是要使用的本地路径,默认为初始化时的当前目录。
- static get_status_list(url)
从给定 URL 检索每周 pdb 状态文件中的 pdb 代码列表。
由 get_recent_changes 使用。此方法解析的列表文件的典型内容现在非常简单 - 每行一个 PDB 名称。
- get_recent_changes()
返回三个最新的每周文件列表(added、mod、obsolete)。
从 PDB 服务器读取包含更改条目的目录,并返回一个包含三个 URL 的元组,这些 URL 指向最新的列表中新的、修改的和过时的条目的文件。使用具有最大数字名称的目录。如果出现问题,则返回 None。
data/status 目录的内容(将使用 20031013);
drwxrwxr-x 2 1002 sysadmin 512 Oct 6 18:28 20031006 drwxrwxr-x 2 1002 sysadmin 512 Oct 14 02:14 20031013 -rw-r–r– 1 1002 sysadmin 1327 Mar 12 2001 README
- get_all_entries()
检索包含所有 PDB 条目和一些注释的大文件。
返回索引文件中的 PDB 代码列表。
- get_all_obsolete()
返回所有曾经在 PDB 中过时的条目列表。
返回所有曾经存在于 PDB 中的过时 pdb 代码的列表。
以以下格式获取并解析来自 PDB 服务器的文件(第一个 pdb_code 列是使用的列)。该文件如下所示
LIST OF OBSOLETE COORDINATE ENTRIES AND SUCCESSORS OBSLTE 31-JUL-94 116L 216L ... OBSLTE 29-JAN-96 1HFT 2HFT OBSLTE 21-SEP-06 1HFV 2J5X OBSLTE 21-NOV-03 1HG6 OBSLTE 18-JUL-84 1HHB 2HHB 3HHB OBSLTE 08-NOV-96 1HID 2HID OBSLTE 01-APR-97 1HIU 2HIU OBSLTE 14-JAN-04 1HKE 1UUZ ...
- retrieve_pdb_file(pdb_code, obsolete=False, pdir=None, file_format=None, overwrite=False)
从 PDB 服务器获取 PDB 结构文件,并将其存储在本地。
PDB 结构的文件名作为单个字符串返回。如果 obsolete
==
True,则该文件将保存在一个特殊的文件夹树中。注意。默认下载格式已从 PDB 更改为 PDBx/mmCif
- 参数::
pdb_code (字符串) – 来自 PDB 的 4 符号结构 ID(例如 3J92)。
file_format (字符串) –
文件格式。可用选项
”mmCif” (默认,PDBx/mmCif 文件),
”pdb” (PDB 格式),
”xml” (PDBML/XML 格式),
”mmtf” (高度压缩),
”bundle” (大型结构的 PDB 格式存档)
overwrite (布尔) – 如果设置为 True,则将覆盖现有的结构文件。默认值:False
obsolete (布尔) – 仅对过时结构有意义。如果为 True,则将过时结构下载到 ‘obsolete’ 文件夹,否则不会执行下载。此选项对 mmtf 格式不起作用,因为过时的结构未存储在 mmtf 中。当指定参数 pdir 时,它也没有意义。注意:确保您即将下载的是真正的过时结构。尝试将非过时结构下载到过时文件夹将不起作用,您将遇到“结构不存在”错误。默认值:False
pdir (字符串) – 将文件放入此目录(默认值:创建 PDB 风格的目录树)
- 返回::
filename
- 返回类型::
字符串
- update_pdb(file_format=None, with_assemblies=False)
更新您本地 PDB 文件的副本。
我认为这是该模块中“最想要的”功能。它获取每周新的和修改的 pdb 条目的列表,并自动下载相应的 PDB 文件。您可以将此模块作为每周的 cron 作业调用。
- download_pdb_files(pdb_codes: list[str], obsolete: bool = False, pdir: str | None = None, file_format: str | None = None, overwrite: bool = False, max_num_threads: int | None = None)
从 PDB 服务器获取 PDB 结构文件集,并将其存储在本地。
- 参数::
pdb_codes – 4 符号 PDB 结构 ID 的列表
已弃用 – 仅对已弃用的结构有意义。如果为 True,则将已弃用的结构下载到“obsolete”文件夹。否则,不会执行下载操作。此选项不适用于 mmtf 格式,因为已弃用的结构不可作为 mmtf 获取。 (默认值:
False
)pdir – 将文件放置在此目录中。默认情况下,创建 PDB 风格的目录树。
file_format –
文件格式。可用选项
”mmCif” (默认,PDBx/mmCif 文件),
”pdb” (PDB 格式),
”xml” (PMDML/XML 格式),
”mmtf” (高度压缩),
”bundle” (PDB 格式的存档,用于大型结构)。
overwrite – 如果设置为 true,则会覆盖现有结构文件。 (默认值:
False
)max_num_threads – 下载文件时使用的最大线程数
- get_all_assemblies(file_format: str = '') list[tuple[str, str]]
检索具有关联生物装配的 PDB 条目的列表。
请求的列表将被缓存,以避免多次调用服务器。
- 参数::
file_format (str) – 一个遗留参数,保留以避免破坏更改
- 返回::
装配
- 返回类型::
列表
- retrieve_assembly_file(pdb_code, assembly_num, pdir=None, file_format=None, overwrite=False)
获取与 PDB 条目关联的一个或多个装配结构。
除非在下面说明,否则参数在
retrieve_pdb_file
中有描述。- 参数::
assembly_num (str) – 要下载的装配编号。
:rtype : str :return: 下载的装配文件的名称。
- download_all_assemblies(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)
检索本地 PDB 副本中不存在的所有生物装配。
- 参数::
listfile – 将所有装配代码写入的的文件名
file_format – 下载条目的格式。可用选项为“mmCif”或“pdb”。默认为“mmCif”。
max_num_threads – 下载装配时使用的最大线程数
- download_entire_pdb(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)
检索本地 PDB 副本中不存在的所有 PDB 条目。
注意:默认下载格式已从 PDB 更改为 PDBx/mmCif。
- 参数::
listfile – 将所有 PDB 代码写入的文件名
file_format –
文件格式。可用选项
”mmCif” (默认,PDBx/mmCif 文件),
”pdb” (PDB 格式),
”xml” (PMDML/XML 格式),
”mmtf” (高度压缩),
”bundle” (大型结构的 PDB 格式存档)
max_num_threads – 下载 PDB 条目时使用的最大线程数
- download_obsolete_entries(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)
检索本地已弃用 PDB 副本中不存在的所有已弃用 PDB 条目。
注意:默认下载格式已从 PDB 更改为 PDBx/mmCif。
- 参数::
listfile – 将所有 PDB 代码写入的文件名
file_format –
文件格式。可用选项
”mmCif” (默认,PDBx/mmCif 文件),
”pdb” (PDB 格式),
”xml” (PMDML/XML 格式)。
max_num_threads – 下载 PDB 条目时使用的最大线程数
- get_seqres_file(savefile='pdb_seqres.txt')
检索并保存包含所有 PDB 条目序列的(大型)文件。