Le CSTB héberge localement certaines banques de données publiques fournies par les organismes internationaux (NCBI, EMBL, etc.)
Leurs mises à jour nécessitent le rapatriement, le traitement et la mise en forme de grandes quantités de données.
Ce sont ces opérations, regroupées sous l'acronyme
Banbi, que nous décrirons ici.
Les banques
| 158G | GOA |
| 33M | GeneOntology |
| 539G | IDMapping |
| 107G | InterPro |
| 4G | UniProt-sw |
| 902G | UniProt-trembl |
| 652G | blast-nr |
| 454M | blast-pdb |
| 535M | blast-sw |
| 268G | blast-trembl |
| 62G | blast-uniref50 |
| 66M | taxonomy |
Mises à jour ... réalisées pas par banbi.tcl
Chaque semaine est lancée, par
cron pour chaque banque, la commande
banbi update banque 2>&1 banque.log
qui interroge le serveur conservé pour savoir si la banque a changé, et le cas échéant rapatrie la nouvelle version, réalise les opérations de décompression, de mise en forme et de mise à jour.
Les url de téléchargements
taxonomy https://rest.uniprot.org/taxonomy/stream?compressed=true&fields=id%2Cmnemonic%2Cscientific_name%2Ccommon_name%2Csynonyms%2Cother_names%2Clineage%2Creviewed%2Crank%2Cparent%2Chosts&format=tsv&query=%2A
InterPro ftp://ftp.ebi.ac.uk/pub/databases/interpro/current_release/protein2ipr.dat.gz
UniProt-sw ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.dat.gz
blast-uniref50 ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
blast-pdb ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt.gz
blast-sw ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
UniProt-trembl https://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase/uniprot_trembl.dat.gz
blast-trembl https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz
GeneOntology http://current.geneontology.org/ontology/go.obo
IDMapping ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping.dat.gz
blast-nr ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
GOA ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/goa_uniprot_all.gaf.gz
Traitements de mise en forme
-
Les banques blast sont créées à partir des fichiers de séquences par la commande makeblastdb
-
Pour InterPro, UniProt-sw, UniPort-trembl sont créées des banques SQL qui permettent d'accéder rapidement par indexation des AC et ID aux enregistrements correspondant dans le fichier texte de départ.
-
Les différentes banques de IDMapping sont mises en relation par les références communes ACC ou ID au travers de banques SQL liées.
-
Les informations de taxonomy sont intégrées dans une banque SQL qui autorise un accès très rapide aux données et surtout aux propriétés de descendance ou d'ancêtre commun.
-
GenOntology est pris tel quel