Problemi in questa pagina? Segnalali in questa discussione
Introduzione
Questa pagina presenta una lista di software, librerie e pacchetti utilizzabili su Ubuntu utili nell'ambito della biologia. I contenuti sono divisi in due categorie principali: bioinformatica e chimica computazionale. Nonostante questa sia una estrema semplificazione degli approcci informatici adottati in biologia, viene assunta questa divisione in filoni principali di ricerca per mere esigenze di semplicità.
Si fa presente che:
- L'elenco proposto di seguito non è esaustivo e necessita di aggiornamenti frequenti. Le informazioni, pertanto, potrebbero essere obsolete. Si invitano quindi gli utenti ad effettuare eventuali segnalazioni.
È fortemente consigliato consultare sempre i siti web dei singoli progetti, oppure alcuni portali istituzionali quali quelli di EMBL e NCBI, riportati in questo paragrafo.
Bioinformatica
BBMap
Descrizione: programma per l'allineamento di frammenti (reads) contro una sequenza di riferimento, supporta l'allineamento delle reads prodotte dai principali metodi di sequenziamento di nuova generazione.
Licenza: Free
BioConda
Descrizione: Bioconda è un repository di software per la bioinformatica distribuito sul package manager Conda.
Licenza: MIT License (più licenze specifiche per i singoli pacchetti)
BioconductoR
Descrizione: collezione di librerie, pacchetti e dataframe sviluppati per R allo scopo di effettuare calcoli e analisi di dati in ambito omico (principalmente genomica e proteomica, ma non solo).
Licenza: Artistic License 2.0
BioPerl
Sito: https://bioperl.org/
Descrizione: repository di moduli per linguaggio Perl dedicati alla bioinformatica.
Licenza: GNU Free Documentation License 1.2
Biopython
Sito: https://biopython.org/
Descrizione: insieme di tool di programmazione sviluppati in Python. È un progetto collaborativo distribuito per sviluppare librerie e applicazioni Python che soddisfino le esigenze del lavoro del bioinformatico.
Licenza: il cpdice sorgente viene distribuito con licenza Biopython License
Bowtie
Descrizione: pacchetto software comunemente utilizzato per l'allineamento di frammenti (provenienti da metodi di sequenziamento) contro assembly genomici di riferimento.
Licenza: Artistic License 2.0
CytoScape
Sito: https://cytoscape.org/
Descrizione: piattaforma open source per la visualizzazione di network di interazioni molecolari e pathways biologici. Consente di integrare i network con annotazioni funzionali (ad esempio Gene Ontology), profili di espressione genica e molto altro.
Licenza: GNU LGPL (Lesser General Public License)
FastQC
Sito: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Descrizione: tool per il controllo qualità di raw data provenienti da pipeline di sequenziamento high throughput.
Licenza: GNU GPL v3
GATK
Descrizione: suite di strumenti per analisi genomiche e caratterizzazione di varianti a partire da dataset di sequenziamento.
Licenza: Apache 2.0
HMMER
Sito: http://hmmer.org/
Descrizione: programma di allineamento di sequenze per la ricerca di sequenze omologhe, l'algoritmo si basa sul modello di Markov nascosto.
Licenza: BSD-3
ImageJ
Descrizione: software per la rielaborazione analitica di immagini acquisite da strumenti di laboratorio (microscopia, fluorescenza, etc.).
Licenza: BSD-2
MaxQuant/Perseus
Sito: https://maxquant.net/
Descrizione: piattaforma per l’analisi di dati di proteomica quantitativa, in particolare MaxQuant è disegnato specificamente per l’analisi di dataset da spettrometria di massa.
Licenza: Freeware
Muscle
Descrizione: tool per allineamento multiplo di sequenze. Questo software è particolarmente indicato per eseguire allineamenti strutturali con strutture 3D.
Licenza: Public Domain
PHYLIP
Descrizione: pacchetto di programmi per inferire alberi evolutivi e fare analisi filogenetiche.
Licenza: FOSS
Prokka
Descrizione: software per l'annotazione di genomi virali e batterici.
Licenza: GNU GPL v2
psort
Sito: http://psort.org/
Descrizione: famiglia di programmi per la predizione della localizzazione subcellulare di proteine.
Licenza: FOSS
Seaview
Descrizione: semplice editor per la manipolazione di allineamenti multipli.
Licenza: GNU GPL
T-Coffee
Sito: http://www.tcoffee.org/
Descrizione: piattaforma integrata tool per allineamento multiplo di sequenze. Questo software è noto per le sue performance, permette di usare anche profili di struttura secondaria.
Licenza: GNU GPL, Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License
UGENE
Sito: http://ugene.net/
Descrizione: piattaforma integrata per l'analisi di dati biologici come sequenze, annotazioni, allineamenti multipli, alberi filogenetici, assembly NGS e molto altro.
Licenza: GNU GPL v2.0
Chimica Computazionale
AMBER
Sito: https://ambermd.org
Descrizione: software per simulazioni di dinamica molecolare, molto impiegato per la robustezza e l’affidabilità dei force field che implementa.
Licenza: il core principale di AMBER viene rilasciato sotto licenza proprietaria, i tool di analisi e sviluppo (AMBERTools) vengono rilasciati con licenze GPL o FOSS.
AutoDock
Descrizione: suite di tool per eseguire calcoli di docking, predice pose strutturali su come piccole molecole possano legarsi a recettori la cui struttura 3D è nota sperimentalmente.
Licenza: GNU General Public License, Licenza Apache
Bioblender
Descrizione: estensione di Blender per la visualizzazione e il rendering di biomolecole.
Licenza: GNU GPL
ccp4
Sito: https://www.ccp4.ac.uk/
Descrizione: il Collaborative Computational Project Number 4 (ccp4) è un progetto istituito nel 1979 per supportare la collaborazione tra ricercatori che lavorano nello sviluppo di software e assemblare una raccolta completa di software per la biologia strutturale. Esiste un progetto derivato (Collaborative Computational Project for Electron cryo-Microscopy - ccp-em) dedicato alla microscopia crioelettronica.
Licenza: dipenda dai singoli pacchetti della raccolta.
Chimera
Descrizione: software per la visualizzazione e l'analisi interattiva di strutture molecolari e dati correlati, tra cui mappe di densità, complessi supramolecolari, allineamenti di sequenze, risultati di docking, traiettorie e ensemble conformazionali.
Licenza: Free per uso non commerciale
GROMACS
Sito: https://www.gromacs.org/
Descrizione: software per simulazioni di dinamica molecolare, molto utile per i numerosi tool di analisi post-produzione che offre.
Licenza: GNU Lesser General Public License (LGPL), version 2.1
Modeller
Descrizione: Software per la creazione di modelli strutturali di proteine usando l’approccio del homology modeling
Licenza: Software proprietario: academic nonprofit freeware, Software commerciale
NAMD
Descrizione: software per simulazioni di dinamica molecolare, particolarmente adatto per simulazioni avanzate di meta-dinamica (ad esempio Accelerated Molecular Dynamics).
Licenza: Software proprietario, freeware for noncommercial use
Open Babel
Descrizione: toolbox per la conversione di formati di file chimici.
Licenza: GNU GPL v2.0
PyMOL
Sito: https://pymol.org/
Descrizione: viewer molecolare di alto livello, ideale per la produzione di materiale da pubblicare o presentare.
Licenza: la versione attuale di PyMOL è chiusa e a pagamento rilasciata da Schrodinger.
Esistono progetti open e free ma potrebbero riguardare vecchie versioni forse non più mantenute.
Quantum ESPRESSO
Descrizione: suite per i calcoli della struttura elettronica la modellazione di materiali, si basa sulla teoria del funzionale della densità (DFT).
Licenza: GNU GPL
Rosetta
Descrizione: software per la modellazione ab initio di macromolecole, punto di riferimento per la predizione di strutture proteiche. Considerato l'intensivo sforzo di calcolo richiesto Rosetta viene distribuito anche come servizio online.
Licenza: Commerciale, liberamente disponibile per uso accademico
ViennaRNA
Descrizione: pacchetto di tools per la predizione e l'analisi di strutture secondarie di RNA.
Licenza: FOSS
VMD
Descrizione: viewer molecolare particolarmente versatile per la visualizzazione grafica di simulazioni di dinamica molecolare
Licenza: Distribution specific
Ulteriori risorse online
CATH: banca dati per la classificazione strutturale di domini proteici.
DAVID: database di annotazioni funzionali su dati provenienti da microarray.
EMBL-EBI: portale dell'European Bioinformatics Institute, gestito dall'European Molecular Biology Laboratory. Tra i diversi servizi che offre citiamo:
EMBnet: l'European Molecular Biology network è una rete scientifica internazionale e un gruppo di interesse che mira a migliorare i servizi di bioinformatica riunendo competenze e capacità di bioinformatica.
EMBO: l'European Molecular Biology Organization è un'organizzazione che riunisce scienziati e ricercatori scientifici sulla base dell'"eccellenza nella ricerca" nell'area delle scienze biologiche e in particolare della biologia molecolare.
Galaxy: piattaforma integrata per l'analisi di dati genomici, offre numerosi tool da combinare in workflow customizzabili.
GeneCards: questo portale rappresenta il punto di partenza per reperire una grande quantità di informazioni e annotazioni sui geni umani.
GenePattern: piattaforma per l'analisi dell'espressione genica (RNA-seq and microarray), copy number variation, proteomica, citometria di flusso e network analysis.
Gene Ontology: progetto bioinformatico atto a unificare la descrizione delle caratteristiche dei prodotti dei geni in tutte le specie viventi attraverso lo sviluppo di un vocabolario controllato i cui termini sono interconnessi gli uni agli altri attraverso un grafo ad albero.
KEGG Pathway Database: database di pathway metabolici.
Immune Epitope DataBase: database che raccoglie antigeni ed epitopi isolati e carratterizzati, contiene pure annotazioni di natura immunologica.
MEME: raccolta di tool online per individuare motivi e fare inferenza su sequenze amminoacidiche o di acidi nucleici che non risultano note da allineamenti.
NCBI: portale del National Center for Biotechnology Information, gestito dal National Institute of Health (NIH). Tra i diversi servizi che offre citiamo:
BLAST: metodi per l'allineamento locale di sequenze.
(Entrez)Gene: banca dati di geni isolati e caratterizzati.
PubMed: portale per la ricerca bibliografica di articoli scientifici peer reviewed.
RefSeq: banca dati di sequenze amminoacidiche risolte sperimentalmente.
Nextflow: piattaforma per gestire workflow e pipeline scientifiche usando software containers.
OMIM: banca dati sulle malattie ereditarie e disordini genetici.
Pathway Commons: portale per la ricerca di pathways metabolici.
Protein Data Bank: repository di strutture 3D di macromolecole (proteine, acidi nucleici) risolte sperimentalmente.
Protein Structure Prediction Center: questo sito raccoglie i risultati dei CASP (Critical Assessment of protein Structure Prediction), un contest internazionale per la valutazione di metodi innovativi di predizione di strutture 3D.
Reactome: database di pathway metabolici.
SCOP: database per la classificazione strutturale delle proteine.
Snakemake: sistema di gestione di workflow per creare analisi riproducibili e scalabili, sviluppato in Python.
STRING: tool per l'analisi di network di interazioni proteina-proteina.
SYMPRED: metaserver che colleziona i risultati e restituisce un consensus dei principali metodi di predizione di struttura secondaria delle proteine.
Taverna: piattaforma per la progettazione e l'esecuzione di workflow.
The Human Protein Atlas: database utile per valutare dove e in che modo sono espresse le proteine umane, basato su dati di evidenze sperimentali.
UCSC Genome Browser: browser genomico per visualizzare dove mappano i geni sui genomi di diversi organismi.
UniProtKB: repository di annotazioni funzionali di proteine (sperimentali e computazionali).
Varsome: bancadati che raccoglie mutazioni e varianti genetiche umane.
Ulteriori risorse
UbuntuScience/Biology: pagina con ulteriori voci sul wiki internazionale, dalla quale questa guida prende spunto.
Molecular mechanics: pagina di Wikipedia con i principali software, e relativo confronto, per calcoli di meccanica molecolare.