pagina |
o, che è lo stesso, è assolutamente aleatorio un testo la cui dimensione non è più riducibile dalla funzione di compressione ottimale opti . Poiché questa compressione ottimale è inaccessibile, la nozione assoluta di testo aleatorio è inutilizzabile in pratica, da qui l'idea spontanea di definire delle nozioni relative di testo aleatorio fondandosi su algoritmi di compressione realistici. Questa idea è stata messa in opera sul genoma da Eric Rivals, Olivier Delgrange, Max Dauchet e da me a Lille nel modo seguente. Due sequenze di genoma (si tratta per esempio della sequenza completa che descrive un cromosoma di lievito) solo frazionate in pezzi di lunghezza 500 e su ciascuno di essi viene provato un algoritmo di compressione (messo a punto per sfruttare bene il tipo di ripetizioni che si trova in questi genomi). Le zone per le quali si ottiene un forte tasso di compressione sono studiate nei dettagli dai biologi e corrispondono a quello che si chiama il DOS-DNA (DOS per defined ordered sequence). I confronti fatti con altri metodi fondati fondati su indicatori statistici per individuare il DOS-DNA mostrano che il metodo degli algoritmi di compressione permette di individuare certe zone che i metodi statistici non vedono bene e soprattutto da una misura della regolarità individuata: il tasso di compressione. Il DOS-DNA è considerato come del DNA che ha scarsa o nessuna utilità funzionale, è possibile anche che il DOS-DNA sia una sorta di scoria: la deregolamentazione di meccanismi biochimici della cellula condurrebbe a copie multiple di pezzi di DNA che non servirebbero a nulla. Il fatto che si è scoperto recentemente che certe malattie genetiche sono legate alla moltiplicazione di questo DOS-DNA va nella direzione di queste ipotesi. Si oppone a volte questo DOS-DNA facilmente comprimibile al resto del DNA, qualificato allora come aleatorio. La parola aleatorio in questo contesto non è appropriata se si pensa a un “aleatorio relativo” ed è certamente scorretta se si pensa alla nozione assoluta di aleatorio definita come ciò che la funzione opti non può comprimere. In effetti non è possibile che le parti codificate del DNA |
Esempio di una sequenza di genoma comprensibile Ecco una ripetizione quasi perfetta del motivo TCG trovato nel cromosoma 11 del lievito: |
siano aleatorie in senso assoluto. Se si potesse analizzare la struttura profonda delle sequenze del genoma, si riuscirebbe a comprimerlo. L'apparente aleatorietà delle parti codificate del genoma non è dunque che il risultato della nostra miopia, cioè della debolezza degli algoritmi di comprensione o di analisi statistica che sappiamo elaborare. Riassumendo il genoma non è certamente aleatorio in senso assoluto, quindi comprimibile. Ma gli strumenti di compressione di cui disponiamo oggi non permettono di individuare questa compressione che su segmenti anormali come il DOS-DNA perché altrove la strutturazione è molto profonda e resta essenzialmente inaccessibile. Data una certa capacità di calcolo, si possono comprimere certe cose e altre no. Ciò che sfugge a questa capacità di calcolo è da essa considerata come aleatoria (in un senso relativo). Si dice dell'aleatorio come del comprensibile: secondo le capacità di cui si dispone si trova comprensibile questo e incomprensibile quello. |
pagina |