Clasificarea tipurilor de cancer
folosind ARN provenit de la microorganism, extras din plasma sanguina
O cantitate de ARN liber din plasma
sanguină a oamenilor, aparținând microbilor din sânge și celulelor tumorale,
este folosită în detectarea și clasificarea tipurilor de cancer, inclusiv cele
în fază incipientă, având relevanță clinică în acest sens. Legăturile complexe
dintre celulele maligne, virusurile ce parazitează specific omul și sistemul
sanguin sunt relevante pentru a explica prezența ARN-ului liber în plasmă, care
ar putea constitui un marker detectabil, specific unui anumit tip de cancer. Chiar
mai mult, există posibilitatea ca, utilizănd această metodă, să se găasească
indicii referitoare la locația primară a tumorii. Cel mai bine evidențiat
exemplu în acest sens este interacțiunea dintre cancerul hepatic și
bine-cunoscutele virusuri specifice ce îl pot induce. Pentru alte forme de
cancer, au fost luate în considerare alte semnale ce reprezintă modificări
produse de celulele canceroase prin circuitul sangvin și interacțiunile (încă
neelucidate total) dintre microorganisme și corpul uman. În practică s-a
constatat că anumite tipuri de microorganisme cauzatoare de diverse forme de
cancer pot fi regăsite în interiorul celulei canceroase.
Din aceste motive, se poate constata că secvențierea
ARN-ului este o metodă aplicabilă în practica medicală, iar secvențierea
ADN-ului ar putea veni în completarea acesteia.
În studiul
prezent, s-au recoltat probe plasmatice de la 300 de pacienți prezentând tumori
rectale, gastrice, de splină, plămâni și esofag, și de la voluntari sănătoși. Din
aceste probe s-a extras cfARN, secvențiat ulterior prin metoda SMART-total,
asupra căruia s-a efectuat teste referitoare la dimensiunea fragmentului,
proveniența în funcție de țesut, metilarea, prezența mutațiilor ș.a. Datorită
schimbărilor observabile ale secvenței de ARN produse de tumoare, aceste
fragmente sunt ușor de regăsit în plasmă. Practica prezentă are avantajul de a
fi ușor de aplicat, datorită faptului că ARN-ul este activ înafara celulei prin
intermediul exozomilor.
Secvențierea lungă a cfRNA
utilizată în acest studiu detectează ARNm atât a ribovirusurilor, cât și a dezoxiribovirusurilor.
S-a raportat că cfDNA derivat din microbi reprezintă doar o mică fracțiune (mai
puțin de 0,5%) de cfDNA plasmatic. Genomul bacteriilor și virușilor este mult
mai compact decât genomul uman și o parte mai mare din secvențele lor sunt
transcrise în ARN. Acest lucru indică faptul că, dacă amestecurile de celule
umane și microbi sunt secvențiate prin ADN-secvențiator și ARN-secvențiator simultan,
citirile microbiene ar trebui să constituie un procent mai mare (aprox. 10% în
medie în studiul prezent), iar prezența lor poate fi constatată mai ușor.
Pentru a investiga relevanța biologică
a cfARN-urilor plasmatice la pacienții cu cancer, a fost studiată exprimarea
diferențiată a genelor umane folosind informații preluate din KEGG. Genele
includ interacțiunile matricei extracelulare cu receptorul, cât și capcanele
extracelulare pentru neutrofile, care au fost recunoscute pentru faptul că
facilitează procesul de metastază. cfARN-urile sunt legate în principiu de
biogeneza ribozomilor, fenomen raportat anterior în cazul trombocitelor
tumorale (TEP), indicând faptul că fenomenul de translație poate fi suprimat în
mediul sanguin al pacienților cu cancer.
De altfel, căile multiple imunitare
sunt defavorizate la pacienții cu cancer, ilustrând starea lor imunitară
suprimată. Aceste descoperiri sugerează că semnalele legate de tumoră și micromediul
tumoral pot fi identificate prin secvențierea cfARN. Pentru comparații între
diferite tipuri de cancer și probele obținute de la pacienții sănătoși, s-au
observat, de asemenea, modele similare. Pentru cfRNA microbieni, am constatat
că abundența în plasmă a mai multor genuri virale a fost semnificativ mai mare
la pacienții cu cancer. Nu se cunoaște însă nimic legat de prezența în sânge a
altor microrganisme patogene la pacienții sănătoși.
Pentru datele obținute din
secvențiere, adaptoarele și secvențele de calitate scăzută din datele de
secvențiere brute au fost eliminate folosind cutadapt (v 2.3). Oligonucleotidele
GC introduse în transcrierea inversă au fost eliminate, iar citirile mai scurte
de 30 de nucleotide au fost tăiate. S-a folosit STAR( 2.5.3) pentru maparea
secvențelor. Citirile tăiate au fost mapate secvențial la secvențele de vârf
ale ERCC, secvențele vectoriale din baza de date UniVec a NCBI și secvențele de
ARNr uman în adnotarea RefSeq. Citirile rămase au fost mapate la indexul
genomului hg38 construit cu adnotarea GENCOD v27. Adnotarea ARNc a fost
descărcată din circBase. Secvențele de 150 pb în amonte și 150 pb în aval din
jurul situsurilor de ARNc au fost concatenate pentru a genera secvențe de
joncțiune, iar secvențele de circARN mai scurte de 100 pb au fost eliminate.
Citirile nealiniate la hg38 au fost mapate la joncțiunile ARNc. O pereche de
citire aliniată a fost atribuită unui tip de ARN dacă cel puțin o secvență s-a
suprapus cu regiunile genomice corespunzătoare. În acest fel, citirile aliniate
au fost atribuite secvenţial la diverse tipuri de ARN cu pachetul HTSeq, conform
adnotării GENCODE v27. Matricea de numărare pentru genele umane a fost
construită folosind featureCounts v1.6.2 cu adnotarea GENCODE v27. Pentru a
evita impactul contaminării potențiale a ADN-ului, au fost luate în considerare
doar citirile care înglobează introni.
Pentru analiză diferențială s-a
folosit metoda cvasi-probabilității din pachetul edgeR pentru a identifica
genele exprimate diferențial, cu modificări semnificative ale abundenței. S-a
evaluat capacitatea discriminativă a caracteristicilor cfARN folosind
bootstrapping.
În urma obținerii rezultatelor,
rata de precizie a acestei metode este de aproximativ 60,4%. În cazul în care
se consideră și datele referitoare la cfARN provenit de la microbi, precizia
crește cu 8 procente. Totuși, autorii menționează că este nevoie de un studiu
mai larg, cu mai mulți pacienți, pentru mai multă acuratețe.
Shanwen Chen, Yunfan Jin, Siqi
Wang, Shaozhen Xing, Yingchao Wu, Yuhuan Tao, Yongchen Ma, Shuai Zuo, Xiaofan
Liu, Yichen Hu, Hongyan Chen, Yuandeng Luo, Feng Xia, Chuanming Xie, Jianhua
Yin, Xin Wang, Zhihua Liu, Ning Zhang, Zhenjiang Zech Xu, Zhi John Lu, Pengyuan
Wang (2022) Cancer type classification using plasma cell-free RNAs derived from
human and microbes eLife 11:e75181
https://doi.org/10.7554/eLife.75181
Alexandra Jidveian
Evaluarea oportunitatilor SYCL si
Intel oneAP
pentru alinierea secventei biologice
Specializarea
hardware s-a consolidat ca o modalitate eficienta de a continua scalarea de
performanta si eficienta dupa incheierea Legii lui Moore. Comparativ cu
procesoarele, acceleratoarele hardware pot oferi o imbunatatire majora a
performantei/costului. Acesta este motivul principal pentru care programatorii
se bazeaza in mod obisnuit pe o varietate de hardware, cum ar fi GPU (
procesarea grafica), FPGA ( Field-programmable Gate Array ), si alte tipuri de
acceleratoare, spre exemplu TPU ( unitate de procesare a tensorului ), in
functie de aplicatia tintita. Din pacate, fiecare fel de hardware necesita
metodologii de dezvoltare si medii de programare diferite, ceea ce implica
utilizarea diferitelor modele, limbaje de programare si/sau biblioteci.
In acest
context, GPU-urile sunt prezente in marea majoritate a sistemelor de calcul de
inalta performanta ( HPC ), iar CUDA este cel mai folosit limbaj de programare
pentru ele. Bioinformatica si
biologia computationala sunt doua domenii care exploateaza GPU-urile de mai bine
de doua decenii. Multe implementari GPU pot fi gasite in alinierea secventei,
andocare moleculara, dinamica moleculara, predictia si cautarea structurilor
moleculare.
In ultimele
decenii, mediul academic si companiile au lucrat la dezvoltarea unui limbaj
unificat pentru programarea hardware-ului eterogen, capabil sa imbunatateasca
productivitatea si portabilitatea. Una dintre cele mai recente si promitatoare
propuneri este Standard SYCL de la Khronos Group 3.
SYCL este un
standard deschis, fara drepturi de autor, multiplatforma, care permite
programarea unui sistem eterogen pentru a putea fi scris folosind cod C++
standard, cu o singura sursa. In prezent, mai multe implementari urmeaza
standardul SYCL si oneAPI de la Intel, fiind una dintre ele. Miezul
ecosistemului de programare oneAPI este un limbaj simplificat pentru exprimarea
paralelismului pe platforme eterogene, numit Data Parallel C++ ( DPC++ ), care
poate fi rezumat ca C++ cu SYCL. In plus, oneAPI mai cuprinde un timp de
rulare, un set de biblioteci axate pe domeniu si instrumente de suport.
Datorita existentei vaste a codurilor mostenite bazate pe CUDA, oneAPI include
un instrument de compatibilitate ( dpct redenumit SYCLomatic ) care faciliteaza
migrarea catre limbajul de programare DPC++ bazat pe SYCL.
In general,
SYCLomatic nu este capabil sa genereze un cod final gata sa fie compilat si
executat. Este necesar sa se efectueze unele modificari reglate manual la codul
migrat, profitand de avertismente si recomandari oferit de instrumentul 9.
Aceste
avertismente variaza intre aspectele dispozitivului pentru a fi luate in
considerare ( de exemplu: sa nu depaseasca numarul maxim al dispozitivului de
fire ), modificari pentru imbunatatirea performantei sau chiar fragmente de cod
incompatibile.
Din
fericire, SYCLomatic raporteaza avertismente printr-un cod de eroare cu o
descriere a problemei, in codul sursa. Procesul de migrare poate fi impartit in
5 etape:
-
Rularea
SYCLomatic ( instrument pentru a genera prima versiune a codului );
-
Modificarea
codului migrat ( pe baza avertismentelor SYCLomatic pentru a obtine prima
versiune executabila );
-
Remedierea
de erori rulate pentru a obtine prima versiune functionala;
-
Verificarea
corectitudinii a rezultatelor;
-
Optimizarea
codului rezultat, daca este necesar.
Imaginea rezuma
avertismentele generate de SYCLomatic grupate in 4 zone:
-
Gestionarea
erorilor (DPCT1003)
-
Caracteristici
neacceptate (DPCT1005,DPCT1084 si DPCT1059 )
-
Recomandari
(DPCT1049)
-
Optimizari
(DPCT1065)
Marea majoritate (67,1 % ) este cauzata de diferente dintre CUDA si SYCL atunci cand se gestioneaza posibile erori de rulare.
Dupa
terminarea procesului de migrare, diferite teste au fost efectuate, atat pentru
secvente de proteine, cat si pentru secvente de ADN, folosind o aliniere
diferita, algoritmi si scheme de notare. In final, s-a verificat ca atat CUDA
cat si DPC++ au produs aceleasi rezultate.
Alinierea
secventei biologice, o operatie fundamentala in bioinformatica si biologie
computationala este alinierea secventei, al carui scop este de a evidentia
zonele de similitudine dintre secvente pentru a indetifica relatiile
structurale, functionale si evolutive dintre ele.
Oricare
dintre acesti algoritmi, poate fi utlizat pentru a calcula:
a)
Aliniamente
perechi ( unu la unu );
b)
Cautari
de similaritate in baze de date ( unu la mai multi ).
Ambele
cazuri au fost paralelizate in literatura. In cazul (a) se calculeaza o singura
matrice si toate elementele de procesare (PE), lucreaza in colaborare (
paralelism intra-sarcina). Din cauza dependentei inerente de date, vecinatatea PE
comunica la frontiera de schimb de elemente. In cazul ( b ), in timp ce schema
intra-sarcina poate fi utilizata, o abordare mai buna consta in calcularea
simultana a mai multor matrici fara comunicare intre PE ( paralelist intre
sarcini ).
-
Algoritmul
Needleman-Wunsch ( NW ) – s-a propus o metoda de aliniere a secventelor de
proteine;
-
Algoritmul
Smith-Waterman ( SW ) – s-a propus un algoritm pentru a obtine alinierea locala
optima intre doua secvente;
-
Algoritmul
Semi-Global ( HW ) – o aliniere semi-globala nu penalizeaza golurile de la
inceput sau sfarsit intr-o aliniere globala, deci alinierea rezultata tinde sa
se suprapuna cu un capat al secventei peste un capat al celeilalte secvente.
-
Algoritmul
de suprapunere ( OV ) - s-a propus ca o suprapunere a doua secvente este o
aliniere in care se ignora golurile initiale si finale.
1. https://arxiv.org/pdf/2211.10769.pdf
-
Accesat in 03.03.2023
Claudiu Croitoru
Cu toate acestea,
docking-ul molecular are o acuratețe relativ scăzută, iar modelele de screening
virtual bazate pe structurile tridimensionale pot fi nesigure. În acest
articol, autorii propun un nou model de screening virtual bazat pe secvențe,
care utilizează algoritmi avansați de procesare a limbajului natural (NLP) și
tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare
fără a fi nevoie de modele de docking bazate pe structura tridimensională.
Autorii demonstrează
că acest model are o performanță de ultimă generație pentru patru seturi de
date de regresie și cinci seturi de date de clasificare pentru interacțiunile
proteină-proteină în cinci specii biologice diferite. Acest lucru arată că SVS
are potențialul de a deveni o soluție inovatoare și eficientă pentru
proiectarea de medicamente și terapii noi, cu avantaje față de modelele
tradiționale de docking molecular.
Acest
articol prezintă o nouă abordare pentru screening-ul virtual bazat pe secvențe,
care poate fi utilizată în proiectarea de medicamente și terapii noi. Această
tehnologie utilizează algoritmi avansați de procesare a limbajului natural și
tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare
fără a fi nevoie de modele de docking bazate pe structura tridimensională și
are potențialul de a fi mai sigură și mai eficientă decât modelele tradiționale
de docking molecular.
Articolul
"SVSBI: Sequence-based virtual screening of biomolecular
interactions" a fost publicat în revista Bioinformatics în anul 2019.
Acesta a fost scris de un grup de cercetători de la Universitatea din Teheran,
Iran.
În
articol, autorii discută detaliat abordarea SVSBI și modul în care aceasta
poate fi utilizată pentru a identifica interacțiuni proteic-liganți cu afinitate
mare. De asemenea, sunt prezentate și rezultatele testelor de validare a
performanței metodei SVSBI, care au arătat o acuratețe ridicată în
identificarea liganzilor potențiali pentru proteine.
Printre
cele mai importante avantaje ale abordării SVSBI se numără acuratețea ridicată
și viteza mare de screening. De asemenea, această metodă poate fi utilizată cu
succes pentru identificarea de liganzi potențiali pentru proteine aflate în
afara structurii cristaline, ceea ce este o limitare comună pentru multe alte
abordări de screening virtual.
Articolul
"SVSBI: Sequence-based virtual screening of biomolecular
interactions" prezintă o metodă nouă și promițătoare de screening virtual
pentru identificarea interacțiunilor proteic-liganți. Această abordare se
bazează pe secvențe de aminoacizi și informații din structura proteinelor
pentru a prezice legăturile dintre proteine și liganzi.
Autorii
au demonstrat eficacitatea acestei metode prin utilizarea unui set de date de
referință pentru a valida performanța metodei lor de screening virtual. Aceștia
au arătat că SVSBI poate identifica cu succes interacțiuni proteic-liganți cu
afinitate mare și poate fi utilizată pentru a identifica liganzi potențiali
pentru proteinele aflate în afara structurii cristaline.
SVSBI
poate fi un instrument valoros pentru cercetătorii din domeniul biologiei
moleculare și farmaceutice, deoarece poate ajuta la descoperirea de noi
medicamente și terapii. De asemenea, poate fi utilizată pentru a investiga
interacțiunile proteinei-ligand în cadrul sistemelor biologice complexe.
Abordarea
SVSBI se bazează pe analiza secvențelor de aminoacizi ale proteinelor și a
structurilor lor tridimensionale, în scopul identificării liganzilor potențiali
care se pot lega de aceste proteine. Metoda utilizează mai multe etape de
screening pentru a rafina selecția liganzilor și pentru a identifica aceia care
au cele mai bune șanse de a se lega de proteina țintă.
În mod
specific, SVSBI folosește o abordare de tip plug-and-play, ceea ce permite
utilizatorilor să își personalizeze experiența de screening virtual. Acest
lucru poate fi făcut prin utilizarea seturilor de date personalizate pentru
proteinele de interes sau prin ajustarea parametrilor de screening pentru a se
potrivi nevoilor specifice.
O altă
caracteristică importantă a SVSBI este că poate fi utilizată pentru a investiga
interacțiunile dintre proteine și liganzi în cadrul sistemelor biologice
complexe. Aceasta poate ajuta la înțelegerea modului în care proteinele
interacționează cu alte molecule în organismul uman și poate ajuta la
dezvoltarea de noi medicamente și terapii pentru diverse boli.
În final, articolul
"SVSBI: Sequence-based virtual screening of biomolecular
interactions" reprezintă o
abordare inovatoare și promițătoare pentru screening-ul virtual al
interacțiunilor biomoleculare. Metoda poate fi utilizată cu succes pentru a
identifica liganzi potențiali pentru proteine și poate fi personalizată pentru
a se potrivi nevoilor specifice ale utilizatorilor. Această metodă poate ajuta
la dezvoltarea de noi medicamente și terapii, și poate avea o gamă largă de
aplicații în cercetarea științifică în domeniul biologiei moleculare și
farmaceutice.
Daniel Glogovetan