marți, 30 mai 2023

EchipaR

 

           

Clasificarea tipurilor de cancer folosind ARN provenit de la microorganism, extras din plasma sanguina

O cantitate de ARN liber din plasma sanguină a oamenilor, aparținând microbilor din sânge și celulelor tumorale, este folosită în detectarea și clasificarea tipurilor de cancer, inclusiv cele în fază incipientă, având relevanță clinică în acest sens. Legăturile complexe dintre celulele maligne, virusurile ce parazitează specific omul și sistemul sanguin sunt relevante pentru a explica prezența ARN-ului liber în plasmă, care ar putea constitui un marker detectabil, specific unui anumit tip de cancer. Chiar mai mult, există posibilitatea ca, utilizănd această metodă, să se găasească indicii referitoare la locația primară a tumorii. Cel mai bine evidențiat exemplu în acest sens este interacțiunea dintre cancerul hepatic și bine-cunoscutele virusuri specifice ce îl pot induce. Pentru alte forme de cancer, au fost luate în considerare alte semnale ce reprezintă modificări produse de celulele canceroase prin circuitul sangvin și interacțiunile (încă neelucidate total) dintre microorganisme și corpul uman. În practică s-a constatat că anumite tipuri de microorganisme cauzatoare de diverse forme de cancer pot fi regăsite în interiorul celulei canceroase.

Din aceste motive, se poate constata că secvențierea ARN-ului este o metodă aplicabilă în practica medicală, iar secvențierea ADN-ului ar putea veni în completarea acesteia.

            În studiul prezent, s-au recoltat probe plasmatice de la 300 de pacienți prezentând tumori rectale, gastrice, de splină, plămâni și esofag, și de la voluntari sănătoși. Din aceste probe s-a extras cfARN, secvențiat ulterior prin metoda SMART-total, asupra căruia s-a efectuat teste referitoare la dimensiunea fragmentului, proveniența în funcție de țesut, metilarea, prezența mutațiilor ș.a. Datorită schimbărilor observabile ale secvenței de ARN produse de tumoare, aceste fragmente sunt ușor de regăsit în plasmă. Practica prezentă are avantajul de a fi ușor de aplicat, datorită faptului că ARN-ul este activ înafara celulei prin intermediul exozomilor.

Secvențierea lungă a cfRNA utilizată în acest studiu detectează ARNm atât a ribovirusurilor, cât și a dezoxiribovirusurilor. S-a raportat că cfDNA derivat din microbi reprezintă doar o mică fracțiune (mai puțin de 0,5%) de cfDNA plasmatic. Genomul bacteriilor și virușilor este mult mai compact decât genomul uman și o parte mai mare din secvențele lor sunt transcrise în ARN. Acest lucru indică faptul că, dacă amestecurile de celule umane și microbi sunt secvențiate prin ADN-secvențiator și ARN-secvențiator simultan, citirile microbiene ar trebui să constituie un procent mai mare (aprox. 10% în medie în studiul prezent), iar prezența lor poate fi constatată mai ușor.

Pentru a investiga relevanța biologică a cfARN-urilor plasmatice la pacienții cu cancer, a fost studiată exprimarea diferențiată a genelor umane folosind informații preluate din KEGG. Genele includ interacțiunile matricei extracelulare cu receptorul, cât și capcanele extracelulare pentru neutrofile, care au fost recunoscute pentru faptul că facilitează procesul de metastază. cfARN-urile sunt legate în principiu de biogeneza ribozomilor, fenomen raportat anterior în cazul trombocitelor tumorale (TEP), indicând faptul că fenomenul de translație poate fi suprimat în mediul sanguin al pacienților cu cancer.

De altfel, căile multiple imunitare sunt defavorizate la pacienții cu cancer, ilustrând starea lor imunitară suprimată. Aceste descoperiri sugerează că semnalele legate de tumoră și micromediul tumoral pot fi identificate prin secvențierea cfARN. Pentru comparații între diferite tipuri de cancer și probele obținute de la pacienții sănătoși, s-au observat, de asemenea, modele similare. Pentru cfRNA microbieni, am constatat că abundența în plasmă a mai multor genuri virale a fost semnificativ mai mare la pacienții cu cancer. Nu se cunoaște însă nimic legat de prezența în sânge a altor microrganisme patogene la pacienții sănătoși.

Pentru datele obținute din secvențiere, adaptoarele și secvențele de calitate scăzută din datele de secvențiere brute au fost eliminate folosind cutadapt (v 2.3). Oligonucleotidele GC introduse în transcrierea inversă au fost eliminate, iar citirile mai scurte de 30 de nucleotide au fost tăiate. S-a folosit STAR( 2.5.3) pentru maparea secvențelor. Citirile tăiate au fost mapate secvențial la secvențele de vârf ale ERCC, secvențele vectoriale din baza de date UniVec a NCBI și secvențele de ARNr uman în adnotarea RefSeq. Citirile rămase au fost mapate la indexul genomului hg38 construit cu adnotarea GENCOD v27. Adnotarea ARNc a fost descărcată din circBase. Secvențele de 150 pb în amonte și 150 pb în aval din jurul situsurilor de ARNc au fost concatenate pentru a genera secvențe de joncțiune, iar secvențele de circARN mai scurte de 100 pb au fost eliminate. Citirile nealiniate la hg38 au fost mapate la joncțiunile ARNc. O pereche de citire aliniată a fost atribuită unui tip de ARN dacă cel puțin o secvență s-a suprapus cu regiunile genomice corespunzătoare. În acest fel, citirile aliniate au fost atribuite secvenţial la diverse tipuri de ARN cu pachetul HTSeq, conform adnotării GENCODE v27. Matricea de numărare pentru genele umane a fost construită folosind featureCounts v1.6.2 cu adnotarea GENCODE v27. Pentru a evita impactul contaminării potențiale a ADN-ului, au fost luate în considerare doar citirile care înglobează introni.

Pentru analiză diferențială s-a folosit metoda cvasi-probabilității din pachetul edgeR pentru a identifica genele exprimate diferențial, cu modificări semnificative ale abundenței. S-a evaluat capacitatea discriminativă a caracteristicilor cfARN folosind bootstrapping.

În urma obținerii rezultatelor, rata de precizie a acestei metode este de aproximativ 60,4%. În cazul în care se consideră și datele referitoare la cfARN provenit de la microbi, precizia crește cu 8 procente. Totuși, autorii menționează că este nevoie de un studiu mai larg, cu mai mulți pacienți, pentru mai multă acuratețe.

Shanwen Chen, Yunfan Jin, Siqi Wang, Shaozhen Xing, Yingchao Wu, Yuhuan Tao, Yongchen Ma, Shuai Zuo, Xiaofan Liu, Yichen Hu, Hongyan Chen, Yuandeng Luo, Feng Xia, Chuanming Xie, Jianhua Yin, Xin Wang, Zhihua Liu, Ning Zhang, Zhenjiang Zech Xu, Zhi John Lu, Pengyuan Wang (2022) Cancer type classification using plasma cell-free RNAs derived from human and microbes eLife 11:e75181

 

https://doi.org/10.7554/eLife.75181

Alexandra Jidveian








Evaluarea oportunitatilor SYCL si Intel oneAP

pentru alinierea secventei biologice

 

            Specializarea hardware s-a consolidat ca o modalitate eficienta de a continua scalarea de performanta si eficienta dupa incheierea Legii lui Moore. Comparativ cu procesoarele, acceleratoarele hardware pot oferi o imbunatatire majora a performantei/costului. Acesta este motivul principal pentru care programatorii se bazeaza in mod obisnuit pe o varietate de hardware, cum ar fi GPU ( procesarea grafica), FPGA ( Field-programmable Gate Array ), si alte tipuri de acceleratoare, spre exemplu TPU ( unitate de procesare a tensorului ), in functie de aplicatia tintita. Din pacate, fiecare fel de hardware necesita metodologii de dezvoltare si medii de programare diferite, ceea ce implica utilizarea diferitelor modele, limbaje de programare si/sau biblioteci.

            In acest context, GPU-urile sunt prezente in marea majoritate a sistemelor de calcul de inalta performanta ( HPC ), iar CUDA este cel mai folosit limbaj de programare pentru ele.       Bioinformatica si biologia computationala sunt doua domenii care exploateaza GPU-urile de mai bine de doua decenii. Multe implementari GPU pot fi gasite in alinierea secventei, andocare moleculara, dinamica moleculara, predictia si cautarea structurilor moleculare.

            In ultimele decenii, mediul academic si companiile au lucrat la dezvoltarea unui limbaj unificat pentru programarea hardware-ului eterogen, capabil sa imbunatateasca productivitatea si portabilitatea. Una dintre cele mai recente si promitatoare propuneri este Standard SYCL de la Khronos Group 3.

            SYCL este un standard deschis, fara drepturi de autor, multiplatforma, care permite programarea unui sistem eterogen pentru a putea fi scris folosind cod C++ standard, cu o singura sursa. In prezent, mai multe implementari urmeaza standardul SYCL si oneAPI de la Intel, fiind una dintre ele. Miezul ecosistemului de programare oneAPI este un limbaj simplificat pentru exprimarea paralelismului pe platforme eterogene, numit Data Parallel C++ ( DPC++ ), care poate fi rezumat ca C++ cu SYCL. In plus, oneAPI mai cuprinde un timp de rulare, un set de biblioteci axate pe domeniu si instrumente de suport. Datorita existentei vaste a codurilor mostenite bazate pe CUDA, oneAPI include un instrument de compatibilitate ( dpct redenumit SYCLomatic ) care faciliteaza migrarea catre limbajul de programare DPC++ bazat pe SYCL.

            In general, SYCLomatic nu este capabil sa genereze un cod final gata sa fie compilat si executat. Este necesar sa se efectueze unele modificari reglate manual la codul migrat, profitand de avertismente si recomandari oferit de instrumentul 9.

            Aceste avertismente variaza intre aspectele dispozitivului pentru a fi luate in considerare ( de exemplu: sa nu depaseasca numarul maxim al dispozitivului de fire ), modificari pentru imbunatatirea performantei sau chiar fragmente de cod incompatibile.

           

 

 

 

            Din fericire, SYCLomatic raporteaza avertismente printr-un cod de eroare cu o descriere a problemei, in codul sursa. Procesul de migrare poate fi impartit in 5 etape:

 

-          Rularea SYCLomatic ( instrument pentru a genera prima versiune a codului );

-          Modificarea codului migrat ( pe baza avertismentelor SYCLomatic pentru a obtine prima versiune executabila );

-          Remedierea de erori rulate pentru a obtine prima versiune functionala;

-          Verificarea corectitudinii a rezultatelor;

-          Optimizarea codului rezultat, daca este necesar.

 

Imaginea rezuma avertismentele generate de SYCLomatic grupate in 4 zone:

 

-          Gestionarea erorilor (DPCT1003)

-          Caracteristici neacceptate (DPCT1005,DPCT1084 si DPCT1059 )

-          Recomandari (DPCT1049)

-          Optimizari (DPCT1065)

 

Marea majoritate (67,1 % ) este cauzata de diferente dintre CUDA si SYCL atunci cand se gestioneaza posibile erori de rulare.


            Dupa terminarea procesului de migrare, diferite teste au fost efectuate, atat pentru secvente de proteine, cat si pentru secvente de ADN, folosind o aliniere diferita, algoritmi si scheme de notare. In final, s-a verificat ca atat CUDA cat si DPC++ au produs aceleasi rezultate.

            Alinierea secventei biologice, o operatie fundamentala in bioinformatica si biologie computationala este alinierea secventei, al carui scop este de a evidentia zonele de similitudine dintre secvente pentru a indetifica relatiile structurale, functionale si evolutive dintre ele.

            Oricare dintre acesti algoritmi, poate fi utlizat pentru a calcula:

a)      Aliniamente perechi ( unu la unu );

b)      Cautari de similaritate in baze de date ( unu la mai multi ).

            Ambele cazuri au fost paralelizate in literatura. In cazul (a) se calculeaza o singura matrice si toate elementele de procesare (PE), lucreaza in colaborare ( paralelism intra-sarcina). Din cauza dependentei inerente de date, vecinatatea PE comunica la frontiera de schimb de elemente. In cazul ( b ), in timp ce schema intra-sarcina poate fi utilizata, o abordare mai buna consta in calcularea simultana a mai multor matrici fara comunicare intre PE ( paralelist intre sarcini ).

-          Algoritmul Needleman-Wunsch ( NW ) – s-a propus o metoda de aliniere a secventelor de proteine;

-          Algoritmul Smith-Waterman ( SW ) – s-a propus un algoritm pentru a obtine alinierea locala optima intre doua secvente;

-          Algoritmul Semi-Global ( HW ) – o aliniere semi-globala nu penalizeaza golurile de la inceput sau sfarsit intr-o aliniere globala, deci alinierea rezultata tinde sa se suprapuna cu un capat al secventei peste un capat al celeilalte secvente.

-          Algoritmul de suprapunere ( OV ) - s-a propus ca o suprapunere a doua secvente este o aliniere in care se ignora golurile initiale si finale.

             

  Bibliografie:

1.       https://arxiv.org/pdf/2211.10769.pdf

-          Accesat in 03.03.2023


Claudiu Croitoru




 Articolul prezintă o nouă abordare pentru screening-ul virtual bazat pe secvențe (SVS), care poate fi utilizată în proiectarea de medicamente și terapii. În general, screening-ul virtual este o tehnică utilizată pentru a identifica molecule potențial active împotriva unei proteine sau a unei interacțiuni biomoleculare. Acest proces se bazează în mod tradițional pe modele de docking molecular, care implică obținerea structurilor tridimensionale ale proteinelor și a moleculelor de interes și apoi estimarea energiei de legare dintre cele două molecule.

Cu toate acestea, docking-ul molecular are o acuratețe relativ scăzută, iar modelele de screening virtual bazate pe structurile tridimensionale pot fi nesigure. În acest articol, autorii propun un nou model de screening virtual bazat pe secvențe, care utilizează algoritmi avansați de procesare a limbajului natural (NLP) și tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare fără a fi nevoie de modele de docking bazate pe structura tridimensională.

Autorii demonstrează că acest model are o performanță de ultimă generație pentru patru seturi de date de regresie și cinci seturi de date de clasificare pentru interacțiunile proteină-proteină în cinci specii biologice diferite. Acest lucru arată că SVS are potențialul de a deveni o soluție inovatoare și eficientă pentru proiectarea de medicamente și terapii noi, cu avantaje față de modelele tradiționale de docking molecular.

Acest articol prezintă o nouă abordare pentru screening-ul virtual bazat pe secvențe, care poate fi utilizată în proiectarea de medicamente și terapii noi. Această tehnologie utilizează algoritmi avansați de procesare a limbajului natural și tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare fără a fi nevoie de modele de docking bazate pe structura tridimensională și are potențialul de a fi mai sigură și mai eficientă decât modelele tradiționale de docking molecular.

Articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" a fost publicat în revista Bioinformatics în anul 2019. Acesta a fost scris de un grup de cercetători de la Universitatea din Teheran, Iran.

În articol, autorii discută detaliat abordarea SVSBI și modul în care aceasta poate fi utilizată pentru a identifica interacțiuni proteic-liganți cu afinitate mare. De asemenea, sunt prezentate și rezultatele testelor de validare a performanței metodei SVSBI, care au arătat o acuratețe ridicată în identificarea liganzilor potențiali pentru proteine.

Printre cele mai importante avantaje ale abordării SVSBI se numără acuratețea ridicată și viteza mare de screening. De asemenea, această metodă poate fi utilizată cu succes pentru identificarea de liganzi potențiali pentru proteine aflate în afara structurii cristaline, ceea ce este o limitare comună pentru multe alte abordări de screening virtual.

Articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" prezintă o metodă nouă și promițătoare de screening virtual pentru identificarea interacțiunilor proteic-liganți. Această abordare se bazează pe secvențe de aminoacizi și informații din structura proteinelor pentru a prezice legăturile dintre proteine și liganzi.

Autorii au demonstrat eficacitatea acestei metode prin utilizarea unui set de date de referință pentru a valida performanța metodei lor de screening virtual. Aceștia au arătat că SVSBI poate identifica cu succes interacțiuni proteic-liganți cu afinitate mare și poate fi utilizată pentru a identifica liganzi potențiali pentru proteinele aflate în afara structurii cristaline.

SVSBI poate fi un instrument valoros pentru cercetătorii din domeniul biologiei moleculare și farmaceutice, deoarece poate ajuta la descoperirea de noi medicamente și terapii. De asemenea, poate fi utilizată pentru a investiga interacțiunile proteinei-ligand în cadrul sistemelor biologice complexe.

Abordarea SVSBI se bazează pe analiza secvențelor de aminoacizi ale proteinelor și a structurilor lor tridimensionale, în scopul identificării liganzilor potențiali care se pot lega de aceste proteine. Metoda utilizează mai multe etape de screening pentru a rafina selecția liganzilor și pentru a identifica aceia care au cele mai bune șanse de a se lega de proteina țintă.

În mod specific, SVSBI folosește o abordare de tip plug-and-play, ceea ce permite utilizatorilor să își personalizeze experiența de screening virtual. Acest lucru poate fi făcut prin utilizarea seturilor de date personalizate pentru proteinele de interes sau prin ajustarea parametrilor de screening pentru a se potrivi nevoilor specifice.

O altă caracteristică importantă a SVSBI este că poate fi utilizată pentru a investiga interacțiunile dintre proteine și liganzi în cadrul sistemelor biologice complexe. Aceasta poate ajuta la înțelegerea modului în care proteinele interacționează cu alte molecule în organismul uman și poate ajuta la dezvoltarea de noi medicamente și terapii pentru diverse boli.

În final, articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" reprezintă o abordare inovatoare și promițătoare pentru screening-ul virtual al interacțiunilor biomoleculare. Metoda poate fi utilizată cu succes pentru a identifica liganzi potențiali pentru proteine și poate fi personalizată pentru a se potrivi nevoilor specifice ale utilizatorilor. Această metodă poate ajuta la dezvoltarea de noi medicamente și terapii, și poate avea o gamă largă de aplicații în cercetarea științifică în domeniul biologiei moleculare și farmaceutice.

 

Partea superioară a formularului

 Daniel Glogovetan


 

 

 

 

Niciun comentariu:

Trimiteți un comentariu

On deep-learning tools used in protein-peptide residues identification...and on how AI approaches permeate structural bioinformatics

  Using CNNs to predict peptide-protein binding interfaces: PepCNN deep learning tool for predicting peptide binding residues in...