marți, 30 mai 2023

EchipaR

 

           

Clasificarea tipurilor de cancer folosind ARN provenit de la microorganism, extras din plasma sanguina

O cantitate de ARN liber din plasma sanguină a oamenilor, aparținând microbilor din sânge și celulelor tumorale, este folosită în detectarea și clasificarea tipurilor de cancer, inclusiv cele în fază incipientă, având relevanță clinică în acest sens. Legăturile complexe dintre celulele maligne, virusurile ce parazitează specific omul și sistemul sanguin sunt relevante pentru a explica prezența ARN-ului liber în plasmă, care ar putea constitui un marker detectabil, specific unui anumit tip de cancer. Chiar mai mult, există posibilitatea ca, utilizănd această metodă, să se găasească indicii referitoare la locația primară a tumorii. Cel mai bine evidențiat exemplu în acest sens este interacțiunea dintre cancerul hepatic și bine-cunoscutele virusuri specifice ce îl pot induce. Pentru alte forme de cancer, au fost luate în considerare alte semnale ce reprezintă modificări produse de celulele canceroase prin circuitul sangvin și interacțiunile (încă neelucidate total) dintre microorganisme și corpul uman. În practică s-a constatat că anumite tipuri de microorganisme cauzatoare de diverse forme de cancer pot fi regăsite în interiorul celulei canceroase.

Din aceste motive, se poate constata că secvențierea ARN-ului este o metodă aplicabilă în practica medicală, iar secvențierea ADN-ului ar putea veni în completarea acesteia.

            În studiul prezent, s-au recoltat probe plasmatice de la 300 de pacienți prezentând tumori rectale, gastrice, de splină, plămâni și esofag, și de la voluntari sănătoși. Din aceste probe s-a extras cfARN, secvențiat ulterior prin metoda SMART-total, asupra căruia s-a efectuat teste referitoare la dimensiunea fragmentului, proveniența în funcție de țesut, metilarea, prezența mutațiilor ș.a. Datorită schimbărilor observabile ale secvenței de ARN produse de tumoare, aceste fragmente sunt ușor de regăsit în plasmă. Practica prezentă are avantajul de a fi ușor de aplicat, datorită faptului că ARN-ul este activ înafara celulei prin intermediul exozomilor.

Secvențierea lungă a cfRNA utilizată în acest studiu detectează ARNm atât a ribovirusurilor, cât și a dezoxiribovirusurilor. S-a raportat că cfDNA derivat din microbi reprezintă doar o mică fracțiune (mai puțin de 0,5%) de cfDNA plasmatic. Genomul bacteriilor și virușilor este mult mai compact decât genomul uman și o parte mai mare din secvențele lor sunt transcrise în ARN. Acest lucru indică faptul că, dacă amestecurile de celule umane și microbi sunt secvențiate prin ADN-secvențiator și ARN-secvențiator simultan, citirile microbiene ar trebui să constituie un procent mai mare (aprox. 10% în medie în studiul prezent), iar prezența lor poate fi constatată mai ușor.

Pentru a investiga relevanța biologică a cfARN-urilor plasmatice la pacienții cu cancer, a fost studiată exprimarea diferențiată a genelor umane folosind informații preluate din KEGG. Genele includ interacțiunile matricei extracelulare cu receptorul, cât și capcanele extracelulare pentru neutrofile, care au fost recunoscute pentru faptul că facilitează procesul de metastază. cfARN-urile sunt legate în principiu de biogeneza ribozomilor, fenomen raportat anterior în cazul trombocitelor tumorale (TEP), indicând faptul că fenomenul de translație poate fi suprimat în mediul sanguin al pacienților cu cancer.

De altfel, căile multiple imunitare sunt defavorizate la pacienții cu cancer, ilustrând starea lor imunitară suprimată. Aceste descoperiri sugerează că semnalele legate de tumoră și micromediul tumoral pot fi identificate prin secvențierea cfARN. Pentru comparații între diferite tipuri de cancer și probele obținute de la pacienții sănătoși, s-au observat, de asemenea, modele similare. Pentru cfRNA microbieni, am constatat că abundența în plasmă a mai multor genuri virale a fost semnificativ mai mare la pacienții cu cancer. Nu se cunoaște însă nimic legat de prezența în sânge a altor microrganisme patogene la pacienții sănătoși.

Pentru datele obținute din secvențiere, adaptoarele și secvențele de calitate scăzută din datele de secvențiere brute au fost eliminate folosind cutadapt (v 2.3). Oligonucleotidele GC introduse în transcrierea inversă au fost eliminate, iar citirile mai scurte de 30 de nucleotide au fost tăiate. S-a folosit STAR( 2.5.3) pentru maparea secvențelor. Citirile tăiate au fost mapate secvențial la secvențele de vârf ale ERCC, secvențele vectoriale din baza de date UniVec a NCBI și secvențele de ARNr uman în adnotarea RefSeq. Citirile rămase au fost mapate la indexul genomului hg38 construit cu adnotarea GENCOD v27. Adnotarea ARNc a fost descărcată din circBase. Secvențele de 150 pb în amonte și 150 pb în aval din jurul situsurilor de ARNc au fost concatenate pentru a genera secvențe de joncțiune, iar secvențele de circARN mai scurte de 100 pb au fost eliminate. Citirile nealiniate la hg38 au fost mapate la joncțiunile ARNc. O pereche de citire aliniată a fost atribuită unui tip de ARN dacă cel puțin o secvență s-a suprapus cu regiunile genomice corespunzătoare. În acest fel, citirile aliniate au fost atribuite secvenţial la diverse tipuri de ARN cu pachetul HTSeq, conform adnotării GENCODE v27. Matricea de numărare pentru genele umane a fost construită folosind featureCounts v1.6.2 cu adnotarea GENCODE v27. Pentru a evita impactul contaminării potențiale a ADN-ului, au fost luate în considerare doar citirile care înglobează introni.

Pentru analiză diferențială s-a folosit metoda cvasi-probabilității din pachetul edgeR pentru a identifica genele exprimate diferențial, cu modificări semnificative ale abundenței. S-a evaluat capacitatea discriminativă a caracteristicilor cfARN folosind bootstrapping.

În urma obținerii rezultatelor, rata de precizie a acestei metode este de aproximativ 60,4%. În cazul în care se consideră și datele referitoare la cfARN provenit de la microbi, precizia crește cu 8 procente. Totuși, autorii menționează că este nevoie de un studiu mai larg, cu mai mulți pacienți, pentru mai multă acuratețe.

Shanwen Chen, Yunfan Jin, Siqi Wang, Shaozhen Xing, Yingchao Wu, Yuhuan Tao, Yongchen Ma, Shuai Zuo, Xiaofan Liu, Yichen Hu, Hongyan Chen, Yuandeng Luo, Feng Xia, Chuanming Xie, Jianhua Yin, Xin Wang, Zhihua Liu, Ning Zhang, Zhenjiang Zech Xu, Zhi John Lu, Pengyuan Wang (2022) Cancer type classification using plasma cell-free RNAs derived from human and microbes eLife 11:e75181

 

https://doi.org/10.7554/eLife.75181

Alexandra Jidveian








Evaluarea oportunitatilor SYCL si Intel oneAP

pentru alinierea secventei biologice

 

            Specializarea hardware s-a consolidat ca o modalitate eficienta de a continua scalarea de performanta si eficienta dupa incheierea Legii lui Moore. Comparativ cu procesoarele, acceleratoarele hardware pot oferi o imbunatatire majora a performantei/costului. Acesta este motivul principal pentru care programatorii se bazeaza in mod obisnuit pe o varietate de hardware, cum ar fi GPU ( procesarea grafica), FPGA ( Field-programmable Gate Array ), si alte tipuri de acceleratoare, spre exemplu TPU ( unitate de procesare a tensorului ), in functie de aplicatia tintita. Din pacate, fiecare fel de hardware necesita metodologii de dezvoltare si medii de programare diferite, ceea ce implica utilizarea diferitelor modele, limbaje de programare si/sau biblioteci.

            In acest context, GPU-urile sunt prezente in marea majoritate a sistemelor de calcul de inalta performanta ( HPC ), iar CUDA este cel mai folosit limbaj de programare pentru ele.       Bioinformatica si biologia computationala sunt doua domenii care exploateaza GPU-urile de mai bine de doua decenii. Multe implementari GPU pot fi gasite in alinierea secventei, andocare moleculara, dinamica moleculara, predictia si cautarea structurilor moleculare.

            In ultimele decenii, mediul academic si companiile au lucrat la dezvoltarea unui limbaj unificat pentru programarea hardware-ului eterogen, capabil sa imbunatateasca productivitatea si portabilitatea. Una dintre cele mai recente si promitatoare propuneri este Standard SYCL de la Khronos Group 3.

            SYCL este un standard deschis, fara drepturi de autor, multiplatforma, care permite programarea unui sistem eterogen pentru a putea fi scris folosind cod C++ standard, cu o singura sursa. In prezent, mai multe implementari urmeaza standardul SYCL si oneAPI de la Intel, fiind una dintre ele. Miezul ecosistemului de programare oneAPI este un limbaj simplificat pentru exprimarea paralelismului pe platforme eterogene, numit Data Parallel C++ ( DPC++ ), care poate fi rezumat ca C++ cu SYCL. In plus, oneAPI mai cuprinde un timp de rulare, un set de biblioteci axate pe domeniu si instrumente de suport. Datorita existentei vaste a codurilor mostenite bazate pe CUDA, oneAPI include un instrument de compatibilitate ( dpct redenumit SYCLomatic ) care faciliteaza migrarea catre limbajul de programare DPC++ bazat pe SYCL.

            In general, SYCLomatic nu este capabil sa genereze un cod final gata sa fie compilat si executat. Este necesar sa se efectueze unele modificari reglate manual la codul migrat, profitand de avertismente si recomandari oferit de instrumentul 9.

            Aceste avertismente variaza intre aspectele dispozitivului pentru a fi luate in considerare ( de exemplu: sa nu depaseasca numarul maxim al dispozitivului de fire ), modificari pentru imbunatatirea performantei sau chiar fragmente de cod incompatibile.

           

 

 

 

            Din fericire, SYCLomatic raporteaza avertismente printr-un cod de eroare cu o descriere a problemei, in codul sursa. Procesul de migrare poate fi impartit in 5 etape:

 

-          Rularea SYCLomatic ( instrument pentru a genera prima versiune a codului );

-          Modificarea codului migrat ( pe baza avertismentelor SYCLomatic pentru a obtine prima versiune executabila );

-          Remedierea de erori rulate pentru a obtine prima versiune functionala;

-          Verificarea corectitudinii a rezultatelor;

-          Optimizarea codului rezultat, daca este necesar.

 

Imaginea rezuma avertismentele generate de SYCLomatic grupate in 4 zone:

 

-          Gestionarea erorilor (DPCT1003)

-          Caracteristici neacceptate (DPCT1005,DPCT1084 si DPCT1059 )

-          Recomandari (DPCT1049)

-          Optimizari (DPCT1065)

 

Marea majoritate (67,1 % ) este cauzata de diferente dintre CUDA si SYCL atunci cand se gestioneaza posibile erori de rulare.


            Dupa terminarea procesului de migrare, diferite teste au fost efectuate, atat pentru secvente de proteine, cat si pentru secvente de ADN, folosind o aliniere diferita, algoritmi si scheme de notare. In final, s-a verificat ca atat CUDA cat si DPC++ au produs aceleasi rezultate.

            Alinierea secventei biologice, o operatie fundamentala in bioinformatica si biologie computationala este alinierea secventei, al carui scop este de a evidentia zonele de similitudine dintre secvente pentru a indetifica relatiile structurale, functionale si evolutive dintre ele.

            Oricare dintre acesti algoritmi, poate fi utlizat pentru a calcula:

a)      Aliniamente perechi ( unu la unu );

b)      Cautari de similaritate in baze de date ( unu la mai multi ).

            Ambele cazuri au fost paralelizate in literatura. In cazul (a) se calculeaza o singura matrice si toate elementele de procesare (PE), lucreaza in colaborare ( paralelism intra-sarcina). Din cauza dependentei inerente de date, vecinatatea PE comunica la frontiera de schimb de elemente. In cazul ( b ), in timp ce schema intra-sarcina poate fi utilizata, o abordare mai buna consta in calcularea simultana a mai multor matrici fara comunicare intre PE ( paralelist intre sarcini ).

-          Algoritmul Needleman-Wunsch ( NW ) – s-a propus o metoda de aliniere a secventelor de proteine;

-          Algoritmul Smith-Waterman ( SW ) – s-a propus un algoritm pentru a obtine alinierea locala optima intre doua secvente;

-          Algoritmul Semi-Global ( HW ) – o aliniere semi-globala nu penalizeaza golurile de la inceput sau sfarsit intr-o aliniere globala, deci alinierea rezultata tinde sa se suprapuna cu un capat al secventei peste un capat al celeilalte secvente.

-          Algoritmul de suprapunere ( OV ) - s-a propus ca o suprapunere a doua secvente este o aliniere in care se ignora golurile initiale si finale.

             

  Bibliografie:

1.       https://arxiv.org/pdf/2211.10769.pdf

-          Accesat in 03.03.2023


Claudiu Croitoru




 Articolul prezintă o nouă abordare pentru screening-ul virtual bazat pe secvențe (SVS), care poate fi utilizată în proiectarea de medicamente și terapii. În general, screening-ul virtual este o tehnică utilizată pentru a identifica molecule potențial active împotriva unei proteine sau a unei interacțiuni biomoleculare. Acest proces se bazează în mod tradițional pe modele de docking molecular, care implică obținerea structurilor tridimensionale ale proteinelor și a moleculelor de interes și apoi estimarea energiei de legare dintre cele două molecule.

Cu toate acestea, docking-ul molecular are o acuratețe relativ scăzută, iar modelele de screening virtual bazate pe structurile tridimensionale pot fi nesigure. În acest articol, autorii propun un nou model de screening virtual bazat pe secvențe, care utilizează algoritmi avansați de procesare a limbajului natural (NLP) și tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare fără a fi nevoie de modele de docking bazate pe structura tridimensională.

Autorii demonstrează că acest model are o performanță de ultimă generație pentru patru seturi de date de regresie și cinci seturi de date de clasificare pentru interacțiunile proteină-proteină în cinci specii biologice diferite. Acest lucru arată că SVS are potențialul de a deveni o soluție inovatoare și eficientă pentru proiectarea de medicamente și terapii noi, cu avantaje față de modelele tradiționale de docking molecular.

Acest articol prezintă o nouă abordare pentru screening-ul virtual bazat pe secvențe, care poate fi utilizată în proiectarea de medicamente și terapii noi. Această tehnologie utilizează algoritmi avansați de procesare a limbajului natural și tehnici de învățare profundă pentru a codifica interacțiunile biomoleculare fără a fi nevoie de modele de docking bazate pe structura tridimensională și are potențialul de a fi mai sigură și mai eficientă decât modelele tradiționale de docking molecular.

Articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" a fost publicat în revista Bioinformatics în anul 2019. Acesta a fost scris de un grup de cercetători de la Universitatea din Teheran, Iran.

În articol, autorii discută detaliat abordarea SVSBI și modul în care aceasta poate fi utilizată pentru a identifica interacțiuni proteic-liganți cu afinitate mare. De asemenea, sunt prezentate și rezultatele testelor de validare a performanței metodei SVSBI, care au arătat o acuratețe ridicată în identificarea liganzilor potențiali pentru proteine.

Printre cele mai importante avantaje ale abordării SVSBI se numără acuratețea ridicată și viteza mare de screening. De asemenea, această metodă poate fi utilizată cu succes pentru identificarea de liganzi potențiali pentru proteine aflate în afara structurii cristaline, ceea ce este o limitare comună pentru multe alte abordări de screening virtual.

Articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" prezintă o metodă nouă și promițătoare de screening virtual pentru identificarea interacțiunilor proteic-liganți. Această abordare se bazează pe secvențe de aminoacizi și informații din structura proteinelor pentru a prezice legăturile dintre proteine și liganzi.

Autorii au demonstrat eficacitatea acestei metode prin utilizarea unui set de date de referință pentru a valida performanța metodei lor de screening virtual. Aceștia au arătat că SVSBI poate identifica cu succes interacțiuni proteic-liganți cu afinitate mare și poate fi utilizată pentru a identifica liganzi potențiali pentru proteinele aflate în afara structurii cristaline.

SVSBI poate fi un instrument valoros pentru cercetătorii din domeniul biologiei moleculare și farmaceutice, deoarece poate ajuta la descoperirea de noi medicamente și terapii. De asemenea, poate fi utilizată pentru a investiga interacțiunile proteinei-ligand în cadrul sistemelor biologice complexe.

Abordarea SVSBI se bazează pe analiza secvențelor de aminoacizi ale proteinelor și a structurilor lor tridimensionale, în scopul identificării liganzilor potențiali care se pot lega de aceste proteine. Metoda utilizează mai multe etape de screening pentru a rafina selecția liganzilor și pentru a identifica aceia care au cele mai bune șanse de a se lega de proteina țintă.

În mod specific, SVSBI folosește o abordare de tip plug-and-play, ceea ce permite utilizatorilor să își personalizeze experiența de screening virtual. Acest lucru poate fi făcut prin utilizarea seturilor de date personalizate pentru proteinele de interes sau prin ajustarea parametrilor de screening pentru a se potrivi nevoilor specifice.

O altă caracteristică importantă a SVSBI este că poate fi utilizată pentru a investiga interacțiunile dintre proteine și liganzi în cadrul sistemelor biologice complexe. Aceasta poate ajuta la înțelegerea modului în care proteinele interacționează cu alte molecule în organismul uman și poate ajuta la dezvoltarea de noi medicamente și terapii pentru diverse boli.

În final, articolul "SVSBI: Sequence-based virtual screening of biomolecular interactions" reprezintă o abordare inovatoare și promițătoare pentru screening-ul virtual al interacțiunilor biomoleculare. Metoda poate fi utilizată cu succes pentru a identifica liganzi potențiali pentru proteine și poate fi personalizată pentru a se potrivi nevoilor specifice ale utilizatorilor. Această metodă poate ajuta la dezvoltarea de noi medicamente și terapii, și poate avea o gamă largă de aplicații în cercetarea științifică în domeniul biologiei moleculare și farmaceutice.

 

Partea superioară a formularului

 Daniel Glogovetan


 

 

 

 

Articole AASSB - Echipa FCSB

 Articolul I: Algoritmi avansați de analiză bioinformatică pentru structura și funcția glutamina sintetazei (GS)

În lucrarea "Analiza bioinformatică a structurii și funcției Glutaminei sintetazei (GS) din bacteriile din gheața mării Antarctice Pseudoalteromonas sp. M175", autorii au investigat enzima GS (Glutamine sintetaza) prezentă în bacteriile Pseudoalteromonas sp. M175, care trăiesc în gheața mării Antarctice. Ei au utilizat abordări bioinformatică pentru a analiza secvența genetică, structura proteinelor și funcțiile posibile ale acestei enzime. Glutamina sintetaza (GS) este o enzimă cheie implicată în metabolismul azotului în celulele organismelor. Aceasta catalizează conversia L-glutaminei și a amoniacului în L-glutamat, fiind esențială în sinteza glutaminei și în reglarea ciclului azotului.

În primul rând, autorii au realizat o analiză bioinformatică a secvenței genetice a GS din Pseudoalteromonas sp. M175, utilizând diferite programe de analiză a secvențelor și baze de date de secvențe. Această analiză a permis identificarea genelor asociate cu GS, precum și identificarea posibilelor regiuni funcționale și domenii proteice implicate în activitatea enzimei.

În continuare, autorii au investigat structura proteinelor GS din Pseudoalteromonas sp. M175 utilizând modele de predicție a structurii proteice și metode de analiză a proteinelor. Aceasta a oferit informații detaliate despre structura tridimensională a proteinei GS și a dezvăluit posibilele legături între structura sa și funcția sa enzimatică. De asemenea, autorii au efectuat analize comparative ale secvențelor genetice și structurii proteinelor GS din Pseudoalteromonas sp. M175 cu GS din alte organisme, în special cu organisme extremofile, adaptate la condițiile de mediu extreme din Antarctica. Aceste analize au furnizat indicii despre evoluția și adaptarea GS la condițiile specifice ale ghețarilor mării Antarctice.

În plus, autorii au realizat analize funcționale ale GS din Pseudoalteromonas sp. M175, inclusiv analize ale căilor metabolice și a interacțiunilor proteice în care aceasta este implicată. Aceste analize au oferit o înțelegere mai detaliată a funcțiilor enzimei GS în contextul bacteriilor din gheața mării Antarctice și a potențialului său rol în adaptarea acestor organisme la condițiile extreme ale mediului înconjurător.

În final, autorii au sintetizat și au interpretat rezultatele obținute din analizele bioinformatică, structurală și funcțională ale GS din Pseudoalteromonas sp. M175, evidențiind importanța acestei enzime în adaptarea bacteriilor la mediul Antarctic extrem. Această lucrare contribuie la înțelegerea mecanismelor moleculare implicate în adaptarea la condiții extreme și oferă informații valoroase pentru cercetările ulterioare în domeniul biotehnologiilor și bioprospectării din Antarctica.

Bibliografie:

https://arxiv.org/ftp/arxiv/papers/2204/2204.11026.pdf

Articolul II: Network and Sequence-Based Prediction of Protein-Protein Interactions, Leonardo Martini, Adriano Fazzone, Luca Becchetti

Lucrarea "Network and Sequence-Based Prediction of Protein-Protein Interactions" se concentrează pe dezvoltarea unei abordări integrate pentru a prezice interacțiunile proteină-proteină (PPIs) din datele rețelelor și secvențelor proteice. Înțelegerea PPI-urilor este esențială pentru înțelegerea funcționării sistemelor biologice, iar această lucrare propune o metodologie îmbunătățită pentru a face acest lucru.

Metodologia implică două abordări principale: una bazată pe rețele și cealaltă bazată pe secvențe. Abordarea bazată pe rețele implică construirea unei rețele de interacțiuni proteice și calcularea caracteristicilor de rețea, cum ar fi gradul nodului și coeficientul de clusterizare. Abordarea bazată pe secvențe implică utilizarea informațiilor de secvență, cum ar fi domeniile proteice și anotările funcționale, pentru a calcula caracteristici bazate pe secvențe.

Autorii combină aceste caracteristici și folosesc tehnici de învățare automată pentru a prezice PPIs. În special, au folosit un algoritm de clasificare random forest pentru a prezice dacă o pereche de proteine interacționează sau nu. Acest algoritm de clasificare a fost antrenat pe un set de date de referință și a fost apoi testat pe seturi de date independente pentru a evalua performanța metodei.

Abordarea bazată pe rețele a constat în construirea unei rețele de interacțiuni proteice bazată pe date experimentale și predictii bazate pe secvență. Aceasta rețea a fost apoi caracterizată prin intermediul unor caracteristici de rețea, cum ar fi gradul nodului, centralitatea dintreagă și coeficientul de clusterizare. În plus, s-a utilizat o metodă de clustering a nodurilor pentru a identifica modulele de interacțiuni proteice și a evalua rolul lor în rețeaua globală.

Abordarea bazată pe secvențe a implicat utilizarea de informații de secvență, cum ar fi domeniile proteice și anotările funcționale, pentru a calcula caracteristici specifice secvențelor, cum ar fi similaritatea secvențelor și similaritatea domeniilor proteice. Aceste caracteristici au fost utilizate în combinație cu caracteristicile de rețea pentru a prezice PPIs.

În principiu, această lucrare își propune:

1. Propunerea unei abordări integrate pentru a prezice interacțiunile proteină-proteină (PPIs) din datele rețelelor și secvențelor proteice. Acest lucru implică combinarea informațiilor din rețelele de interacțiuni proteice cu informațiile de secvență, precum domeniile proteice și anotările funcționale, pentru a prezice PPIs.

2. Construirea unei rețele de interacțiuni proteice bazate pe date experimentale și predicții bazate pe secvență. Această rețea a fost caracterizată prin intermediul unor caracteristici de rețea, cum ar fi gradul nodului, centralitatea întreagă și coeficientul de clusterizare.

3. Utilizarea unei metode de clustering a nodurilor pentru a identifica modulele de interacțiuni proteice și a evalua rolul lor în rețeaua globală.

4. Utilizarea de informații de secvență, cum ar fi domeniile proteice și anotările funcționale, pentru a calcula caracteristici specifice secvențelor, cum ar fi similaritatea secvențelor și similaritatea domeniilor proteice.

5. Folosirea de tehnici de învățare automată, cum ar fi un algoritm de clasificare random forest, pentru a prezice PPIs. Acest algoritm de clasificare a fost antrenat pe un set de date de referință și a fost apoi testat pe seturi de date independente pentru a evalua performanța metodei

6. Evaluarea metodei propuse pe mai multe seturi de date și compararea cu alte metode de ultimă generație pentru predicția PPI. Rezultatele au arătat că abordarea propusă este mai precisă decât alte metode existente și are potențialul de a fi folosită în descoperirea de medicamente și înțelegerea mecanismelor subiacente ale sistemelor biologice.

Metodologia propusă a fost evaluată pe mai multe seturi de date și a fost comparată cu alte metode de ultimă generație pentru predicția PPI. Rezultatele au arătat că abordarea lor este mai precisă decât alte metode existente și are potențialul de a fi folosită în descoperirea de medicamente și înțelegerea mecanismelor subiacente ale sistemelor biologice.

În general, această lucrare propune o metodologie inovatoare pentru a prezice PPIs din datele rețelelor și secvențelor proteice și oferă o abordare integrată care combină informațiile din rețelele de interacțiuni proteice cu informațiile de secvență pentru a îmbunătăți performanța prezicerii. Această abordare are potențialul de a fi folosită în descoperirea de medicamente și înțelegerea mecanismelor subiacente ale sistemelor biologice.

Bibliografie:

https://arxiv.org/pdf/2107.03694.pdf

Articolul III: Machine Learning and Bioinformatics for Diagnosis Analysis of Obesity Spectrum Disorders, Amin Gasmi

Lucrarea "Machine Learning and Bioinformatics for Diagnosis Analysis of Obesity Spectrum Disorders" scrisă de Amin Gasmi discută utilizarea tehnicilor de învățare automată și bioinformatică pentru a diagnostica și analiza tulburările din spectrul obezității. Autorul notează că obezitatea este o tulburare complexă care este influențată de mulți factori, inclusiv de genetică, mediu și stil de viață. Ca atare, poate fi dificil de diagnosticat și de tratat cu precizie.

Învățarea automată și bioinformatica oferă noi instrumente pentru a ajuta la diagnosticarea și tratarea mai eficientă a obezității. Aceste tehnici permit cercetătorilor să analizeze seturi mari de date și să identifice modele și corelații care ar putea să nu fie imediat evidente cu ajutorul analizei statistice tradiționale. Prin utilizarea acestor instrumente, cercetătorii pot obține informații despre cauzele care stau la baza obezității, pot dezvolta criterii de diagnosticare mai precise și pot crea planuri de tratament personalizate pentru pacienți.

Documentul trece în revistă mai multe studii care au utilizat tehnici de învățare automată pentru a clasifica persoanele cu diferite niveluri de obezitate și pentru a prezice riscul acestora de a dezvolta tulburări conexe, cum ar fi diabetul și bolile cardiovasculare. De exemplu, un studiu a utilizat un algoritm de tip mașină de vectori de sprijin pentru a prezice riscul de diabet de tip 2 la pacienții obezi. Algoritmul a reușit să prezică cu precizie riscul de diabet în 70% din cazuri, demonstrând potențialul tehnicilor de învățare automată pentru a îmbunătăți diagnosticarea și tratamentul.

Autorul discută, de asemenea, despre potențialul integrării datelor genetice și epigenetice cu algoritmii de învățare automată pentru a îmbunătăți acuratețea diagnosticării obezității și a tratamentului personalizat. Prin analiza datelor genetice și epigenetice, cercetătorii pot identifica factorii genetici și de mediu care contribuie la obezitate și pot folosi aceste informații pentru a dezvolta planuri de tratament mai personalizate.

Lucrarea se încheie prin sublinierea necesității de a continua cercetările și colaborarea între experți din diferite domenii pentru a realiza pe deplin potențialul învățării automate și al bioinformaticii în lupta împotriva obezității. Autorul notează că aceste tehnici oferă noi oportunități interesante pentru a înțelege și a trata obezitatea mai eficient, dar că sunt necesare mai multe cercetări pentru a le explora pe deplin potențialul.

În general, lucrarea oferă o prezentare cuprinzătoare a stadiului actual al cercetării în domeniul învățării automate și al bioinformaticii pentru diagnosticarea și analiza obezității. Autorul evidențiază potențialul acestor tehnici de a îmbunătăți diagnosticul și tratamentul și subliniază necesitatea de a continua cercetările și colaborarea pentru a le valorifica pe deplin potențialul.

Bibliografie:

https://arxiv.org/abs/2208.03139

marți, 23 mai 2023

Exemple ale proceselor si domeniilor diversificate privind algoritmii de analiza ale semnalelor biologice

 

Implementarea și evaluarea preferințelor individuale în expresia facială a robotului pe baza estimării emoțiilor folosind semnale biologice 

 https://pubmed.ncbi.nlm.nih.gov/34577529/

 

Articolul “Implementarea și evaluarea preferințelor individuale în expresia facială a robotului pe baza estimării emoțiilor folosind semnale biologice” publicat pe PubMed în anul 2021 se referă la utilizarea semnalelor biologice pentru a estima emoțiile și a implementa preferințele individuale în expresia facială a unui robot. Autorii propun o metodă care utilizează electroencefalograma (EEG) și electrocardiograma (ECG) pentru a estima emoțiile și pentru a le asocia cu expresiile faciale corespunzătoare ale robotului. Apoi, aceste expresii faciale sunt personalizate în funcție de preferințele individuale, astfel încât robotul să poată interacționa cu utilizatorii într-un mod mai autentic și personalizat.

                      Fig1. Maparea valorilor EEG (axa y) și HRV (axa x) pe placere (axa verticală) și valență (axa orizontală) în modelul circumplex al afectului lui Russell pentru a estima emoția.

 

Expresia facială a robotului a fost determinată diferit în funcție de următoarele trei condiții:

·        Sincronizat — expresia robotului este aceeași cu emoția estimată;

·        Sincronizat invers — expresia robotului este opusă emoției estimate;

·        Expresie amuzantă — robotul afișează o expresie amuzantă, indiferent de emoția estimată.

Fig 2. Trei condiții pentru determinarea expresiei faciale a robotului

   Pentru a evalua performanța metodei, autorii au realizat un studiu cu 14 participanți care au interacționat cu un robot echipat cu tehnologia propusă. Rezultatele au arătat că metoda a fost eficientă în estimarea emoțiilor și în implementarea preferințelor individuale în expresia facială a robotului, conducând la interacțiuni mai autentice și mai personalizate.

 

Fig3. Expresiile robot folosite in experiment

 

   În concluzie, autorii arată că utilizarea semnalelor biologice poate fi o metodă eficientă pentru estimarea emoțiilor și implementarea preferințelor individuale în expresia facială a robotului. Această abordare poate îmbunătăți interacțiunea uman-robot prin crearea de experiențe mai autentice și personalizate.

 


A graph-based approach for the visualisation and analysis of bacterial pangenomes

      https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04898-2

 

Articolul publicat in octombrie 2022 intitulat „O abordare bazată pe grafice pentru vizualizarea și analiza pangenomurilor bacteriene” discută probabil o metodă sau tehnică pentru analizarea și vizualizarea pangenomurilor bacteriene folosind o abordare bazată pe grafice.

Un pangenom se referă la ansamblul complet de gene prezente într-un grup de organisme aparținând aceleiași specii. Pangenomurile bacteriene sunt deosebit de interesante deoarece pot varia semnificativ între diferite tulpini sau izolate ale aceleiași specii bacteriene. Analiza și înțelegerea pangenomului poate oferi informații despre diversitatea genetică și relațiile evolutive dintre diferitele tulpini bacteriene.

In acest articol au fost prezentate 2 cazuri de studiu:

Staphylococcus aureus si Legionella pneumophila.

Abordarea bazată pe grafice menționată în articol este probabil o metodă de calcul care reprezintă pangenomul ca un grafic, în care nodurile reprezintă gene sau elemente genetice, iar marginile reprezintă relații sau conexiuni între ele. Graficele sunt instrumente puternice pentru reprezentarea relațiilor complexe și pot fi folosite pentru a vizualiza și analiza date genomice la scară largă.

 

Folosind această abordare bazată pe grafice, cercetătorii pot descoperi tipare sau grupuri de gene care sunt unice pentru anumite tulpini sau grupuri de bacterii. De asemenea, ei pot fi capabili să identifice genele de bază care sunt prezente în toate tulpinile sau genele care sunt asociate cu funcții specifice sau trăsături fenotipice.

In cele din urma, studiul de caz prezentat în L. pneumophila demonstrează aplicarea acestor grafice de rețea în tandem pentru:

(1) identificarea diviziunilor într-o populație care reflectă variația conținutului de gene accesorii;

(2) să identifice genele specifice asociate cu acea diviziune și;

 (3) să stabilească contextul sintetic al acelor gene prin puterea de vizualizare.

Luate împreună, analiza a condus la identificarea unui element genetic mobil presupus asociat cu diviziunea geografică dintr-un număr limitat de clone patogene globale importante.

 

În general, acest articol prezintă o metodă nouă pentru vizualizarea și analiza pangenomurilor bacteriene folosind o abordare bazată pe grafice. Prin utilizarea acestei abordări, cercetătorii pot obține o înțelegere mai profundă a diversității genetice și a relațiilor evolutive din cadrul populațiilor bacteriene.

Instrumentele pentru pangenomuri Panaroo, PIRATE și PPanGGOLiN produc matrici de numărare a genelor care, așa cum este demonstrat aici, pot fi utilizate pentru a genera grafice în scopuri de analiză.


 


Identifying biomarkers for breast cancer by gene regulatory network rewiring

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8772043/#CR2

 

Rețeaua de reglare a genelor (GRN) este un model care caracterizează relația complexă dintre genele dintr-o celulă. Într-un GRN, nodurile reprezintă gene, iar marginile descriu relațiile de reglementare dintre ele. Dintr-o perspectivă fizică, interacțiunile dintre gene sunt prin produsele lor, cum ar fi proteinele și ARN-urile. Greutatea muchiei descrie direcția și puterea unei interacțiuni. Alternarea sau mutația unei gene poate afecta activitatea multor alte gene prin intermediul rețelei.

Cancerul este recunoscut ca o boală complexă cauzată de mutații genetice, care vor perturba interacțiunile normale dintre gene și vor duce la tulburarea modului de conectare sau a puterii. Cu alte cuvinte, mutațiile genelor provoacă perturbarea și recablarea GRN-urilor. Interacțiunile recablate generează schimbări în procesele biologice normale și acest lucru este crucial pentru cancerogeneză. Astfel, investigarea recablarii GRN este semnificativă în descoperirea potențialilor biomarkeri care indică anumite stări fenotipice.

 

În această lucrare, Este propus un cadru pentru identificarea potențialilor biomarkeri ai cancerului de sân pe baza reconectarii rețelei. Algoritmul CMI-PC (consistență condițională a căii bazate pe informații reciproce) este folosit pentru a șterge interacțiunile fals pozitive dintre gene sau perechi independente care nu sunt conectate strâns într-o anumită condiție din rețeaua de fundal integrativă. Comparând GRN-urile în cele două condiții fenotipice, se va extrage un GRN diferențial, numit D-GRN, care conține nodurile recablate cu reglementări diferențiale. În D-GRN, detectăm structurile comunității care sunt noduri conectate intens sub formă de module de subrețea. În cele din urmă, aplicăm regresia logistică cu eliminarea caracteristicilor recursive (LR-RFE) pentru a selecta biomarkeri în fiecare modul respectiv. Folosim validări încrucișate pentru a găsi individual numărul optim de biomarkeri. ASC maximă în acești biomarkeri bazați pe module atinge 0,985 în validarea internă. Biomarkerii selectați sunt, de asemenea, verificați în seturi de date externe independente și ating valoarea AUC maximă de 0,989 în clasificare.

 

După detectarea comunității, D-GRN a fost împărțit în 5 module (în secțiunea următoare). Pentru a ilustra recablarea rețelei în stare normală și de boală, Fig. 1a, b arată interacțiunile de reglare a genelor ale Modulului 4 în stare normală și, respectiv, în stare de boală. Figura 1c ilustrează această parte a D-GRN, incluzând 30 de noduri. Liniile negre, verzi și roșii reprezintă margini în comun, numai în rețeaua normală și, respectiv, numai în rețeaua bolii.


Figura de mai jos prezintă cadrul de identificare a biomarkerilor. Conține în principal trei pași. În primul rând, așa cum se arată în Fig. a, dobândește fundalul GRN prin cunoștințele noastre anterioare despre reglementările genelor la oameni. Este o rețea de reglementare nespecifică cu multe reglementări genetice redundante. Datele despre expresia genelor din probele normale și de boală sunt utilizate pentru a evalua interacțiunile gene-gene anterioare în fenotipuri specifice și pentru a elimina pe cele redundante din GRN de fundal. În al doilea rând, comparând GRN-urile normale și specifice bolii reconstruite din datele despre expresia genelor, putem identifica în mod clar secțiunile rețelei de recablare din cele două stări fenotipice. Un GRN diferenţial numit D-GRN poate fi extras prin compararea acestora. Algoritmul de detectare a comunității este apoi folosit pentru a găsi noduri strâns conectate sub formă de module, așa cum se arată în Fig. b. În al treilea rând, aplicăm o regresie logistică cu abordare de eliminare recursivă a caracteristicilor (LR-RFE) pentru a găsi gene biomarker așa cum se arată în Fig. c.


În concluzie, recablarea rețelei relevă diferențe semnificative între diferitele fenotipuri, ceea ce indică mecanisme disfuncționale ale cancerului. Odată cu dezvoltarea tehnologiei de secvențiere, cantitatea și calitatea datelor despre expresia genelor devin disponibile. Vor fi stabilite rețele de reglementare a genelor specifice condițiilor care sunt apropiate de reglementările reale din diferite state. Dezvăluirea recablarii rețelei va aduce mult beneficii descoperirii biomarkerilor sau semnăturilor pentru fenotipuri. D-GRN este o metodă generală pentru a satisface această cerere de descifrare a datelor de mare debit pentru descoperirea biomarkerilor. De asemenea, este ușor de extins pentru identificarea biomarkerilor altor boli complexe dincolo de cancerul de sân.




On deep-learning tools used in protein-peptide residues identification...and on how AI approaches permeate structural bioinformatics

  Using CNNs to predict peptide-protein binding interfaces: PepCNN deep learning tool for predicting peptide binding residues in...