Ny modell för att minska AI-bias inom biovetenskap och biomedicin

Författare: Randy Alexander

Skapelsedatum: 24 April 2021

Uppdatera Datum: 14 Maj 2024

Ny modell för att minska AI-bias inom biovetenskap och biomedicin - Psykoterapi

Inom områden som bioteknik, medicin, läkemedel, hälsovård och biovetenskap är behovet av att säkerställa människors hälsa och säkerhet högsta prioritet när man använder artificiell intelligens (AI) maskininlärning. Forskare vid Broad Institute of MIT och Harvard och deras medarbetare skapade ett ramverk för granskning och debi på AI-maskininlärning inom biovetenskap och publicerade sin senaste studie i Kommunikationsbiologi .

"Bias i data som används för att träna maskininlärningsmodeller (ML) kan blåsa upp deras förutsägelsesprestanda och förvirra vår förståelse för hur och vad de lär sig", skrev Broad Institute of MIT och Harvard-forskarna Fatma-Elzahraa Eid, Haitham Elmarakeby, Yujia Alina Chan, Nadine Fornelos, Eliezer Van Allen och Kasper Lage tillsammans med Mahmoud ElHefnawi vid National Research Center i Giza, Egypten och Lenwood Heath vid Virginia Polytechnic Institute och State University. "Även om fördomar är vanliga i biologiska data, är systematisk granskning av ML-modeller för att identifiera och eliminera dessa fördomar inte vanligt när man tillämpar ML inom biovetenskap."

Forskargruppen utvecklade först ett ramverk för debiasing för protein-protein-interaktion (PPI), och applicerade det sedan på läkemedelsbioaktivitet och bindning av MHC-peptider. Förutsägelse av protein-protein-interaktioner är avgörande för organismernas cellulära funktioner och viktigt att förstå för bioteknik och de novo läkemedelsupptäckt. I medicinen avser läkemedelsbioaktivitet den påverkan läkemedlet har på en levande vävnad eller organism. Major histocompatibility complex (MHC) är en grupp av gener som finns i ryggradsdjur som kodar för proteiner på ytorna på celler som gör det möjligt för immunsystemet att identifiera främmande ämnen.

”För att illustrera den breda användbarheten av vårt revisionsramverk i allmänhet och de utvecklade revisorernas tillämplighet på andra parade ingångsapplikationer, anpassade vi revisionsramen till ytterligare två tillämpningar av viktigt terapeutiskt intresse: förutsägelser av läkemedelsmåls bioaktivitet och MHC-peptid bindande, ”skrev forskarna.

Inlärningsramverket för granskningsmaskiner har fyra moduler: benchmarking, biasfråga, biasidentifiering och bias eliminering.

För den första modulen etablerade forskarna baslinjeprestanda genom att klassificera klassificeringar på separata datamängder. Av de sju klassificerarna använde fem supportmaskiner (SVM) med olika kärnor, en använde slumpmässig skog och en använde en djupinlärningsbaserad staplad autokodare. En kombination av MATLAB med LibSVM-biblioteket användes för stödvektormaskindelare. Tre databaser med humana proteiner användes. Klassificerarna utbildades i delmängder av en specifik dataset, såsom proteinpar. Forskarna rapporterade att den "bästa benchmarkingprestandan i alla klassificeringsapparater var hög" mätt med medelområdet under kurvan (AUC).

"Robusta biologiska ML-modeller bör generalisera till oberoende datamängder", skrev forskarna.

I artificiell intelligens maskininlärning hänvisar generalisering till algoritmens förmåga att tillämpa det den lärde sig med hög noggrannhet under träning på nya data som den inte har sett tidigare. Robusthet i denna mening avser maskininlärningsalgoritmens förmåga att utföra väl givna nya ingångsdata.

För att uppnå detta skapade teamet en generaliserbarhetsrevisor som den andra modulen. Den här modulen jämför en modells ursprungliga prestanda med den för en oberoende dataset som kallas generaliseringsdataset, i försök att upptäcka områden med förspänning.

De detekterade biaserna tillsammans med biashypoteser matas in till den tredje modulen som granskar bias för identifiering. Den här modulen avvisar eller bekräftar de formulerade biashypoteserna.

Den sista modulen är för att eliminera bias. Det testar förspänningen som identifierades i föregående steg genom att bedöma hur klassificeringsorganen generaliserar efter separata datamängder.

"När det finns otillräcklig signal i träningsdatarepresentationen kan ML-modeller främst lära av representativa fördomar i träningsdata", upptäckte forskarna. "Detta verkar främst påverka ML-applikationer med paringångar och kan vara vilseledande om de inte belyses genom granskning."

Forskarna rekommenderar maskininlärningsforskare som använder AI för biologiska ändamål för att utveckla en ”samhällsomfattande hållning till systematisk granskning av ML-modeller för förspänningar”, och har tillhandahållit kod, resurser och metoder på GitHub-förvaret. Med detta proof-of-concept har forskare tillhandahållit ett sätt att utföra maskininlärning för att förutsäga biologiska förhållanden med minskad bias för större noggrannhet och bättre resultat.

Ensamhetseffekten och 7 åtgärder för att övervinna den

Förståelse och njuta av våldtäktsfantasi

Rekommenderad

9 saker att veta om effekterna av knapphet

3 Faror med Shaming

Att leva i en tid av paus och tassar

Håll det enkelt: "Det är fantastiskt att se dig!"

Nästa steg

Kvinnor som sover med andra män medan deras män tittar på

Intressant Idag

Rekommenderad