Je možné sestavit modely strojového učení bez odborných znalostí strojového učení?
Jim Collins, Termeer profesor lékařského inženýrství a vědy na katedře biologického inženýrství na MIT a vedoucí fakulty biologických věd na Klinice Abdul Latif Jameel pro strojové učení ve zdraví (Jameel Clinic), se spolu s řadou kolegů rozhodli řešit tento problém, když čelíte podobnému rébusu. Dokument s otevřeným přístupem o jejich navrhovaném řešení, nazvaný BioAutoMATED, byl zveřejněno 21. června v Buněčné systémy.
Nábor výzkumníků zaměřených na strojové učení může být pro vědecké a technické laboratoře časově náročný a finančně nákladný proces. I s odborníkem na strojové učení může výběr vhodného modelu, formátování datové sady pro model a následné jemné doladění dramaticky změnit výkon modelu a vyžaduje spoustu práce.
"Kolik času ve svém projektu strojového učení obvykle strávíte přípravou a transformací dat?" ptá se Google 2022 chod o základech strojového učení (ML). Nabízené dvě možnosti jsou buď „Méně než polovina času projektu“ nebo „Více než polovina času projektu“. Pokud byste hádali to druhé, měli byste pravdu; Google uvádí, že formátování dat zabere více než 80 procent projektového času, a to ani nezohledňuje čas potřebný k zarámování problému v podmínkách strojového učení.
„Zjistit vhodný model pro naši datovou sadu by zabralo mnoho týdnů úsilí a pro mnoho lidí, kteří chtějí používat strojové učení nebo biologii, je to skutečně zakazující krok,“ říká Jacqueline Valeri, studentka pátého ročníku doktorského studia. biologického inženýrství v Collinsově laboratoři, který je prvním spoluautorem článku.
BioAutoMATED je automatizovaný systém strojového učení, který dokáže vybrat a sestavit vhodný model pro danou datovou sadu a dokonce se postarat o pracný úkol předzpracování dat, čímž zkrátí měsíce trvající proces na pouhých několik hodin. Systémy automatického strojového učení (AutoML) jsou stále v relativně rodícím se stádiu vývoje, se současným využitím primárně zaměřeným na rozpoznávání obrázků a textu, ale z velké části se nepoužívají v podoborech biologie, zdůrazňuje první spoluautor a postdoktor Jameel Clinic Luis Soenksen PhD. '20.
„Základní jazyk biologie je založen na sekvencích,“ vysvětluje Soenksen, který získal doktorát na katedře strojního inženýrství MIT. „Biologické sekvence jako DNA, RNA, proteiny a glykany mají úžasnou informační vlastnost, že jsou vnitřně standardizované jako abeceda. Mnoho nástrojů AutoML je vyvinuto pro text, takže mělo smysl je rozšířit na [biologické] sekvence.“
Většina nástrojů AutoML navíc dokáže prozkoumat a vytvořit pouze redukované typy modelů. "Ale od začátku projektu nemůžete skutečně vědět, který model bude pro vaši datovou sadu nejlepší," říká Valeri. „Začleněním více nástrojů pod jeden zastřešující nástroj skutečně umožňujeme mnohem větší prostor pro vyhledávání, než jaký by mohl dosáhnout jakýkoli samostatný nástroj AutoML.“
Repertoár dohlížených modelů ML společnosti BioAutoMATED zahrnuje tři typy: binární klasifikační modely (rozdělující data do dvou tříd), vícetřídní klasifikační modely (rozdělující data do více tříd) a regresní modely (přizpůsobení spojitých číselných hodnot nebo měření síly klíčových vztahů mezi proměnné). BioAutoMATED je dokonce schopen pomoci určit, kolik dat je potřeba pro správné trénování zvoleného modelu.
„Náš nástroj zkoumá modely, které jsou vhodnější pro menší, řidší biologické datové soubory a také pro složitější neuronové sítě,“ říká Valeri. To je výhoda pro výzkumné skupiny s novými daty, které mohou nebo nemusí být vhodné pro problém strojového učení.
„Provádění nových a úspěšných experimentů na křižovatce biologie a strojového učení může stát spoustu peněz,“ vysvětluje Soenksen. „V současné době musí laboratoře zaměřené na biologii investovat do značné digitální infrastruktury a lidských zdrojů vyškolených v oblasti AI-ML, než vůbec uvidí, zda jsou jejich nápady připraveny prosadit se. Chceme snížit tyto bariéry pro oborové odborníky v biologii.“ S BioAutoMATED mají výzkumníci svobodu provádět počáteční experimenty, aby mohli posoudit, zda se vyplatí najmout odborníka na strojové učení, aby vytvořil jiný model pro další experimentování.
Otevřený zdroj kód je veřejně dostupný a výzkumníci zdůrazňují, že jej lze snadno provozovat. „Rádi bychom viděli, kdyby lidé vzali náš kód, vylepšili ho a spolupracovali s většími komunitami, aby se z něj stal nástroj pro všechny,“ říká Soenksen. "Chceme připravit komunitu biologického výzkumu a vytvořit povědomí o technikách AutoML jako o vážně užitečné cestě, která by mohla sloučit přísnou biologickou praxi s rychle se rozvíjející praxí AI-ML lépe, než jaká je dosahována dnes."
Collins, hlavní autor článku, je také spojen s MIT Institute for Medical Engineering and Science, Harvard-MIT Program in Health Sciences and Technology, Broad Institute of MIT a Harvard a Wyss Institute. Mezi další přispěvatele MIT patří Katherine M. Collins '21; Nicolaas M. Angenent-Mari PhD '21; Felix Wong, bývalý postdoktorand na katedře biologického inženýrství, IMES a Broad Institute; a Timothy K. Lu, profesor biologického inženýrství a elektrotechniky a informatiky.
Tato práce byla částečně podpořena grantem Agentury pro snižování hrozeb obrany, programem SD2 Agentury pro obranné výzkumné projekty, Paul G. Allen Frontiers Group, Wyss Institute for Biologically Inspired Engineering Harvard University; stipendium MIT-Takeda, stipendium Siebel Foundation, grant CONACyT, stipendium MIT-TATA Center, stipendium Johnson & Johnson pro vysokoškolské výzkumné stipendium, stipendium Barryho Goldwatera, stipendium Marshall, Cambridge Trust a National Institute of Allergy and Infectious Nemoci Státního zdravotního ústavu. Tato práce je součástí projektu Antibiotics-AI Project, který podporuje Audacious Project, Flu Lab, LLC, Sea Grape Foundation, Rosamund Zander a Hansjorg Wyss pro Wyss Foundation a anonymní dárce.
zanechte odpověď