6533b884fe1ef96bd12e063a

RESEARCH PRODUCT

Advancing nanomaterials design using novel machine learning methods

Joakim Linja

subject

description

Datan käsittely on mullistunut koneoppimismenetelmien yleistymisen myötä. Koneoppimiselle löydetään jatkuvasti uusia sovelluskohteita ja uusia sovellustapoja. Yksi näistä sovelluskohteista löytyy nanotieteen puolelta. Nanotiede on alati laajeneva tieteenala, jonka vaikutuksia löytää nykyään melkein jokaisesta elämän osa-alueesta, kuten lääketieteestä, materiaalisuunnittelusta ja kuluttajatuotteista. Nanotieteen kokeellinen tutkimus on kuitenkin kallista, mutta tätä voidaan lieventää laskennallisen tieteen keinoja hyödyntäen. Laskennallisen tieteen keinot nanotieteen saralla ovat kuitenkin itsessään raskaita ja aikaavieviä, johtuen tutkimuksen vaatimasta tarkkuustasosta. Laskennallisen tieteen resurssivaadetta voidaan keventää koneoppimisen keinoin. Tässä työssä ja mukaanotetuissa artikkeleissa keskitytään tarkastelemaan etäisyyspohjaisten koneoppimismenetelmien perhettä laskennallisen nanotieteen kontekstissa. Erityisesti yhden kerroksen suojaamien nanoklusterien (monolayer protected cluster, MPC) kontekstissa. Käytettyyn koneoppimismenetelmien perheeseen kuuluvat Minimal Learning Machine (MLM) ja Extreme Minimal Learning Machine (EMLM). MLM:n ja EMLM:n toimivuutta ja suorituskykyä tutkitaan sijaismalleina, sekä muuttujanvalinnassa että tietämyksen tuottamisessa. Tutkimuksessa käytettiin aineistoja, joihin kuuluu suorituskykymittaukseen käytetyt, generoidut sekä molekyylidynamiikkasimulaatioon perustuvat aineistot. MLM:ää tutkittiin käyttämällä sitä sijaismallina sekä tutkimalla sen toimintaa eri yhtälönratkaisijoiden avulla. EMLM:ää käytettiin muuttujanvalinnassa sekä tietämyksen tuottamisessa. Tutkimusta varten luotiin skaalausominaisuuksia luotaava, Au38(SCH3)24 MPC klusteriin perustuva joukko aineistoja sekä joukko synteettisiä aineistoja, joiden tarkoituksena on toimia suorituskykymittauksessa sekä menetelmänkehityksessä muuttujanvalinta-algoritmeille. Tutkimuksessa kehitettiin kaksi Mean Absolute Sensitivity (MAS)-pohjaista muuttujanvalinta-algoritmia: Distance-based one-shot wrapper sekä sen laajennos, Feature Importance Detector. Etäisyyspohjainen muuttujanvalinta-algoritmi kontekstualisoitiin muuhun lähdekirjallisuuteen laajan koosteartikkelien koosteen avulla. Tulokset osoittavat MLM:n ja EMLM:n soveltuvuuden laskennallisen nanotieteen vaatimuksiin. Avainsanat: Koneoppiminen, Etäisyyspohjainen regressio, nanotiede, MLM, EMLM, Hybridinanopartikkelit, Muuttujanvalinta, Tietämyksen muodostus The rise of machine learning (ML) has revolutionized the usage of data. Researchers continue to develop new ways to use ML and find new targets to apply ML on. One of these areas of application is found in nanoscience. Nanoscience is a constantly expanding field with applications in almost every part of life, such as medicine, materials design, and consumer products. The experimental research of nanoscience is expensive, augmented by computational research. Computational research is, however, also resource-intensive and time-consuming due to the complexity of the simulation models. Machine learning promises to alleviate that strain. This work and the articles presented focus on a family of distance-based machine learning algorithms, Minimal Learning Machine (MLM), and Extreme Minimal Learning Machine (EMLM), in the context of computational nanoscience. Specifically in the context of monolayer protected nanoclusters (MPC). The distance-based ML methods are studied as surrogates in feature selection and knowledge discovery. A set of benchmark, generated, and molecular dynamics-based datasets were used in the included articles. The performance of MLM was studied by using it as a surrogate, comparing it to other methods, and inspecting the effect of a solver on its function. EMLM was used as the ML model in feature selection and knowledge discovery. A set of scaling-focused benchmark datasets were developed based on the simulation data of Au38(SCH3)24 MPC and a set of synthetic benchmark & development datasets were created to test the performance of a feature selection algorithm. A Mean Absolute Sensitivity (MAS) utilizing distance-based feature selection algorithm, Distance-based one-shot wrapper, was developed and then extended to Feature Importance Detector. An umbrella review was made to contextualize the one-shot wrapper to feature selection literature. The results prove the viability of distance-based ML methods in the context of computational nanoscience. Keywords: Machine Learning, Distance–Based Regression, Nanoscience, MLM, EMLM, Hybrid Nanoparticles, Feature Selection, Knowledge discovery

http://urn.fi/URN:ISBN:978-951-39-9517-1