6533b82afe1ef96bd128b1a9
RESEARCH PRODUCT
Runātāju segmentēšana skaņas ierakstā, izmantojot neironu tīklus
Dāvis Mednissubject
audio analīzeDatorzinātnerunātāju segmentēšanadziļā mašīnmācīšanāsneironu tīklidescription
Runātāju segmentēšana skaņas ierakstā ir audio analīzes problēma, kas paredz ierakstā dzirdamu cilvēka runas fragmentu identificēšanu un grupēšanu gadījumos, kad vairākus fragmentus izteicis viens un tas pats runātājs. Runātāju segmentēšana ir aktuāla problēma audio ierakstu transkripcijas procesā, kur nepieciešams atbildēt uz jautājumu “kas runāja kad?”. Darbā izpētīts mākslīgo neironu tīklu un dziļās mašīnmācīšanās metožu potenciāls un iespējas runātāju segmentēšanas problēmas risināšanā. Tiek apskatīti gatavi runātāju segmentēšanas risinājumi un to darbības pamatprincipi. Praktiskajā daļā tika izveidots uz neironu tīkliem bāzētas runātāju segmentēšanas sistēmas prototips un datu kopa sistēmas apmācībai. Tika salīdzināti apskatīto runātāju segmentēšanas sistēmu rezultāti reālas darbības scenārijā un salīdzināti ar izstrādātā prototipa sniegumu. No iegūtajiem rezultātiem tika secināts, ka spējīga runas segmentēšanas risinājuma izstrādāšanai nepieciešama kvalitatīva apmācības datu kopa. Tika secināts, ka šobrīd neeksistē kvalitatīvs un viegli lietojams uz neironu tīkliem bāzēts runātāju segmentēšanas risinājums, kas ir brīvi pieejams.
| year | journal | country | edition | language |
|---|---|---|---|---|
| 2018-01-01 |