網(wǎng)站制作NEWS
[工程菜譜]基于wenet搞csj數(shù)據(jù)集的日文asr(三)
經(jīng)過長時(shí)間的準(zhǔn)備,現(xiàn)在終于可以開始利用wenet處理csj日語語音識(shí)別數(shù)據(jù)集的深入實(shí)踐了。以下是本次內(nèi)容的概要:
本次文章將主要圍繞csj日語語音識(shí)別數(shù)據(jù)集的預(yù)處理工作進(jìn)行講解。在文章的第一部分,我們討論了如何通過nvidia支持多GPU的Docker環(huán)境運(yùn)行代碼。具體操作步驟包括從nvcr.io/nvidia/nemo:v1拉取Docker鏡像,設(shè)置必要的運(yùn)行參數(shù),如詞典大小、使用sentence piece進(jìn)行bpe處理等。
文章的第二部分詳細(xì)介紹了csj日語語音識(shí)別數(shù)據(jù)集的處理流程。首先,我們對(duì)包含500小時(shí)數(shù)據(jù)的csj語料進(jìn)行了基本文件夾布局的描述。接下來,我們開始實(shí)際操作,通過設(shè)置Docker運(yùn)行環(huán)境,為后續(xù)的數(shù)據(jù)處理工作做好準(zhǔn)備。在配置文件中,詞典大小被設(shè)置為4096,采用sentence piece進(jìn)行bpe編碼。
接下來,我們將詳細(xì)介紹csj數(shù)據(jù)的處理流程。這部分內(nèi)容包括了對(duì)xml文件的切割、wav文件的切割與轉(zhuǎn)換、文本和wav.scp文件的構(gòu)建、時(shí)長過濾、詞典構(gòu)造以及data.list文件的創(chuàng)建。對(duì)于xml文件的切割,我們編寫了一個(gè)名為wn.0.parse.py的腳本來進(jìn)行操作。wav文件的切割則通過csj_tools下的wn.1.split_wav.py實(shí)現(xiàn),將wav文件轉(zhuǎn)換為小文件,并對(duì)非雙聲道文件進(jìn)行雙聲道到單聲道的轉(zhuǎn)換。
在構(gòu)建文本和wav.scp文件時(shí),我們使用了csj_tools下的wn.2.prep.text.py腳本。這個(gè)腳本接收xml.simp、wav.split等輸入,并將數(shù)據(jù)分割為訓(xùn)練集、測試1、測試2和測試3。對(duì)于時(shí)長過濾,我們編寫了一個(gè)腳本,根據(jù)最小時(shí)長(如0.1秒)來篩選音頻文件。詞典的構(gòu)造是基于訓(xùn)練集文本信息完成的,最終得到的tokenizer模型包含了若干文件,用于進(jìn)一步的語音識(shí)別任務(wù)。
文章的最后部分介紹了如何通過run.sh腳本執(zhí)行模型訓(xùn)練任務(wù)。模型訓(xùn)練的代碼被集成在run.sh中,執(zhí)行后可以實(shí)時(shí)查看訓(xùn)練進(jìn)度。所有相關(guān)代碼與步驟都已詳細(xì)記錄,后續(xù)將根據(jù)實(shí)際情況進(jìn)行更新。
微信投票第三方平臺(tái)
合肥雅美居裝修公司怎么樣
北京八維空間移動(dòng)科技有限公司怎么樣
香港電臺(tái)的旗下業(yè)務(wù)
深圳萬太電器有限公司怎么樣
多重隨機(jī)標(biāo)簽