в принципе возможно, но как конкретно не особо представляю. Тебе нужна прога которая делает "speech recognition". Но я знаю что они нацелены на говорящего в микрофон, а чтобы файл цепляли - не слышал. Но почитай это :
http://www.speechstudio.com/commercial/speech.htm#RECO