Analog auditory perception model for robust speech recognition

Author

Deng, Yunbin ; Chakrabartty, Shantanu ; Cauwenberghs, Gert

Author_Institution

Dept. of Electr. & Comput. Eng., Johns Hopkins Univ., Baltimore, MD, USA

Volume

3

fYear

2004

fDate

25-29 July 2004

Firstpage

1705

Abstract

An auditory perception model for noise-robust speech feature extraction is presented. The model assumes continuous-time filtering and rectification, amenable to real-time, low-power analog VLSI implementation. A 3 mm×3 mm CMOS chip in 0.5 μm CMOS technology implements the general form of the model with digitally programmable filter parameters. Experiments on the TI-DIGIT database demonstrate consistent robustness of the new features to noise of various statistics, yielding significant improvements in digit recognition accuracy over models identically trained using Mel-scale frequency cepstral coefficient (MFCC) features.

Keywords

CMOS analogue integrated circuits; VLSI; continuous time filters; digital filters; feature extraction; filtering theory; hearing; low-power electronics; programmable filters; speech recognition; statistics; 0.5 micron; CMOS chip; CMOS technology; Mel-scale frequency cepstral coefficient; TI-DIGIT database; analog auditory perception model; continuous time filtering; continuous time rectification; digit recognition accuracy; digital programmable filter parameters; low power analog VLSI implementation; noise-robust speech feature extraction; robust speech recognition; robustness; statistics; CMOS technology; Digital filters; Feature extraction; Filtering; Mel frequency cepstral coefficient; Noise robustness; Semiconductor device modeling; Spatial databases; Speech recognition; Very large scale integration;

fLanguage

English

Publisher

ieee

Conference_Titel

Neural Networks, 2004. Proceedings. 2004 IEEE International Joint Conference on

ISSN

1098-7576

Print_ISBN

0-7803-8359-1

Type

conf

DOI

10.1109/IJCNN.2004.1380859

Filename

1380859