Однако качество распознавания машиной только звуковой информации оказалось недостаточным. И специалисты решили усовершенствовать систему за счет добавления к звуку видеоинформации в виде движущихся человеческих губ. Объединив аудиоэффект с видео, которое поступает в «мозг» компьютера посредством веб-камеры, ученые добились повышения качества распознавания речи на 20 процентов. Сейчас оно достигает 90%. Программу, которую создатели назвали RealSpeak, «научат» понимать сразу семь различных языков.
