Vědci z Oxfordu říkají, že vynalezli systém využívající umělou inteligenci, který dokáže ze rtů odezírat lépe než lidé. Píše o tom na svých stránkách server stanice BBC v článku svého dopisovatele Rory Cellan-Jonese.

Systém byl „vyškolen“ na tisících hodinách zpráv BBC a vyvinut ve spolupráci s oddělením Googlu DeepMind AI.

Systému se dnes říká: „Dívej se, dávej pozor a vyslovuj.“ Umožňuje sledovat tichý projev a získat asi 50 procent správných slov. To možná nezní příliš působivě, ale když výzkumníci pouští stejné klipy profesionálním odezíračům-čtenářům rtů, dostanou jen 12 procent  správných slov.

Joon Son Chung, doktorand na Katedře Oxford University of Engineering, vysvětluje autorovi článku, jak náročný úkol to je. „Slova jako mat, netopýr a pat (v angličtině je netopýr bat) mají všechny podobné tvary úst.“ Pochopit správné slovo závisí na kontextu, u stroje je to stejné jako u lidského „čtenáře“.

„To, co systém dělá,“ vysvětluje Joon, „je, že se učí věci, které přicházejí spolu, v tomto případě tvary úst a znaky, které předcházejí a následují.“

BBC dodali výzkumníkům klipy běžící v době snídaně, večerní zprávy, interview a další zpravodajské pořady BBC, které mají s titulky v souladu s pohyby rtů mluvčích. Pak se kombinuje obraz a rozpoznávání řeči.

Po přezkoumání 118 000 vět v klipech má nyní systém ve svém slovníku 17 500 slov. Vzhledem k tomu, že byl vyškolen na jazyku zpráv, tak docela pozná, že po „prime“ a „ministr“ bude následovat „premiér“ a po „evropská“ slovo „Unie“, je ale mnohem méně zběhlý v rozpoznávání slov, která se ve zpravodajství neužívají.

Před zavedením systému je třeba udělat ještě mnohem více práce, ale charitativní organizace Action on Hearing Loss je posledním vývojem nadšená.

„Technologie schopná odezírání z úst by byla schopna zvýšit přesnost a rychlost převedení řeči do textu,“ říká Jesal Vishnuramová, manažerka technologického výzkumu organizace. „To by pomohlo lidem s titulky v televizi a poslechem v hlučném prostředí.“

Systém má svá omezení – může fungovat jen na celých větách nahraného obrazu. „Chceme, aby to fungovalo v reálném čase,“ říká Joon Son Chung. „Jak bude (umělá inteligence) sledovat televizi, bude se učit.“ Větší výzvou než fungování v reálném čase je ale pro systém jeho přesnost.

Vidíme už nejrůznější možnosti využití této technologie od pomoci lidem diktovat instrukce do jejich smartphonů až po kopírování starých němých filmů.

Výzkumníci z Oxfordu i charitativní organizace se shodují v tom, že se nejedná o případ, kdy se umělá inteligence chystá nahradit člověka.

Profesionální odezírači – čtenáři ze rtů se nemusí obávat o svou práci, ale mohou se těšit na dobu, kdy jim technologie pomůže, aby byli mnohem přesnější.

Zpracováno z materiálu BBC.