Kapcsolja be vagy ki az automatikus beszédfelismerést. Beszédfelismerés Windows Vista rendszerben Teendők A beszédfelismerés támogatott

A Windows 7 operációs rendszer számos opcióval rendelkezik, amelyek egyre több lehetőséget biztosítanak a rendszer felhasználóinak. Egy nagyon érdekes funkciót tudtak belevinni, amit „beszédfelismerésnek” hívnak. De mi ez a rendszer? Erről fog szólni a beszélgetés.

A szóban forgó opció lehetővé teszi az alkalmazások számára a teljes rendszeren, hogy a felhasználói interakció teljesen új módját használják a számítógéppel. Ez a Windows 7 beszédfelismerő rendszer, amely lehetővé teszi a számítógép vezérlését billentyűzet, egér vagy egyéb eszközök használata nélkül.

Szeretném megjegyezni, hogy ez az újítás más Microsoft-termékekben is elérhető lesz. Erre a funkcióra már kicsit korábban felfigyeltek, vagyis megpróbálták Windows Vista-ban implementálni, de a Microsoft operációs rendszerének hetedik verziójában a hangvezérlést az elődhöz képest magasabb szinten végzik. Leegyszerűsítve, egy olyan lehetőség, mint a beszédfelismerés a Windows 7 rendszerben, még funkcionálisabbá vált.

Az elmondottakon túlmenően szeretném megjegyezni, hogy meglehetősen széles körű alkalmazási körrel rendelkezik. A beszédfelismeréssel rendelkező Windows 7 felhasználói programokat futtathatnak, és minden hangrészletet szöveggé konvertálhatnak, mindenféle parancsot végrehajthatnak a számítógépen, csak a hangjuk és a szükséges eszközök használatával. De mi kell ahhoz, hogy a Windows 7 beszédfelismerés valósággá váljon?

Először is szüksége lesz egy mikrofonra, amelyet csatlakoztatnia kell a számítógéphez. Ezenkívül meg kell vásárolnia egy speciális alkalmazást vagy programot, amelyet maga a gyártó, azaz a Microsoft tesz közzé. Miután az összes szükséges összetevőt telepítette, és a mikrofont csatlakoztatta a számítógéphez, egy konkrét munkatervet kell végrehajtani:

Teszthangparancsokat kell futtatnia, és szöveggé kell konvertálnia.
Miután betanította a felismerő programot, sablonokat kell létrehoznia a különböző hangparancsokhoz. Ezen munka alapján a számítógép képes lesz elfogadni és végrehajtani az összes megadott parancsot.

A Windows 7 beszédfelismerő funkcióját a Microsoft szövegszerkesztője - WordPad - használja. Hibátlanul működik különböző űrlapok kitöltésekor, és jól teljesít az Internet Explorerben való munkavégzés során és akkor is

Ezen kívül ezzel az opcióval könnyen szerkeszthető a korábban rögzített szöveg speciális hangutasítások megadásával. Természetesen egy adott feladat felismerésének folyamatában tipikus hibák fordulnak elő (amikor egyes hangokat hibásan ismer fel). Ebben az esetben a program megadja bizonyos szavak megfelelésének listáját.

A funkció természetesen fenomenális, de még mindig van egy „de”. A helyzet az, hogy az orosz beszédfelismerés most elvileg elérhetetlen. A programnak kiváló angol, francia, német és japán nyelvű verziói vannak. Vannak változatai kínai, spanyol és olasz beszédhez is.

De ez az új termék nem teljesen igazodik az orosz beszédhez. Számítógépe nem fogja tudni érzékelni a hozzá rendelt feladatokat, ami azt jelenti, hogy könnyebben írhat valamit a billentyűzet használatával vagy bizonyos feladatokat hajthat végre az egér segítségével.

Természetesen megpróbálhat hasonló orosz nyelvű programokkal dolgozni, vagy előnyben részesítheti az angol nyelvet, de továbbra is reménykedhet, hogy hamarosan az orosz nyelvű beszédfelismerés is elérhető lesz kiváló minőségű módban. És ekkor a gyakorlatban is kipróbálhat egy ilyen egyedi funkciót. Végtére is, ez kétségtelenül egyértelműen leegyszerűsíti a személyi számítógépen végzett munkát, és hatalmas áttörést jelent a programozás területén. Tehát már csak várni kell.

próbálok létrehozni egy dinamikus beszédfelismerőt, de valamiért nem működik. Megpróbáltam használni az emulaterecognize funkciót, és az alkalmazás jól működik, de nem működik, amikor beszélek. ez azt jelenti, hogy a szólista helyesen lett hozzáadva, és a beszédfelismerő esemény megfelelően működik, de soha nem hívják meg emulaterecognize nélkül. minden segítséget nagyra értékelnénk. Lent található az im kód.

Rendszer használata; a System.Collections.Generic használatával; a System.ComponentModel használatával; a System.Data használatával; a System.Drawing használatával; a System.Linq; a System.Text használatával; a System.Threading.Tasks használatával; a System.Windows.Forms használatával; a System.Speech használatával; a System.Speech.Recognition használatával; névtér HotKeyApp ( nyilvános részleges osztály Form1: Form ( //beszédfelismerő inicializálása SpeechRecognitionEngine sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US")); //nyelvtani készítő inicializálása GrammarBuilder gb = new Grammar(Buil); A /choices az első oszlopban szereplő szavakat tartalmazza majd Choices zsargon = new Choices //words tartalmazni fogja a tömböt a választási karakterlánc szavak megadásához //A beszédfelismerő nyelvtan szabályok vagy megszorítások halmaza, amelyek meghatározzák a beszédfelismerés(); motor képes felismerni értelmes bemenetet private int oszlopok = 2 private Dictionary HotKeys = new Dictionary() ( InitializeComponent(); ) private void Form1_Load(object sender, EventArgs e) ( ) private void SpeechRecognized(objektum küldő, SpeechRecognizedEvent). MessageBox.Show("ping" //a ciklus végrehajtása a szavak tömbjén, ha a megfelelő metódus az (int i = 0; i)< words.Length; i++) { if (e.Result.Text == words[i]) { MessageBox.Show(words[i]); } } } private void btnCreate_Click(object sender, EventArgs e) { //get number of rows/words rows = Convert.ToInt32(txtNum.Text); //words length is equal to number of rows words = new string; GenerateTable(columns, rows); } private void GenerateTable(int columnCount, int rowCount) { //Clear out the existing row and column styles myGridView.Rows.Clear(); myGridView.Columns.Clear(); myGridView.Columns.Add("WordColumn", "Word"); myGridView.Columns.Add("HotKeyColumn", "HotKey"); //loop as many times as need to create the rows for (int y = 0; y < rowCount; y++) { myGridView.Rows.Add(); } } private void btnSubmit_Click(object sender, EventArgs e) { int i = 0; foreach (DataGridViewRow r in myGridView.Rows) { string Instructions = r.Cells.Value.ToString(); string Command = r.Cells.Value.ToString(); HotKeys.Add(Instructions, Command); words[i] = Instructions; i++; } //give jargon the words array jargon.Add(words); //give the grammer builder the jargon choices gb.Append(jargon); //build grammer, load grammer, enable voice recognition g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); sre.SpeechRecognized += new EventHandler(SpeechRecognized); //set sre to use default audio device sre.SetInputToDefaultAudioDevice(); sre.RecognizeAsync(RecognizeMode.Multiple); MessageBox.Show("Recognition enabled"); //Register a handler for the SpeechRecognized event. //sre.EmulateRecognize("Hello"); } } }

Megpróbáltam konzolalkalmazássá konvertálni és működni, de szükségem van rá egy Windows űrlapalkalmazásban. itt a konzol kódja:

Osztályprogram ( static SpeechRecognitionEngine sre; //words tartalmazni fogja a tömböt, amely statikus karakterláncszavakat ad; static void Main(string args) ( //inicializálja a beszédfelismerőt sre = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-US) ")); //inicialize grammer builder GrammarBuilder gb = new GrammarBuilder(); //choices az első oszlopban lévő szavakat fogja tartalmazni Choices zsargon = new Choices(); //A beszédfelismerő nyelvtan olyan szabályok vagy megszorítások halmaza, amelyek meghatározza, hogy a beszédfelismerő motor mit tud felismerni értelmes bemenetként. Console.WriteLine("Beviteli szavak vesszővel"; foreach (karakterlánc szavakban) ( Console.WriteLine(s); ) Console.ReadKey(); ); //grammer készítés, grammer betöltése, hangfelismerés engedélyezése g = new Grammar(gb); sre.RequestRecognizerUpdate(); sre.LoadGrammarAsync(g); //az sre beállítása az alapértelmezett audioeszköz használatára sre.SetInputToDefaultAudioDevice(); sre.SpeechRecognized += new EventHandler(SpeechRecognized); sre.RecognizeAsync(RecognizeMode.Multiple); Console.ReadLine(); ) static void SpeechRecognized(objektum küldő, SpeechRecognizedEventArgs e) ( Console.WriteLine("Felismert szó"); //a szótömbön keresztüli ciklus végrehajtása, ha a megfelelő metódus megfelel az (int i = 0; i< words.Length; i++) { if (e.Result.Text == words[i]) { Console.WriteLine(words[i]); } } } }

Barátaim, a minap megnéztük az egyik újítást, amelyet a Windows 10-be vezetett be a Fall Creators Update - . A Microsoft a jövőben az orosz nyelvű hangbevitel támogatását ígéri, de nem részletezi, hogy ez a jövő közeli vagy távoli-e a belátható jövőben. Talán ekkor lesz Cortana képes beszélni, és ami a legfontosabb, megérteni oroszul. Nincs értelme arra várni, hogy a Microsoft megtanítsa a Windows 10-et a miénk megértésére. Ha valami nincs magában a rendszerkörnyezetben, az szinte mindig megvalósítható harmadik féltől származó szoftverrel. Valójában ebben a cikkben fogunk beszélni róluk. Az alábbiakban megvizsgáljuk, hogyan használhatja a laptopba épített vagy PC-hez csatlakoztatott mikrofont a keresési lekérdezések hanggal történő bevitelére és a dokumentumok szövegének diktálására.

1. „Ok Alice” és a Google hangalapú keresés a keresési lekérdezésekhez

Nem világos, hogy a Google miért nem integrálta még ezt a technológiát a YouTube felületébe. De mindenesetre kereshet videókat magában a keresőben, kimondva a kulcskérdéseket. Csak át kell váltania a „Videó” fülre a keresési eredmények között. Nyilvánvaló okokból a keresési eredmények oroszlánrésze továbbra is a YouTube-tól származik.

Akinek már sikerült megismerkednie vele, annak nem kell a böngészőablakban felmennie a kereső weboldalára. A program telepítése után közvetlenül a Windows tálcáján jelenik meg a Yandex keresőmező, amely lehetővé teszi a lekérdezések hanggal történő bevitelét. Alice pedig képes lesz válaszolni a ritka egyszerű kérdésekre keresőmotor nélkül, anélkül, hogy túllépne a párbeszédpanelén.

2. Webszolgáltatás Web Speech API a Google-tól

A Web Speech API technológia, amelyen keresztül a lekérdezések hangbevitele valósul meg a Google keresőben, saját webes felülettel rendelkezik a következő címen:

https://www.google.com/intl/ja/chrome/demos/speech.html

A szolgáltatás funkcionalitása minimalista: van rajta egy gomb a mikrofon bekapcsolására és egy eredménymező, ahol ezután megjelenik a felismert szöveg.

Ebben az eredménymezőben azonban nem végezhet módosításokat. Ennek eredményeként az elismerési eredményeket úgy kapjuk, ahogy vannak. Ezeket pedig csak valamilyen szövegszerkesztőben vagy adatbeviteli formában tudjuk szerkeszteni. A „Másolás és beillesztés” eredménymező alatti gomb leállítja az aktuális beviteli munkamenetet, és automatikusan kiemeli az összes felismert szöveget. Ez a vágólapra másolás megkönnyítése érdekében történik.

A felismert szöveghez egy másik lehetőség is elérhető, amelyet az e-mail létrehozására szolgáló gomb hajt végre. Elindítja a Windows környezetben alapértelmezés szerint telepített levelezőklienst, létrehoz egy új levelet, és átviszi abba a felismert szöveget.

Figyelemre méltó, hogy a Web Speech API képes felismerni néhány írásjelet, legalább a pontot és a vesszőt. Tehát diktálás közben, ahol pontok és vesszők vannak beszúrva, egyszerűen kiejtheti őket.

Az eredménymezőn belüli szövegszerkesztési lehetőség hiánya miatt a Web Speech API használata nem túl kényelmes nagy mennyiségű szöveg beírásához. Hosszabb diktáláshoz érdemesebb a Google Docs szolgáltatás webes felületét használni, amelybe Web Speech API technológia van beépítve. A Google Dokumentumokban szöveget írhat be hanggal, azonnal szerkesztheti, és közben formázhatja a dokumentumot.

3. „Hangjegyzettömb” a Speechpad.Ru oldalon

Egy másik, a Web Speech API technológián alapuló webhely a RuNet legnépszerűbb és legfunkcionálisabb hangbeviteli szolgáltatása, a „Voice Notepad”. Fő funkciói közül:

Több nyelvet támogat, beleértve az oroszt és az ukránt;
Az eredményül kapott hangfelismerő mező szöveg szerkesztésére, más nyelvekre történő lefordítására és az eredmények TXT-fájlba való feltöltésére;
Felismert kifejezések kiadása a vágólapra;
Átírás;
Integráció a Chromium böngésző webes űrlapjaiba;
Integráció Windows és Linux környezetbe.

Ráadásul a „Voice Notepad”-ben a hangbeviteli opció csak a megfelelő gomb megnyomásával kapcsolható be és ki. Ez az opció önmagában nem deaktiválódik, amint egy ideig gondolkodunk egy gondolat pontos megfogalmazását keresve, ahogy az más Web Speech API-n alapuló szolgáltatásokban történik.

És nyomon követjük a felismert szöveget a kapott mezőben.

4. A Speechpad integrálása a böngésző webes űrlapjaiba

A bővítmény megvalósítása után a „Speechpad” elem megjelenik a webes szövegbeviteli űrlapok helyi menüjében. Megnyomjuk ezt a gombot, és a mikrofonba beszélünk. Így például jegyzeteket diktálhatunk a Google Keepben.

5. A Speechpad integrálása a Windows környezetbe

A Voice Notepad webszolgáltatás képességei integrálhatók a Windows környezetbe. És írja be a szöveget hanggal bármilyen operációs rendszer programban - szabványos jegyzettömbben, Microsoft Wordben és más szövegszerkesztőben. A felismert beszéd közvetlenül a szerkesztett dokumentumokba kerül beillesztésre webszolgáltatások vagy a vágólap közvetítése nélkül. A Speechpad.Ru ezen funkciója azonban nem ingyenes, és 100 rubelbe kerül. havonta. Megtakarítási lehetőségek állnak rendelkezésre: ha azonnal fizet a szolgáltatásokért a negyedévre, akkor a költség 250 rubel lesz, és az évre szóló előleg 800 rubel. Minden regisztrált felhasználó először tesztelheti az operációs rendszerébe integrált szolgáltatási funkcionalitást. A Speechpad.Ru készítői kétnapos ingyenes próbaidőszakot kínálnak. Magán a Speechpad.Ru webhelyen részletesen le van írva, hogy a Voice Notepad hogyan integrálódik közvetlenül az operációs rendszerekbe, különösen a Windowsba. Kattintson az integrációs lehetőség melletti kérdőjelre.

És végigmegyünk az utasításokban leírt összes lépésen:

Telepítse a fenti szolgáltatásbővítményt;
Töltse le az integrációs fájlok csomagját;
Csomagolja ki az archívumot, és futtassa az install_host.bat fájlt;
A Speechpad.Ru webhelyen belépünk a felhasználói fiókba;

Kattintson a „Tesztidőszak engedélyezése” gombra.

És így tovább minden alkalommal, amikor aktiválnia kell a hangbevitelt. Tulajdonképpen ennyi. Most megnyithatja a Microsoft Word, a LibreOffice Writer és más szövegszerkesztőket, és elkezdheti a diktálást. A felismert szöveg minden olyan aktív alkalmazás ablakában megjelenik, amely támogatja az adatbevitelt.

Fontos: a rendszerbe integrált Speechpad használatához nem zárhatja be a weblap fülét a böngészőablakban. Az utóbbi bezárása kikapcsolja a hangbevitelt.

5. Ingyenes alternatívák a hangbevitel Windows környezetbe való integrálására

Milyen ingyenes alternatívák lehetnek az orosz nyelvű hangbevitel integrálására a Windows környezetbe?

1.opció

A Speechpad.Ru webhelyen teljesen ingyenesen használhatja azt a lehetőséget, hogy felismert beszédet a vágólapra küldjön. Kattintson a „Rögzítés engedélyezése” gombra a webhelyen, és lépjen bármelyik Windows-alkalmazáshoz.

Most már kimondhatjuk az egyes kifejezéseket, és beilleszthetjük őket a pufferből a Ctrl+V billentyűkkel. Amint szünetet tartunk a beszédben, nyikorgást fogunk hallani a Speechpad felől, ami azt jelzi, hogy a kifejezés felismerve és a vágólapra másolva. Ennek a hangbeviteli módszernek megvannak az előnyei: az egyes kifejezések beillesztésekor egyszerre szerkesztheti a szöveget teljesen.

2. lehetőség

Az irodai programcsomag-alkalmazásokkal dolgozók számára a Microsoft felajánlhatja a hangbevitel bevezetését – a Dictate bővítményt, amely egy további menülapot és beszédfelismerő eszközt integrál a Wordbe, az Outlookba és a PowerPointba. A kiegészítő 20 nyelven képes felismerni a beszédet, beleértve az oroszt is, és lehetővé teszi a szöveg egyidejű lefordítását 60 nyelvre.

A szöveg hanggal történő bevitelének másik ingyenes módja a beszéd hangfájlba történő rögzítése további automatikus átírással (szöveggé történő átírás). Szinte mindenki azonnal ki tudja fejezni gondolatait strukturált irodalmi nyelven, és egyúttal kijavítja a felismerési hibákat, és írásjeleket fűz hozzá. Beszéd hangrögzítővel történő rögzítésekor teljes mértékben a bemutatott anyag lényegére koncentrálhat, az átírás során pedig minden figyelmét az anyag bemutatásának ékesszólására és műveltségére irányíthatja. De barátok, a hangfelvételek átírásának automatizálása egy másik, külön cikk témája.

Folytatás a cikkekben:

A Windows Vista az első olyan operációs rendszer a Microsofttól, amely beszédfelismerő funkciót is tartalmaz. Ezzel a funkcióval különféle feladatokat hajthat végre a hangjával, mint például programok elindítása, fájlok bezárása, mentése és törlése, szó szerint rögzítésre kerülő szöveg diktálása és szerkesztése. Deb Shinder informatikai tanácsadó végigvezeti a funkció használatán.

A Star Trek című film megjelenése óta sok számítógép-felhasználó álmodott arról, hogy kidobja a billentyűzetet és az egeret, és hangjával vezérelje számítógépét. Azokat a programokat, amelyek lehetővé tették a parancsok kimondását és a szövegek bediktálását a számítógépnek, sok éve készültek, és nagyon hasznosak voltak azok számára, akik fizikailag képtelenek voltak más beviteli módokat használni. De valamiért ezek a programok nem voltak népszerűek.

A Windows Vista a Microsoft első olyan operációs rendszere, amely képes felismerni a beszédet. Korábban a beszédfelismerő funkció a Microsoft Office XP-ben és az Office 2003-ban volt jelen, és más fejlesztők programjait is használhatta, mint például a Dragon NaturallySpeaking. A Microsoft beszédfelismerő funkciót is hozzáadott a Windows Mobile rendszerhez.

Ahhoz, hogy elkezdjen beszélni a számítógéppel, nem kell semmi extra vásárlást, a Vista már mindent tartalmaz. A funkció alapértelmezés szerint le van tiltva, de egyszerűen elindíthatja a Vezérlőpultról, ahogy az A ábrán látható.

Ezt a funkciót a menüből is elindíthatja a Minden program | Standard | Kisegítő lehetőségek (minden program | Tartozékok | Könnyű hozzáférés), a B. ábrán látható módon.

Hogyan működik

Két beszédfelismerési mód közül választhat:

Programok kezelése: Indítsa el és zárja be a programokat, váltson közöttük, mentse és törölje a fájlokat stb.
Szöveg diktálása, amelyet szó szerint le kell írni, valamint szerkeszteni.

A szoftverfejlesztők ezt a funkciót támogathatják programjaikban. Kár, hogy a beszédfelismerés jelenleg csak néhány nyelvet támogat: angolt (USA és Egyesült Királyság), németet, franciát, spanyolt, japánt és kínait (hagyományos és egyszerűsített).

Beszédfelismerés beállítása

A beszédfelismerés használata előtt a következő lépéseket kell végrehajtania:

Beszédfelismerés bekapcsolása.
Állítsa be a mikrofont.
Olvassa el a kézikönyvet (opcionális).
Gyakorold a világos beszédet (nem is szükséges).

Miután a Vezérlőpulton a Beszédfelismerés elemre duplán kattintott, vagy a menüből kiválasztja a Beszédfelismerést, megjelenik egy beállítási ablak, amely a C ábrán látható.

Ha a Start Speech Recognition (Beszédfelismerés indítása) gombra kattint, a képernyő tetején megjelenik egy hangvezérlő panel a D ábrán látható módon.

Ha már konfigurálta ezt a funkciót, akkor a socket regisztrálásra kerül az automatikus indításban, és minden Windows rendszerindításkor elindul. Egy kék hangvezérlési ikon is megjelenik a tálcán.
A beállítások helyi menüjét a jobb gombbal a tálcaikonra vagy a hangvezérlő panelen való kattintással hívhatja elő, az E ábrán látható módon.

A menüben a következő beállításokat láthatja:

Beszéd bekapcsolása: A számítógép mindent meghallgat, amit mond, és követi az általa felismert parancsokat.
Alvó mód: A számítógép figyeli a beszédet, de nem válaszol semmilyen parancsra, amíg ki nem mondja: „Start listening”.
Ki: A számítógép nem hallgat rád, akármit mondasz is neki.
Nyitott beszédfelismerő csalólap (Open Speech Reference Card): Egy praktikus csalólap alapvető parancsokkal és további információkkal.
Beszéd oktatóanyag indítása: Egy oktatóvideó, ahol mindent elmondanak és megmutatnak.
Segítség: Megnyitja a súgót, egy súgófájlt erről a funkcióról.
Lehetőségek: Itt lehet beállítani, hogy a program betöltse a Windows rendszert, automatikusan javítsa a szöveget stb.
Konfiguráció: Itt állíthatja be a mikrofont, javíthatja a beszédfelismerést, és megnyithatja a vezérlőpultot.
Nyissa meg a Beszédszótárat: Hozzáadhat új szavakat (nagyon hasznos nevek és nehezen felismerhető szavak esetén), és kizárhatja azokat a szavakat is, amelyeket soha nem mond ki.
Diktálás téma: Itt csak a Narratívát választhatja ki.
Látogassa meg a Go To The Speech Recognition webhelyet.
Információk a beszédfelismerésről: Ez a jól ismert Windows párbeszédpanel, amelybe be van írva a program verziója, licencszáma és neve.
Nyílt beszédfelismerés (Open Speech Recognition).
Kijárat: Teljesen bezárja a programot.