Linux Voice Recognition aitortzea

Sarrera

Denbora asko pasatzen dut artikuluetan ikertzen eta sarritan artikulu bateko gaiari buruz pentsatzen dut, tren geltokira oinez edo noiz oro har.

Gaueko arratsaldean 1.5 kilometro egiten nuen gelatik nire lanetik abiatuta, "ez nuke gustatuko litzaidake zer esan nahi nuen grabatu eta gero automatikoki transkribatu dut testu fitxategi bat editatu eta gero" .

Asko luzeak eman ditut ahots bidezko aintzatespen eta diktaketarako eskuragarri dauden aukera desberdinetan, zuzenean zuzenean grabatzeko mikrofono baten bidez, dictation software Linux-ekin, fitxategiak MP3 edo WAV formatura grabatzea eta komando-lerroaren bidez bihurtzea eta baita Chrome erabiliz eta Android aplikazioak.

Artikulu honetan nire aurkikuntzak nabarmentzen lan gogorra egun ondoren.

Linux Aukerak

Linux-eko diktaketa eta ahots ezagutzako softwarea aurkitzeko nahia ez da erraza eta aukera erabilgarriak ez dira hain azkarra.

Wikipediako orri honek aukera potentzialen zerrenda bat du, CMU Sphinx, Julius eta Simon barne.

Debian Testing-en oinarritutako SparkyLinux erabiltzen ari naiz eta esan dezaket biltegietan eskuragarri dagoen ahots-hautemate bakarra Sphinx dela.

Nabarmentzen diren Linux programak PocketSphinx-ekin probatu nituen, WAV fitxategiak testua eta Freespeech-VR bihurtzeko erabiltzen nuen, zeinak mikrofono batetik zuzenean grabatzen duen python aplikazioa den.

Halaber, Chrome aplikazio pare batzuk saiatu nituen, hala nola, VoiceNote II eta Dictanote.

Azkenean "Dictation and Email" eta "Talk And Talk Dictation" Android aplikazioak probatu nituen.

Freespeech-VR

Freespeech-VR ez dago biltegi estandarrean erabilgarri. Hemen artxiboak deskargatu ditut.

Fitxategi ziparen edukia deskargatu eta atera ondoren, terminal bat ireki nuen eta fitxategiak ateratako karpetara nabigatu.

Idatzi komando hau freespeech-vr irekitzeko.

sudo python freespeech-vr

Entzungailu pare bat daukat, mikrofono nahiko duina eta hegoaldeko ingeles azentu nahiko argi bat.

Hurrengo testua freespeech-vr leihoan agertu da:

Ongi etorri unitateko emaitza txakurrak. Gaur egun, nola egin behar diren frogak kudeatu behar direnean Testua erabiltzea Testua nola erabiltzen den jakitea. Diskurtsoa. ​​I bat bakarra zen bakarra. Ea nire izenaren hurrengo deiak telefonoz deitzen du Fitxategia Laster hutsuneak telefonoaren eskuetara Esku-espazioa esfinge Going Hori ez da telefonoak partekatuko dira Trebatu eta erabilitako tresnak Erabili hitz egin Amaitu duzunean Esan A used file Azkenekoak istorioa A Eta nola erabiltzen da Oso arrakastatsua Linux hau zen Do you avoid is

Orain esan nahi dut ez dela Dogs-eko Unitatearen webgunea, eta ez dut ezer aipatu urrezko oilaskoekin. Ahots hautematearen softwarea erabiltzeko prozesua deskribatzen saiatzen ari nintzen.

Softwarea pixka bat abiadura eta abiadura barne saiatu nintzen baina zehaztasuna pobrea izan da.

PocketSphinx

PocketSphinx-ek WAV fitxategi bat hartu eta testuarekin lerroko lerroa erabiltzea ahalbidetzen du.

PocketSphinx Debianeko biltegien bidez eskuragarri dago eta banaketa gehienetarako eskuragarri egon beharko luke.

PocketSphinx-ekin aurkitu dudan arazo nagusia ia aitortzako, hizkuntzen fitxategiak, hiztegiak eta sistema nola prestatu diren kontzeptuetan maila bat behar duzu.

PocketSphinx instalatu ondoren CMU Sphinx webgunera joan beharko zenuke eta ahalik eta informazio gehiena irakurri. Ereduaren fitxategi hau deskargatu behar duzu.

(Jatorrizko ingelesez hitz egiten ez baduzu, aukeratu zure hizkuntza egokia den hizkuntza).

PocketSphinx-en eta Sphinx-en dokumentazioa, oro har, zailak dira pertsona arruntentzat ulertzeko, baina hiztegi-fitxategiak sortu ahal izan ditudanean, hitz posibleen zerrenda eta hizkuntza-ereduak aukera ditzakete.

PocketSphinx probatzeko Ahots propioaren grabaketa bat erabili nuen, Al Pacino-ren "Alde Devils" defendatzailearentzako eta "Morgan Freeman" -ra egindako laburpen bat. Aurrerantzean, ahots ezberdinak probatu eta niretzat Morgan Freeman bezalako istorio bat kontatzen duen inork ez du inork, eta inork ez du Al Pacino bezalako lerro bat ematen.

PocketSphinx lan egiteko WAV fitxategi bat behar du eta formatu jakin bat izan behar du. Fitxategia MP3 formatuan bada, erabili ffmpeg komandoa WAV formatura bihurtzeko:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx exekutatzeko komando hau erabili:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous-ek WAV fitxategi bat hartzen du eta testu bihurtzen du.

Pocketsphinx-en gaineko komandoan "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" izeneko hiztegi fitxategi bat erabiltzen da "cmusphinx-5.0-en-us.lm" hizkuntzan. Testua bihurtzen ari den fitxategia ahotsa.wav izenekoa da (grabatu egin dut nire ahotsarekin). Azkenik, 2> izeneko irteera guztiak hornitu behar dituzu nahitaez "voice2.log" izeneko fitxategi batean sartu beharrik. Proba benetako emaitzak terminalaren leihoan bistaratzen dira.

Nire ahotsak erabiliz emaitzak hauek dira:

Ongietorria hurrengoari buruz ongi etortzen ez den aste honetan gaiari buruzko iritzia emateko softwarea

Emaitzak ez dira freespeech-vr bezain beldurgarriak baina oraindik erabilgarriak ez direnak. PocketSphinx-ek Al Pacino erabiliz saiatu nintzen baina honek ez zuen emaitzarik eman.

Azkenean, Morgan Freeman-en ahotsa erabiliz "Bruce Almighty" filma erabiliz saiatu naiz eta hona hemen emaitzak:

000000000: haren gainean egingo dugu
000000001: gogorragoak dira egun orotan, hau da, hau da, gehien izan dugu bizirik beroaren parte naiz.
000000002: beisbolaren zati bat giltzapean dagoeneko igogailuan edo zer egin behar den bizitzan
000000003: zein izango diren berreskuratuko direnak
000000004: ez zuten idatzi
000000005: nirekin ondo atera dira
000000006: arauak izan behar dituzu
000000007: Espero zaitut
000000008: hemen ikasi zuen kristalezko festa bat izan zen
000000009: idazteko modu bat bihurtzen da. ipurdian pentsatu nuen beti beti higadura
000000010: Arazoa elkartu bezain pronto ez zait eman horrelakorik estimatzen, ez nituen munduan nagoen guztia pentsatu eta ikusi ditut.
000000011: nor daukan aita
000000012: horri buruz asko
000000013: ematen du
000000014: asko ez erortzen zaren guztia
000000015: eskuinera udazkenean
000000016: ongi eutsi niri
000000017: zoriontsu bat ere badut uste dut ez dutela ezkonduko denak izan ez zirela, ez zitzaigun gustatuko

Nire proba nekez zientifiko bihurtu daiteke eta PocketSphinx-eko garatzaileak softwareak behar bezala erabiltzen ez ditudala esan dezake. Hiztegi hobeak eta hizkuntza fitxategiak sortzeko erabil daitezkeen ahots bidezko prestakuntza ere bada.

Nire lehen iritzia, ordea, eguneroko erabilera estandarretik oso zaila da.

VoiceNote II

VoiceNote II Google Voice Recognition API erabiltzen duen Chrome aplikazioa da.

Chrome edo Chromium arakatzaileak erabiltzen ari bazara, VoiceNote II instalatu dezakezu Web Store bidez.

VoiceNote II ikonoak modu bitxian ezartzen dira leihoko beheko hizkuntza konfiguratu behar duzu eta editatzeko botoia behealdean ere badago, baina erregistroaren botoia goiko eskuineko posizioan dago.

Egin behar duzun lehenengo gauza hizkuntza hautatzeko eta hau munduko ikonoan klik eginez lor daiteke.

Grabaketa hasteko, egin klik mikrofonoko ikonoan eta hasi mikrofonoa hitz egiten. Emaitza hobeak lortzeko, poliki-poliki hitz egin nuen, softwarea mantendu ahal izateko.

Emaitzak ez ziren ikusten bezain handia.

Kaixo eta ongi etorri konektatzeko. Testu-bihurketarako ahots bidezko bertsioen inguruko artikuluak, dunelm farrell atzeraldiaren 2008ko bihurketa gisa, ongi onartua izan zen ahots bidezko testu-gehigarria aurkitu nuen 2014debian edo rpm paketea erakusteko. Ahots motako hizkera testu irekiari irekitzeko aukera ireki nahi baduzu vs edinburgh frantsesez aukeratua, denbora errealean Erresuma Batuko itsasoko mikrofonoa lortu duzu zure testua textu gisa idazten duzunean, bere ingelesa oso ingelesezko ingelesezko estandar oso estandarra delako, baina testera joango naiz torrentalong hau dokumentuarekin eta ikusi dituzun akatsak ikus ditzakezu

Dictanote

Dictanote beste Chrome aplikazio bat da, diktaketa-helburuetarako erabili daitekeena eta intuitiboa izateaz gain, VoiceNote II baino hobea ez zen emaitza.

Dictanote-ren bertsio demoaren bertsioa soilik erabili dut, dokumentu berriak sortzeari uzteko, baina dagoeneko editorean dagoen testuarekin hitz egiteko aukera ematen du. Ahots-hautematea probatu ahal izan nuen baina emaitzak ez ziren VoiceNote II baino hobeak, eta, beraz, ez nuen pro bertsioan erregistratu.

Dictation And Mail

"Dictation And Mail" jatorrizko Google ahotsa ezagutzeko APIa erabiltzen duen Android aplikazioa da.

"Dictation and Mail" -en emaitzak askoz ere hobeak izan dira puntu honetara iritsi den beste programa bat baino.

Kaixo ongietorria Linux-i buruz. Gaur egun, soinuak testura bihurtzen ari gara

"Dictation and Mail" trikimailua poliki-poliki hitz egitea da eta baita azentu ere egin dezakezu.

Emaitzak postaz bidaliz zuk zeuk hitz egiten amaitutakoan.

Eztabaida eta eztabaida Dictation

Beste probatu nuen Android aplikazioa "Talk and Talk Dictation" izan zen.

Aplikazio honen interfazea sorta onena izan zen eta ahots bidezko aitorpena oso ondo egin zuen. Dictation grabatu ondoren, bideoklip bidez hainbat modu partekatu ahal izan ditut.

ongietorri linux about.com gaur egun hitz egiten ari gara testuari buruz hitz egiten ari gara

Goiko testuan ikus daitekeen bezala, lor dezakezun argia bezain argi dago. Poliki hitz egitea gakoa da.

Laburpen

Linux nazionalak Ahots bidezko aitorpenari eta zehazki diktaketari dagokionez modu bat du. Google Voice APIa erabiltzen duten aplikazio batzuk daude baina ez daude oraindik biltegietan zerrendatuta.

ChromeOS aplikazioak pixka bat hobeak dira baina urrun, nire Android telefonoak erabiliz emaitza onenak lortu dira. Beharbada telefonoak hobe du mikrofonoa eta, ondorioz, ahots bidezko aintzatespen-software bihurtze aukera hobea dago.

Ahots hautematea benetan erabilgarri bihurtzeko, beharrezkoa da konfigurazio gutxiago erabiltzea intuitiboagoa izan dadin. Ez zenuke nahastu behar hizkuntza-ereduen eta hiztegiak dituzten hizkuntzak ulertzeko.

Hala eta guztiz ere, eskertzen dut ahotsa aitortzeko artea oso erronka dela, guztiek ahots desberdina dutelako eta eskualde batetik bestera eskualde askotan dialektoak badira ere, mundu osoan erabiltzen diren ehunka hizkuntzen inguruko kezkak.

Nire analisia, beraz, ahotsa ezagutzeko softwarea da oraindik ere.