Linux 음성 인식 현황

Linux의 음성 인식은 Windows 및 Mac 플랫폼보다 뒤처져 있습니다. Microsoft와 Apple 모두 핵심 운영 체제에 음성 명령 또는 음성 지원 소프트웨어를 추가하는 데 상당한 시간과 비용을 투자했기 때문입니다.

많은 최첨단 기술과 마찬가지로 Linux의 상황이 암울하지는 않지만 무료 및 오픈 소스 세계는 특히 음성 명령 도구에서 한 발짝 뒤쳐져 있습니다.

네이티브 Linux 음성 인식

음성 인식에 초점을 맞춘 Linux 배포판은 없습니다. 그러나 음성 인식 기능을 지원하는 앱은 Sphinx, Kaldi, Julius 및 Mozilla Deepspeech를 비롯한 몇 가지 오픈 소스 라이브러리에 의존합니다.

Negativespace / Mockup. 사진

이러한 라이브러리는 음성 코퍼스에 의존하여 다양한 소리를 제공하여 AI를 훈련시키고 따라서 음성을 텍스트로 정확하게 번역합니다. 그러나 오픈 소스 프로젝트는 덜 정교합니다 (AI 교육에 더 적은 기여를하기 때문에). 이는 대부분의 Linux 용 텍스트 음성 변환 앱이 자주 변환을 방해한다는 것을 의미합니다. 일반적으로 그들은 그것을 너무 철저히 쳐서 원래 연설이 무엇 이었을지 명확하지 않습니다.

Linux Speech to Text 옵션

다섯 가지 솔루션 경로 중 하나를 사용합니다.

배포의 저장소에서 사용할 수있는 기본 Linux 앱 (있는 경우)을 사용하십시오.
Amazon은 Raspberry Pi를 포함하여 Linux에서 Alexa를 사용할 수 있도록했습니다. 이 배열이 작동하도록하려면 많은 사용자 정의 조정을 수행해야하지만 작동합니다.
DictationIO를 통해 브라우저에서 Google Speech API에 액세스합니다. 이 서비스는 받아쓰기에만 작동합니다. 음성 명령에는 사용할 수 없습니다. Google의 AI로 구동되므로 품질이 좋습니다.

Triggercmd 서비스를 통해 Alexa 또는 Google Assistant와 같은 서비스를 Linux 용 음성 명령 유틸리티로 사용합니다. Triggercmd는 컴퓨터에서 실행됩니다. 이를 사용하여 Alexa 또는 Google Assistant를 호출하고 해당 도구가 명령에 따라 특정 Bash 스크립트를 실행하도록합니다. "Ok Google, 계산기를 열려면 트리거 명령을 요청하세요."와 같이 말합니다. Google Assistant는 "계산기 열기"라는 문구로 지정된 Bash 스크립트를 실행하기 위해 Triggercmd와 함께 중개자 역할을합니다.
Dragon NaturallySpeaking과 같은 Windows 용 소프트웨어와 함께 Wine 또는 가상 머신을 사용하십시오. 이 솔루션은 음성 명령 응용 프로그램에서 작동하지 않지만 적절한 조정을 통해 전사에 Dragon 엔진을 사용할 수 있습니다.