speechFramework란 무엇인가?
Speech 프레임워크를 사용하여 녹음된 오디오나 실시간 오디오에서 음성 인식을 수행할 수있다.
음성을 텍스트로 변환한다.
프레임워크를 이용해서 해야할 것
- 음성 녹음 → AVFoundation
- 텍스트 추출
speech프레임워크를 사용하기전에 AVFoundation을 사용해서 사용자의 음성을 녹음해야한다 .
그렇다면 AVFoundation이 무엇일까?
AVFoundation
- Apple 플랫폼에서 시청각 미디어를 검사, 재생, 캡처, 처리하기 위한 주요 기술 영역을 결합한 프레임워크
- 사용자는 오디오 및 비디오 자산을 다루고 장치 카메라를 제어하며, 오디오를 처리하고 시스템 오디오 상호작용을 구성할 수 있다.
- AVFoundation은 시청각 asset으로 작업하고, 카메라 장치를 컨트롤하며, 오디오를 처리하고, 시스템 오디오 인터랙션을 구성한다.
- “Media assets”는 AVFoundation 프레임 워크에서 오디오와 비디오 파일과 같은 미디어 자산을 의미
- 파일이나 스트림에서 불러와 다양한 정보를 분석하고 조작할 수 있는 기능들을 함
- 즉 AVFoundation에서 오디오 및 비디오 들을 모델링하고 작업하기 위해서 제공되는 클래스
Media assets
공식 문서 페이지에 나와있는 에셋의 종류는 5가지가 있었다.
AVAsset
, AVURLAsset
, AVAssetTrack
, AVAssetTrackSegment
, AVAssetTrackGroup
-
AVAsset

- 시간 기반 오디오 및 비디오 미디어 자산을 나타내는 기본 클래스입니다. 미디어의 일반적인 속성(예: 재생 시간, 트랙 등)을 모델링하지만, 직접적으로 미디어 데이터를 제공하지는 않습니다.
- 주로 미디어 리소스를 관리하고 속성을 검사할 때 사용하며,
AVURLAsset
과 같은 하위 클래스를 통해 미디어 트랙에 접근할 수 있습니다.
- Asset은 균일하게 입력된 미디어 트랙을 모델링하는 하나 이상의 AVAssetTrack 인스턴스에 대한 컨테이너 객체!!
-
AVURLAsset
AVAsset
의 하위 클래스로, 로컬 파일 또는 원격 리소스 URL에서 위치한 오디오 및 비디오 미디어 자산을 나타냅니다.
AVURLAsset
은 비동기적으로 미디어를 로드할 수 있는 특성과 메서드를 제공하여, 주로 로컬에 저장된 미디어 파일이나 서버에서 가져오는 미디어 파일을 다룰 때 사용됩니다.