티스토리 뷰

들어가며

최근 React Native로 프론트엔드 면접 준비 서비스를 개발하면서 음성 인식 기능을 구현해야 했다. 사용자가 면접 질문에 대한 답변을 음성으로 녹음하면 이를 텍스트로 변환하는 기능이 필요했는데, 이 과정에서 겪은 시행착오와 해결책을 공유하고자 한다.

Google Speech-to-Text의 한계

처음에는 Google Cloud의 Speech-to-Text API를 사용했다. 한국어 인식률이 좋다고 알려져 있고, 대규모 서비스에서 검증된 API라 선택했지만 곧 문제점을 발견했다.

Google STT는 일상 대화에 최적화되어 있다 보니 개발 용어나 기술 관련 단어를 제대로 인식하지 못했다. 예를 들면:

  • useState → 뉴스 스테이트로 인식됨
  • useReducer → 전혀 다른 단어로 인식됨
  • SSR → 정확히 인식되지 않음

 

이런 문제를 해결하기 위해 speechContexts와 phrases 옵션을 사용해 수백 개의 개발 용어를 추가하고 boost 값을 높게 설정해봤지만, 여전히 정확도가 기대에 미치지 못했다.

// Google STT 설정 코드
const request = {
  audio,
  config: {
    encoding: protos.google.cloud.speech.v1.RecognitionConfig.AudioEncoding.FLAC,
    languageCode: 'ko',
  },
  speechContexts: [
    {
      phrases: [
        'React',
        'useState',
        'useEffect',
        'useReducer',
        'Custom Hook',
        // 수백 개의 용어 추가...
      ],
      boost: 20,
    },
  ],
};

하지만 이렇게 해도 프론트엔드 면접 질문 서비스에는 적합하지 않았다.

OpenAI Whisper로의 전환

결국 OpenAI의 Whisper API로 전환했고, 결과는 놀라웠다.

// Whisper API 사용 코드
async transcribeAudio(audioPath: string): Promise<string> {
  const audioStream = createReadStream(audioPath);

  const translation = await this.openai.audio.transcriptions.create({
    file: audioStream,
    model: 'whisper-1',
  });

  return translation.text;
}

Whisper는 별도의 용어 학습이나 설정 없이도 기술 용어를 정확하게 인식했다:

  • useState → 정확히 인식
  • useReducer → 정확히 인식
  • SSR, CSR 등의 약어도 거의 정확하게 인식

React Native에서의 구현 과정

React Native 환경에서 서버와 연동하는 과정은 다음과 같았다:

  1. React Native에서 Audio Recorder 라이브러리를 사용해 사용자 음성 녹음
  2. 녹음된 음성 파일을 base64로 인코딩하여 서버로 전송
  3. 서버에서 받은 base64 데이터를 디코딩하여 MP3 파일로 저장
  4. ffmpeg를 사용하여 MP3를 WAV 포맷으로 변환 (Whisper API 요구사항)
  5. Whisper API로 음성을 텍스트로 변환
  6. 변환된 텍스트를 클라이언트로 반환
// MP3 -> WAV 변환 코드
private async convertMp3ToWav(
  inputPath: string,
  outputPath: string,
): Promise<void> {
  return new Promise((resolve, reject) => {
    ffmpeg(inputPath)
      .toFormat('wav')
      .audioCodec('pcm_s16le')
      .audioChannels(1)
      .audioFrequency(16000)
      .on('end', () => {
        console.log('Conversion successful:', outputPath);
        resolve();
      })
      .on('error', (err) => {
        console.error('FFmpeg error:', err);
        reject(err);
      })
      .save(outputPath);
  });
}

 

비용과 성능 비교

Whisper API는 성능뿐만 아니라 비용 면에서도 매력적이었다:

  • 가격: 약 1시간당 1달러로 매우 합리적
  • 정확도: 프로그래밍 용어에 대해 훨씬 뛰어난 인식률

 

전체 코드

import { Injectable } from '@nestjs/common';
import { InjectRepository } from '@nestjs/typeorm';
import { Audio } from './entities/audio.entity';
import { Repository } from 'typeorm';
import { promises as fsPromises, createReadStream, unlink } from 'fs';
import { join } from 'path';
import * as ffmpeg from 'fluent-ffmpeg';
import OpenAI from 'openai';
import {
  UploadSpeechFileInput,
  UploadSpeechFileOutput,
} from './dtos/upload-speech-file.dto';
import { exec } from 'child_process';

@Injectable()
export class AudioService {
  private readonly openai: OpenAI;

  constructor(
    @InjectRepository(Audio)
    private audioRepository: Repository<Audio>,
  ) {
    this.openai = new OpenAI({
      apiKey: process.env.OPENAI_API_KEY,
    });
  }

  private async convertMp3ToWav(
    inputPath: string,
    outputPath: string,
  ): Promise<void> {
    return new Promise((resolve, reject) => {
      ffmpeg(inputPath)
        .toFormat('wav') // WAV 형식으로 변환
        .audioCodec('pcm_s16le')
        .audioChannels(1)
        .audioFrequency(16000)
        .on('end', () => {
          console.log('Conversion successful:', outputPath);
          resolve();
        })
        .on('error', (err) => {
          console.error('FFmpeg error:', err);
          reject(err);
        })
        .save(outputPath);
    });
  }

  async transcribeAudio(audioPath: string): Promise<string> {
    const audioStream = createReadStream(audioPath);

    const translation = await this.openai.audio.transcriptions.create({
      file: audioStream,
      model: 'whisper-1',
    });

    return translation.text;
  }

  async saveFile({
    file,
  }: UploadSpeechFileInput): Promise<UploadSpeechFileOutput> {
    const directoryPath = join(__dirname, '..', 'uploads');
    await fsPromises.mkdir(directoryPath, { recursive: true });

    const mp3Path = join(directoryPath, `${Date.now()}.mp3`);
    const base64Data = file.replace(/^data:audio\/mp3;base64,/, ''); // Base64 헤더 제거
    const buffer = Buffer.from(base64Data, 'base64'); // Base64 디코딩
    await fsPromises.writeFile(mp3Path, buffer); // 이제 정상적인 MP3 파일 저장됨

    const wavPath = mp3Path.replace('.mp3', '.wav'); // 변환된 파일 경로

    try {
      // MP3 -> WAV 변환
      await this.convertMp3ToWav(mp3Path, wavPath);

      // Whisper API로 변환된 WAV 파일 전송
      const transcribedText = await this.transcribeAudio(wavPath);

      console.log(transcribedText);

      // 데이터베이스 저장
      const audio = this.audioRepository.create({
        filePath: wavPath,
        transcribedText,
      });
      await this.audioRepository.save(audio);

      return {
        ok: true,
        audioId: audio.id,
        answer: transcribedText,
      };
    } finally {
      await unlink(mp3Path, () => {}); // 변환된 WAV 삭제
      await unlink(wavPath, () => {}); // 변환된 WAV 삭제
    }
  }

  async analyzeSpeech(
    audioPath: string,
  ): Promise<{ speed: string; habits: string }> {
    const transcribedText = await this.transcribeAudio(audioPath);
    const audioDuration = await this.getAudioDuration(audioPath); // 음성 길이 계산

    const speed = this.calculateSpeechRate(audioDuration, transcribedText);
    const habits = this.analyzeHabitualPhrases(transcribedText);

    return { speed, habits };
  }

  calculateSpeechRate = (
    audioDuration: number,
    transcribedText: string,
  ): string => {
    const wordsPerMinute =
      (transcribedText.split(' ').length / audioDuration) * 60;

    if (wordsPerMinute > 150) {
      return '말하는 속도가 조금 빠릅니다. (분당 150단어 이상)\n말하는 속도가 빠른 편입니다. 천천히 말하는 연습을 해보세요. 중요한 내용을 전달할 때는 조금 더 여유를 가지고 말하는 것이 좋습니다.';
    } else if (wordsPerMinute < 90) {
      return '말하는 속도가 너무 느립니다. (분당 90단어 이하)';
    } else {
      return '말하는 속도가 적당합니다. (분당 90~150단어 사이)';
    }
  };

  analyzeHabitualPhrases = (transcribedText: string): string => {
    const habitualPhrases = ['음', '어', '그냥', '저기', '그럼']; // 예시
    let count = 0;

    habitualPhrases.forEach((phrase) => {
      const regex = new RegExp(phrase, 'g');
      count += (transcribedText.match(regex) || []).length;
    });

    if (count > 3) {
      return '말 중에 ‘음’, ‘어’와 같은 습관적인 표현이 많습니다. 지나치게 많이 사용하지 않도록 주의해보세요.\n‘음’, ‘어’와 같은 표현을 줄이는 연습을 해보세요. 이를 위해 주의 깊게 말할 때 천천히 생각하는 방법을 추천합니다.';
    } else {
      return '말 중에 자연스러운 표현들이 많았습니다. 좋은 습관을 유지하세요!';
    }
  };

  getAudioDuration = (audioPath: string): Promise<number> => {
    return new Promise((resolve, reject) => {
      exec(
        `ffprobe -i ${audioPath} -show_entries format=duration -v quiet -of csv="p=0"`,
        (err, stdout) => {
          if (err) reject(err);
          resolve(parseFloat(stdout.trim()));
        },
      );
    });
  };
}

마치며

개발 중 겪은 가장 큰 깨달음은 모든 AI 모델이 같은 용도로 최적화되어 있지 않다는 점이다. Google STT는 일상 대화에 강점이 있지만, Whisper는 다양한 전문 용어와 기술 용어에 더 강한 인식률을 보였다.

 

프로젝트 목적에 맞는 도구를 선택하는 것이 중요하며, 때로는 직접 테스트해보는 것이 최선의 방법이다. 처음에는 Google STT를 통해 음성 인식과 함께 말하기 분석 기능도 구현했지만, 실제 테스트 결과 주관적이고 정확도가 떨어져 최종적으로는 텍스트 변환 기능만 남기고 분석 기능은 제외했다.

 

다음에는 React Native와 NestJS를 연동한 음성 인식 UI 구현 경험을 더 자세히 공유해볼 계획이다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함