본문 바로가기
자격증, 교육

장애인스포츠지도사 2급 자격증 취득_특수체육론, 청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구

by Casey,Riley 2020. 2. 24.
반응형

장애인스포츠지도사 2급 자격증 취득_특수체육론

 

교안_01차시_특수체육론_특수체육의_이해.pdf
1.57MB
교안_02차시_특수체육론_특수체육의_사정과_측정.pdf
1.50MB
교안_03차시_특수체육론_특수체육_지도전략.pdf
2.40MB
교안_04차시_특수체육론_지적장애인의_이해_및_지도.pdf
2.47MB
교안_05차시_특수체육론_자폐성장애_및_정서장애의_이해_및_지도.pdf
3.01MB
교안_06차시_특수체육론_시각장애의_이해_및_지도.pdf
1.36MB
교안_07차시_특수체육론_청각장애인의_이해_및_지도.pdf
1.28MB
교안_08차시_특수체육론_지체장애인의_체육활동_지도(1).pdf
2.75MB
교안_09차시_특수체육론_지체장애인의_체육활동_지도(2).pdf
2.61MB
교안_10차시_특수체육론_뇌병변장애의_이해와_지도(1).pdf
1.87MB

교안_01차시_특수체육론_특수체육의_이해

교안_02차시_특수체육론_특수체육의_사정과_측정

교안_03차시_특수체육론_특수체육_지도전략

교안_04차시_특수체육론_지적장애인의_이해_및_지도

교안_05차시_특수체육론_자폐성장애_및_정서장애의_이해_및_지도

교안_06차시_특수체육론_시각장애의_이해_및_지도

교안_07차시_특수체육론_청각장애인의_이해_및_지도

교안_08차시_특수체육론_지체장애인의_체육활동_지도(1)

교안_09차시_특수체육론_지체장애인의_체육활동_지도(2)

교안_10차시_특수체육론_뇌병변장애의_이해와_지도(1)

***

 

청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 요 약 본 연구는 e-sports 중계 콘텐츠 및 게임 스트리머 콘텐츠에 대한 청각장애인들의 시청 편의 성을 위해 제공되는 자막의 서비스의 품질을 높이는 방안을 제시하기 위한 연구이다. 일반적 으로 방송 콘텐츠의 자막 파일은 속기사에 의해 방송 중에 수동 작성되므로 원본 콘텐츠 대비 3~5초의 자막표시 지연이 필연적이다. 이에, 본 연구에서는, 음성인식 기술을 활용한 동기화 자 동 보정 시스템의 구성을 제안하였다. 또한 이 시스템을 활용한 콘텐츠 적용실험을 진행하였으 며 최종 결과로 자막 데이터의 동기화 오차 시간을 1초 이내로 줄일 수 있음을 확인 하였다.

1. 서 론 TV, 모니터 등 전통적인 개념의 메인 스크린 (1st Screen)에서 콘텐츠를 소비하던 행태가, 스마 트 기기에서 콘텐츠를 소비하는 행태로 급격히 변 화하는 지금, 다양한 매체를 통해 유통되는 방송 콘텐츠와 함께 전달이 되는 방송 콘텐츠용 자막의 중요성이 증가되고 있다[1]. 특히, 청각 장애인들의 방송시청권을 보장하기 위한 적절한 자막 데이터의 제공은 장애인의 권리 보장 측면에서 전세계 국가 들이 법, 제도적 측면에서 여건개선 노력을 기울이 는 중요 정책 분야이다. 최근 e-sports가 2018년 아시안 게임에서 시범 종목으로 선정되었고, 2024년 파리올림픽 및 2028 년 LA올림픽에서도 정식종목 채택의 가능성이 이 야기되고 있는 상황이다. 또한 트위치나 유튜브 등 게임 스트리머 플랫폼들을 통한 콘텐츠들이 급격히 증가되고 있는 상황이며 이러한 1인 게임방송 시 청에 영향을 미치는 요인에 대한 연구[2,3]들이 이 루어지고 있다, 이러한 게임 방송 콘텐츠에 대한 청각 장애인의 시청욕구가 급격히 증가되고 있음에 따라 이러한 시청 편의성을 높여주기 위한 효과적 인 자막 서비스의 제공이 필요한 시점이다. 방송에서의 자막 데이터 제공에 관한 요건은 2011년 7월 개정된 방송법 제 69조 8항에 포함되 어 있으며, 이에 의하면 '방송사업자는 장애인의 시청을 도울 수 있도록 수화·폐쇄자막·화면 해설 등을 이용한 방송(이하 “장애인방송”이라 한다)을 하여야 하며, 필요한 경우 방송통신위원회는 그 경 비의 전부 또는 일부를 방송통신 발전기본법 제24 조에 따른 방송통신 발전기금에서 지원할 수 있다' 라고 명시되었다. 그리고 이러한 방송법 개정에 따라 후속 세부규 정이 명시된 '장애인 방송편성 및 제공 등 장애인 방송 접근권 보장에 관한 고시가 공표[4]되었고 이 에 따라, 방송국들의 장애인방송 편성의무, 성실제 공의무, 유형표시 의무 등이 부여되고 있다. 자막방송의 품질은 일반적으로 자막 입력의 정 확도(accuracy)를 기준으로 평가 되어온 경향이 있으나, 최근 들어 자막방송의 품질과 관련해 정확 도 만큼이나 중요하게 지적되는 또 다른 요인은 원 콘텐츠의 음성신호와 자막표출 시점 간의 격차 로 인한 자막 지연시간(delay time) 요인이다. 영국 '왕립 청각장애인 협회'(RNID, Royal National Institute for Deaf People)의 2010년 보 고서에 의하면 자막방송에 대해 조사 대상자의 80%가 불만을 갖고 있는 것으로 조사되고 있으며, 이중 25%가 지연문제를, 17%가 정확도 문제에 불 만족을 표시하였다[5,6]. 속기사에 의해 작성되는 자막의 정확도는 미국 의 경우 95~96%수준, 국내에서는 대체로 98% 이 상의 정확도를 품질의 기준으로 설정하고 있다. 정 확도 98% 이상을 맞추기 위해서는 속기사 1인으 로는 쉽지 않은 일이며, 2~4인 입력 시스템이 적용 되는 경우가 많다. 이 경우 숙련된 속기사로 구성 되면, 99% 이상의 정확도 유지도 가능하다고 한다. 참고로 화면 당 3줄(줄당 20∼25자)의 자막이면, 70∼80자 정도이고, 98%의 정확도면 화면 당 1개 정도의 오타가 발생하는 수준이라 할 수 있어서 자막의 정확도 문제는 상당수준의 품질 유지가 가 능해지고 있다고 판단된다. 한편, 자막 지연시간 문제에 관해 살펴보면, 사 전 제작되는 일부 콘텐츠를 제외하고는 많은 부분 이 실 방송 시에 방송 오디오를 속기사가 듣고 이 를 속기로 작성한 자막 데이터를 방송신호와 함께 전송하게 되므로 실제 오디오와 이에 해당하는 자 막 데이터 사이의 시간지연이 1초 이상, 많게는 3~5초 정도 발생하는 것이 일반적인 현상이다. 이러한 지연시간이 일반인에게는 별 문제가 되지 않을 수 있으나 오디오를 듣지 못하는 청각 장애인 들에게는 오디오가 나오는 시간과 자막이 나오는 시간이 차이가 생김에 따라서 누가 말했는지를 정 확히 이해하기가 어렵고, 이로 인해 콘텐츠 상의 상 황을 엉뚱하게 이해 할 수 있는 가능성을 유발한다. 따라서 본 연구에서는, 이러한 자막의 정확성은 유지하면서 지연시간은 최소화하기 위해 '자막 동 74 Journal of Korea Game Society 2019 Feb; 19(1): 73-84 ― A Study on subtitle synchronization calibration to enhance hearing-impaired persons' viewing convenience of e-sports contents or game streamer contents ― 기화 자동 보정 시스템'을 제안 하고자 하며, 이를 통해 구현된 시스템을 사용한 품질개선 실험을 진 행함으로써, 제안 시스템을 통한 자막 품질의 개선 정도를 파악하고자 하였다. 동기화 보정을 위한 원 데이터는 자막 속기사에 의해 작성된 SMI1) 파일을 사용하며, 지연시간을 자동으로 보정하기 위하여 오픈API로 제공되는 구 글의 음성인식용 STT(Speech To Text) 엔진 기 술을 사용 하였다. 속기사가 음성을 듣고 자막 제작기를 이용하여 생 성하기 때문에 보통 4초정도의 지연시간을 갖게 된다. 현재 대부분의 지상파 방송에서 이 방법으로 자막을 생성해서 방송에 이용하고 있으며, 최초 자 막 생성이후 별도의 지연시간 보정이 없이 그대로 VOD형태로 사용되는 경우가 많아서 청각장애인이 방송을 시청하게 되는 경우에 불편함을 겪게 된다. 실시간 자막 생성을 위한 방법으로 콘텐츠의 음 2. 관련연구 본 연구의 대상이 되는 방송자막은 크게 오픈자 막과 폐쇄자막 두가지 범주로 구분된다. 오픈자막은 자막이 영상 자체에 덧씌워진 형태 이기 때문에 자막의 표시여부를 선택할 수 없는 방식이다. 방송에서 영상과 관련하여 시청자에게 추가적인 정보를 전달하기 위해 표시되는 자막, 무 한도전과 같은 예능 방송 프로그램에서 웃음을 주 는 멘트 자막, 음악방송의 가사 자막 등이 시청자 가 자막의 표시 여부를 선택할 수 없이 제작자의 의도대로 무조건 표시되는 형태이다. 폐쇄자막은 영상데이터와 자막데이터가 분리되 어 관리 되므로 자막의 표시유무를 시청자가 선택 할 수 있는 자막형식이다. 보통 요즘 사용하는 DVD나 Blueray 등 미디어를 통해 제공되거나 인 터넷 스트리밍 서비스에 제공되는 멀티미디어콘텐 츠에 SAMI2), SRT3), TTML4) 등의 데이터 포맷 으로 제공되는 것이 폐쇄자막이다. 본 연구의 대상 은 폐쇄자막(Closed Caption)이며, 이 폐쇄자막은 자막이 만들어지는 방식에 따라서 미리 준비된 자 막(Pre-recorded Closed Caption)과 실시간으로 작성되어 이용되는 실시간 자막(Real-time Closed Caption)이 있다. 미리 준비된 자막은 화자와 자막 데이터의 시간적인 싱크가 정확하게 맞도록 보정작 업을 할 수 있기 때문에 정확한 싱크정보를 갖고 있다. 그에 반해서 실시간 자막의 경우에는 자막 성신호를 인식하여 텍스트로 변환하는(Speech To Text) 음성인식 기술 이용 시도가 다수 연구 되었 는데, 그 기본원리는, 기계가 마이크로폰을 통해 음성신호를 수신한 후에 분석을 위한 음향처리 과 정을 거쳐 음성신호의 특징을 추출하고, 이를 사전 에 구축된 음성 모델 데이터베이스와 비교하여 유 사도가 가장 높은 것을 문자로 변환하는 방식이다 [Fig. 1] Voice recognition process[7] 음성인식기술 기반의 STT 기술은, 1952년 AT&T 벨연구소에서 Audrey를 개발한 이래 많은 발전을 이루어 왔지만, 다양한 여건으로 인한 음성 인식오류로 인해, 여전히 상용화 하기에는 낮은 인 식 정확도로 인해 이를 전적으로 의존하기가 쉽지 않았다. 최근 스마트폰과 AI스피커의 급속한 보급 을 통한 주요 음성인식 엔진의 정확도가 92% 이 상을 기록하는 등 크게 개선되고, 인식 가능한 단 어의 수도 100만개 이상으로 풍부해졌다고 보고[8] 되고는 있으나, 다양한 소음환경과 복합음향의 구 분 인식이 필요한 방송콘텐츠의 경우, 요구되는 자 막의 정확도를 맞추기에는 부족한 상황이다. 1) SAMI 포맷에 의해 만들어진 자막파일의 확장자명 2) Synchronized Accessible Media Interchange; PC에서의 자막생 성 편의를 위해 만들어진 포맷. 우리나라에서 가장 보편적임. 3) SubRip 프로그램으로 만든 텍스트 파일 포맷 4) Timed Text Markup Language; 시간지정 텍스트 표시용 자막포 맷임. W3C 표준 중 하나 Journal of Korea Game Society JKGS 75 ― 청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 ― 김정연과 남제호(2009)[9]는 DTV 자막방송 데 이터의 응용을 위하여 지상파 방송의 MPEG-2 Transport Stream으로부터 자막데이터를 추출하 여 추출된 자막과 시간정보를 이용하여 PC 환경의 멀티미디어 재생기에서 사용가능한 자막파일을 생 성한 후 이를 이용한 방송콘텐츠의 시간적 구간 분할 방법을 제안함으로써 자막데이터의 응용가능 성에 대해 연구하였다. 박현근 et al.(2010)[10]은 음성 특징 파라미터 추출과 DTW에 의한 음성인 식을 통해 음성을 추출하여 화면에 자막으로 나타 나게 하는 시스템을 제안함으로써 동영상 방송프로 그램에서의 청각장애인의 정보접근 기회를 확장하 는 방법을 제안했으며. 김민호와 강효순(2016)[11] 은 청각장애인을 위한 폐쇄자막 자동화 솔루션의 설계방법으로 3가지 방안을 제안하였다. [Table 1] Summary of Related Study Researcher Study Summary J.Y Kim, J.H.Nam (2009) H.G.Park et al. (2010) M.H.Kim, H.S.Kang (2016) study on the subtitle data utilization for the Digital TV LPC, DTW as the Audio recognition methodology Proposing closed caption automatic processing C.H.Ahn, I.S.Jang (2016) Development of Subtitle creation SW based on Google API, and recognition performance measure Comparison of S.J. Chu. et al. (2017) STT recognition result & actual subtitle data by utilizing S-W Algorithm Remarks Focused on the utilization of subtitle metadata System process propose with no experiment data Mainly focus on the processing automation. No suggestions for synchronization Focused on the Subtile creation instead of accurate audio recognition interval Used IBM Watson STT Engine with no experiment for synchronization S.J. Choi, J.B. Kim (2017) Comparision of 3–major Audio recognition engines. Google STT perfoms well. Only deal with the recognition performance. 음성인식 기술을 자막생성에 활용하는 방법에 대한 연구도 이루어져서, 안충현과 장인선 (2016)[12]은 '음성인식 기술을 이용한 자막 생성연 구'를 통해 청각장애인의 미디어 접근권을 향상 시 키는 방법에 대해 제안하였으며, 추성준 등 (2017)[13]은 음성정보를 텍스트로 변환하는 STT(Speech to Text) 결과로 얻은 자료를 실제 자막 테이터와 비교하여 일치하는 위치를 찾아내기 위해 Smith-Waterman Algorithm을 사용한 방법 을 제시하였다. 최승주와 김종배(2017)[14]는 구글, 네이버, 카카오 3개사의 음성인식 오픈 API를 사 용한 직접 실험을 통해 인식 정확도를 비교하는 연구를 진행하였다. 위의 [Table 1]에서 각 선행연구의 특성에 따른 본 연구와의 차이점을 간략히 정리하였다. 3. 본 론 3.1 실시간 방송자막 생성 시스템 실제 자막방송이 제작되는 일반적인 과정은 아 래의 그림과 같다. 방송사의 영상자료를 보면서 실 시간으로 속기사가 음성을 듣고 속기로 자막을 생 성한다. 생성된 자막데이터는 비디오 영상신호와 자막데이터가 함께 인코딩되어 방송되게 된다. 여기서 자막방송의 품질에 가장 큰 영향을 미치 는 것은 속기사의 자막제작 과정이라 할 수 있다. 자막속기사의 숙련도에 따라 자막의 정확도와 속도 등이 좌우될 수 있기 때문이다. 76 Journal of Korea Game Society 2019 Feb; 19(1): 73-84 ― A Study on subtitle synchronization calibration to enhance hearing-impaired persons' viewing convenience of e-sports contents or game streamer contents ― 제공하므로, 예를 들어 사용자가 계속 말하는 중에 결과를 표시할 수 있다. [Fig. 2] Production work-flow of closed- caption broadcasting 3.2 자막동기화 자동보정 시스템의 구성 3.2.1 Google Speech API 구글에서 제공하는 'Google Cloud Speech To Text'(이하 'STT엔진' 이라고 한다)는 오디오를 인식하여 텍스트로 전환해주는 사용하기 간편한 API를 제공한다. 이 API는 글로벌 사용자에 대응하여 120개 이 상의 언어와 방언을 인식한다고 하며, 음성명령 및 제어기능을 구현하고 콜센터의 오디오를 텍스트로 변환하는 등의 작업을 할 수 있다. 이 STT엔진은 구글의 머신 러닝기술을 사용하 여 실시간 스트리밍 또는 사전녹음 오디오를 처리 할 수 있다고 하므로, 방송콘텐츠의 음성 인식 및 이를 활용한 자막 동기화의 수단으로 사용할 수 있다. 구글 STT엔진에는 음성인식을 수행하는 세 가지 주요방법이 제공된다. ① 동기 인식(REST5), gRPC6))은 오디오 데이 터를 Speech-to-Text API로 보내고, 해당 데이터 에서 인식을 수행하고, 모든 오디오가 처리된 후 결과를 확인한다 동기식 인식 요청은 길이가 1분 이하인 오디오 데이터로 제한된다. ② 비동기 인식(REST, gRPC)은 오디오 데이터 를 Speech-to-Text API로 보내고, 장기 실행 작 업을 시작한다. 이 작업을 사용하여 주기적으로 인 식 결과를 폴링할 수 있으며 최대 180분 길이의 오디오 데이터에 비동기식 요청을 사용한다. ③ 스트리밍 인식(gRPC만 해당)은 gRPC 양방 향 스트림에서 제공되는 오디오 데이터 인식을 수 행합니다. 스트리밍 요청은 마이크에서 라이브 오 디오 캡처와 같은 실시간 인식 용도로 설계되었다. 스트리밍 인식은 오디오 캡처 중에 중간 결과를 . [Fig. 3] Calibration System for closed caption Synchronization 콘텐츠 관리시스템(CMS)으로부터 자막보정 요청 이 들어오면 시스템은 공유스토리지의 콘텐츠를 읽 어 오라는 명령을 보낸다. 공유스토리지에는 원본동 영상(video), 원본자막(subtitle)이 있으며 이 자료들 은 적절한 포맷으로 변환되어, Google Cloud 로 업 5) 네트워크 상에서 자원을 정의하고 주소를 지정하는 방법 전반 인 네트워크 아키텍쳐 원리의 모음. REpresentational State Transfer 6) Google Remote Procedure Call의 약어. 구글이 개발한 오픈소 스 기반의 원격서비스 호출 시스템으로, JSON 혹은 Protocol Buffer 데이터 형태로 전송하는 것이 특징 Journal of Korea Game Society JKGS 77 3.2.2 자막 보정 시스템 자막보정 시스템은 아래 그램과 같이 콘텐츠관 리시스템(Contents Management System, CMS), 공유스토리지(Share Storage), Google 클라우드 서비스와 연동하여 동작하며, Google Cloud Service는 Google Speech API와 Google Cloud Storage로 구성된다. 전체 시스템의 흐름은 다음과 같이 구성한다. ― 청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 ― 로드 된다. 이후 Google Speech API를 이용하여 Speech-To-Text 추출 후 자막보정시스템으로 보 내어 보정하는 알고리즘을 수행한다. 1시간 콘텐츠 의 경우 약 15 분 정도 소요되기에 작업의 성공 여 부는 CMS에 따로 알림 인터페이스를 이용한다. 즉 비동기적인 인터페이스를 제공하여 시스템을 효율적으로 사용할 수 있도록 시스템을 구축하였다. ① 보정 알고리즘이 수행되는 자막보정 시스템 은 아래와 같이 크게 4가지 구성 요소를 가진다 External Interface – 콘텐츠관리시스템(CMS) 와의 통신을 담당하기위한 인터페이스이다. 해야할 업무를 접수받고, 수행완료시 알림을 보내는 역할 을 담당한다 ② FFMpeg Wrapper – 트랜스코딩을 위한 Tool Interface를 제공하며 공유폴더로부터 비디 오, 오디오 파일 가져온다. m4a파일을 wav파일로 변경하는 작업을 수행한다 ③ Google Cloud API Manager – 원본콘텐츠 의 오디오 파일을 Google Cloud Storage로 업로 드하며, Google Speech API를 호출하여 음성 인 식하여 텍스트 파일로 변환하는 작업을 수행한다. STT(Speech To Text)기능에 의해서 음성신호를 인식하여 해당하는 텍스트로 변경된 문서를 다운로 드 한다. ④ Subtitle Adjust Manager – Text로 변환 된 인식자막과 SMI파일로 제공되는 원본자막을 비교하여 보정한다. 궁극적으로 자막 파일의 싱크를 보정하기 위해 서는 음성인식파일과 원 자막파일의 위치를 일치시 키는 것이 먼저 선행되어야 하는데, 이것을 자동화 하고자 하는 것이 필요하다. 자막 위치 검색은 음성인식결과 데이터를 기준 으로 자막파일 데이터를 슬라이딩 방식으로 코릴레 이션 값을 비교하여 최대 값이 나오는 위치를 매 칭되는 위치로 판단했다. 본 논문에서는 음성인식 부분과 자막파일을 매칭 시키는 방법으로는 글자단위로 검색하는 방법과 단 어 단위로 검색하는 방법 2가지를 비교 실험했다. [Fig. 4] Character-based location search [Fig. 5] Word-based location search 두가지 방식에 대한 실험결과 글자 단위로 검 색하는 것보다 단어 단위로 위치 검색하는 것이 보다 나은 정확도를 보였다. 이러한 결과는 음성인식기의 성능이 좋지 않기 때문에 단어 단위로 비교하는 것이 비교적 안정적 인 성능을 나타내고 있음을 알 수 있다. 이러한 시스템 구성 제반 요소들을 고려하여 실 제 시스템을 구성한다. 아래, [Fig. 6]은 실제 구현 된 싱크 보정시스템의 전체 시스템 구성도이다. 이렇게 구성된 시스템의 세부적인 동작순서는 다음과 같다. ① 먼저 비디오파일에서 오디오 신호를 wav파 일로 추출한다. 오디오파일의 규격은 16비트, 모노, 샘플링속도는 16kHz를 사용하도록 정했다. 음성신호는 대략적으로 5kHz이하에 분포하기에 최대 신호는 8kHz이하의 정보를 이용하는 것이 충 분할 것으로 판단했다. 이에 따라 샘플링속도는 16kHz로 설정했다. 또한 한쪽 채널의 음성신호만 으로도 충분히 처리할 것으로 판단했다. ② 추출된 wav파일은 구글 클라우드 저장소로 업로드한다. ③ 구글의 Speech API를 호출하여 음성인식을 수행하도록 한다. 이때 60분 분량의 음성신호를 인 식하는데 대략적으로 15분 정도가 소요되었다. 78 Journal of Korea Game Society 2019 Feb; 19(1): 73-84 ― A Study on subtitle synchronization calibration to enhance hearing-impaired persons' viewing convenience of e-sports contents or game streamer contents ― [Fig. 6] Synchronization calibration process 인식이 완료되면 인식결과는 JSON파일 형태로 출력된다. ④ 자막싱크를 보정하기 위한 알고리즘을 수행 한다. 방송국에서 제공되는 자막파일(SMI파일)과 구글 음성인식 솔루션이 만들어 낸 결과 파일인 JSON파일을 비교하여 싱크를 보정한다. 그 세부 절차는 다음과 같다 - STT JSON을 파싱하여 객체화한다(video.sync. GoogleTransVO) - SMI 파일을 파싱하여 객체화한다(video.sync. SmipleSmiparser) - SMI라인을 [Fig. 5]처럼 단어 단위로 이동하 면서 가장 가까운 Text를 찾음(범위는 SMI 시작 점 + 10초를 범위로 지정) - 매칭이 될 경우, 매칭된 자막의 위치가 속기 사가 생성한 원 자막보다 느릴 수 없다. - 매칭이 안된 영역은 매칭된 라인을 기준으로 상대적인 위치를 가지고 보정하며 세부적인 방법은 '3.3.3 선형추정기법' 내용으로 설명된다. 이러한 과정을 거쳐서 보정된 결과는 SMI파일 형태로 싱크 보정된 자막파일을 생성한다. 3.3. 자막 동기화 자동보정 실험 제안된 시스템의 성능을 실험해 보기 위해서 음 성 인식률과 자막 싱크 개선율을 측정 하였다. 제안된 자막보정 시스템에 의한 음성 인식률을 측정하였다. 방송국에서 제공되는 속기사 작성의 원본자막은 98% 정도의 정확도를 갖고 있기 때문 [Fig. 8] Google API voice recognition result Journal of Korea Game Society JKGS 79 [Fig. 7] Original stenograph subtitle 에 원본자막 대비해서 음성인식 결과를 비교하여 검출률을 측정하였다. 아래 그림은 방송국에서 제공하는 속기로 제작 한 자막 데이터와(SMI파일) 구글 음성인식용 API 의 인식 결과 파일을 각각 나타낸다(Fig.7과 8). 두 가지 그림 중 각각 밑줄 표시된 부분이 구글 음성인식 API를 통해 인식된 부분이다. ― 청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 ― 그림에서 볼 수 있듯이 구글 음성 인식기에서 처리하는 한글 인식 성능이 그다지 높지 않아서 속기로 제작된 자막 내용에 대비하여 일부 영역만 이 올바로 인식되고 나머지는 정상 인식이 잘 안 되고 있음을 알 수 있다. 이것이 본 연구에서 자동 동기화 보정 시스템을 통해 확인하고자 하는 부분이며. 내용 정확도는 속 기 자막의 내용을 기준으로 하되, 동기화 정확도는 구글 번역기가 인식한 시간적 동기화 정보를 결합 하는 방식을 택한다. 3.3.1 음성인식률 구글 STT 엔진의 음성 인식률 성능 정도를 파 악하기 위하여 총 5개의 오디오 샘플에 대해서 각 각 5분간의 오디오 음성데이터에 대해서 전체 글 자 수 대비 인식된 검출률을 측정하였다. 구글 음성인식기의 검출률은 음원소스가 잡음이 없이 깨끗한 경우에는 90%이상의 높은 검출률을 보이고 있으나 잡음이 포함된 구간에서는 검출률이 50%이하로 떨어지고 있다. 전체적인 평균 61.04% 이었다. 즉, 구글 음성인 식기를 통한 음성 인식은 인식율이 너무 낮아서 실 서비스에서 사용할 수가 없다. 음성인식 엔진의 신호구간에 대한 동기화 성능 여부는 싱크 개선율 을 통해 확인 한다. [Table 2] Audio Recognition Rate # of Sample 1 2 3 4 5 recognized characters 268 596 458 389 277 평균 # of total characters 472 919 778 640 434 3.3.2 싱크개선율 싱크 개선율은 구글 음성인식 API에 의해서 인 식된 음성신호를 자막 데이터로 생성했을 때 실제 음성신호와 어느 정도 시간 오차를 갖게 되는 지 를 의미한다. 본 연구에서는 실제 검출되는 정도를 알기 위한 실험을 진행하였으며, 아래와 같은 결과 를 얻었다. [Fig. 9] Experiment result : Subtitle synchronization calibration system 방송콘텐츠가 방송될 때 수작업에 의해서 생성 Recogniti -on Rate 56.8 64.9 58.9 60.8 63.8 61.04 된 자막데이터는 실제 비디오신호의 오디오 신호대 비 평균 5초정도 지연되어 생성 되어져 있다. 그림에 나타난 “대사” 컬럼은 실제 비디오의 오 디오 신호가 나오는 시간을 측정한 값에 해당된 다.“보정 전” 컬럼은 수작업에 의해서 생성된 시간 을 나타낸다. 또한 “보정 후”는 구글API에 의해서 측정된 인식시간을 나타낸다. 구글 API의 인식 시간 값은 실제 음성신호를 바탕으로 생성되기 때문에 오차의 크기가 평균 1 초정도 지연되는 결과를 나타내고 있다. 80 Journal of Korea Game Society 2019 Feb; 19(1): 73-84 ― A Study on subtitle synchronization calibration to enhance hearing-impaired persons' viewing convenience of e-sports contents or game streamer contents ― 결과적으로 보면, 평균적으로 약 4초정도의 자막 싱크 개선효과를 얻을 수 있었다. 3.3.3 선형추정 기법 모든 자막데이터에 대해서 일치되는 음성인식 출력값과 비교할 수는 없다. 음성 인식된 결과 값 이 보통은 원래의 자막 데이터에 비해서 작은 양 의 인식결과를 보이기 때문이다. 즉 중간중간 음성 인식되지 못하여 출력되지 않는 부분이 발생하고 있다. 이러한 이유 때문에 보정된 최종 자막을 생 성하기 위해서는 인식되지 않는 부분에 대해서 추 정 값을 계산해야 되는 문제가 발생한다. 본 연구에서는 선형추정 기법을 사용하여 인식 되지 않는 부분의 추정 값을 계산하였다. 즉, [Fig. 10]의 3가지 짙은 음영부분은 인식 매 칭이 된 부분이며, 인식매칭이 안된 사이사이의 옅 은 음영부위에 대한 합리적인 위치 지정이 필요하 여, 선형 추정법에 의한 비례적 위치 설정을 했다. [Fig. 11] Matching timeline prediction based on linear estimation method [Fig. 11]은 매칭되지 않은 자막부분의 시간을 선형추정기법에 의해서 매칭시간을 추정하는 과정 을 보여주고 있다. 가로축은 원 자막에 대한 시간 을 나타내고 있고 세로축은 추정된 음성인식 시간 을 나타내고 있다. 실험 결과에 의해서 추정된 시간이 실제 실험에 의한 오차 값 범위인 1초 이내에 있음을 확인할 수 있었다. 전체적인 실험결과를 1개의 표로서 나타내면 아 래와 같다. [Table 3] Summary of Overalll experiments Experiment Description Stand alone Speech to text performance [Fig. 10] Matched and unmatched area description Proposed system Experiment Linear Estimation Method Time Deviation Less than 1 sec. Time Deviation Less than 1 sec. Satisfied (currently 3~5 sec. deviation) Satisfied (currently 3~5 sec. deviation) Result average 61.04% Remarks Dissatisfaction Journal of Korea Game Society JKGS 81 ― 청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 ― 4. 결 론 본 논문은 청각 장애인의 게임방송 시청이나 이 스포츠 중계 시청 등에서의 편의성 증대를 위해, 제공되고 있는 자막 정보의 동기화를 최적화 하는 방안을 제시하였다. 이를 위하여 방송시스템에서 실시간으로 생성되는 자막 데이터의 평균적인 자막 싱크 오차를 음성인식 솔루션을 이용하여 보정하는 시스템 구성을 제시했다. 이것은 기존에 제공되는 속기사 자막정보가 내용 재현의 정확도는 높으나 시간적 동기화 정확도는 떨어지고, 오픈 API를 통 해 제공되는음성 인식엔진의 Speech-to-Text 결 과물은 인식정확도는 불완전하나 시간적 동기화 성 능은 뛰어나다는 점을 활용하여 각각의 정확도가 높은 조합을 통해 최적의 인식율과 동기화를 구현 하는 방법을 제안하였다. 제안된 방법에 의해서 실험한 결과, 원 자막 데 이터가 비디오의 실제 음성과 평균적으로 5초 정 도 지연되어 표출되고 있고 이것을 제안된 동기화 보정 시스템을 이용하여 처리했을 때 평균 1초 지 연시간을 보임으로써, 최대 약 4초 정도의 지연시 간 단축이 가능함을 확인 할 수 있었다. 또한 음성인식 정확도가 낮은 상황에서 원자막 을 음성신호와 동기를 맞추기 위한 방법으로 선형 추정방법을 제시하여, 인식이 이루어진 기준 단어 들을 중심으로 인식이 안 된 부분에 대해서도 합 리적인 방법으로 추정하는 방법을 제시하였고, 이 를 통해서 보정된 자막 데이터를 얻을 수 있었다. 본 연구결과를 통해 일차적으로 입증된 자막 동 기화 시스템은 VOD 콘텐츠의 자막 동기화율 향상 을 위한 자동화 처리에 최적화 될 수 있다. 특히 이 시스템을 활용하여 청각 장애인들의 게 임방송 콘텐츠 소비시 높은 품질의 자막 제공을 통 해 콘텐츠의 내용 파악의 정확성을 높일 수 있다. 더 나아가, 향후, 제안된 기술부분이 활용 된다 면, 높은 품질의 자막데이터를 활용하여 광고, 상 품판매, 방송콘텐츠 메타데이터 판매 등 다양한 신 수익 모델 도출이 가능할 것으로 기대된다. 특히 한류 게임방송 콘텐츠 및 K-드라마 콘텐츠의 해외 진출시, 언어별 자막의 효율적인 편집 등에도 효과 적으로 활용될 수 있다. 향후 Speech API의 성능 개선을 기반으로. 좀 더 정확하게 보정된 자막 데이터를 얻어 다양한 분 야에서 활용하기 위한 계속적인 연구가 필요하다. 

반응형