Пятница, 4 октябряИнститут «Высшая школа журналистики и массовых коммуникаций» СПбГУ
Shadow

Автоматический голосовой перевод в социальных медиа: анализ воспринимаемого качества перевода тревел-влогов платформы YouTube

Постановка проблемы

За послед­ние пол­то­ра деся­ти­ле­тия попу­ляр­ность видео­ма­те­ри­а­лов о путе­ше­стви­ях и при­клю­че­ни­ях, раз­ме­ща­е­мых на раз­лич­ных плат­фор­мах соци­аль­ных медиа, достиг­ла рекорд­но­го уров­ня. За годич­ный пери­од 2013–2014 гг. коли­че­ство про­смот­ров видео, посвя­щен­ных путе­ше­стви­ям и туриз­му, кото­рые пред­став­ле­ны на кана­лах видео­хо­стин­га YouTube, вырос­ло сра­зу на 118 % [Crowel, Gribben, Loo 2014], в 2017–2018 гг. этот пока­за­тель соста­вил 41 %1. Имен­но YouTube, зани­ма­ю­щий вто­рое место по попу­ляр­но­сти сре­ди интер­нет-сай­тов в мире2, явля­ет­ся одно­вре­мен­но круп­ней­шим ресур­сом видео­кон­тен­та: плат­фор­ма име­ет 2 млрд актив­ных поль­зо­ва­те­лей еже­ме­сяч­но и более 30 млн еже­днев­ных поль­зо­ва­те­лей, а суточ­ная про­дол­жи­тель­ность про­смат­ри­ва­е­мо­го видео состав­ля­ет поряд­ка 1 млрд часов3. Кон­цеп­ту­аль­ную осо­бен­ность YouTube, отли­ча­ю­щую его от ряда дру­гих соци­аль­ных медиа, состав­ля­ет кон­фи­гу­ра­ция соци­аль­но­го гра­фа: в цен­тре струк­ту­ры рас­по­ла­га­ет­ся онлайн-кон­тент, вокруг кото­ро­го стро­ят­ся ком­му­ни­ка­ци­он­ные свя­зи меж­ду поль­зо­ва­те­ля­ми [Wattenhofer, Wattenhofer, Zhu 2012].

С точ­ки зре­ния поль­зо­ва­тель­ских пред­по­чте­ний в общей струк­ту­ре видео­кон­тен­та YouTube, посвя­щен­но­го путе­ше­стви­ям и туриз­му, лиди­ру­ю­щие пози­ции при­над­ле­жат жан­ру вло­га (виде­об­ло­га): 48 % потре­би­те­лей интер­нет-кон­тен­та тре­вел-тема­ти­ки явля­ют­ся под­пис­чи­ка­ми YouTube-кана­лов автор­ства неза­ви­си­мых бло­ге­ров. Для срав­не­ния: лишь 19 % под­пи­са­ны на веб-кана­лы о путе­ше­стви­ях, при­над­ле­жа­щие спе­ци­а­ли­зи­ро­ван­ным или обще­те­ма­ти­че­ским СМИ, и 16 % — кана­лы тури­сти­че­ских ком­па­ний и агентств [Crowel, Gribben, Loo 2014]. В осно­ве подоб­ных пред­по­чте­ний, оче­вид­но, лежат воз­мож­ность ком­пью­тер­но-опо­сре­до­ван­ной интерак­ции с авто­ром кана­ла, а так­же «жела­ние под­пис­чи­ков услы­шать инди­ви­ду­аль­ные исто­рии и узнать о лич­ном опы­те “таких же как они людей”» [Crowel, Gribben, Loo 2014]. С дру­гой сто­ро­ны, сре­ди всех спе­ци­а­ли­зи­ро­ван­ных виде­об­ло­гов, пред­став­лен­ных во Все­мир­ной сети, тре­вел-вло­ги вхо­дят в трой­ку наи­бо­лее попу­ляр­ных тема­тик (наря­ду с бью­ти-вло­га­ми и гейм-вло­га­ми)4. Имен­но поль­зо­ва­тель­ский (user-generated) видео­кон­тент соци­аль­ных медиа побу­дил 86 % зри­те­лей (92 % сре­ди поко­ле­ния мил­ле­ни­а­лов) про­явить инте­рес к тому или ино­му гео­гра­фи­че­ско­му объ­ек­ту или тури­сти­че­ско­му направ­ле­нию5. Как след­ствие — рас­тет и лич­ная попу­ляр­ность тре­вел-вло­ге­ров, созда­ю­щих наи­бо­лее удач­ный с точ­ки зре­ния потре­би­те­лей кон­тент: так, на YouTube-канал Nas Dailyмиро­во­го лиде­ра тре­вел-вло­гин­га 2022 г. Нусей­ра Яси­на под­пи­са­ны более 9 млн чел.6 В Руне­те пока­за­те­ли немно­го скром­нее: на момент напи­са­ния ста­тьи сре­ди рус­ско­языч­ных тре­вел-вло­гов лиди­ру­ю­щую пози­цию зани­мал канал укра­ин­ца Анто­на Птуш­ки­на с 5,5 млн под­пис­чи­ков7.

Тео­ре­ти­че­ски един­ствен­ны­ми огра­ни­че­ни­я­ми для озна­ком­ле­ния с содер­жа­ни­ем виде­об­ло­гов, раз­ме­ща­е­мых на плат­фор­ме YouTube, явля­ют­ся нали­чие досту­па к сети Интер­нет и любо­го экран­но­го устрой­ства, с помо­щью кото­ро­го к ней мож­но под­клю­чить­ся. На прак­ти­ке суще­ству­ет целый ряд огра­ни­че­ний поли­ти­че­ско­го, юри­ди­че­ско­го и в том чис­ле линг­ви­сти­че­ско­го харак­те­ра. Каза­лось бы, YouTube име­ет более 100 локаль­ных вер­сий по все­му миру, что поз­во­ля­ет ори­ен­ти­ро­вать­ся на плат­фор­ме на более чем 80 раз­лич­ных язы­ках. Напри­мер, в Рос­сии по дан­ным ВЦИОМ за 2019 г. при­бли­зи­тель­но 85 млн чел. (58 % насе­ле­ния) про­смат­ри­ва­ют видео, раз­ме­щен­ные на озна­чен­ном хостин­ге (25 % — еже­днев­но), око­ло 13 % рос­си­ян — актив­ные поль­зо­ва­те­ли YouTube, кото­рые под­пи­са­ны на раз­лич­ные кана­лы (12 %), реа­ги­ру­ют и участ­ву­ют в обсуж­де­ни­ях и ком­мен­ти­ро­ва­нии кон­тен­та (6 %), делят­ся видео с дру­ги­ми (7 %) или раз­ме­ща­ют здесь свои соб­ствен­ные мате­ри­а­лы (2 %). Чис­ло рос­сий­ских поль­зо­ва­те­лей плат­фор­мы, про­яв­ля­ю­щих инте­рес к видео о путе­ше­стви­ях, состав­ля­ет поряд­ка 11 млн8.

В то же вре­мя рус­ско­языч­ные видео, хотя и зани­ма­ют 4‑е место по про­дол­жи­тель­но­сти еже­днев­но загру­жа­е­мо­го на YouTube кон­тен­та, состав­ля­ют лишь 4 % объ­е­ма дан­ных, тогда как на долю англий­ско­го язы­ка при­хо­дит­ся око­ло 52 % видео­ро­ли­ков9. С дру­гой сто­ро­ны, соглас­но рей­тин­гу EF English Proficiency Index, Рос­сия рас­по­ла­га­ет­ся на 51‑м месте из 112 стран по коли­че­ству жите­лей, вла­де­ю­щих англий­ским язы­ком (око­ло 7,5 млн чел.)10, при этом досто­вер­но уста­но­вить, явля­ет­ся ли уро­вень вла­де­ния язы­ком сре­ди ука­зан­ной груп­пы доста­точ­ным для сво­бод­но­го про­смот­ра аутен­тич­но­го видео, не пред­став­ля­ет­ся воз­мож­ным. Сре­дин­ное поло­же­ние РФ в дан­ном рей­тин­ге одно­знач­но ука­зы­ва­ет на то, что Рос­сия — не един­ствен­ная стра­на, где основ­ная мас­са насе­ле­ния не явля­ет­ся англоговорящей.

Выше­упо­мя­ну­тые фак­ты име­ют непо­сред­ствен­ное отно­ше­ние к про­бле­ме медиа­до­ступ­но­сти, кото­рая дли­тель­ное вре­мя рас­смат­ри­ва­лась иссле­до­ва­те­ля­ми исклю­чи­тель­но в аспек­те пато­ло­гий вос­при­я­тия (меры, направ­лен­ные на предо­став­ле­ние досту­па к аудио­ви­зу­аль­но­му кон­тен­ту инди­ви­дам с рас­строй­ства­ми зре­ния и слу­ха). В насто­я­щий момент медиа­до­ступ­ность пони­ма­ет­ся как обес­пе­че­ние «досту­па к медиа­про­дук­там, меди­а­услу­гам и медиа­сре­де для всех, кто не может или не в состо­я­нии долж­ным обра­зом полу­чить доступ к ним в их ори­ги­наль­ной фор­ме» [Greco 2016: 23] (пере­вод наш. — А. К.). Тем самым межъ­язы­ко­вой барьер дол­жен ква­ли­фи­ци­ро­вать­ся как суще­ствен­ное пре­пят­ствие к гаран­ти­ро­ван­ной медиа­до­ступ­но­сти, тре­бу­ю­щее пре­одо­ле­ния [Romero-Fresco 2018].

Оче­вид­но, что устра­нить озна­чен­ные линг­ви­сти­че­ские огра­ни­че­ния при­зван аудио­ви­зу­аль­ный пере­вод. Несмот­ря на все раз­ли­чия, обу­слов­лен­ные ситу­а­ци­я­ми, вида­ми и мето­да­ми аудио­ви­зу­аль­но­го пере­во­да [Gambier 2013], их мно­го­об­ра­зие может быть све­де­но к двум основ­ным фор­мам предъ­яв­ле­ния пере­вод­но­го кон­тен­та зри­тель­ской ауди­то­рии: гра­фи­че­ской (суб­тит­ры) и голо­со­вой (перео­зву­чи­ва­ние) [Кали­нин 2019]. В зави­си­мо­сти от харак­те­ра ори­ги­наль­но­го мате­ри­а­ла, бюд­же­та про­ек­та и поже­ла­ний ини­ци­а­то­ра пере­во­да, аудио­ви­зу­аль­ные пере­вод­чи­ки рабо­та­ют по зака­зу кино­ком­па­ний, теле­ка­на­лов и дру­гих про­вай­де­ров аудио­ви­зу­аль­ных про­из­ве­де­ний над созда­ни­ем межъ­язы­ко­вых суб­тит­ров или скрип­тов для раз­лич­ных видов перео­зву­чи­ва­ния (дуб­ляж, закад­ро­вое озву­чи­ва­ние, син­хрон­ный пере­вод). Прин­ци­пи­аль­но иная ситу­а­ция воз­ни­ка­ет в соци­аль­ных медиа. Даже если гипо­те­ти­че­ски неза­ви­си­мые вло­ге­ры мог­ли бы поз­во­лить себе про­фес­си­о­наль­ный пере­вод сво­их видео в финан­со­вом плане, коли­че­ство язы­ков потен­ци­аль­ных адре­са­тов непре­рыв­но попол­ня­ю­ще­го­ся видео­кон­тен­та, кото­рый раз­ме­ща­ет­ся в откры­том досту­пе, совер­шен­но исклю­ча­ет такой вари­ант. На неко­то­рых соци­аль­ных плат­фор­мах фраг­мен­тар­но реа­ли­зу­ет­ся кон­цеп­ция пере­вод­че­ско­го кра­уд­сор­син­га и люби­тель­ско­го («поль­зо­ва­тель­ско­го») пере­во­да [Desjardins 2017]. Она, одна­ко, не спо­соб­на спра­вить­ся с колос­саль­ны­ми объ­е­ма­ми ино­языч­но­го кон­тен­та, кото­рый может вызвать инте­рес поль­зо­ва­те­лей. Тем самым прак­ти­че­ски един­ствен­ная воз­мож­ность язы­ко­вой лока­ли­за­ции поль­зо­ва­тель­ско­го видео­кон­тен­та в соци­аль­ных медиа — авто­ма­ти­че­ский (машин­ный) пере­вод «по запро­су». Ана­ли­зу вос­при­ни­ма­е­мо­го каче­ства голо­со­вой фор­мы имен­но тако­го пере­во­да англо­языч­ных тре­велв­ло­гов, адре­со­ван­но­го рус­ско­го­во­ря­щим поль­зо­ва­те­лям, и посвя­ще­но насто­я­щее исследование.

История вопроса

Несмот­ря на то, что виде­об­ло­ги в целом и тре­вел-вло­ги в част­но­сти пред­став­ля­ют собой соци­о­куль­тур­ное явле­ние послед­них 10–15 лет, дан­ная про­бле­ма­ти­ка уже успе­ла най­ти свое отра­же­ние в ряде оте­че­ствен­ных и зару­беж­ных работ. Сре­ди иссле­до­ва­ний, посвя­щен­ных вло­го­сфе­ре, мож­но усмот­реть несколь­ко кон­цеп­ту­аль­ных направ­ле­ний и мето­до­ло­ги­че­ских подходов.

В рам­ках эпи­сте­мо­ло­го-так­со­но­ми­че­ско­го направ­ле­ния иссле­до­ва­те­ли пыта­ю­ся осмыс­лить эпи­сте­мо­ло­ги­че­ский ста­тус объ­ек­та изу­че­ния, опре­де­лить место виде­об­ло­га сре­ди род­ствен­ных форм ком­пью­тер­но-опо­сре­до­ван­ной ком­му­ни­ка­ции [Щипи­ци­на 2017] в соци­аль­ных медиа и раз­ра­бо­тать жан­ро­во-тема­ти­че­скую типо­ло­гию раз­но­род­но­го поль­зо­ва­тель­ско­го видео­кон­тен­та [Теку­тье­ва 2016]. Так, В. А. Лущи­ков и М. В. Тер­ских пола­га­ют, что тре­вел-виде­об­ло­ги обра­зу­ют отдель­ный тип сете­во­го видео­кон­тен­та, а в жан­ро­вом отно­ше­нии отно­сят­ся к кате­го­рии вло­гов. При­чем влог в дан­ном слу­чае не про­сто сокра­щен­ный вари­ант обо­зна­че­ния виде­об­ло­га, а «…жанр видео, в кото­ром бло­гер рас­ска­зы­ва­ет о сво­ей повсе­днев­ной жиз­ни, не нахо­дясь при этом в ста­тич­ном поло­же­нии перед каме­рой» [Лущи­ков, Тер­ских 2018: 65]. Авто­ры отме­ча­ют так­же, что сфе­ра виде­об­ло­гин­га актив­но раз­ви­ва­ет­ся, заим­ству­ют жан­ры из теле­жур­на­ли­сти­ки и дру­гих экран­ных искусств, и по этой при­чине «…жан­ро­вая клас­си­фи­ка­ция виде­об­ло­гов посто­ян­но будет нуж­дать­ся в допол­не­нии» [Лущи­ков, Тер­ских 2018: 57]. Этот вывод пере­кли­ка­ет­ся с пози­ци­ей С. Хер­ринг, кото­рая счи­та­ет жан­ры циф­ро­вой видео­ком­му­ни­ка­ции инту­и­тив­ны­ми, рекон­фи­гу­ри­ру­е­мы­ми и подвиж­ны­ми [Herring 2013].

Пред­ста­ви­те­лей ком­му­ни­ка­тив­но-социо­ло­ги­че­ско­го под­хо­да инте­ре­су­ет фено­мен виде­об­ло­га в аспек­те онто­ло­гии моти­вов его ста­нов­ле­ния и раз­ви­тия как фор­мы соци­аль­ной интерак­ции [Микрю­ков, Сар­ки­со­ва 2020], а так­же при­ро­да дея­тель­но­сти вло­ге­ра и его роль в дина­ми­ке соци­аль­ных про­цес­сов. Так, И. В. Пока­за­нье­ва отме­ча­ет, что рост попу­ляр­но­сти виде­об­ло­гов свя­зан с фак­то­ром сме­ще­ния вни­ма­ния потре­би­те­лей меди­а­кон­тен­та в сто­ро­ну «все­го лич­но­го», част­ной исто­рии, кото­рая ста­ла лейт­мо­ти­вом суще­ство­ва­ния в сете­вом про­стран­стве [Пока­за­нье­ва 2015]. Осо­бое вни­ма­ние в рам­ках дан­но­го под­хо­да уде­ля­ет­ся вопро­сам соот­но­ше­ния виде­об­ло­гин­га как фор­мы актив­но­сти в соци­аль­ных медиа и виде­ожур­на­ли­сти­ки как про­фес­си­о­наль­ной дея­тель­но­сти. Е. В. Мед­ве­де­ва утвер­жда­ет, в част­но­сти, что «…вло­гер, как и жур­на­лист, обыч­но не явля­ет­ся еди­но­лич­ным созда­те­лем отдель­ных сооб­ще­ний и вло­га в целом <…> [что. — А. К. ] сбли­жа­ет тра­ди­ци­он­ную автор­скую про­грам­му, напри­мер, на радио или теле­ви­де­нии, и влог» [Мед­ве­де­ва 2021]. Пред­став­ля­ет­ся, что дан­ный вывод сде­лан на осно­ве ана­ли­за видео­ин­тер­вью и подоб­ных ему форм виде­об­ло­гин­га, фак­ти­че­ски пере­ко­че­вав­ших в интер­нет-про­стран­ство с теле­ка­на­лов, и не учи­ты­ва­ет жан­ро­вой вари­а­тив­но­сти виде­об­ло­гов. Напри­мер, в жан­ре тре­вел-вло­га авто­ром, как пра­ви­ло, высту­па­ет инди­ви­ду­аль­ный поль­зо­ва­тель интер­не­та, кото­рый делит­ся с ауди­то­ри­ей сво­и­ми соб­ствен­ны­ми мыс­ля­ми, чув­ства­ми и опы­том в ходе посе­ще­ния опре­де­лен­но­го места и может затра­ги­вать любые темы по сво­е­му усмот­ре­нию, тогда как тре­вел-жур­на­лист в сво­ей рабо­те изна­чаль­но огра­ни­чен полу­чен­ным зада­ни­ем и эти­че­ским кодек­сом СМИ, кото­рое он пред­став­ля­ет [Пока­за­нье­ва 2015].

Еще одним важ­ным аспек­том рас­смот­ре­ния явля­ет­ся изу­че­ние спе­ци­фи­ки ауди­то­рии потре­би­те­лей влог-кон­тен­та и харак­те­ра их актив­но­сти во вло­го­сфе­ре. Гово­ря об осо­бен­но­стях, отли­ча­ю­щих теле­ви­зи­он­ную ауди­то­рию от адре­са­тов YouTube-кана­лов, Е. В. Мед­ве­де­ва спра­вед­ли­во отме­ча­ет, что послед­ние име­ют «… воз­мож­ность фор­ми­ро­ва­ния лич­но­го про­грамм­но­го пото­ка: за счет под­пис­ки на кана­лы по соб­ствен­но­му выбо­ру…» [Мед­ве­де­ва 2021]. В свою оче­редь Д. Аза­риа, ана­ли­зи­руя сущ­ность ком­му­ни­ка­тив­ной интерак­ции в соци­аль­ных медиа, под­чер­ки­ва­ет, что такая плат­фор­ма, как YouTube, пред­став­ля­ет собой не толь­ко видео­хо­стинг, но и «видео­ше­ринг» [Azariah 2016], т. е. про­стран­ство сете­во­го муль­ти­пли­ка­тив­но­го обме­на дан­ны­ми. Не мень­шее вни­ма­ние иссле­до­ва­те­лей социо­ло­гии вло­го­сфе­ры при­вле­ка­ют вопро­сы воз­дей­ствия фор­мы и содер­жа­ния видео­кон­тен­та на ауди­то­рию и их вли­я­ния на потре­би­тель­ские стра­те­гии поль­зо­ва­те­лей [Lee, Watkins 2016; Choi, Lee 2019]. При­ме­ни­тель­но к тре­вел-вло­гам кон­ста­ти­ру­ет­ся кор­ре­ля­ция меж­ду объ­е­мом куль­тур­но и соци­аль­но зна­чи­мой инфор­ма­ции в бло­ге, а так­же потен­ци­а­лом иден­ти­фи­ка­ции зри­те­лей с вло­ге­ром, с одной сто­ро­ны, и веро­ят­но­стью выбо­ра поль­зо­ва­те­ля­ми пред­став­лен­но­го в виде­об­ло­ге реги­о­на в каче­стве направ­ле­ния соб­ствен­ных путе­ше­ствий — с дру­гой [Chen, Guo, Pan 2021; Xu et al. 2021].<

Линг­во­се­ми­о­ти­че­ское направ­ле­ние в изу­че­нии виде­об­ло­гов рас­смат­ри­ва­ет видео­кон­тент соци­аль­ных медиа как мас­сив осо­бых тек­стов поли­ко­до­вой и поли­мо­даль­ной при­ро­ды [Benson 2015]. В рам­ках направ­ле­ния иссле­ду­ют­ся как харак­тер вза­и­мо­дей­ствия раз­лич­ных зна­ко­вых систем в струк­ту­ре вло­га [Гре­бе­нев, Шаюк 2018], так и спе­ци­фи­ка вер­баль­но­го ком­по­нен­та видео­нар­ра­ти­ва. М. Фро­бе­ни­ус изу­ча­ла дис­кур­сив­ные стра­те­гии, исполь­зу­е­мые вло­ге­ра­ми в моно­ло­ги­че­ской речи для уста­нов­ле­ния и под­дер­жа­ния вир­ту­аль­но­го кон­так­та с ауди­то­ри­ей: при­вет­ствия, обра­ще­ния, язы­ко­вые мар­ке­ры смыс­ло­во­го чле­не­ния выска­зы­ва­ний и т. п. [Frobenius 2011]. Э. Вер­нер фоку­си­ру­ет вни­ма­ние на раз­но­об­ра­зии рито­ри­че­ских прак­тик виде­об­ло­гов, объ­еди­нен­ных экс­пли­ци­ру­е­мой «псев­до­ди­а­ло­гич­но­стью» [Werner 2012]. С. В. Мур­се­ка­е­ва, ана­ли­зи­руя дис­кур­сив­ный ста­тус вло­га в целом, харак­те­ри­зу­ет его как раз­но­вид­ность бытий­но­го пер­со­наль­но­го дис­кур­са [Мур­се­ка­е­ва 2017]. М. Йохан­сон отме­ча­ет, что YouTube-вло­ги откры­ва­ют перед линг­ви­ста­ми широ­кое и пока мало­изу­чен­ное поле для иссле­до­ва­ний праг­ма­ти­ки типич­ных ком­му­ни­ка­тив­ных актов, посколь­ку в них пред­став­ле­ны акту­аль­ные тен­ден­ции нефор­маль­но­го моно­ло­ги­че­ско­го и диа­ло­ги­че­ско­го дис­кур­са в соче­та­нии с реа­ли­за­ци­ей пат­тер­нов невер­баль­но­го пове­де­ния [Johansson 2017]. Основ­ную линг­ви­сти­че­скую цен­ность вло­га автор усмат­ри­ва­ет в оби­лии и доступ­но­сти мате­ри­а­ла для изу­че­ния раз­го­вор­ной или ква­зи­раз­го­вор­ной спон­тан­ной речи, кото­рые в реаль­ной жиз­ни эфе­мер­ны и слож­но фиксируются.

Тран­сла­то­ло­ги­че­ский аспект изу­че­ния соци­аль­ных медиа наи­ме­нее раз­ра­бо­тан. Основ­ной кор­пус работ в рам­ках дан­но­го направ­ле­ния состав­ля­ют иссле­до­ва­ния так назы­ва­е­мо­го «люби­тель­ско­го» суб­тит­ри­ро­ва­ния и дуб­ли­ро­ва­ния (fansub & fandub) игро­вых, ани­ма­ци­он­ных филь­мов и сери­а­лов, раз­ме­ща­е­мых на видео­хо­стин­гах [Nord, Khoshsaligheh, Ameri 2015; Vazquez-Calvo, Shafirova, Cassany 2019; Baños 2020]. Подроб­ный обзор лите­ра­ту­ры, посвя­щен­ной люби­тель­ско­му аудио­ви­зу­аль­но­му пере­во­ду, пред­став­лен в [Pérez-González 2019].

В моно­гра­фии Р. Дежар­ден [Desjardins 2017] пере­вод в соци­аль­ной сре­де рас­смат­ри­ва­ет­ся в тео­ре­ти­че­ской, дидак­ти­че­ской и прак­ти­че­ской плос­ко­стях. Автор отме­ча­ет, что в рам­ках соци­аль­ных медиа про­фес­си­о­наль­ное пере­вод­че­ское сооб­ще­ство задей­ство­ва­но при­му­ще­ствен­но в сфе­ре лока­ли­за­ции инфор­ма­ци­он­но­го и реклам­но­го кон­тен­та, раз­ме­ща­е­мо­го по зака­зу круп­ных меди­а­иг­ро­ков, стре­мя­щих­ся к рас­ши­ре­нию сво­е­го при­сут­ствия на рын­ках раз­ных стран. Поль­зо­ва­тель­ский же кон­тент нахо­дит­ся вне сфе­ры их вни­ма­ния, что вызва­ло к жиз­ни кон­цеп­цию так назы­ва­е­мо­го «поль­зо­ва­тель­ско­го пере­во­да» (user-generated translation), т. е. прак­ти­ку, субъ­ек­та­ми кото­рой явля­ют­ся инди­вид или вир­ту­аль­ное кра­уд­сор­син­го­вое сооб­ще­ство, выпол­ня­ю­щие функ­ции пере­вод­чи­ков на волон­тер­ских нача­лах [Desjardins 2017]. Такие «пере­вод­чи­ки-поль­зо­ва­те­ли» высту­па­ют в каче­стве ини­ци­а­то­ров, заказ­чи­ков и испол­ни­те­лей пере­во­да онлайн-кон­тен­та, автор­ство кото­ро­го при­над­ле­жит либо им самим, либо дру­гим поль­зо­ва­те­лям той или иной медиа­плат­фор­мы. Дан­ная модель подроб­но изу­че­на в эмпи­ри­че­ском иссле­до­ва­нии Е. С. Крас­но­пе­е­вой [Krasnopeyeva 2018], в рам­ках кото­ро­го ана­ли­зи­ро­ва­лись гене­зис, эво­лю­ция и прин­ци­пы функ­ци­о­ни­ро­ва­ния пере­вод­ных кана­лов рус­ско­языч­но­го сег­мен­та видео­хо­стин­га YouTube. Иссле­до­ва­тель­ни­це уда­лось пока­зать, что модель поль­зо­ва­тель­ско­го пере­во­да в пол­ной мере отра­жа­ет онто­ло­ги­че­ские свой­ства соци­аль­ных медиа как про­стран­ства интер­ак­тив­ной сете­вой ком­му­ни­ка­ции, в кото­ром поль­зо­ва­те­ли не толь­ко потреб­ля­ют видео­кон­тент, про­из­ве­ден­ный дру­ги­ми, и реа­ги­ру­ют на него посред­ством апро­ба­ци­он­но­го функ­ци­о­на­ла (лай­ков и ком­мен­та­ри­ев), но могут так­же высту­пать в каче­стве инди­ви­ду­аль­ных или кол­лек­тив­ных (со)авторов новых язы­ко­вых вер­сий исход­но­го видеоматериала.

В то же вре­мя про­из­вод­ствен­ный потен­ци­ал таких кана­лов крайне лими­ти­ро­ван: пере­вод здесь пред­став­ля­ет для их созда­те­лей, по сути, рекре­а­ци­он­ную дея­тель­ность, с чем свя­за­ны, в част­но­сти, нере­гу­ляр­ность или отно­си­тель­но низ­кая пери­о­дич­ность раз­ме­ще­ния новых пере­вод­ных мате­ри­а­лов, рав­но как и тот факт, что выбор объ­ек­та для суб­тит­ри­ро­ва­ния или перео­зву­чи­ва­ния отра­жа­ет, как пра­ви­ло, лич­ные инте­ре­сы и пред­по­чте­ния поль­зо­ва­те­ля11. Кро­ме того, воз­мож­ны огра­ни­че­ния раз­ме­ще­ния уже пере­ве­ден­ных видео на подоб­ных кана­лах, свя­зан­ные с нали­чи­ем автор­ских прав у созда­те­лей ори­ги­наль­ных аудио­ви­зу­аль­ных про­из­ве­де­ний. И, нако­нец, глав­ная про­бле­ма — кар­ди­наль­ная асим­мет­рия меж­ду срав­ни­тель­но неболь­шим чис­лом волон­те­ров-пере­вод­чи­ков, раз­ви­ва­ю­щих подоб­ные про­ек­ты, и поис­ти­не кол­ло­саль­ным объ­е­мом видео­кон­тен­та, еже­днев­но зали­ва­е­мо­го на плат­фор­му YouTube12. С уче­том все­го выше­из­ло­жен­но­го един­ствен­ным раци­о­наль­ным реше­ни­ем, направ­лен­ным на обес­пе­че­ние линг­ви­сти­че­ской доступ­но­сти видео на онлайн-плат­фор­мах подоб­ных YouTube, сле­ду­ет при­знать авто­ма­ти­че­ский (машин­ный) пере­вод.

В лите­ра­ту­ре пред­став­лен ряд работ, посвя­щен­ных язы­ко­вой поли­ти­ке отдель­ных соц­се­тей и той роли, кото­рую при­зван сыг­рать в ней авто­ма­ти­че­ский пере­вод [Lenihan 2014; Almahasees, Jaccomard 2020; и т. д.]. Х. Кар­ре­ра и соав­то­ры пола­га­ют, что машин­ный пере­вод явля­ет­ся опти­маль­ным вари­ан­том межъ­язы­ко­во­го транс­фе­ра поль­зо­ва­тель­ско­го кон­тен­та в соци­аль­ных медиа, при­ни­мая во вни­ма­ние фун­да­мен­таль­ные прин­ци­пы их функ­ци­о­ни­ро­ва­ния: доступ­ность, откры­тость, высо­кую актив­ность участ­ни­ков сете­вой ком­му­ни­ка­ции и необ­хо­ди­мость опе­ра­тив­ной пода­чи инфор­ма­ции [Carrera, Beregovaya, Yanishevsky 2009].

Исхо­дя из сооб­ра­же­ний линг­ви­сти­че­ской доступ­но­сти видео, раз­ме­ща­е­мых на сво­ей плат­фор­ме, YouTube в насто­я­щее вре­мя предо­став­ля­ет для мно­гих роли­ков опцию скры­тых внут­ри­я­зы­ко­вых суб­тит­ров (closed captioning) с после­ду­ю­щим пере­во­дом по запро­су на 300 язы­ков. Функ­ци­о­нал осно­ван на тех­но­ло­гии ней­рон­но­го машин­но­го пере­во­да тек­ста в реаль­ном вре­ме­ни Google translate. В дан­ной тех­но­ло­гии всплы­ва­ю­щие на экране пере­вод­ные суб­тит­ры пред­став­ля­ют собой про­дукт машин­но­го пре­об­ра­зо­ва­ния «тек­ста в текст» (T2T), кото­ро­му пред­ше­ству­ет ста­дия авто­ма­ти­че­ско­го рас­по­зна­ва­ния содер­жа­ния зву­ко­вой дорож­ки (ASR). Како­во бы ни было каче­ство таких пере­вод­ных суб­ти­ров, пред­ла­га­е­мое реше­ние, по всей веро­ят­но­сти, суще­ствен­ным обра­зом рас­ши­ря­ет ауди­то­рию зри­те­лей поль­зо­ва­тель­ско­го видео­кон­тен­та за пре­де­ла­ми англо­языч­ных стран13. Вме­сте с тем ста­ти­сти­ка пока­зы­ва­ет, что более 70 % про­смот­ров видео на YouTube осу­ществ­ля­ют­ся с исполь­зо­ва­ни­ем мобиль­ных устройств, из кото­рых 97% — смарт­фо­ны14. При этом в спе­ци­аль­ной лите­ра­ту­ре име­ет­ся ряд ука­за­ний на то, что малые габа­ри­ты экра­нов мобиль­ных устройств не толь­ко суще­ствен­но огра­ни­чи­ва­ют раз­ме­ры окна суб­тит­ров, но и могут зна­чи­тель­но ослож­нить вос­при­я­тие суб­тит­ри­ро­ван­ной вер­баль­ной инфор­ма­ции поль­зо­ва­те­ля­ми даже в слу­чае так назы­ва­е­мых «вши­тых» суб­тит­ров [Gerber-Morón, Soler-Vilageliu, Castellà 2020], не гово­ря уже о всплы­ва­ю­щих окнах суб­тит­ров авто­ма­ти­че­ских. При высо­ком тем­пе речи, свой­ствен­ном «раз­го­вор­ным» виде­ожан­рам, сме­на суб­тит­ров на экране может про­ис­хо­дить почти мол­ние­нос­но, что так­же не спо­соб­ству­ет ни пол­но­цен­ной когни­тив­ной обра­бот­ке посту­па­ю­щей зри­тель­но-вер­баль­ной инфор­ма­ции, ни ком­форт­но­му вос­при­я­тию видео­ро­ли­ка в целом. Кро­ме того, еще со вре­мен, когда фак­ти­че­ски един­ствен­ным видом аудио­ви­зу­аль­но­го пере­во­да являл­ся пере­вод филь­мов для после­ду­ю­ще­го про­ка­та в кино­те­ат­рах и транс­ля­ций на теле­ка­на­лах, во мно­гих стра­нах сло­жи­лась сво­е­го рода тра­ди­ция пред­по­чте­ний к той или иной фор­ме предъ­яв­ле­ния пере­вод­но­го кон­тен­та зри­те­лям. Рос­сия в этом отно­ше­нии — «стра­на дуб­ля­жа» [Bogucki, Dίaz-Cintas 2020]. Дру­ги­ми сло­ва­ми, оте­че­ствен­ный зри­тель в ситу­а­ци­ях про­смот­ра ино­языч­ных аудио­ви­зу­аль­ных про­из­ве­де­ний при­вык ско­рее слу­шать озву­чен­ный пере­вод, неже­ли читать субтитры.

В этой свя­зи круп­ней­шие ком­па­нии-про­вай­де­ры сете­вых инфор­ма­ци­он­ных тех­но­ло­гий ведут раз­ра­бот­ки систем авто­ма­ти­че­ско­го пере­во­да видео, в том чис­ле в режи­ме реаль­но­го вре­ме­ни (син­хрон­ный пере­вод интер­нет-транс­ля­ций), в кото­рых пере­вод­ной кон­тент предъ­яв­ля­ет­ся реци­пи­ен­там в зву­ча­щей фор­ме. В 2021 г. интер­нет-пор­тал «Яндекс» запу­стил сете­вое реше­ние авто­ма­ти­че­ско­го голо­со­во­го пере­во­да (АГП) видео, в насто­я­щее вре­мя доступ­ное всем поль­зо­ва­те­лям одно­имен­но­го бра­у­зе­ра. В каче­стве объ­ек­та пере­во­да могут высту­пать видео­ро­ли­ки, раз­ме­щен­ные на наи­бо­лее попу­ляр­ных хостин­гах откры­то­го досту­па, таких как YouTube, Vimeo и т. п. Ука­зав адрес ссыл­ки в адрес­ной стро­ке бра­у­зе­ра «Яндекс» и выбрав опцию «пере­во­да с помо­щью ней­ро­се­тей», поль­зо­ва­тель через счи­тан­ные мину­ты (дли­тель­ность под­го­тов­ки пере­во­да опре­де­ля­ет­ся раз­ме­ром исход­но­го видео­фай­ла) может перей­ти к про­смот­ру видео­ро­ли­ка, сопро­вож­да­ю­ще­го­ся зву­ча­щим пере­во­дом на рус­ский язык. Пере­вод­ная ауди­о­до­рож­ка пол­но­стью син­хро­ни­зи­ро­ва­на с ори­ги­наль­ной, рав­но как и с видео­ря­дом. Пере­вод может быть одно- или двух­го­лос­ным, при этом авто­ма­ти­че­ский выбор син­те­зи­ро­ван­но­го голо­са для озву­чи­ва­ния осу­ществ­ля­ет­ся на осно­ве ана­ли­за пола про­та­го­ни­стов в кад­ре: «муж­ской» голос — для про­та­го­ни­стов-муж­чин, «жен­ский» — для жен­щин. Нема­ло­важ­но так­же, что АГП явля­ет­ся вир­ту­аль­ным про­дук­том: пере­вод­ная ауди­о­до­рож­ка хра­нит­ся на сер­ве­ре «Яндекс», а не раз­ме­ща­ет­ся на аль­тер­на­тив­ном кана­ле видео­хо­стин­га, что поз­во­ля­ет избе­жать нару­ше­ний автор­ских прав созда­те­лей ори­ги­наль­но­го контента.

Модель АГП, раз­ви­ва­е­мая ком­па­ни­ей «Яндекс», схе­ма­тич­но пред­став­ле­на нами на рисун­ке и отно­сит­ся к чис­лу так назы­ва­е­мых кас­кад­ных алго­рит­мов машин­но­го пере­во­да. Цен­траль­ным зве­ном моде­ли, так же как и в слу­чае скры­тых суб­тит­ров, явля­ет­ся T2T-пре­об­ра­зо­ва­ние, т. е. соб­ствен­но меж­тек­сто­вый пере­вод, одна­ко с уче­том того, что как на вхо­де, так и на выхо­де систе­мы рас­по­ла­га­ет­ся зву­ко­ре­че­вой сиг­нал, такую модель мож­но услов­но обо­зна­чить как S2T2T2S(speechto-text-to и text-to-speech)15

Рис. Типо­вая схе­ма осу­ществ­ле­ния «кас­кад­но­го» голо­со­во­го перевода

Разу­ме­ет­ся, здесь, как и во всех сфе­рах исполь­зо­ва­ния авто­ма­ти­че­ско­го пере­во­да, клю­че­вым явля­ет­ся вопрос каче­ства. В ситу­а­ци­ях машин­но­го пере­во­да функ­ци­о­наль­ных моно­мо­даль­ных тек­стов, огре­хи ниве­ли­ру­ют­ся или мини­ми­зи­ру­ют­ся с помо­шью пост­ре­дак­ти­ро­ва­ния, выпол­не­ние кото­ро­го воз­ла­га­ет­ся на пере­вод­чи­ка-редак­то­ра. В слу­чае АГП, инкор­по­ри­ру­е­мо­го в струк­ту­ру социо­ме­дий­ной ком­му­ни­ка­ции, пост­ре­дак­ти­ро­ва­ние не пред­став­ля­ет­ся воз­мож­ным. АГП сете­вых видео явля­ет­ся конеч­ным вир­ту­аль­ным про­дук­том, ква­ли­ти­тив­ные пока­за­те­ли кото­ро­го в задан­ном фор­ма­те не могут быть опти­ми­зи­ро­ва­ны редак­то­ром, что в извест­ном смыс­ле уже­сто­ча­ет тре­бо­ва­ния к вос­при­ни­ма­е­мо­му адре­са­том каче­ству перевода. 

Обще­тео­ре­ти­че­ским и при­клад­ным вопро­сам оце­ни­ва­ния каче­ства пере­во­да посвя­ще­но вну­ши­тель­ное коли­че­ство работ (см. подроб­ный обзор в [Han 2020]). В том, что каса­ет­ся машин­но­го пере­во­да, его каче­ство в прин­ци­пе может оце­ни­вать­ся как экс­перт­ным мето­дом, так и с исполь­зо­ва­ни­ем авто­ма­ти­че­ских мет­рик. Посколь­ку пер­вый путь часто рас­смат­ри­ва­ет­ся как ресур­со­за­трат­ный и субъ­ек­тив­ный, в боль­шин­стве эва­лю­а­тив­ных иссле­до­ва­ний при­ме­ня­ет­ся авто­ма­ти­че­ская оцен­ка: систе­ма­ти­че­ское сопо­став­ле­ние оце­ни­ва­е­мо­го пере­во­да с рефе­рент­ным («эта­лон­ным» тек­стом на пере­во­дя­щем язы­ке) на пред­мет лек­си­ко-син­так­си­че­ско­го подо­бия. [Castilho et al. 2018], а наи­бо­лее попу­ляр­ным инстру­мен­том оце­ни­ва­ния высту­па­ет N‑граммный алго­ритм BLEU (обзор и прин­ци­пы рабо­ты раз­лич­ных мет­рик при­ве­де­ны в [Сос­нин, Бала­ки­на, Кащи­хин 2022]). В то же вре­мя при­ме­не­ние подоб­ных мет­рик к оцен­ке каче­ства голо­со­во­го пере­во­да аудио­ви­зу­аль­ных про­из­ве­де­ний в целом и АГП видео­кон­тен­та соци­аль­ных медиа в част­но­сти пред­став­ля­ет­ся мало­пер­спек­тив­ным по цело­му ряду при­чин. Во-пер­вых, алго­рит­мы авто­ма­ти­че­ско­го оце­ни­ва­ния пред­на­зна­че­ны для ана­ли­за исклю­чи­тель­но вер­баль­но-тек­сто­во­го ком­по­нен­та в тер­ми­нах поверх­ност­ной струк­ту­ры (лек­си­че­ские сов­па­де­ния, бли­зость син­так­си­че­ской орга­ни­за­ции), они не поз­во­ля­ют оце­нить пара­линг­ви­сти­че­ские пара­мет­ры зву­ча­ще­го пере­во­да (ритм, инто­на­цию, каче­ство голо­са и т. п.). Во-вто­рых, мате­ма­ти­че­ские мет­ри­ки оце­ни­ва­ния не име­ют досту­па к визу­аль­но­му кон­тек­сту объ­ек­та пере­во­да, что затруд­ня­ет выне­се­ние систе­мой суж­де­ний о кор­рект­но­сти ситу­а­тив­но­го выбо­ра межъ­язы­ко­во­го соот­вет­ствия, опо­рой для кото­ро­го мог бы слу­жить видео­ряд [Burchardt et al. 2016]. В этом смыс­ле и экс­перт­ный метод может ока­зать­ся мало­ре­пре­зен­та­тив­ным в тех слу­ча­ях, когда непо­сред­ствен­ным объ­ек­том оце­ни­ва­ния высту­па­ет не целост­ное аудио­ви­зу­аль­ное про­из­ве­де­ние, а лишь его тран­скрипт (вто­рич­ная пись­мен­ная фик­са­ция вер­баль­но­го ком­по­нен­та) [Gambier 2019]. Нако­нец, спе­ци­фи­ка лек­си­ко­на и в осо­бен­но­сти син­так­си­че­ской орга­ни­за­ции уст­но­по­рож­да­е­мой раз­го­вор­ной речи может суще­ствен­но затруд­нять авто­ма­ти­че­скую сег­мен­та­цию тран­скрип­тов и при­во­дить к дегра­да­ции реле­вант­но­сти сопо­став­ле­ния тек­сто­вых сег­мен­тов [Burchardt et al. 2016]. Послед­нее пре­пят­ствие отча­сти пре­одо­ли­мо путем дли­тель­но­го обу­че­ния систе­мы оце­ни­ва­ния каче­ства транс­ля­та на обшир­ных кор­пу­сах раз­го­вор­ных тек­стов, одна­ко такие меро­при­я­тия тре­бу­ют зна­чи­тель­ных временны´х и инфор­ма­ци­он­ных ресур­сов. Все эти сооб­ра­же­ния застав­ля­ют уче­ных при оцен­ке каче­ства машин­но­го пере­во­да аудио­ви­зу­аль­ных про­из­ве­де­ний исполь­зо­вать ком­плекс­ный экс­перт­но­ма­те­ма­ти­че­ский под­ход [Fernández, Matamala 2015] или раз­ра­ба­ты­вать соб­ствен­ные мно­го­мер­ные и гро­мозд­кие мет­ри­ки оце­ни­ва­ния [Burchardt et al. 2016]. «Руч­ная» (экс­перт­ная) оцен­ка пред­по­ла­га­ет сопо­став­ле­ние тек­стов ори­ги­на­ла и пере­во­да в тер­ми­нах экви­ва­лент­но­сти (на лек­си­ко-семан­ти­че­ском, сти­ли­сти­че­ском, реже — син­так­си­че­ском уров­нях), а так­же ана­лиз язы­ко­вых качеств пере­во­да, преж­де все­го его соот­вет­ствие нор­ме и узу­су пере­во­дя­ще­го язы­ка [RiveraTrigueros 2022]16. В то же вре­мя Дж. Хаус пола­га­ет, что линг­ви­сти­че­ский ана­лиз не может высту­пать в каче­стве един­ствен­но­го инстру­мен­та оце­ни­ва­ния пере­во­да. Без уче­та соци­аль­ной (меж­лич­ност­ной) функ­ции, кото­рую пере­вод­ной текст выпол­ня­ет по отно­ше­нию к реаль­ным или потен­ци­аль­ным полу­ча­те­лям, оцен­ка его каче­ства ока­жет­ся одно­бо­кой, абстракт­ной и выхо­ло­щен­ной. Ины­ми сло­ва­ми, для фор­ми­ро­ва­ния пол­но­цен­но­го пред­став­ле­ния о каче­стве пере­во­да важ­ны не толь­ко оцен­ки экс­пер­тов-линг­ви­стов, но и субъ­ек­тив­ные суж­де­ния не обла­да­ю­щих про­фес­си­о­наль­ны­ми ком­пе­тен­ци­я­ми поль­зо­ва­те­лей, даже если послед­ние огра­ни­чи­ва­ют­ся упро­щен­ной дихо­то­ми­ей «пло­хой / хоро­ший пере­вод» [House 2015].

Отдель­ным аспек­том про­бле­мы явля­ет­ся фор­ма предъ­яв­ле­ния пере­вод­но­го кон­тен­та реци­пи­ен­там. Гово­ря о поль­зо­ва­те­лях аудио­ви­зу­аль­но­го пере­во­да, И. Гам­бье отме­ча­ет, что в подоб­ной ситу­а­ции целе­со­об­раз­но учи­ты­вать не толь­ко харак­тер «рецеп­ции», но и осо­бен­но­сти «пер­цеп­ции» мате­ри­а­ла [Gambier 2009]. Оче­вид­но, что в подав­ля­ю­щем боль­шин­стве работ, посвя­щен­ных вос­при­ни­ма­е­мо­му каче­ству пере­во­да, ана­ли­зи­ро­вал­ся пись­мен­ный пере­вод. Зна­чи­тель­но реже изу­ча­лось вос­при­я­тие уст­но­го, глав­ным обра­зом син­хрон­но­го, пере­во­да [Kurz 2001]. Одна­ко эти иссле­до­ва­ния пока­за­ли важ­ную роль пара­линг­ви­сти­че­ских пара­мет­ров (ритм, инто­на­ция, тембр голо­са и т. п.) в созда­нии впе­чат­ле­ния о каче­стве пере­во­да при вос­при­я­тии на слух [Aís, Spinolo, Garwood 2016]. В этом отно­ше­нии АГП видео при­бли­жа­ет­ся к уст­но­му пере­во­ду, посколь­ку здесь пере­вод­ной кон­тент так­же предъ­яв­ля­ет­ся поль­зо­ва­те­лю в виде аку­сти­че­ско­го сиг­на­ла. Вме­сте с тем аудио­ви­зу­аль­ное вос­при­я­тие явля­ет­ся по опре­де­ле­нию бимо­даль­ным и мно­го­ка­наль­ным и, хотя пере­во­ду под­вер­га­ет­ся исклю­чи­тель­но ауди­о­до­рож­ка, зри­те­ли име­ют воз­мож­ность сопо­став­лять содер­жа­ние зву­ча­ще­го вер­баль­но­го ком­по­нен­та с дина­ми­че­ским изоб­ра­же­ни­ем (видео­ря­дом). Отсю­да, с одной сто­ро­ны, нали­чие визу­аль­ных кана­лов инфор­ма­ции облег­ча­ет вос­при­я­тие видео­ро­ли­ка и дает пере­вод­чи­ку-чело­ве­ку «под­сказ­ки», спо­соб­ству­ю­щие адек­ват­ной интер­пре­та­ции исход­но­го вер­баль­но­го ком­по­нен­та, а с дру­гой, может высту­пать в каче­стве фак­то­ра, ослож­ня­ю­ще­го вос­при­я­тие, в тех слу­ча­ях когда изоб­ра­же­ние и резуль­тат машин­но­го пере­во­да кон­флик­ту­ют меж­ду собой.

Мето­до­ло­гия иссле­до­ва­ний АГП чрез­вы­чай­но мало раз­ра­бо­та­на. К. Ортис­Бойш и А. Мата­ма­ла, изу­чав­шие в кон­тра­стив­ном аспек­те вос­при­я­тие про­фес­си­о­наль­но­го и машин­но­го пере­во­да с пост­ре­дак­ти­ро­ва­ни­ем науч­но-попу­ляр­ных филь­мов, пред­ло­жи­ли трех­уров­не­вую модель оце­ни­ва­ния (рей­тин­го­ва­ния) с при­вле­че­ни­ем в каче­стве участ­ни­ков зри­те­лей, пере­вод­чи­ков-экс­пер­тов и спе­ци­а­ли­стов по дуб­ля­жу и закад­ро­во­му озву­чи­ва­нию [Ortiz-Boix, Matamala 2015]. Посколь­ку насто­я­щее иссле­до­ва­ния име­ло основ­ной зада­чей ана­лиз вос­при­ни­ма­е­мо­го каче­ства АГП выпус­ков англо­языч­ных тре­вел-вло­гов, мы при раз­ра­бот­ке его мето­дов во мно­гом опи­ра­лись на про­це­ду­ру, пред­ло­жен­ную в ука­зан­ной рабо­те, оста­но­вив свой выбор на мето­дах двой­но­го субъ­ект­но-реци­пи­ент­но­го и экс­перт­но-ана­ли­ти­че­ско­го оценивания.

Описание методики исследования

Мате­ри­а­лом для ком­пи­ля­ции кор­пу­са насто­я­ще­го иссле­до­ва­ния послу­жи­ли три выпус­ка тре­вел-вло­гов, раз­ме­щен­ных на лич­ных кана­лах видео­хо­стин­га YouTube и при­над­ле­жа­щих автор­ству англо­языч­ных виде­об­ло­ге­ров (по одно­му видео­сю­же­ту из каж­до­го влога):

1) “Kandy to Ella train”, видео кана­ла PsychoTraveller бри­тан­ки Aly; про­дол­жи­тель­ность — 12:21˝17;

2) “Why should you visit Norway — Unspoken Paradise”, видео­ка­на­ла Lost LeBlanc канад­ца Christian Leblanc; про­дол­жи­тель­ность — 13:30˝18;

3) “I took an extreame Russian bath and I lost my mind” видео, раз­ме­щен­но­е­а­ме­ри­кан­цем Drew Binsky наод­но­имен­ном­ка­на­ле; про­дол­жи­тель­ность — 11:31˝19.

Ссыл­ки на видео были загру­же­ны в веб-бра­у­зер «Яндекс» и пере­ве­де­ны в авто­ма­ти­че­ском режи­ме. Ори­ги­наль­ные и пере­вод­ные видеодо­рож­ки были запи­са­ны на элек­трон­ный носи­тель и затем транс­кри­би­ро­ва­ны с исполь­зо­ва­ни­ем про­це­ду­ры полу­ав­то­ма­ти­че­ской транс­кри­ба­ции (авто­ма­ти­че­ская транс­кри­ба­ция с пост­ре­дак­ти­ро­ва­ни­ем)20. Один из видео­ро­ли­ков (№ 3) был так­же пере­ве­ден про­фес­си­о­наль­ным аудио­ви­зу­аль­ным пере­вод­чи­ком для после­ду­ю­ще­го закад­ро­во­го озву­чи­ва­ния. Текст пере­во­да был пре­об­ра­зо­ван в зву­ча­щую речь с исполь­зо­ва­ни­ем систе­мы T2S откры­то­го досту­па (Яндекс) и запи­сан с на вир­ту­аль­ном дик­то­фоне Moo0. При этом син­те­зи­ро­ван­ный голос сов­па­дал с пара­мет­ра­ми «голо­са», создан­но­го на осно­ве рече­вых сэмплов чат-бота Али­са. Эта мани­пу­ля­ция была необ­хо­ди­ма в свя­зи с тем, что имен­но ука­зан­ным голо­сом озву­чи­ва­ют­ся гово­ря­щие­жен­щи­ны в голо­со­вом виде­о­пе­ре­вод­чи­ке Яндекс. Полу­чен­ный аудио­файл был сохра­нен в каче­стве зву­ко­вой дорож­ки одно­го из аудио­ка­на­лов и син­хро­ни­зи­ро­ван с ори­ги­наль­ным изоб­ра­же­ни­ем, при этом звук дру­го­го аудио­ка­на­ла (ори­ги­наль­ное аудио) был при­глу­шен. Таким обра­зом, кор­пус иссле­до­ва­ния соста­ви­ли три видео, семь ауди­о­до­ро­жек (три исход­ные, три авто­ма­ти­че­ски пере­ве­ден­ные и одна пере­ве­ден­ная про­фес­си­о­наль­ным пере­вод­чи­ком), шесть тран­скрип­тов (три ори­ги­наль­ных зву­ча­щих тек­ста и три пере­ве­ден­ных с исполь­зо­ва­ни­ем ресур­са «Яндекс.Переводчик»).

Экс­пе­ри­мент, про­во­див­ший­ся в фор­ме опро­са, имел сво­ей целью оха­рак­те­ри­зо­вать вос­при­ни­ма­е­мое каче­ство АГП англо­языч­ных тре­вел-вло­гов на рус­ский язык в холи­сти­че­ской и ана­ли­ти­че­ской перспективе.

В каче­стве участ­ни­ков к экс­пе­ри­мен­ту были при­вле­че­ны две груп­пы информантов:

1) 48 носи­те­лей рус­ско­го язы­ка, не име­ю­щих линг­ви­сти­че­ско­го обра­зо­ва­ния и не зани­ма­ю­щих­ся пере­во­дом как про­фес­си­о­наль­ной деятельностью;

2) 3 про­фес­си­о­наль­ных аудио­ви­зу­аль­ных пере­вод­чи­ка, рабо­та­ю­щих в язы­ко­вой ком­би­на­ции «англий­ский — рус­ский» (опыт рабо­ты от 7 до 16 лет).

Отбор инфор­ман­тов пер­вой груп­пы про­хо­дил по резуль­та­там пред­ва­ри­тель­но­го анке­ти­ро­ва­ния. Пер­во­на­чаль­но в несколь­ких соци­аль­ных сетях было раз­ме­ще­но объ­яв­ле­ние, при­гла­ша­ю­щее к уча­стию в иссле­до­ва­нии на тему виде­об­ло­гов о путе­ше­стви­ях. Были полу­че­ны заяв­ки на уча­стие в каче­стве респон­ден­тов от 83 чело­век. Анке­ти­ро­ва­ние име­ло сво­ей целью отобрать из чис­ла доб­ро­воль­цев лиц, про­яв­ля­ю­щих инте­рес к теме инди­ви­ду­аль­ных путе­ше­ствий, регу­ляр­но или спо­ра­ди­че­ски про­смат­ри­ва­ю­щих выпус­ки тре­вел-вло­гов в соци­аль­ных медиа и не вла­де­ю­щих англий­ским язы­ком на уровне, доста­точ­ном для про­смот­ра и уве­рен­но­го пони­ма­ния англо­языч­ных виде­ро­ли­ков в ори­ги­на­ле. Ука­зан­ные кри­те­рии могут рас­смат­ри­вать­ся как клю­че­вые при иден­ти­фи­ка­ции целе­вой ауди­то­рии голо­со­во­го пере­во­да виде­об­ло­гов. Все­го было ото­бра­но 55 чело­век, свое уча­стие в экс­пе­ри­мен­те окон­ча­тель­но под­твер­ди­ли 48, из кото­рых 27 — муж­чи­ны и 21 — жен­щи­ны. Воз­раст инфор­ман­тов пер­вой груп­пы колеб­лет­ся в пре­де­лах 18–49 лет при меди­ане 26 лет.

В каче­стве экс­пе­ри­мен­таль­но­го зада­ния участ­ни­кам пер­вой груп­пы пред­ла­га­лось про­смот­реть в режи­ме реаль­но­го вре­ме­ни два выпус­ка тре­вел-вло­гов, сопро­вож­да­е­мых авто­ма­ти­че­ским голо­со­вым пере­во­дом на рус­ский язык от Яндекс, и один видео­ро­лик, пере­вод кото­ро­го был выпол­нен про­фес­си­о­наль­ным испол­ни­те­лем, а затем озву­чен с помо­щью сете­во­го реше­ния T2S (см. выше). Инфор­ман­ты не посвя­ща­лись в тех­но­ло­ги­че­ские осо­бен­но­сти созда­ния пере­вод­ных ауди­о­до­ро­жек. По окон­ча­нии про­смот­ра каж­до­го видео­ро­ли­ка участ­ни­кам пред­ла­га­лось дать отве­ты на пер­вый раз­дел вопро­сов анке­ты. Отве­ты на остав­ши­е­ся вопро­сы дава­лись после про­смот­ра всех трех видео. Дан­ный этап экс­пе­ри­мен­та про­во­дил­ся с исполь­зо­ва­ни­ем средств видео-кон­фе­ренц-свя­зи и инстру­мен­тов онлайн-опро­сов в три сес­сии, про­дол­жи­тель­но­стью око­ло 90 мин каждая.

Опрос­ник раз­ра­ба­ты­вал­ся с целью полу­че­ния дан­ных, харак­те­ри­зу­ю­щих три основ­ных аспек­та рецеп­ции аудио­ви­зу­аль­ных про­из­ве­де­ний: пони­ма­ние, инте­рес / ком­форт­ность про­смот­ра и пред­по­чте­ния поль­зо­ва­те­лей [Gambier 2019] — и содер­жал три кате­го­рии вопросов:

1) вопро­сы с аль­тер­на­тив­ным выбо­ром отве­тов, напри­мер: «мне дово­ди­лось смот­реть выпус­ки вло­гов на англий­ском язы­ке с рус­ски­ми суб­тит­ра­ми», «я про­смот­ри­ваю толь­ко выпус­ки виде­об­ло­гов в рус­ско­языч­ном сег­мен­те сети» и т. п.;

2) вопро­сы закры­то­го типа, пред­став­ля­ю­щие собой утвер­жде­ния с мно­же­ствен­ным выбо­ром из пяти вари­ан­тов по шка­ле Ликер­та от «абсо­лют­но не согла­сен» до «пол­но­стью согла­сен», напри­мер: «мне было инте­рес­но смот­реть дан­ное видео», «я с удо­воль­стви­ем смотрел(-а) бы выпус­ки тре­вел-вло­гов с закад­ро­вым пере­во­дом на рус­ский язык, если бы такая тех­но­ло­гия была доступ­ной»;

3) вопро­сы откры­то­го типа и раз­дел допол­ни­тель­ных ком­мен­та­ри­ев в сво­бод­ной фор­ме, напри­мер: «Были ли в пере­во­де момен­ты, кото­рые оста­лись вам непо­нят­ны? (Какие имен­но?)». Отве­ты на вопро­сы дан­но­го типа в даль­ней­шем систе­ма­ти­зи­ро­ва­лись с целью выяв­ле­ния рекур­рент­ных впечатлений.

Вто­рой груп­пе инфор­ман­тов (про­фес­си­о­наль­ные аудио­ви­зу­аль­ные пере­вод­чи­ки) в каче­стве сти­му­лов были пред­ло­же­ны не толь­ко видео­ро­ли­ки с пере­вод­ны­ми ауди­о­до­рож­ка­ми, но и тран­скрип­ты ори­ги­наль­ных зву­ко­вых доро­жек и их пере­во­ды на рус­ский язык. Поми­мо отве­тов на вопро­сы анке­ты, рас­кры­ва­ю­щие вос­при­ни­ма­е­мое каче­ство пере­во­да, экс­пер­там пред­ла­га­лось так­же отре­дак­ти­ро­вать тек­сты пере­во­дов для после­ду­ю­ще­го озву­чи­ва­ния, т. е. вне­сти необ­хо­ди­мые, на их взгляд, исправ­ле­ния. Оце­ни­ва­ние каче­ства пере­во­да видео груп­пой экс­пер­тов про­во­ди­лось в два эта­па. На пер­вом эта­пе инфор­ман­ты осу­ществ­ля­ли ана­ли­ти­че­скую оцен­ку зву­ча­щих пере­во­дов в каче­стве «про­фес­си­о­наль­ных зри­те­лей», отве­чая на вопро­сы анке­ты. Участ­ни­кам груп­пы экс­пер­тов, в отли­чие от респон­ден­тов пер­вой груп­пы, предъ­яв­ля­лись после­до­ва­тель­но видео с ори­ги­наль­ной и пере­вод­ной ауди­о­до­рож­ка­ми. Дан­ный этап про­во­дил­ся в онлайн-режи­ме в три сес­сии, про­дол­жи­тель­но­стью око­ло 100 мин каж­дая. Опрос­ник, пред­ло­жен­ный груп­пе аудио­ви­зу­аль­ных пере­вод­чи­ков, содер­жал мат­ри­цу оце­ни­ва­ния, кото­рая была раз­ра­бо­та­на с уче­том про­фес­си­о­наль­но­го ста­ту­са участ­ни­ков, и пред­по­ла­гал оцен­ку пара­мет­ров каче­ства голо­со­во­го пере­во­да на осно­ве пер­цеп­тив­ных впе­чат­ле­ний по пяти­балль­ной шкале.

На вто­ром эта­пе экс­пер­ты осу­ществ­ля­ли редак­ти­ро­ва­ние тек­стов в инди­ви­ду­аль­ном режи­ме в пре­де­лах недель­но­го сро­ка и пред­став­ля­ли резуль­та­ты сво­их пра­вок в элек­трон­ном виде. В завер­ше­ние рабо­ты экс­пер­там пред­ла­га­лось сопро­во­дить выпол­нен­ные прав­ки ком­мен­та­ри­я­ми в сво­бод­ной фор­ме. Исправ­ле­ния, пред­ло­жен­ные пере­вод­чи­ка­ми для каж­до­го тек­ста, в даль­ней­шем ана­ли­зи­ро­ва­лись и систе­ма­ти­зи­ро­ва­лись в соот­вет­ствии с кате­го­ри­я­ми и пара­мет­ра­ми, кото­рые были сфор­му­ли­ро­ва­ны в мат­ри­це оце­ни­ва­ния, исполь­зо­ван­ной на преды­ду­щем этапе.

Анализ материала и результаты исследования

1. Социо­ло­ги­че­ский аспект.

Как пока­зал опрос пред­ста­ви­те­лей ауди­то­рии тре­вел-вло­гов (табл. 1), дан­ный жанр видео­кон­тен­та соци­аль­ных медиа может ока­зать зна­чи­тель­ное вли­я­ние на пред­по­чте­ния зри­те­лей в выбо­ре направ­ле­ния соб­ствен­ных путе­ше­ствий и их прак­ти­че­ское пла­ни­ро­ва­ние (77 и 67 % опро­шен­ных соот­вет­ствен­но). При этом боль­шин­ство тех, кто инте­ре­су­ет­ся тре­вел-вло­га­ми, счи­та­ют себя актив­ны­ми поль­зо­ва­те­ля­ми соци­аль­ных медиа (85 %), под­пи­са­ны хотя бы на один тре­вел-канал (73 %), обра­ща­ют­ся в поис­ках инфор­ма­ции не толь­ко к видео­хо­стин­гу YouTube, но и к дру­гим плат­фор­мам, на кото­рых раз­ме­ща­ет­ся видео (77 %). В то же вре­мя 58 % респон­ден­тов явля­ют­ся зри­те­ля­ми исклю­чи­тель­но рус­ско­языч­ных тре­вел-кана­лов. Остав­ши­е­ся 42 % при про­смот­ре ино­языч­но­го кон­тен­та поль­зу­ют­ся скры­ты­ми суб­тит­ра­ми на рус­ском языке.

Разу­ме­ет­ся, подоб­ные дан­ные во мно­гом обу­слов­ле­ны мето­ди­кой отбо­ра участ­ни­ков опро­са, о кото­рой мы гово­ри­ли выше. Боль­ше поло­ви­ны опро­шен­ных — 54 % моти­ви­ро­ва­ли свой выбор недо­ста­точ­ным уров­нем пони­ма­ния англий­ской речи на слух. Еще 42 % ука­за­ли, что счи­та­ют чте­ние суб­тит­ров фак­то­ром, ослож­ня­ю­щим вос­при­я­тие видео­ря­да аудио­ви­зу­аль­но­го про­из­ве­де­ния. Сопо­став­ляя выше­ука­зан­ную ста­тист­ку с дан­ны­ми холи­сти­че­ской оцен­ки голо­со­во­го пере­во­да тре­вел-вло­гов (табл. 2), по ито­гам кото­рой от 41 до 87 % инфор­ман­тов заяви­ли, что с удо­воль­стви­ем смот­ре­ли бы видео ино­языч­ных бло­ге­ров с голо­со­вым пере­во­дом, мож­но кон­ста­ти­ро­вать, что соци­аль­ный запрос на пере­вод тако­го рода сфор­ми­ро­ван или, по край­ней мере, нахо­дит­ся в ста­дии сво­е­го фор­ми­ро­ва­ния. Одна­ко при том, что 60 % участ­ни­ков опро­са извест­но о суще­ство­ва­нии обще­до­ступ­но­го голо­со­во­го пере­во­да интер­нет-видео от Яндекс, лишь двое (4 %) из 48 респон­ден­тов до про­ве­де­ния экс­пе­ри­мен­та исполь­зо­ва­ли дан­ную тех­но­ло­гию при про­смот­ре видео о путешествиях.

Таблица 1. Вовлеченность респондентов в тревел-влогосферу (n = 48)
Инди­ка­тор вовлеченностиКоли­че­ство респон­ден­тов, чел.Коли­че­ство респон­ден­тов, %
Счи­та­ют себя актив­ны­ми поль­зо­ва­те­ля­ми соци­аль­ных медиа4185
Про­смат­ри­ва­ют видео­кон­тент на кана­лах видео­хо­стин­га YouTube48100
Про­смат­ри­ва­ют видео­кон­тент в иных соци­аль­ных медиа3777
Регу­ляр­но про­смат­ри­ва­ют выпус­ки тре­вел-вло­гов и под­пи­са­ны хотя бы на один из них3273
Спо­ра­ди­че­ски про­смат­ри­ва­ют выпус­ки тревел-влогов1633
Остав­ля­ют ком­мен­та­рии, раз­ме­ща­ют ссыл­ки на внеш­ний кон­тент на стра­ни­цах тревел-влогов1429
Ори­ен­ти­ру­ют­ся на инфор­ма­цию тре­вел-вло­гов при выбо­ре направ­ле­ний соб­ствен­ных уже осу­ществ­лен­ных или пла­ни­ру­е­мых путешествий3777
Чер­па­ют из тре­вел-вло­гов прак­ти­че­скую инфор­ма­цию по орга­ни­за­ции путешествий3267
Пла­ни­ру­ют в буду­щем стать тревел-влогерами715
Явля­ют­ся зри­те­ля­ми вло­гов толь­ко рус­ско­языч­но­го сег­мен­та соци­аль­ных медиа2858
Про­смат­ри­ва­ют выпус­ки вло­гов на англий­ском язы­ке с исполь­зо­ва­ни­ем внут­ри­я­зы­ко­вых субтитров919
Про­смат­ри­ва­ют выпус­ки вло­гов на англий­ском язы­ке с исполь­зо­ва­ни­ем пере­вод­ных субтитров2042
Не смот­рят выпус­ки англо­языч­ных тре­вел-вло­гов, посколь­ку не вла­де­ют англий­ским язы­ком на уровне пони­ма­ния зву­ча­щей речи в доста­точ­ной степени2654
Не смот­рят выпус­ки англо­языч­ных тре­вел-вло­гов с суб­тит­ра­ми на рус­ском язы­ке, посколь­ку чте­ние суб­тит­ров отвле­ка­ет от визу­аль­но­го вос­при­я­тия видеоряда1940
Слы­ша­ли или чита­ли о воз­мож­но­стях обще­до­ступ­но­го голо­со­во­го пере­во­да видео от Яндекс2960
Про­смат­ри­ва­ют выпус­ки вло­гов на англий­ском язы­ке с исполь­зо­ва­ни­ем голо­со­во­го перевода24

2. Холи­сти­че­ская оценка.

При­ме­ча­тель­но, что по ходу экс­пе­ри­мен­та инфор­ман­ты несколь­ко меня­ли свое отно­ше­ние к авто­ма­ти­че­ско­му голо­со­во­му пере­во­ду: после про­смот­ра пер­во­го видео коли­че­ство тех, кто заявил, что ско­рее все­го или одно­знач­но будет поль­зо­вать­ся дан­ным реше­ни­ем для про­смот­ра тре­вел-вло­гов соста­ви­ло сум­мар­но 41 %, после вто­ро­го — 50 % и, нако­нец, после про­смот­ра тре­тье­го видео (про­фес­си­о­наль­ный пере­вод, озву­чен­ный с исполь­зо­ва­ни­ем тех­но­ло­гий син­те­за речи) — 87 %. Здесь напра­ши­ва­ют­ся как мини­мум два пред­по­ло­же­ния о при­чи­нах такой дина­ми­ки. Во-пер­вых, с про­смот­ром каж­до­го ново­го видео, веро­ят­но, уве­ли­чи­вал­ся поль­зо­ва­тель­ский опыт, «при­вы­ка­ние» зри­те­лей к дан­но­му виду предъ­яв­ле­ния пере­вод­ной инфор­ма­ции. Во-вто­рых, авто­кор­рек­ция мне­ний респон­ден­тов о при­ем­ле­мо­сти для них тако­го пере­во­да отча­сти кор­ре­ли­ру­ет с их пер­цеп­тив­ны­ми впе­чат­ле­ни­я­ми о его каче­стве. Так, для пер­во­го и вто­ро­го видео про­цент инфор­ман­тов, заявив­ших о пол­ном пони­ма­нии все­го, о чем гово­ри­лось в роли­ке, соста­вил 25 и 48 % соот­вет­ствен­но. Для тре­тье­го роли­ка этот пока­за­тель вырос уже до 88 %. Обрат­ная зави­си­мость (тен­ден­ция к регрес­сии вос­при­ни­ма­е­мо­го при­зна­ка) наблю­да­лась при харак­те­ри­за­ции впе­чат­ле­ний о лаку­нах в пере­во­де (4, 2 и 0 %) и непри­выч­ных с точ­ки зре­ния зри­те­лей рече­вых кон­струк­ций (90, 76 и 2 %).

Отдель­но­го вни­ма­ния заслу­жи­ва­ет вопрос о вос­при­ни­ма­е­мом каче­стве озву­чи­ва­ния пере­во­да, точ­нее той сте­пе­ни, в кото­рой син­те­зи­ро­ван­ная пере­вод­ная дорож­ка при­бли­жа­лась по зву­ча­нию к есте­ствен­ной чело­ве­че­ской речи, кото­рую мы слы­шим, напри­мер, от рус­ско­языч­ных виде­об­ло­ге­ров или с экра­нов теле­ви­зо­ра. Напом­ним, что все три пере­во­да были озву­че­ны с исполь­зо­ва­ни­ем одной и той же систе­мы син­те­за речи, с той лишь раз­ни­цей, что ролик, пере­ве­ден­ный про­фес­си­о­наль­ным пере­вод­чи­ком, веду­щий кото­ро­го — муж­чи­на, был озву­чен «жен­ским» голо­сом чат-бота «Али­са». Тем не менее зву­ча­ние закад­ро­во­го пере­во­да в неко­то­рых местах пока­за­лось неесте­ствен­ным и «робо­то­по­доб­ным» 52 % инфор­ман­тов в пер­вом видео, 37 % — во вто­ром и лишь 3 % — в тре­тьем. В целом эти впе­чат­ле­ния сов­па­да­ют с оцен­ка­ми адек­ват­но­сти рит­ми­ко-инто­на­ци­он­ной орга­ни­за­ции зву­ча­ще­го пере­во­да, выска­зан­ны­ми экс­пер­та­ми на вто­ром эта­пе экс­пе­ри­мен­та (см. ниже). С уче­том иден­тич­но­сти моду­ля рече­во­го син­те­за, логич­но пред­по­ло­жить, что текст пере­во­да, выпол­нен­но­го про­фес­си­о­наль­ным пере­вод­чи­ком, обла­дал более «про­зрач­ной» син­так­си­че­ской струк­ту­рой, кото­рая при озву­чи­ва­нии про­яви­ла себя более есте­ствен­ной, т. е. логич­ной с точ­ки зре­ния слу­ша­ю­щих, про­со­ди­че­ской орга­ни­за­ци­ей зву­ча­щей речи.

Неко­то­рые участ­ни­ки экс­пе­ри­мен­та в сво­бод­ных ком­мен­та­ри­ях в кон­це анке­ты выска­зы­ва­ли свои соб­ствен­ные пред­по­ло­же­ния о раз­ли­чи­ях в вос­при­я­тии зву­ко­вой дорож­ки видео­ро­ли­ков: Мне пока­за­лось, что пере­вод послед­не­го виде­об­ло­га силь­но отли­чал­ся от пер­вых двух. Голос боль­ше похо­дил на чело­ве­че­ский. Я слы­ша­ла, что ней­рон­ные сети Яндек­са очень быст­ро раз­ви­ва­ют­ся и, может быть, пер­вые 2 пере­во­да были сде­ла­ны рань­ше по вре­ме­ни, а 3‑й — поз­же. Так было с гугл­пе­ре­вод­чи­ком.

Дру­гие отме­ча­ли, что были гото­вы к тому, что «голос пере­вод­чи­ка» может зву­чать несколь­ко меха­ни­че­ски: Когда нам ска­за­ли, что пере­во­дить будет робот, я сра­зу поду­мал про Али­су. Так и вышло. Я ино­гда раз­го­ва­ри­ваю с Али­сой, но не знал, что голо­со­вой помощ­ник может еще и син­хрон­но пере­во­дить.

В целом по ито­гам про­смот­ра всех видео боль­шин­ство респон­ден­тов пер­вой груп­пы оха­рак­те­ри­зо­ва­ли каче­ство зву­ча­щей речи как при­ем­ле­мое, хотя и не все­гда есте­ствен­ное. 42 чело­ве­ка (87,5 % опро­шен­ных) заяви­ли о сво­их наме­ре­ни­ях в даль­ней­шем исполь­зо­вать голо­со­вой пере­вод от Яндекс для про­смот­ра ино­языч­но­го видео в интернете.

Таблица 2. Холистическая оценка качества голосового перевода (n = 48), %
Утвер­жде­ниеВидео12345
Мне было инте­рес­но смот­реть это видеоАГП1154718
АГП26235219
ПАО3565
Мне было понят­но все, что гово­ри­лось влогеромАГП1195625 –
АГП215373315
ПАО2104642
В основ­ном все было понят­но, но мно­гие репли­ки зву­ча­ли странноАГП1107119
АГП210155421
ПАО652582
Голос «пере­вод­чи­ка» зву­чал неесте­ствен­но, «как у робота»АГП131174012
АГП2840152116
ПАО3552103
У меня сло­жи­лось впе­чат­ле­ние, что пере­ве­де­но не все, что гово­рил влогерАГП125714
АГП21025632
ПАО192333
Если бы все ино­языч­ные видео мож­но было пере­ве­сти таким обра­зом я без огра­ни­че­ний смотрел(-а) бы их на YouTubeАГП11023272813
АГП21015253119
ПАО3105136

При­ме­ча­ния. АГП1 — авто­ма­ти­че­ский пере­вод 1‑го выпус­ка; АГП2 — авто­ма­ти­че­ский пере­вод выпус­ка 2; ПАО — пере­вод, выпол­нен­ный про­фес­си­о­наль­ным пере­вод­чи­ком с после­ду­ю­ще­им авто­ма­ти­че­ским озву­чи­ва­ни­ем (син­те­зом речи); 1 = «абсо­лют­но не согла­сен»; 2 = «ско­рее не согла­сен»; 3 = «затруд­ня­юсь отве­тить»; 4 = «ско­рее согла­сен»; 5 = «пол­но­стью согласен».

3) Ана­ли­ти­че­ская оценка.

Посколь­ку вто­рая груп­па инфор­ман­тов, задей­ство­ван­ных в насто­я­щем иссле­до­ва­нии (экс­пер­ты), выно­си­ла свои суж­де­ния о каче­стве зву­ча­ще­го пере­во­да на осно­ве его сопо­став­ле­ния с ори­ги­наль­ной ауди­о­до­рож­кой видео­тек­ста и сле­дуя струк­ту­ри­ро­ван­ной мат­ри­це оце­ни­ва­ния, мы в целом можем рас­смат­ри­вать дан­ную про­це­ду­ру как ана­ли­ти­че­скую. За осно­ву мат­ри­цы экс­перт­но­го оце­ни­ва­ния были взя­ты пара­мет­ры, пред­ло­жен­ные в [Ortiz-Boix, Matamala 2015] (табл. 3).

Един­ствен­ны­ми пара­мет­ра­ми, по кото­рым экс­пер­ты оста­лись пол­но­стью удо­вле­тво­ре­ны каче­ством всех трех пере­во­дов, явля­ют­ся раз­бор­чи­вость зву­ча­щих тек­стов и отсут­ствие неоправ­дан­ных добав­ле­ний. Послед­нее обсто­я­тель­ство в слу­чае с АГП гово­рит, по всей веро­ят­но­сти, о невоз­мож­но­сти добав­ле­ний, в силу того что прак­ти­че­ски все алго­рит­мы машин­но­го пере­во­да ори­ен­ти­ро­ва­ны на мак­си­маль­ную изо­морф­ность исход­но­го и пере­вод­но­го тек­стов. При­ме­ни­тель­но к пере­во­ду, выпол­нен­но­му про­фес­си­о­наль­ным пере­вод­чи­ком, дан­ное наблю­де­ние отра­жа­ет ско­рее про­ти­во­по­лож­ную тен­ден­цию аудио­ви­зу­аль­но­го транс­фе­ра к сокра­ще­нию пере­вод­но­го тек­ста, пред­на­зна­чен­но­го как для закад­ро­во­го озву­чи­ва­ния, так и для суб­тит­ри­ро­ва­ния21. Такое стрем­ле­ние со сто­ро­ны аудио­ви­зу­аль­но­го пере­вод­чи­ка, воз­мож­но, повли­я­ло на реше­ние экс­пер­тов о том, что часть инфор­ма­ции была опу­ще­на имен­но в пере­во­де, осу­ществ­лен­ном человеком.

Таблица 3. Аналитическая оценка качества голосового перевода (n = 3)
Кате­го­рия оцениванияПара­метр оцениванияТекстСред­няя Оценка
Содер­жа­тель­ные ком­по­нен­ты переводаОтсут­ствие смыс­ло­вых искаженийАГП 13,67
АГП 24,33
ПАО5,00
Адек­ват­ность выбо­ра межъ­язы­ко­во­го соответствияАГП 13,33
АГП 23,67
ПАО4,67
Отсут­ствие опу­ще­ний реле­вант­ной информацииАГП 15,00
АГП 25,00
ПАО4,67
Отсут­ствие неоправ­дан­ных добавленийАГП 15,00
АГП 25,00
ПАО5,00
Линг­во­праг­ма­ти­че­ские аспек­ты переводаЭкви­ва­лент­ность рече­во­го регистраАГП 13,67
АГП 24,33
ПАО4,66
Сти­ли­сти­че­ская конгруэнтностьАГП 13,00
АГП 23,67
ПАО5,00
Грам­ма­ти­че­ская корректностьАГП 14,33
АГП 24,67
ПАО5,00
Иди­о­ма­тич­ность высказыванийАГП 12,33
АГП 23,33
ПАО4,67
Кон­тек­сту­аль­ная когерентностьАГП 13,33
АГП 24,00
ПАО5,00

По всем осталь­ным аспек­там оце­ни­ва­ния пере­во­ды АГП 1 и АГП 2, по мне­нию экс­перт­ной груп­пы, про­иг­ры­ва­ют пере­во­ду ПАО. Это впе­чат­ле­ние лишь уси­ли­лось на эта­пе вне­се­ния пра­вок в тран­скрип­ты пере­во­дов: двое из трех экс­пер­тов экс­пли­цит­но выра­зи­ли сомне­ние в том, что тре­тий пере­вод иден­ти­чен преды­ду­щим по тех­но­ло­гии выпол­не­ния, одна­ко, в отли­чие от пер­вой груп­пы респон­ден­тов, свя­за­ли такой кон­траст с фак­том пост­ре­дак­ти­ро­ва­ния. Тем не менее экс­пер­ты внес­ли неко­то­рые исправ­ле­ния и в дан­ный текст пере­во­да (см. табл. 4).

В каче­стве наи­бо­лее суще­ствен­ных недо­стат­ков авто­ма­ти­че­ско­го голо­со­во­го пере­во­да экс­пер­та­ми были отме­че­ны: неадек­ват­ность рит­ми­ко-инто­на­ци­он­но­го оформ­ле­ния (что уже обсуж­да­лось выше); низ­кая экви­ва­лент­ность рече­во­го реги­стра, выбран­но­го в пере­во­де, и нару­ше­ния сти­ли­сти­че­ской кон­гру­энт­но­сти тек­ста пере­во­да (заве­до­мо раз­го­вор­ные эле­мен­ты ори­ги­наль­но­го аудио­ря­да мог­ли пере­да­вать­ся в пере­во­де как сход­ны­ми в функ­ци­о­наль­ном плане, так и сти­ли­сти­че­ски ней­траль­ны­ми, что созда­ва­ло опре­де­лен­ный дис­со­нанс); смыс­ло­вые иска­же­ния, кото­рые мог­ли быть резуль­та­том как некор­рект­но­го рас­по­зна­ва­ния исход­ной зву­ко­вой дорож­ки, так и след­стви­ем неудач­но­го выбо­ра межъ­язы­ко­во­го соот­вет­ствия и дефор­ма­ции при пере­да­че иди­о­ма­ти­че­ских выра­же­ний.

Таблица 4. Сравнение фрагментов транскрипта автоматического и текста профессионального переводов видео № 3

Тран­скрипт оригинала

Тран­скрипт АГП 3

Текст пере­во­да ПАО 3

Исправ­ле­ния и ком­мен­та­рии экспертов

…Russian bath which is called banya

…тра­ди­ци­он­ную рус­скую баню, кото­рая назы­ва­ет­ся понят­но

…тра­ди­ци­он­ную рус­скую баню

-

…I did a traditional hammam which is a turkish bath and the guy was slapping me

…в Тур­ции я посе­щал тра­ди­ци­он­ный хá(м)мам, кото­рый пред­став­ля­ет собой турец­кую баню и парень дал мне пощечину

…в Тур­ции я был в тра­ди­ци­он­ном хам­ма­ме, и там бан­щик шле­пал меня по все­му телу

…в Тур­ции я был в тра­ди­ци­он­ном хам­ма­ме, и бан­щик хло­пал меня по все­му телу

…then the process involves getting whacked by leafy and thorny tree branches while laying on a wooden bench

…тогда про­цесс вклю­ча­ет в себя уда­ры по покры­тым лист­вой и колю­чи­ми вет­вя­ми дере­вьям, когда вы лежи­те на дере­вян­ной скамье

…в рус­ской бане вы лежи­те на лав­ке и вас хле­щут вени­ка­ми из лист­вен­ных и хвойных веток

в рус­ской бане вы ложи­тесь на лав­ку и вас бьют вет­ка­ми лист­вен­ных и хвойных дере­вьев. [Бло­гер — аме­ри­ка­нец, «вени­ки» из его уст зву­чат притянуто.]

…this banya got third best in all of Novosibirsk. So, this place is legit

этот кро­лик у меня тре­тий луч­ший во всем пиве. Зна­чит, это место законное

…эта баня — одна из луч­ших в Ново­си­бир­ске. Зна­чит, это я удач­но зашел

эта баня вхо­дит в тройку луч­ших в горо­де. Коро­че, пра­виль­ная баня. [Неумест­ная цита­та из Гайдая]

I was not expecting that, no warning was given whatsoever

Я это­го не ожи­дал, мои гла­за не дава­ли ника­ких предупреждений

Это было неожиданно

Меня никто об этом не предупредил

Watch the balls, please!

Сле­ди­те за мяча­ми, пожалуйста!

Тут, пожалуйста, поаккуратней!

Меж­ду ног осторожнее!

Holy crap! That was one of the most intense pains I’ve ever had in my life

О свя­тое дерь­мо! Это была одна
из самых силь­ных болей, кото­рые я когда-либо испы­ты­вал в сво­ей жизни

Блин, в жиз­ни не было так больно

Не часто мне при­хо­ди­лось испы­ты­вать такую боль

Stay safe, be spontaneous and just go!

Оставайтесь в без­опас­но­сти, будь­те спон­тан­ны и про­сто идите!

Бере­ги­те себя, проживайте каж­дый момент и двигайтесь вперед!

Бере­ги­те себя, будь­те собой и путешествуйте!

При­ни­мая во вни­ма­ние, что мно­гие из ука­зан­ных недо­стат­ков тра­ди­ци­он­но рас­смат­ри­ва­ют­ся как насущ­ные про­бле­мы машин­но­го пере­во­да в целом, а так­же с уче­том того фак­та, что во всех слу­ча­ях конеч­ная фор­ма предъ­яв­ле­ния пере­вод­но­го кон­тен­та созда­ва­лась мето­дом ком­пью­тер­но­го пре­об­ра­зо­ва­ния тек­ста в речь, логич­но пред­по­ло­жить, что этап син­те­за речи явля­ет­ся наи­ме­нее сла­бым зве­ном в цепи опе­ра­ций, осу­ществ­ля­е­мых в рам­ках дан­ной моде­ли голо­со­во­го пере­во­да. Отдель­ные сбои в моду­ле син­те­за речи про­яв­ля­лись в насто­я­щем иссле­до­ва­нии в виде игно­ри­ро­ва­ния систе­мой пра­вил подвиж­но­сти рус­ско­го уда­ре­ния и акцент­ных струк­тур заим­ство­ван­ных слов и встре­ча­лись отно­си­тель­но ред­ко («домик на хóл­ме», «это то место, где мы оста­но­вим­ся на нóчь», «турец­кая баня хáм­мам»).

Часть оши­бок, без­услов­но, могут воз­ни­кать на ста­дии рас­по­зна­ва­ния исход­но­го аудио­сиг­на­ла, одна­ко здесь сле­ду­ет учесть, что коэф­фи­ци­ент точ­но­сти рас­по­зна­ва­ния речи, кото­рый обыч­но заяв­ля­ет­ся раз­ра­бот­чи­ком систе­мы, может быть гаран­ти­ро­ван в аку­сти­че­ских усло­ви­ях, при­бли­жен­ных к сту­дий­ным. Тре­вел-вло­ге­ры чаще все­го запи­сы­ва­ют свои видео в «поле­вых» усло­ви­ях, дале­ких от сту­дий­ных и изоби­лу­ю­щих экзо­ген­ны­ми шума­ми, кото­рые ска­зы­ва­ют­ся на каче­стве аудио даже при исполь­зо­ва­нии высо­ко­тех­но­ло­гич­ных мик­ро­фо­нов и про­чих устройств зву­ко­за­пи­си. Нерав­но­мер­ный темп и сни­же­ние чет­ко­сти арти­ку­ля­ции, кото­рые наблю­да­ют­ся преж­де все­го при «экшн-съм­ках», рав­но как и тот факт, что даже опыт­ные виде­об­ло­ге­ры ред­ко явля­ют­ся про­фес­си­о­на­ла­ми пуб­лич­ной теле­ви­зи­он­ной речи, так­же не спо­соб­ству­ют сохра­не­нию высо­кой сте­пе­ни иден­ти­фи­ка­ции рече­вых зву­ков. Поэто­му в опре­де­лен­ном смыс­ле сбои рас­по­зна­ва­ния речи в таких роли­ках обу­слов­ле­ны имма­нент­ны­ми харак­те­ри­сти­ка­ми жан­ра, а зна­чит, прак­ти­че­ски неизбежны.

Воз­мож­ны, одна­ко, и ошиб­ки рас­по­зна­ва­ния речи, спро­во­ци­ро­ван­ные отнюдь не каче­ством зву­ко­во­го сиг­на­ла, а лими­ти­ро­ван­ным раз­ме­ром кон­текст­но­го фрей­ма, кото­рый в иссле­ду­е­мом алго­рит­ме, по всей веро­ят­но­сти, огра­ни­чен пре­де­ла­ми фра­зы. В тре­вел-вло­гах подоб­ные нару­ше­ния чаще все­го про­яв­ля­ют­ся при рас­по­зна­ва­нии топо­ни­мов и про­чих имен соб­ствен­ных. Напри­мер, назва­ние одно­го и того же водо­па­да в Нор­ве­гии Langfoss в пере­во­де пере­да­но тре­мя отлич­ны­ми друг от дру­га вари­ан­та­ми транс­фо­на­ции: Ланг­фосс, Луфус и даже Лаóс (мы добра­лись до под­но­жия Лаоса). В тех ситу­а­ци­ях, когда речь идет о мало­из­вест­ных, не несу­щих клю­че­во­го смыс­ла в нар­ра­ти­ве виде­об­ло­га они­мах, такие ошиб­ки рас­по­зна­ва­ния некри­тич­ны, осо­бен­но с уче­том того, что при мон­та­же видео­ря­да мно­гие из них дуб­ли­ру­ют­ся вло­ге­ром в фор­ме тит­ров («лого­ви­зу­а­ли­за­ция» [Леве 2019]). В слу­ча­ях же, когда сбой рас­по­зна­ва­ния при­во­дит к под­мене поня­тий (Лаос — реаль­но суще­ству­ю­щая стра­на, рас­по­ло­жен­ная в Юго-Восточ­ной Азии), такие иска­же­ния могут вызвать у реци­пи­ен­тов опре­де­лен­ный когни­тив­ный дис­со­нанс. Учет в моду­ле рас­по­зна­ва­ния более широ­ко­го кон­тек­ста и, воз­мож­но, гео­гра­фи­че­ской при­вяз­ки сюже­та поз­во­лил бы скор­рек­ти­ро­вать резуль­та­ты авто­ма­ти­че­ско­го фоне­мно­го ана­ли­за и сокра­тить коли­че­ство подоб­ных ошибок.

Одна­ко наи­боль­шее коли­че­ство недо­че­тов, сни­жа­ю­щих вос­при­ни­ма­е­мое каче­ство авто­ма­ти­че­ско­го голо­со­во­го пере­во­да тре­вел-вло­гов, при­хо­дит­ся, судя по все­му, на этап соб­ствен­но меж­тек­сто­во­го транс­фе­ра (машин­но­го пере­во­да тек­стов). Про­ана­ли­зи­ро­вав редак­тор­ские прав­ки пере­вод­ных тран­скрип­тов, выпол­нен­ные экс­пер­та­ми, мы систе­ма­ти­зи­ро­ва­ли наи­бо­лее частот­ные (не менее трех слу­ча­ев одно­го типа) иска­же­ния в пере­во­де, реле­вант­ные для язы­ко­вой пары англий­ский → рус­ский. Они при­ве­де­ны ниже в поряд­ке убы­ва­ния частотности.

1. Кон­кре­ти­за­ция гла­го­лов дви­же­ния (to go, to come):

We’re going to the waterfallМы идем к водо­па­ду (на экране — бло­гер и его спут­ни­ца едут на машине);

If you do want to go first classЕсли вы хоти­те лететь пер­вым клас­сом (бло­гер рас­ска­зы­ва­ет о поезд­ке по ж/д, на экране — вагон поезда).

2. Кон­кре­ти­за­ция место­име­ний 2‑го лица (you ты / вы):

Tell me how did you manage to get such a pieceКак вам уда­лось забро­ни­ро­вать это место? (бло­гер обра­ща­ет­ся к сво­ей близ­кой подру­ге и спутнице);

Norway, why are you so beautifull?!Нор­ве­гия, поче­му вы так красивы?!

3. Выбор экви­ва­лен­та при пере­во­де обра­ще­ний к ауди­то­рии (guys, man): It was crazy, guys Это сума­сше­ствие, ребя­та; It’s good, man Это хоро­шо, чувак22.

4. Парал­ле­лизм при пере­во­де пред­ло­же­ний кон­струк­ции It is (was):

It’s my first time doing this Это в пер­вый раз, когда я делаю это;

It’s insane how everything has changed Это безу­мие как все изме­ни­лось.

5. Пере­да­ча кол­ло­кви­аль­ных зна­че­ний слов в кон­струк­ци­ях It is + N, Adj + N:

>We are driving through Bergen and it’s insane! Мы едем по Бер­ге­ну и это —  безу­мие!;

It’s freakingly beautiful Это чуда­ко­ва­то кра­си­во.

6. Кон­кре­ти­за­ция рода место­име­ний, соот­но­си­мых с неоду­шев­лен­ны­ми суще­стви­тель­ны­ми и зоонимами:

Norway is known for its seafood being surrounded by the Atlantic ocean and I wanted to try some of its best…Нор­ве­гия извест­на сво­и­ми море­про­дук­та­ми, он окружен 

Атлан­ти­че­ским оке­а­ном и я хотел попро­бо­вать кое-что из его луч­ше­го;

Here is my cod. It looks pretty dead…Вот моя трес­ка, он доволь­но мерт­вый….

7. Соче­та­е­мость при упо­треб­ле­нии наре­чий меры и сте­пе­ни (pretty, quite). См. преды­ду­щий пример.

8. Пере­да­ча иди­о­ма­ти­че­ских и слен­го­вых выра­же­ний23:

Holly crapСвя­тое дерь­мо;

Am I like the gun show?Я что, как ору­жей­ное шоу?

9. Пере­да­ча реду­ци­ро­ван­ных форм (gonna, leggo): Now I’m gonna to take a shower Я ушел в душ; Leggo!” → Лего.

10. Некон­вен­ци­о­наль­ные кальки:

downtown ниж­ний город.

При­ве­ден­ный спи­сок дале­ко не пол­ный и при жела­нии может быть про­дол­жен. Боль­шая часть эрра­то­ло­ги­че­ских типов, пред­став­лен­ных выше, по всей веро­ят­но­сти, обу­слов­ле­ны объ­ек­тив­ны­ми труд­но­стя­ми выбо­ра систе­мой машин­но­го пере­во­да акту­аль­но­го межъ­язы­ко­во­го соот­вет­ствия, пре­одо­ле­ние кото­рых воз­мож­но, на наш взгляд, исклю­чи­тель­но путем рас­ши­ре­ния объ­е­ма кон­текст­но­го фрей­ма. Не сто­ит забы­вать так­же, что в ситу­а­ции межъ­язы­ко­во­го транс­фе­ра зву­ко­во­го ряда тре­вел-вло­га речь идет о пере­во­де пре­иму­ще­ствен­но спон­тан­ной речи, как пра­ви­ло, раз­го­вор­но­го сти­ля. В тран­сла­то­ло­ги­че­ском аспек­те раз­го­вор­ная речь прак­ти­че­ски не изу­ча­лась по вполне понят­ным при­чи­нам: такой вид дис­кур­са чрез­вы­чай­но ред­ко явля­ет­ся объ­ек­том про­фес­си­о­наль­но­го пере­во­да. Пере­вод­чи­кам худо­же­ствен­ной лите­ра­ту­ры ино­гда при­хо­дит­ся иметь дело лишь со сти­ли­за­ци­ей диа­ло­гов «под раз­го­вор­ную речь». Уст­ный после­до­ва­тель­ный и син­хрон­ный виды пере­во­да исполь­зу­ют­ся в ситу­а­ци­ях дву­языч­ной ком­му­ни­ка­ции глав­ным обра­зом фор­маль­но­го харак­те­ра, в силу чего даже уст­но­по­рож­да­е­мая речь пуб­лич­ных выступ­ле­ний не может рас­смат­ри­вать­ся как раз­го­вор­ная [Rigual, Spinolo 2018]24. Тем не менее когда объ­ек­том пере­во­да ста­но­вит­ся про­из­ве­де­ние, кото­рое фик­си­ру­ет или ими­ти­ру­ет раз­лич­ные собы­тия жиз­ни людей, раз­ви­ва­ю­щи­е­ся в реаль­ном вре­ме­ни, как это про­ис­хо­дит в аудио­ви­зу­аль­ных жан­рах, раз­го­вор­ная речь обре­та­ет свое место сре­ди пред­ме­тов тран­сла­то­ло­ги­че­ской рефлек­сии. Имен­но поэто­му о необ­хо­ди­мо­сти адап­та­ции пере­вод­че­ских стра­те­гий и так­тик к дан­но­му виду дис­кур­са ста­ли гово­рить лишь в момент ста­нов­ле­ния аудио­ви­зу­аль­но­го пере­во­да как отдель­ной и пол­но­прав­ной обла­сти пере­во­до­ве­де­ния. В цен­тре вни­ма­ния иссле­до­ва­те­лей аудио­ви­зу­аль­но­го транс­фе­ра нахо­дит­ся преж­де все­го фено­мен псев­до­уст­но­сти (prefabricated orality) [Baños, Chaume 2009], рас­смат­ри­ва­е­мый как образ резуль­та­та в пере­во­де диа­ло­гов кино- и теле­филь­мов. Одна­ко аутен­тич­ная раз­го­вор­ная речь может ока­зать­ся объ­ек­том дея­тель­но­сти пере­вод­чи­ка толь­ко в кон­тек­сте медиа­пе­ре­во­да, т. е. межъ­язы­ко­во­го транс­фе­ра вер­баль­но­го ком­по­нен­та про­из­ве­де­ний аудио­ви­зу­аль­ных СМИ и соци­аль­ных медиа, поэто­му в дан­ной раз­но­вид­но­сти ауди­ви­зу­аль­но­го пере­во­да учет каче­ствен­ных осо­бен­но­стей раз­го­вор­но­го дис­кур­са как нико­гда актуа­лен. Здесь умест­но напом­нить, что глав­ным отли­чи­ем раз­го­вор­ных форм речи от лите­ра­тур­ных явля­ет­ся харак­тер коге­зи­он­ных средств, кото­рые в раз­го­вор­ной речи име­ют пре­иму­ще­ствен­но про­со­ди­че­скую при­ро­ду. В то же вре­мя спе­ци­фи­ка раз­го­вор­но­го дис­кур­са про­яв­ля­ет­ся на самых раз­лич­ных уров­нях линг­ви­сти­че­ско­го ана­ли­за: фоне­ти­че­ский син­кре­тизм, кол­ло­кви­аль­ная лек­си­ка, диф­фуз­ный син­так­сис на гра­ни пар­атак­си­са, услов­ность гра­ниц язы­ко­вой нор­мы и т. д. Все эти фак­то­ры суще­ствен­но ослож­ня­ют пере­вод в авто­ма­ти­че­ских систе­мах, обу­чен­ных пре­иму­ще­ствен­но на пись­мен­ных текстах, и име­ю­щих в каче­стве цен­траль­но­го модуль пре­об­ра­зо­ва­ния тек­ста в текст.

Так или ина­че, несмот­ря на все отме­чен­ные ошиб­ки и недо­че­ты, экс­пер­ты при­зна­ли предъ­яв­лен­ные им резуль­та­ты авто­ма­ти­че­ско­го пере­во­да в целом при­ем­ле­мы­ми для постав­лен­ной зада­чи и выра­зи­ли мне­ние, что при опре­де­лен­ных усло­ви­ях такая прак­ти­ка может актив­но исполь­зо­вать­ся в быто­вых ситу­а­ци­ях, к кото­рым и отно­сит­ся инди­ви­ду­аль­ный про­смотр видеоблогов.

Выводы

Оче­вид­но, что тре­вел-вло­ги как осо­бый жанр соци­аль­ных медиа вызы­ва­ют зна­чи­тель­ный инте­рес мно­гих интер­нет-поль­зо­ва­те­лей, что, по всей веро­ят­но­сти, обу­слов­ле­но более высо­ким потен­ци­а­лом эмпа­тии и иден­ти­фи­ка­ции реци­пи­ен­та с инди­ви­ду­аль­ным виде­об­ло­ге­ром по срав­не­нию с жур­на­ли­ста­ми или автор­ски­ми кол­лек­ти­ва­ми тра­ди­ци­он­ных, в том чис­ле аудио­ви­зу­аль­ных, СМИ, а так­же воз­мож­но­стя­ми ком­му­ни­ка­тив­ной интерак­ции на интер­нет-плат­фор­мах раз­ме­ще­ния видео­кон­тен­та. Язы­ко­вой барьер, кото­рый потен­ци­аль­но воз­ни­ка­ет меж­ду отпра­ви­те­лем и полу­ча­те­лем сооб­ще­ния в гете­ро­линг­валь­ной ситу­а­ции, может быть пре­одо­лен за счет исполь­зо­ва­ния таких видов пере­во­да, как авто­ма­ти­че­ское суб­тит­ри­ро­ва­ние и авто­ма­ти­че­ский голо­со­вой пере­вод. При этом в пре­де­лах выбор­ки насто­я­ще­го иссле­до­ва­ния была выяв­ле­на тен­ден­ция к пред­по­чте­нию ауди­то­ри­ей тре­вел-вло­гов пере­во­да, предъ­яв­ля­е­мо­го в зву­ча­щей форме.

За счет отсут­ствия потреб­но­сти в при­об­ре­те­нии спе­ци­аль­но­го про­грамм­но­го обес­пе­че­ния и плат­ных под­пи­сок (по край­ней мере, при­ме­ни­тель­но к интер­нет­пор­та­лу «Яндекс»), сете­вые реше­ния авто­ма­ти­че­ско­го голо­со­во­го пере­во­да «по запро­су» повы­ша­ют медиа­до­ступ­ность аудио­ви­зу­аль­но­го кон­тен­та и тем самым спо­соб­ству­ют рас­ши­ре­нию поль­зо­ва­тель­ской ауди­то­рии соци­аль­ных медиа. По всей веро­ят­но­сти, такое рас­ши­ре­ние может быть огра­ни­че­но лишь сов­ме­сти­мо­стью плат­фор­мы-сер­ви­са пере­во­да с внеш­ни­ми ресур­са­ми, на кото­рых раз­ме­ща­ют­ся видео, а так­же необ­хо­ди­мо­стью соблю­де­ния прав на лицен­зи­он­ную видеопродукцию.

В то же вре­мя авто­ма­ти­че­ский голо­со­вой пере­вод видео, как и машин­ный пере­вод в целом, в том виде, в кото­ром он к насто­я­ще­му момен­ту пред­став­лен в откры­том досту­пе, обра­зу­ет ско­рее обшир­ное поле для дея­тель­но­сти по даль­ней­ше­му раз­ви­тию и улуч­ше­нию тех­но­ло­гий его выпол­не­ния, неже­ли обще­при­знан­ную рутин­ную прак­ти­ку. Про­бле­мы повы­ше­ния каче­ства дан­но­го вида межъ­язы­ко­во­го пере­во­да рас­про­стра­ня­ют­ся как на область созда­ния усло­вий для адек­ват­но­го пони­ма­ния реци­пи­ен­та­ми смыс­ло­во­го содер­жа­ния пере­да­ва­е­мых сооб­ще­ний, так и на пара­мет­ри­за­цию при­ем­ле­мой линг­ви­сти­че­ской и пара­линг­ви­сти­че­ской форм транс­ля­та, необ­хо­ди­мых для обес­пе­че­ния неослож­нен­ной ком­му­ни­ка­ции, опо­сре­до­ван­ной пере­во­дом. В этой свя­зи одним из клю­че­вых направ­ле­ний раз­ви­тия авто­ма­ти­че­ско­го голо­со­во­го пере­во­да явля­ет­ся совер­шен­ство­ва­ние алго­рит­мов уче­та кон­текст­ной инфор­ма­ции, что еще раз было про­де­мон­стри­ро­ва­но нами в ходе ана­ли­за редак­тор­ских пра­вок пере­вод­ных тран­скрип­тов и сопо­став­ле­ния послед­них с тек­стом пере­во­да для закад­ро­во­го озву­чи­ва­ния, выпол­нен­но­го про­фес­си­о­наль­ным пере­вод­чи­ком. Впро­чем, тот факт, что в осно­ве исполь­зо­ван­но­го в насто­я­щем иссле­до­ва­нии сер­ви­са пере­во­да лежит прин­цип про­грес­си­ру­ю­ще­го обу­че­ния ней­рон­ных сетей на посто­ян­но рас­ту­щих объ­е­мах дан­ных, все­ля­ет опре­де­лен­ные надеж­ды на пер­спек­ти­вы его каче­ствен­но­го раз­ви­тия. Небезын­те­рес­ным пред­став­ля­ет­ся так­же изу­че­ние вос­при­я­тия каче­ства так назы­ва­е­мо­го «сквоз­но­го» авто­ма­ти­че­ско­го пере­во­да зву­ча­щей речи при­ме­ни­тель­но к межя­зы­ко­во­му транс­фе­ру видео­кон­тен­та соци­аль­ных медиа. По заяв­ле­ни­ям раз­ра­бот­чи­ков, алго­рит­мы пере­во­да «речи в речь», минуя фазу тек­сто­вых пре­об­ра­зо­ва­ний, поз­во­ля­ют добить­ся суще­ствен­ной эко­но­мии вре­ме­ни обра­бот­ки сиг­на­ла и рас­по­ла­га­е­мых объ­е­мов памя­ти, одна­ко пока широ­кой ауди­то­рии пред­став­ле­ны лишь образ­цы голо­со­вых пере­во­дов, огра­ни­чен­ные отдель­ны­ми фра­за­ми [Jia et al. 2019].

Нако­нец, если еди­ни­цу виде­об­ло­га, т. е. аудио­ви­зу­аль­ный текст, рас­смат­ри­вать как целост­ный поли­се­ми­о­ти­че­ский и мно­го­ко­наль­ный кон­структ, а авто­ма­ти­че­ский пере­вод — как мно­го­уров­не­вую тех­но­ло­гию искус­ствен­но­го интел­лек­та, мате­ма­ти­че­ски моде­ли­ру­ю­щую дея­тель­ность пере­вод­чи­ка-чело­ве­ка, то огра­ни­че­ние алго­рит­ма пре­об­ра­зо­ва­ний исклю­чи­тель­но вер­баль­ным ком­по­нен­том аудио­ви­зу­аль­но­го про­из­ве­де­ния a priori реду­ци­ру­ет воз­мож­но­сти выбо­ра вари­ан­та поверх­ност­ной струк­ту­ры для адек­ват­ной пере­да­чи смыс­ла исход­но­го выска­зы­ва­ния. Напро­тив, инте­гра­ция в алго­ритм авто­ма­ти­че­ско­го пере­во­да видео моду­ля рас­по­зна­ва­ния и опи­са­ния изоб­ра­же­ния поз­во­ли­ла бы опти­ми­зи­ро­вать про­цесс при­ня­тия систе­мой пере­вод­че­ско­го реше­ния с уче­том допол­ни­тель­ной экс­тра­линг­ви­сти­че­ской инфор­ма­ции, кото­рую еще на заре раз­ви­тия машин­но­го пере­во­да И. И. Ревзин и В. Ю. Розен­цвейг назы­ва­ли «обра­ще­ни­ем к опи­сы­ва­е­мой ситу­а­ции» [Ревзин, Розен­цвейг 1964]. Кро­ме того, без обра­ще­ния к визу­аль­но­му ряду межъ­язы­ко­вой транс­фер тако­го поли­мо­даль­но­го тек­ста, как пост виде­об­ло­га, не может быть пол­но­цен­ным в силу того фак­та, что вер­баль­ный ком­по­нент аудио­ви­зу­аль­ных про­из­ве­де­ний ино­гда содер­жит зна­чи­тель­ный объ­ем «лого­ви­зу­а­ли­зи­ро­ван­ной» [Леве 2019] инфор­ма­ции (тит­ры, над­пи­си, гра­фи­че­ская репри­за клю­че­вых эле­мен­тов зву­ча­щей речи вло­ге­ра и дру­гих пер­со­на­жей роли­ка и т. п.). В этой свя­зи задей­ство­ва­ние моду­ля рас­по­зна­ва­ния изоб­ра­же­ния поз­во­ли­ло бы как опти­ми­зи­ро­вать каче­ство пере­во­да ауди­о­до­рож­ки, так и спо­соб­ство­вать фор­ми­ро­ва­нию у адре­са­тов инте­граль­но­го пред­став­ле­ния о вер­баль­ном содер­жа­нии тре­вел-вло­га. Тех­ни­че­ские воз­мож­но­сти для извле­че­ния и импле­мен­та­ции такой инфор­ма­ции име­ют­ся уже сего­дня и исполь­зу­ют­ся, напри­мер, при лока­ли­за­ции реклам­ных видео, одна­ко, веро­ят­но, потре­бу­ет­ся еще целый ряд эмпи­ри­че­ских иссле­до­ва­ний, преж­де чем гипо­те­за об эффек­тив­но­сти подоб­ной мно­го­уров­не­вой моде­ли смо­жет быть под­твер­жде­на или опровергнута.

1 Это текст снос­ки.

1 Views of travel-related videos increased 41 % in August and September 2018 compared to 2017. (2018). Think with Google. Элек­трон­ный ресурс https://​www​.thinkwithgoogle​.com/​c​o​n​s​u​m​e​r​-​i​n​s​i​g​h​t​s​/​c​o​n​s​u​m​e​r​-​t​r​e​n​d​s​/​t​r​a​v​e​l​-​v​i​d​e​o​-​v​i​e​w​-​s​t​a​t​i​s​t​i​cs/.

2 Top Websites Ranking. (2023). Similarweb. Элек­трон­ный ресурс https://​www​.similarweb​.com/​t​o​p​-​w​e​b​s​i​t​e​s​/​c​r​o​w​d​r​i​f​f​.​c​o​m​/​r​e​s​o​u​r​c​e​s​/​b​l​o​g​/​t​r​a​v​e​l​-​s​t​a​t​i​s​t​ics.

3 84 YouTube Statistics You Can’t Ignore in 2023. (2023). Invideo. Элек­трон­ный ресурс https://​invideo​.io/​b​l​o​g​/​Y​o​u​T​u​b​e​-​s​t​a​t​i​s​t​i​cs/.

4 What are the most popular types of vlogs? (2022). Adobe. Элек­трон­ный ресурс https://​www​.adobe​.com/​c​r​e​a​t​i​v​e​c​l​o​u​d​/​v​i​d​e​o​/​h​u​b​/​i​d​e​a​s​/​m​o​s​t​-​p​o​p​u​l​a​r​-​t​y​p​e​s​-​o​f​-​v​l​o​g​s​.​h​tml.

5 Statistics That Prove Social Media Will Influence Your Next Travel Destination (2019). Nosto. Элек­трон­ный ресурс https://​www​.nosto​.com/​b​l​o​g​/​s​o​c​i​a​l​-​m​e​d​i​a​-​i​n​f​l​u​e​n​c​e​-​t​r​a​v​e​l​-​d​e​c​i​s​i​o​ns/.

6 Nasdaily. Bring people together (2023). Social Blade. Элек­трон­ный ресурс https://​socialblade​.com/​Y​o​u​T​u​b​e​/​c​/​n​a​s​d​a​ily.

7 Антон Птуш­кин (2023). YouTube. Элек­трон­ный ресурс https://​www​.YouTube​.com/​c​/​p​t​u​x​e​r​m​a​n​n​/​a​b​out.

8 YouTube — «теле­ви­де­ние» XXI века (2019). ВЦИОМ. Элек­трон­ный ресурс https://​wciom​.ru/​a​n​a​l​y​t​i​c​a​l​-​r​e​v​i​e​w​s​/​a​n​a​l​i​t​i​c​h​e​s​k​i​i​-​o​b​z​o​r​/​Y​o​u​T​u​b​e​-​t​e​l​e​v​i​d​e​n​i​e​-​x​x​i​-​v​e​k​a​?​y​s​c​l​i​d​=​l​7​7​n​f​7​4​d​o​v​8​5​6​4​7​2​267.

9 Spicer, A. (2022). Top Languages on YouTube [All The Stats!]. Alan Spicer. Элек­трон­ный ресурс https://​alanspicer​.com/​t​o​p​-​l​a​n​g​u​a​g​e​s​-​o​n​-​y​o​u​t​ube.

10 EF English Proficiency Index: Рей­тинг 112 стран и реги­о­нов по уров­ню вла­де­ния англий­ским язы­ком (2021). Education First. Элек­трон­ный ресурс https://​www​.ef​.ru/​a​s​s​e​t​s​c​d​n​/​W​I​B​I​w​q​6​R​d​J​v​c​D​9​b​c​8​R​M​d​/​c​e​f​c​o​m​-​e​p​i​-​s​i​t​e​/​r​e​p​o​r​t​s​/​2​0​2​1​/​e​f​-​e​p​i​-​2​0​2​1​-​r​u​s​s​i​a​n​.​pdf.

11 Пока­за­тель­ным пред­став­ля­ет­ся автор­ское опи­са­ние одно­го из кана­лов пере­во­да ино­языч­ных видео: «Пере­во­жу инте­рес­ный мне зару­беж­ный кон­тент в понят­ную наше­му уху фор­му». Zёб­ра. (2016). YouTube. Элек­трон­ный ресурс https://​www​.youtube​.com/​@​z​y​o​b​r​/​a​b​out. 

12 Как резуль­тат — боль­шин­ство кана­лов поль­зо­ва­тель­ско­го пере­во­да, фигу­ри­ро­вав­ших в иссле­до­ва­нии Е. С. Крас­но­пе­е­вой, в насто­я­щее вре­мя закры­ты или мало­ак­тив­ны.

13  При­ме­ча­тель­но, что даже в такой в целом англо­языч­ной стране, как США 21 % насе­ле­ния исполь­зу­ют в част­ной жиз­ни и пред­по­чи­та­ют смот­реть видео на иных язы­ках, неже­ли англий­ский (из них 62 % — на испан­ском): Get More YouTube Views with Foreign Language Subtitles (2014). Mini Matters. Элек­трон­ный ресурс https://​www​.minimatters​.com/​g​e​t​-​m​o​r​e​-​Y​o​u​T​u​b​e​-​v​i​e​w​s​-​w​i​t​h​-​f​o​r​e​i​g​n​l​a​n​g​u​a​g​e​-​s​u​b​t​i​t​l​es/.

14 84 YouTube Statistics You Can’t Ignore in 2023. (2023). Invideo. Элек­трон­ный ресурс https://​invideo​.io/​b​l​o​g​/​Y​o​u​T​u​b​e​-​s​t​a​t​i​s​t​i​cs/.

15 Ком­па­ния Google раз­ра­бо­ты­ва­ет аль­тер­на­тив­ную «сквоз­ную» модель машин­но­го пере­во­да «речи в речь» на осно­ве ана­ли­за широ­ко­по­лос­ных спек­тро­грамм и минуя фазу тек­сто­вых пре­об­ра­зо­ва­ний [Jia et al. 2019], что не поз­во­ля­ет нам исполь­зо­вать аббре­ви­а­ту­ру S2S для обо­зна­че­ния АГП от Яндекс как вари­ан­та кас­кад­ной моде­ли.

16 В ситу­а­ци­ях зву­ча­щей речи в чис­ло пара­мет­ров оце­ни­ва­ния вклю­ча­ют­ся так­же и пара­линг­ви­сти­че­ские харак­те­ри­сти­ки, о кото­рых мы упо­ми­на­ли выше.

17 Psycho Traveller (2019). Kandy to Ella train (2nd Class). YouTube. Элек­трон­ный ресурс https://​www​.YouTube​.com/​w​a​t​c​h​?​v​=​r​P​1​P​d​n​n​t​gw0.

18 Lost LeBlanc (2019). Why you should visit Norway — Unspoken paradise. YouTube. Элек­трон­ный ресурс https://​www​.YouTube​.com/​w​a​t​c​h​?​v​=​l​k​e​p​F​2​u​K​1sg.

19 Drew Binsky (2022). I took an extreme Russian bath and I lost my mind. YouTube. Элек­трон­ный ресурс https://​www​.YouTube​.com/​w​a​t​c​h​?​v​=​J​Y​-​P​N​Y​k​Y​c​c​s​&​t​=2s.

20 Ори­ги­наль­ные ауди­о­до­рож­ки (на англий­ском язы­ке) к видео всех трех кана­лов на плат­фор­ме YouTube снаб­же­ны скры­ты­ми авто­ма­ти­че­ски­ми суб­тит­ра­ми, кото­рые были отре­дак­ти­ро­ва­ны с целью устра­не­ния рас­хож­де­ний меж­ду зву­ча­щей фор­мой тек­ста и тран­скрип­та­ми.

21 При авто­ма­ти­че­ском голо­со­вом пере­во­де соблю­да­ет­ся лишь одно из тре­бо­ва­ний жан­ра voice-over к сохра­не­нию вос­при­ни­ма­е­мой аутен­тич­но­сти мате­ри­а­ла: ори­ги­наль­ная ауди­о­до­рож­ка не заме­ня­ет­ся пол­но­стью пере­вод­ной, а лишь при­глу­ша­ет­ся. Соглас­но дру­гой жан­ро­вой тра­ди­ции дан­ной раз­но­вид­но­сти аудио­ви­зу­аль­но­го пере­во­да в том виде, в кото­ром она сфор­ми­ро­ва­лась в кино­про­из­вод­стве и аудио­ви­зу­аль­ных СМИ, зву­ча­ние пере­вод­но­го аудио долж­но начи­нать­ся через несколь­ко (хотя бы 1–2) секунд после нача­ла зву­ча­ния ори­ги­наль­ной дорож­ки и закан­чи­вать­ся за несколь­ко секунд до ее окон­ча­ния [Matamala 2019]. В авто­ма­ти­че­ском же пере­во­де ори­ги­нал и пере­вод мак­си­маль­но син­хро­ни­зи­ро­ва­ны.

22 Точ­но так же (чувак) сло­во man пере­да­ва­лось в АГП в ситу­а­ци­ях, когда исполь­зо­ва­лось  гово­ря­щим в функ­ции меж­до­ме­тия.

23 В то же вре­мя, один из трех экс­пер­тов в ком­мен­та­ри­ях осо­бо отме­тил исполь­зо­ва­ние авто­ма­ти­че­ским пере­вод­чи­ком ука­за­тель­но­го место­име­ния такой(-ая) со зна­че­ни­ем грам­ма­ти­че­ско­го офор­ми­те­ля в каче­стве удач­но­го в сти­ли­сти­че­ском отно­ше­нии экви­ва­лен­та англий­ско­го про­сто­реч­но­го выра­же­ния I am like: “…and I’m like oh I can’t wait to shoot…” → «…и я такой: не могу дождать­ся когда нач­ну сни­мать…».

24 Исклю­че­ние, воз­мож­но, состав­ля­ет лишь сфе­ра соци­аль­но-сопро­во­ди­тель­но­го пере­во­да, кото­рая пока тоже недо­ста­точ­но изу­че­на в линг­ви­сти­че­ском аспек­те.

 

Ста­тья посту­пи­ла в редак­цию 1 мар­та 2023 г.;
реко­мен­до­ва­на к печа­ти 8 сен­тяб­ря 2023 г.

© Санкт-Петер­бург­ский госу­дар­ствен­ный уни­вер­си­тет, 2023

ёReceived: March 1, 2023
Accepted: September 8, 2023