Пятница, 4 октябряИнститут «Высшая школа журналистики и массовых коммуникаций» СПбГУ
Shadow

Разработка методов анализа сценариев поведения (на материале инструктивных интернет-текстов)

Рабо­та выпол­не­на при частич­ной под­держ­ке РФФИ (гран­ты № 17–07-00651 «Раз­ра­бот­ка моде­лей и мето­дов кон­стру­и­ро­ва­ния сце­на­ри­ев пове­де­ния на осно­ве ана­ли­за тек­стов» и № 18–29-22027 «Пер­со­наль­ные когни­тив­ные асси­стен­ты, сопро­вож­да­ю­щие дея­тель­ность чело­ве­ка в инфор­ма­ци­он­ном пространстве»)

Постановка проблемы

Раз­ви­тие средств мас­со­вой ком­му­ни­ка­ции в совре­мен­ном инфор­ма­ци­он­ном обще­стве обу­сло­ви­ло весь­ма зна­чи­тель­ные изме­не­ния в пси­хо­ло­ги­че­ских и линг­ви­сти­че­ских меха­низ­мах обще­ния [Бара­нов 2001]. Сте­пень этих изме­не­ний в новой ком­му­ни­ка­тив­ной сре­де дости­га­ет зна­чи­тель­ных мас­шта­бов, поз­во­ля­ю­щих гово­рить о фор­ми­ро­ва­нии новых моде­лей рече­во­го вза­и­мо­дей­ствия. Для выяв­ле­ния сущ­но­сти про­ис­хо­дя­щих изме­не­ний в раз­лич­ных сфе­рах ком­му­ни­ка­ции сто­ит обра­тить­ся к ана­ли­зу сце­на­ри­ев рече­во­го пове­де­ния чело­ве­ка в опре­де­лен­ных ситуациях.

Пред­став­ляя в сло­вес­ной фор­ме сце­на­рий пове­де­ния, чело­век опи­ра­ет­ся на при­об­ре­тен­ный им ком­му­ни­ка­тив­ный опыт — зна­ние при­ня­тых в соци­у­ме сте­рео­ти­пов рече­во­го вза­и­мо­дей­ствия [Куз­не­цо­ва 2019]. Ана­лиз сце­на­ри­ев дает цен­ный мате­ри­ал для реше­ния зна­чи­мой пси­хо­ло­ги­че­ской и линг­ви­сти­че­ской зада­чи объ­ек­ти­ва­ции зна­ния в сфе­ре соци­аль­ных отно­ше­ний [Куз­не­цо­ва 2018]. В част­но­сти, сце­нар­ные тек­сты поз­во­ля­ют полу­чить пред­став­ле­ния о при­ня­тых нор­мах рече­во­го пове­де­ния в раз­лич­ных ситу­а­ци­ях соци­аль­но­го вза­и­мо­дей­ствия [Куз­не­цо­ва и др. 2019a]. В иссле­до­ва­тель­ском плане осо­бо зна­чи­мы­ми, на наш взгляд, явля­ют­ся обоб­щен­ные сце­на­рии, пред­став­лен­ные в «вир­ту­аль­ном» обще­нии: они дают бога­тый мате­ри­ал для про­ве­де­ния иссле­до­ва­ний в инте­ре­сах раз­лич­ных когни­тив­ных дис­ци­плин [Куз­не­цо­ва, Чудо­ва 2008].

Целью ста­тьи явля­ет­ся опи­са­ние осо­бен­но­стей ана­ли­за инструк­тив­ных тек­стов (на при­ме­ре тек­стов, свя­зан­ных с ситу­а­ци­ей покуп­ки авто­мо­би­ля) [Смир­нов и др. 2018], направ­лен­но­го на постро­е­ние моде­ли «сце­нар­но­го» рече­во­го пове­де­ния и созда­ние опти­маль­ных мето­дов извле­че­ния сце­на­ри­ев и их ком­по­нен­тов из тек­сто­во­го материала.

История вопроса

В когни­тив­ных нау­ках сце­на­рий, наря­ду с поня­ти­я­ми фрей­ма, ситу­а­тив­ной моде­ли и дру­ги­ми [Воло­су­хи­на 2010], рас­смат­ри­ва­ет­ся в каче­стве науч­но­го кон­струк­та, с помо­щью кото­ро­го мож­но осу­ще­ствить моде­ли­ро­ва­ние мен­таль­ных состо­я­ний субъ­ек­та [Демьян­ков 1994].

Одним из наи­бо­лее извест­ных направ­ле­ний в иссле­до­ва­нии сце­нар­ных моде­лей пове­де­ния явля­ет­ся фрей­мо­вый под­ход, опи­ра­ю­щий­ся на пред­ло­жен­ное М. Мин­ским поня­тие «фрей» [Мин­ский 1979] как струк­ту­ры дан­ных, пред­на­зна­чен­ной для опи­са­ния сте­рео­тип­ной ситуации.

Наря­ду с фрей­ма­ми, содер­жа­щи­ми декла­ра­тив­ные (дескрип­тив­ные) зна­ния, было пред­ло­же­но поня­тие сце­на­рия, хра­ня­ще­го зна­ния о дина­ми­че­ских явле­ни­ях, кото­рые поэто­му могут быть пред­став­ле­ны как ряд сме­ня­ю­щих друг дру­га состояний.

Ч. Фил­мор рас­смат­ри­ва­ет сце­на­рий как фик­си­ро­ван­ную в язы­ке когни­тив­ную струк­ту­ру, кото­рая вклю­ча­ет вари­ан­ты при­выч­ных меж­лич­ност­ных интерак­ций, реа­ли­зу­е­мых соглас­но нор­мам той или иной куль­ту­ры, а так­же инсти­ту­ци­о­наль­ных струк­тур, акку­му­ли­ру­ю­щих опыт про­фес­си­о­наль­но­го вза­и­мо­дей­ствия (см. [Куз­не­цо­ва 2018]). Р. Шенк и Р. Абель­сон в сход­ном зна­че­нии исполь­зу­ют тер­мин «скрипт», пони­мая под ним пред­опре­де­лен­ную после­до­ва­тель­ность сте­рео­тип­ных дей­ствий, харак­тер­ных для обще­из­вест­ной ситу­а­ции (см. [Пола­тов­ская 2013]).

В каче­стве осо­бо­го типа выде­ля­ют­ся ком­му­ни­ка­тив­ные сце­на­рии, или сце­на­рии рече­во­го пове­де­ния. По опре­де­ле­нию В. И. Шля­хо­ва, они пред­став­ля­ют собой ста­ти­ко-дина­ми­че­ские струк­ту­ры, вклю­ча­ю­щие несколь­ко рече­вых дей­ствий, кото­рые свя­за­ны меж­ду собой иерар­хи­че­ски­ми отно­ше­ни­я­ми. Автор под­чер­ки­ва­ет кон­вен­ци­о­наль­ную цен­ность ком­му­ни­ка­тив­ных сце­на­ри­ев: «Соци­ум выра­бо­тал пра­ви­ла и схе­мы рече­во­го пове­де­ния и ожи­да­ет от инди­ви­да опре­де­лен­ных дей­ствий в опре­де­лен­ных обсто­я­тель­ствах» [Шля­хов 2007: 26].

Отме­тим в этой свя­зи, что линг­ви­сти­ка в сою­зе когни­тив­ных наук при­об­ре­та­ет все воз­рас­та­ю­щую роль не толь­ко пото­му, что она пред­став­ля­ет­ся «фили­а­лом когни­тив­ной пси­хо­ло­гии» и исполь­зу­ет «арсе­нал пере­ра­бот­ки язы­ко­вой инфор­ма­ции для постро­е­ния моде­лей, ими­ти­ру­ю­щих внеш­ние про­яв­ле­ния чело­ве­че­ско­го пове­де­ния при реше­нии интел­лек­ту­аль­ных задач» [Демьян­ков 1994: 18], но и в силу того осо­бо­го обсто­я­тель­ства, кото­рое в чело­ве­че­ской дея­тель­но­сти зани­ма­ет рече­вая ком­му­ни­ка­ция. В сущ­но­сти, текст как вопло­ще­ние (объ­ек­ти­ва­ция) дея­тель­но­сти, реа­ли­зу­е­мой в дис­кур­се, пока едва ли не един­ствен­ный источ­ник сце­нар­но­го моде­ли­ро­ва­ния пове­де­ния, поэто­му опти­маль­ным мате­ри­а­лом для иссле­до­ва­ния сце­нар­но­го пове­де­ния ста­но­вят­ся не про­сто тек­сты на есте­ствен­ном язы­ке, а такие рече­вые про­из­ве­де­ния, кото­рые по сво­ей илло­ку­тив­ной при­ро­де и явля­ют­ся самой дея­тель­но­стью (тек­сты поли­ти­ко-адми­ни­стра­тив­ной, педа­го­ги­че­ской, мас­сме­дий­ной, реклам­ной и тому подоб­ной деятельности).

Неслу­чай­но сце­нар­ный под­ход при­влек боль­шое вни­ма­ние в рам­ках нар­ра­тив­но­го направ­ле­ния ком­му­ни­ка­ти­ви­сти­ки и гума­ни­тар­но­го зна­ния в целом (Э. Эббот, Л. Гриф­фин и др.) [Брок­мей­ер, Хар­ре 2000]. Мето­до­ло­ги­че­ской осо­бен­но­стью это­го направ­ле­ния ста­ло стрем­ле­ние иссле­до­вать соци­аль­ные фено­ме­ны как пред­став­лен­ные в тек­сте (нар­ра­ти­ве) после­до­ва­тель­но­сти собы­тий [Abbot 1992], кото­рые толь­ко так, в тек­сто­вом вопло­ще­нии, отра­жа­ю­щем точ­ку зре­ния рас­сказ­чи­ка, и могут стать пред­ме­том науч­но­го осмыс­ле­ния [Брок­мей­ер, Хар­ре 2000]. Из это­го сле­ду­ет, что к «тек­сто­цен­три­че­ским» нау­кам отно­сит­ся не толь­ко фило­ло­гия, для кото­рой «исход­ной реаль­но­стью» явля­ет­ся «текст во всей сово­куп­но­сти сво­их внут­рен­них аспек­тов и внеш­них свя­зей» [Аве­рин­цев 1979: 372], но и все дру­гие гума­ни­тар­ные дисциплины.

В нар­ра­тив­ном направ­ле­нии сто­ит выде­лить под­ход Х. Олке­ра, кото­рый пред­ло­жил исполь­зо­вать для ана­ли­ти­че­ско­го опи­са­ния меж­ду­на­род­ных собы­тий инстру­мен­та­рий, веду­щий свое про­ис­хож­де­ние от работ оте­че­ствен­но­го фило­ло­га В. Я. Про­п­па [Чуган­ская 2019]. Иссле­дуя тек­сты рус­ских вол­шеб­ных ска­зок, В. Я. Про­пп выде­ля­ет устой­чи­вую струк­ту­ру: опре­де­лен­ный круг основ­ных дей­ству­ю­щих лиц и опре­де­лен­ное мно­же­ство (более 30) их основ­ных функ­ций [Про­пп 1998]. По мне­нию Х. Олке­ра, ана­ло­гич­ный кар­кас обна­ру­жи­ва­ет­ся в струк­ту­ре сце­на­рия тех или иных собы­тий обще­ствен­ной жиз­ни [Олкер 1987: 33].

В линг­ви­сти­че­ских рабо­тах когни­ти­вист­ско­го направ­ле­ния поня­тие «сце­на­рий» вклю­ча­ет такие при­зна­ки содер­жа­ния тек­ста, как типи­зи­ро­ван­ность, нали­чие опре­де­лен­но­го набо­ра участ­ни­ков опи­сы­ва­е­мо­го дей­ствия, дина­мич­ность, свя­зан­ность с тем или иным видом соци­аль­ной прак­ти­ки [Куз­не­цо­ва и др. 2019б]. Важ­ной харак­те­ри­сти­кой явля­ет­ся так­же иерар­хич­ность струк­ту­ры сце­на­рия, в кото­рой ком­по­нен­ты верх­не­го уров­ня отра­жа­ют устой­чи­вые при­зна­ки, обя­за­тель­ные с точ­ки зре­ния содер­жа­ния сце­на­рия, а эле­мен­ты низ­ших уров­ней напол­ня­ют­ся в зави­си­мо­сти от кон­крет­ной ситу­а­ции [Куз­не­цо­ва 2018].

Будучи регу­ля­то­ром ком­му­ни­ка­тив­но­го пове­де­ния, сце­на­рий реа­ли­зу­ет­ся в кон­крет­ной про­блем­ной ситу­а­ции, раз­ре­ше­ние кото­рой тре­бу­ет фор­ми­ро­ва­ния неко­е­го пла­на дей­ствий для адап­та­ции име­ю­щих­ся сце­на­ри­ев к кон­крет­ной ситу­а­ции [Куз­не­цо­ва и др. 2019б]. В отли­чие от сце­на­рия, план свя­зан с кон­крет­ной ситу­а­ци­ей. При фор­ми­ро­ва­нии пла­на суще­ствен­но важ­ным ока­зы­ва­ет­ся вли­я­ние кар­ти­ны мира субъ­ек­та, частью кото­рой явля­ет­ся сце­на­рий [Оси­пов и др. 2017].

Связь сце­на­ри­ев с есте­ствен­ным язы­ком опре­де­ля­ет такое их каче­ство, как куль­ту­ро­спе­ци­фич­ность. Исполь­зу­е­мые язы­ко­вы­ми кол­лек­ти­ва­ми в раз­ных ситу­а­ци­ях обще­ния ком­му­ни­ка­тив­ные стра­те­гии, по мне­нию А. Веж­биц­кой, пред­став­ля­ют собой рече­вое выра­же­ние скры­той (непи­са­ной) систе­мы куль­тур­ных пра­вил, или куль­тур­ных сце­на­ри­ев, отра­жа­ю­щих этни­че­ские уста­нов­ки и нор­мы пове­де­ния [Веж­биц­кая 1999].

В насто­я­щей рабо­те пред­при­ня­та попыт­ка исполь­зо­ва­ния сце­нар­но­го под­хо­да к ана­ли­зу инструк­тив­ных тек­стов, содер­жа­ние и ком­му­ни­ка­тив­ный смысл (интен­ции) кото­рых в наи­боль­шей сте­пе­ни отве­ча­ют базо­во­му поня­тию сце­на­рия. Такие тек­сты содер­жат, как пра­ви­ло, пря­мые наиме­но­ва­ния основ­ных дей­ствий, состо­я­ний, при­зна­ков ситу­а­ции, в кото­рой инструк­ти­ру­е­мый (кол­лек­тив­ный адре­сат) мыс­лит­ся авто­ром тек­ста как испол­ни­тель опре­де­лен­ной роли. Ком­му­ни­ка­тив­ная цель тек­ста-инструк­ции заклю­ча­ет­ся в том, что­бы доне­сти до адре­са­та содер­жа­ние тех стан­дар­тов дей­ствий, соблю­де­ние кото­рых при­зна­ет­ся соци­у­мом суще­ствен­но важ­ным для успеш­но­го осу­ществ­ле­ния раз­лич­ных жиз­нен­ных прак­тик. Чет­кие и недву­смыс­лен­ные фор­му­ли­ров­ки, нали­чие экс­пли­цит­ной моти­ви­ру­ю­щей состав­ля­ю­щей, уси­ли­ва­ю­щей побу­ди­тель­ную модаль­ность тек­ста, важ­ны с точ­ки зре­ния мини­ми­за­ции пове­ден­че­ской вари­а­тив­но­сти, что в ито­ге обес­пе­чи­ва­ет дея­тель­ность, необ­хо­ди­мую для под­дер­жа­ния соци­у­ма. Чело­век, не име­ю­щий досту­па к инструк­тив­ным тек­стам, может испы­ты­вать слож­но­сти в регла­мен­ти­ро­ван­ных ситу­а­ци­ях, в кото­рых вла­де­ю­щий сце­на­ри­я­ми обыч­но реша­ет зада­чи авто­ма­ти­че­ски [Куз­не­цо­ва и др. 2019a].

Пред­став­ля­ет­ся целе­со­об­раз­ным исполь­зо­вать сце­нар­ный под­ход при изу­че­нии потре­би­тель­ско­го пове­де­ния (напри­мер, покуп­ки авто­мо­би­ля). В осно­ве под­хо­да лежит линг­ви­сти­че­ский (интен­ци­о­наль­ный, лек­си­ко-семан­ти­че­ский и грам­ма­ти­че­ский) ана­лиз инструк­тив­ных тек­стов, кото­рый может быть осу­ществ­лен в трех аспектах:

  • функ­ци­о­наль­ном (ком­му­ни­ка­тив­ном), преду­смат­ри­ва­ю­щем выяв­ле­ние ком­му­ни­ка­тив­ной интен­ции, пред­мет­ной цели, ком­по­зи­ции тек­сто­вых фрагментов;
  • струк­тур­ном, состо­я­щем в выде­ле­нии дей­ству­ю­щих лиц и опе­ран­дов: пред­ме­тов-целей и предметов-условий;
  • про­цес­су­аль­ном, име­ю­щем целью опи­са­ние «шагов» и «раз­ви­лок», или точек выбо­ра (ана­лиз в этом аспек­те может быть про­ве­ден с ори­ен­та­ци­ей на идеи В. Я. Про­п­па и Х. Олке­ра [Чуган­ская 2019]).

Описание методики исследования

В каче­стве мате­ри­а­ла ана­ли­за исполь­зу­ют­ся извле­чен­ные из Интер­не­та инструк­ции по покуп­ке авто­мо­би­ля. Кор­пус насчи­ты­ва­ет 100 уни­каль­ных тек­стов (объ­е­мом 147 445 слов), содер­жа­щих поэтап­ное опи­са­ние про­цес­са при­об­ре­те­ния авто­мо­би­ля. Тек­сты были раз­ме­че­ны вруч­ную тре­мя экс­пер­та­ми, резуль­та­ты раз­мет­ки исполь­зо­ва­лись при созда­нии общей моде­ли сценария.

В кон­тек­сте задач авто­ма­ти­че­ско­го ана­ли­за тек­стов (в нашем слу­чае иден­ти­фи­ка­ции фраг­мен­тов инструк­тив­ных тек­стов как опре­де­лен­ных шагов сце­на­рия) осо­бое зна­че­ние при­об­ре­та­ет метод реля­ци­он­но-ситу­а­ци­он­но­го ана­ли­за [Смир­нов и др. 2018], основ­ной зада­чей кото­ро­го явля­ет­ся «выяв­ле­ние зна­че­ний син­так­сем и семан­ти­че­ских свя­зей меж­ду ними» [Оси­пов и др. 2008: 5]. В осно­ву мето­да поло­жен ана­лиз гла­го­лов и дру­гих пре­ди­кат­ных слов, опре­де­ля­ю­щих соче­та­е­мость с син­так­се­ма­ми и струк­ту­ру пред­ло­же­ния в целом. Такой ана­лиз важен и в аспек­те изу­че­ния стро­е­ния дея­тель­но­сти, в част­но­сти он поз­во­ля­ет адек­ват­но опре­де­лить целе­вой ком­по­нент того или ино­го дей­ствия в сценарии.

В реше­нии зада­чи авто­ма­ти­че­ско­го постро­е­ния сце­на­рия мож­но выде­лить два эта­па: ана­лиз струк­ту­ры инструк­тив­но­го тек­ста в озна­чен­ных выше трех аспек­тах и син­тез сце­на­рия на осно­ве полу­чен­ной сце­нар­ной инфор­ма­ции. В нашей рабо­те рас­смат­ри­ва­ет­ся пер­вый этап, пред­по­ла­га­ю­щий сег­мен­та­цию тек­ста на фраг­мен­ты, каж­дый из кото­рых посвя­щен дости­же­нию какой-либо одной цели (ана­лиз струк­тур­но­го аспек­та). Внут­ри каж­до­го фраг­мен­та авто­ма­ти­че­ский ана­лиз выяв­ля­ет фраг­мен­ты, опи­сы­ва­ю­щие усло­вия, в кото­рых дана цель, их вари­а­ции и опе­ра­ции, отве­ча­ю­щие обсуж­да­е­мым в тек­сте усло­ви­ям (ана­лиз про­цес­су­аль­но­го аспек­та). Фраг­мен­ты, содер­жа­щие ком­му­ни­ка­тив­ные цели авто­ра инструк­тив­но­го тек­ста, при руч­ной раз­мет­ке были отде­ле­ны от основ­но­го кор­пу­са, в кото­ром содер­жат­ся фраг­мен­ты, опи­сы­ва­ю­щие цели инструк­ти­ру­е­мо­го чита­те­ля (в нашем слу­чае — потен­ци­аль­но­го поку­па­те­ля авто­мо­би­ля), так что на дан­ном эта­пе иссле­до­ва­ния для функ­ци­о­наль­но­го ана­ли­за мето­ды авто­ма­ти­че­ско­го извле­че­ния сце­нар­ной инфор­ма­ции не раз­ра­ба­ты­ва­лись. В рам­ках пси­хо­ло­ги­че­ской струк­ту­ры сце­нар­но­го пове­де­ния каж­дый шаг сце­на­рия, пред­став­лен­ный выде­ля­е­мым фраг­мен­том тек­ста, может быть опре­де­лен как отдель­ное дей­ствие в соста­ве дея­тель­но­сти по покуп­ке авто­мо­би­ля. Таким обра­зом, метод авто­ма­ти­че­ско­го ана­ли­за струк­тур­но­го и про­цес­су­аль­но­го аспек­тов инструк­тив­но­го тек­ста пред­став­ля­ет собой авто­ма­ти­зи­ро­ван­ную про­це­ду­ру выде­ле­ния еди­ниц дея­тель­но­сти — дей­ствий и опе­ра­ци­о­наль­но­го соста­ва дея­тель­но­сти [Леон­тьев 1974].

Рас­смот­рим подроб­нее общую модель сце­на­рия, при­ня­тую в иссле­до­ва­нии. Обоб­щен­ная струк­ту­ра дан­ных, пред­ло­жен­ная авто­ра­ми ста­тьи, пред­став­ле­на на рисун­ке. В осно­ву ее лег метод пред­став­ле­ния зна­ний из обла­сти искус­ствен­но­го интел­лек­та, осно­вы­ва­ю­щий­ся на поня­тии фрей­ма [Мин­ский 1979]. Дан­ный фрейм­сце­на­рий пред­став­ля­ет собой вло­жен­ную струк­ту­ру, где каж­дый шаг явля­ет­ся отдель­ным фреймом.

Рис. Общая схе­ма фрейма-сценария

На осно­ве ана­ли­за инструк­тив­ных тек­стов были выде­ле­ны три вида сценариев:

  1. Про­стое дей­ствие, пред­став­ля­ю­щее собой один кон­крет­ный сце­на­рий, кото­рый необ­хо­ди­мо выпол­нить (напри­мер, поиск объ­яв­ле­ний о про­да­же подер­жан­ных авто или выбор функ­ци­о­на­ла автомобиля).
  2. Ветв­ле­ния, или мно­же­ство сце­на­ри­ев, вклю­ча­ю­щих аль­тер­на­тив­ные шаги, необя­за­тель­но в опре­де­лен­ной после­до­ва­тель­но­сти. При­ме­ра­ми ветв­ле­ний явля­ют­ся сце­на­рии, преду­смат­ри­ва­ю­щие покуп­ку ино­мар­ки или оте­че­ствен­ной маши­ны, в кре­дит или за налич­ные сред­ства, ново­го или подер­жан­но­го автомобиля.
  3. Цепоч­ка шагов, или мно­же­ство сце­на­ри­ев, кото­рые необ­хо­ди­мо выпол­нить в стро­го задан­ной после­до­ва­тель­но­сти (выбор кон­крет­ной моде­ли, осмотр авто­мо­би­ля в салоне, оформ­ле­ние покуп­ки). Этот вид сце­на­рия допус­ка­ет воз­вра­ще­ние на преды­ду­щие шаги (если при осмот­ре авто­мо­би­ля выяви­лись серьез­ные недо­стат­ки, мож­но выбрать новый вариант).

К дру­гим ком­по­нен­там фрей­ма отно­сят­ся актив­ные участ­ни­ки сце­на­рия (поку­па­тель, про­да­вец, стра­хо­вой агент, пред­ста­ви­тель ГИБДД) и опе­ран­ды: авто­мо­биль, его внеш­ние свой­ства (лако­кра­соч­ное покры­тие, кузов и др.), дого­вор куп­ли-про­да­жи, а так­же цель, т. е. жела­е­мая ситу­а­ция, кото­рая будет достиг­ну­та после выпол­не­ния дей­ствий сце­на­рия (опи­сы­ва­ет­ся хра­ня­щи­ми­ся в рабо­чей памя­ти «фак­та­ми о мире»), и усло­вия, в кото­рых собы­тие происходит.

Для нача­ла выпол­не­ния любо­го сце­на­рия необ­хо­ди­мо осу­ще­ствить опре­де­лен­ные пред­усло­вия (так­же в рабо­чей памя­ти пред­став­лен­ные фак­та­ми о мире): при­нять реше­ния (купить новый авто­мо­биль), най­ти необ­хо­ди­мую инфор­ма­цию, оце­нить ресур­сы (поку­па­тель име­ет инфор­ма­цию о мар­ках авто­мо­би­ля, офи­ци­аль­ных пред­ста­ви­те­лях фир­мы, рас­по­ла­га­ет сред­ства­ми и вре­ме­нем на покуп­ку авто­мо­би­ля и др.).

Пер­вым эта­пом обра­бот­ки тек­стов инструк­ций, как уже было ска­за­но, явля­ет­ся сег­мен­та­ция, в резуль­та­те кото­рой исход­ный текст раз­де­ля­ют­ся на фраг­мен­ты, соот­вет­ству­ю­щие отдель­ным шагам сценария.

Сег­мен­та­цию мож­но раз­де­лить услов­но на четы­ре ста­дии. На пер­вой осу­ществ­ля­ет­ся раз­би­е­ние тек­ста на цель­ные смыс­ло­вые еди­ни­цы, под кото­ры­ми пони­ма­ют­ся пред­ло­же­ния и спис­ки, т. е. одно­род­ные ком­по­нен­ты пред­ло­же­ния, выде­лен­ные в тек­сте таким обра­зом, что каж­дый из них нахо­дит­ся на отдель­ной строке.

Вто­рая ста­дия состо­ит в том, что­бы сре­ди смыс­ло­вых еди­ниц выде­лить эле­мент «реко­мен­ду­е­мое дей­ствие» — цен­тры буду­щих сег­мен­тов, к кото­рым мы отно­сим пре­ди­ка­тив­ные осно­вы выска­зы­ва­ний: гла­го­лы или гла­голь­ные соче­та­ния, выра­жа­ю­щие (лек­си­че­ским зна­че­ни­ем и фор­мой) тот или иной вид побу­ди­тель­ной модаль­но­сти — совет, реко­мен­да­цию, при­зыв и т. п. Таки­ми цен­тра­ми явля­ют­ся, напри­мер, сло­во­фор­мы 2 л. мн. ч. пове­ли­тель­но­го накло­не­ния гла­го­лов (опре­де­ли­тесь, сде­лай­те), модаль­ные наре­чия или без­лич­ные гла­го­лы с инфи­ни­ти­вом (мож­но сде­лать, нуж­но выбрать, сле­ду­ет офор­мить и т. п.) и др.

Несмот­ря на то что смыс­ло­вые цен­тры сег­мен­тов (пре­ди­ка­ты побу­ди­тель­ной модаль­но­сти) содер­жат важ­ней­шую инфор­ма­цию о сце­нар­ном дей­ствии, исполь­зо­вать для созда­ния сце­на­рия толь­ко эти дан­ные недо­ста­точ­но. Это свя­за­но с тем, что, как пока­за­ли экс­пе­ри­мен­ты, при рас­смот­ре­нии мно­же­ства таких цен­тров без уче­та кон­тек­ста соот­вет­ству­ю­щие им век­тор­ные пред­став­ле­ния ока­зы­ва­ют­ся сла­бо раз­де­ли­мы­ми, при этом сни­жа­ет­ся каче­ство клас­си­фи­ка­ции сегментов.

На тре­тьей ста­дии каж­до­му эле­мен­ту, полу­чен­но­му при раз­би­е­нии тек­ста, необ­хо­ди­мо поста­вить в соот­вет­ствие неко­то­рое век­тор­ное пред­став­ле­ние. В рам­ках иссле­до­ва­ния сце­на­ри­ев в инструк­тив­ных текстах каж­до­му сло­ву мы ста­ви­ли в соот­вет­ствие век­тор, исполь­зуя гото­вые моде­ли word2vec из RusVectores [Kutuzov, Kuzmenko 2017], а век­тор для эле­мен­та тек­ста нахо­ди­ли как сред­нее ариф­ме­ти­че­ское век­то­ров для слов, вхо­дя­щих в этот эле­мент, кро­ме стоп-слов. Подоб­ное век­тор­ное пред­став­ле­ние поз­во­ля­ет пред­ста­вить боль­шин­ство эле­мен­тов как доста­точ­но корот­кие тек­сты. Как было пока­за­но в более ран­них иссле­до­ва­ни­ях [Mikolov et al. 2013], дан­ный мето­ди­че­ский при­ем оправдан.

Поста­вив в соот­вет­ствие каж­до­му эле­мен­ту тек­ста век­тор, мы можем в даль­ней­ших рас­суж­де­ни­ях отож­деств­лять поня­тия «эле­мент тек­ста» и «век­тор». Все эле­мен­ты перед пер­вым цен­тром мы отно­сим к пер­во­му цен­тру, все эле­мен­ты после послед­не­го — к послед­не­му. Осталь­ные эле­мен­ты нахо­дят­ся меж­ду дву­мя цен­тра­ми, и для всех пар сосед­них цен­тров мы нахо­дим раз­би­е­ние пред­ло­же­ний меж­ду ними на два непе­ре­се­ка­ю­щих­ся мно­же­ства: кон­текст пер­во­го цен­тра и кон­текст вто­ро­го цен­тра. Есте­ствен­но пред­по­ло­жить, что эле­мен­ты раз­лич­ных кон­тек­стов не долж­ны чере­до­вать­ся. Поэто­му мы ста­вим допол­ни­тель­ное усло­вие: раз­би­е­ние долж­но быть таким, что все эле­мен­ты вто­ро­го мно­же­ства в тек­сте нахо­дят­ся после пер­во­го множества.

Фор­ма­ли­зу­ем зада­чу нахож­де­ния это­го раз­би­е­ния. Пусть рас­сто­я­ние от кон­тек­ста до цен­тра — это сум­ма рас­сто­я­ний от пред­ло­же­ний кон­тек­ста до цен­тра. Тогда най­дем раз­би­е­ние, мини­ми­зи­ру­ю­щее рас­сто­я­ние меж­ду соот­вет­ству­ю­щи­ми цен­тра­ми и кон­тек­ста­ми. Эта зада­ча реша­ет­ся путем пере­бо­ра все­воз­мож­ных раз­би­е­ний за линей­ное вре­мя от коли­че­ства пред­ло­же­ний меж­ду цен­тра­ми. В каче­стве рас­сто­я­ния от пред­ло­же­ния до цен­тра мы исполь­зо­ва­ли евкли­до­во рас­сто­я­ние меж­ду соот­вет­ству­ю­щи­ми век­тор­ны­ми представлениями.

Послед­ней, чет­вер­той, ста­ди­ей сег­мен­та­ции явля­ет­ся объ­еди­не­ние фраг­мен­тов, кото­рые состав­ля­ют один и тот же шаг в рам­ках сце­на­рия. Мы полу­ча­ем век­тор­ные пред­став­ле­ния для сег­мен­тов ана­ло­гич­но век­тор­ным пред­став­ле­ни­ям для эле­мен­тов, кото­рые опи­са­ны выше. Для каж­дой пары сосед­них сег­мен­тов было посчи­та­но рас­сто­я­ние меж­ду ними и объ­еди­не­ны в груп­пу сосед­ству­ю­щих сег­мен­тов, если рас­сто­я­ние меж­ду пара­ми сосед­них сег­мен­тов в этой груп­пе было мень­ше поро­га, уста­нав­ли­ва­е­мо­го экспериментально.

В каче­стве рас­сто­я­ния мы исполь­зо­ва­ли взве­шен­ную линей­ную ком­би­на­цию из WMdistance и сиг­мо­и­да от сум­мы длин сег­мен­тов, где WMdistance — Word Mover’s Distance, один из мно­же­ства вари­ан­тов изме­ре­ния семан­ти­че­ской бли­зо­сти меж­ду дву­мя тек­ста­ми [Kusner et al. 2015], а сиг­мо­ид пони­ма­ет­ся как моно­тон­но воз­рас­та­ю­щая огра­ни­чен­ная функ­ция. Исполь­зо­ва­ние WMdistance обу­слов­ле­но тем, что для сег­мен­тов, кото­рые явля­ют­ся отно­си­тель­но боль­ши­ми тек­ста­ми, он пока­зал луч­шие резуль­та­ты, чем осталь­ные мет­ри­ки. Мы пред­по­ла­га­ем так­же, что корот­кие сег­мен­ты, ско­рее все­го, не пред­став­ля­ют сами по себе боль­шой цен­но­сти, поэто­му мы исполь­зу­ем сиг­мо­ид, кото­рый поощ­ря­ет объ­еди­не­ние корот­ких и штра­фу­ет объ­еди­не­ние длин­ных сег­мен­тов, при­чем штраф прак­ти­че­ски не раз­ли­ча­ет­ся для длин­ных и сверх­длин­ных текстов.

Полу­чен­ные сег­мен­ты исполь­зу­ют­ся для фор­ми­ро­ва­ния ново­го сце­на­рия или улуч­ше­ния уже суще­ству­ю­ще­го. Во вто­ром слу­чае име­ет­ся уже схе­ма шагов, а для каж­до­го шага — неко­то­рая кол­лек­ция соот­вет­ству­ю­щих сег­мен­тов, и может быть постав­ле­на зада­ча интер­пре­ти­ро­вать шаги как клас­сы, по кото­рым необ­хо­ди­мо рас­пре­де­лить наши объ­ек­ты (это стан­дарт­ная зада­ча клас­си­фи­ка­ции и воз­мож­но­сти ее реше­ния будут обсуж­де­ны ниже).

Результаты

Перей­дем к ана­ли­зу резуль­та­тов реше­ния сфор­му­ли­ро­ван­ных выше задач — выде­ле­ния сег­мен­тов, вопло­ща­ю­щих опре­де­лен­ный шаг сце­на­рия, их классификации.

При авто­ма­ти­че­ском ана­ли­зе сце­на­ри­ев в инструк­тив­ных текстах важ­но учи­ты­вать, в какой мере может быть фор­ма­ли­зо­ва­но раз­гра­ни­че­ние сосед­них шагов одно­го тек­ста-сце­на­рия и насколь­ко дости­жи­мо отож­деств­ле­ние фраг­мен­тов раз­ных тек­стов как пред­став­ля­ю­щих один и тот же шаг сценария.

Мы пред­по­ло­жи­ли, что мно­же­ство шагов в век­тор­ном про­стран­стве име­ет доволь­но про­стую струк­ту­ру, а имен­но: каж­дый шаг име­ет свой центр (век­тор), и раз­би­е­ние Воро­но­го [Aurenhammer 1991], постро­ен­ное на этих цен­трах, зада­ет кор­рект­ное раз­де­ле­ние век­тор­но­го про­стран­ства на шаги.

С целью про­вер­ки это­го пред­по­ло­же­ния про­ве­ден сле­ду­ю­щий экс­пе­ри­мент: вруч­ную выбран­ные и раз­ме­чен­ные сег­мен­ты были отоб­ра­же­ны в век­тор­ное про­стран­ство, для каж­до­го шага оце­нен соот­вет­ству­ю­щий центр как сред­нее ариф­ме­ти­че­ское век­то­ров для выбран­ных сег­мен­тов, для каж­до­го сег­мен­та опре­де­лен шаг по бли­жай­ше­му цен­тру и про­ве­де­но срав­не­ние полу­чен­ной раз­мет­ки с исходной.

На осно­ве ана­ли­за инструк­тив­ных тек­стов было выде­ле­но 12 шагов, для каж­до­го из кото­рых най­де­но от трех до девя­ти тек­сто­вых сегментов:

    1. Ваши день­ги.
    2. Цены.
    3. Объ­яв­ле­ния.
    4. Теле­фон­ный разговор.
    5. Доку­мен­ты на машину.
    6. Мони­то­ринг сайтов.
    7. ДКП.
    8. Осмотр.
    9. Тест-драйв.
    10. Мар­ка и модель машины.
    11. Диа­гно­сти­ка.
    12. Год выпус­ка.

В наших экс­пе­ри­мен­тах для оцен­ки каче­ства каж­до­го клас­са мы исполь­зо­ва­ли F‑меру с пара­мет­ром 0.5, т. е. сред­нее гео­мет­ри­че­ское пол­но­ты (Recall) и его чисто­ты (Presicion) полу­чен­но­го клас­са, давая послед­ней боль­ший вес [Hastie, Tibshirani, Friedman 2009]. Для сум­мар­ной оцен­ки каче­ства мы исполь­зо­ва­ли усред­нен­ную F‑меру.

При ана­ли­зе вруч­ную выде­лен­ных сег­мен­тов из инструк­тив­ных тек­стов были полу­че­ны непло­хие, на наш взгляд, результаты:

  • сред­нее зна­че­ние F‑меры — 89.6,
  • мини­маль­ное зна­че­ние F‑меры: — 68.2.

Сле­ду­ет, одна­ко, заме­тить, что неко­то­рые шаги (напри­мер, чет­вер­тый) рас­по­зна­ют­ся хуже. Это свя­за­но с тем, что такие шаги име­ют суще­ствен­ное пере­се­че­ние, так как вклю­ча­ют одно­тип­ную лексику.

Иссле­до­ва­ние пока­за­ло так­же, что если при авто­ма­ти­че­ском выде­ле­нии шагов сце­на­рия инструк­тив­ных тек­стов цен­тры оце­ни­ва­ют­ся не на всем мно­же­стве раз­ме­чен­ных тек­стов, а толь­ко на части, то каче­ство клас­си­фи­ка­ции на остав­шей­ся выбор­ке сколь­ко-нибудь суще­ствен­но не сни­жа­ет­ся (так, если мы отло­жим треть дан­ных как тесто­вую, зна­че­ние F‑меры пада­ет лишь до 80 %).

Доба­вим, что полу­чен­ные в ходе экс­пе­ри­мен­та резуль­та­ты поз­во­ля­ют счи­тать обос­но­ван­ным пред­по­ло­же­ние о том, что струк­ту­ра выяв­ля­е­мых в тек­сте шагов сце­на­рия не отли­ча­ет­ся слож­но­стью. В рам­ках иссле­до­ва­ния на вруч­ную выде­лен­ных сег­мен­тах мы пока­за­ли, что выде­лен­ные экс­пер­та­ми части тек­ста мож­но клас­си­фи­ци­ро­вать вполне каче­ствен­но, имея раз­мет­ку даже для неболь­шо­го коли­че­ства сегментов.

Одной из целей экс­пе­ри­мен­та была оцен­ка воз­мож­но­стей реше­ния зада­чи клас­си­фи­ка­ции авто­ма­ти­че­ски выде­лен­ных объ­ек­тов. Сег­мен­ты, полу­чен­ные про­грам­мой, были про­мар­ки­ро­ва­ны, в резуль­та­те чего была полу­че­на выбор­ка, вклю­ча­ю­щая 490 фраг­мен­тов. В этой выбор­ке отсут­ству­ет пятый шаг (мони­то­ринг сай­тов), посколь­ку для него нашлось толь­ко два сег­мен­та. Выбор­ка ока­за­лась не вполне сба­лан­си­ро­ван­ной, в част­но­сти седь­мой шаг (осмотр) состав­ля­ет почти поло­ви­ну выбор­ки (225 сегментов).

Обсу­дим мето­ды реше­ния зада­чи авто­ма­ти­че­ской клас­си­фи­ка­ции сег­мен­тов, начав с рас­смот­ре­ния «наив­но­го» клас­си­фи­ка­то­ра, осно­ван­но­го на оцен­ке цен­тров. Наив­ная клас­си­фи­ка­ция пред­по­ла­га­ет при­ме­не­ние той же моде­ли, кото­рая была исполь­зо­ва­на в преды­ду­щем раз­де­ле. Каж­до­му сег­мен­ту ста­вит­ся в соот­вет­ствие век­тор как сред­нее ариф­ме­ти­че­ское век­то­ров пред­ло­же­ний, кото­рые, в свою оче­редь, есть сред­нее ариф­ме­ти­че­ское век­то­ров слов. По раз­ме­чен­ным дан­ным мы полу­ча­ем центр каж­до­го клас­са как сред­нее ариф­ме­ти­че­ское соот­вет­ству­ю­щих век­то­ров из обу­ча­ю­щей выбор­ки. Для новых объ­ек­тов класс опре­де­ля­ет­ся по бли­жай­ше­му вектору.

Далее рас­смот­рим логи­сти­че­скую регрес­сию [Hastie, Tibshirani, Friedman 2009] с l2-регу­ля­ри­за­ци­ей, кото­рая пока­за­ла один из наи­луч­ших резуль­та­тов сре­ди раз­лич­ных мето­дов. Пара­метр регу­ля­ри­за­ции под­би­рал­ся с уче­том кросс-вали­да­ции по пяти блокам.

Для изме­ре­ния каче­ства исполь­зо­ва­лась выше­опи­сан­ная F‑мера. Каче­ство наив­ной клас­си­фи­ка­ции опре­де­ля­лось на кросс-вали­да­ции по пяти бло­кам. Для логи­сти­че­ской регрес­сии каче­ство моде­ли изме­ря­лось на тесто­вой выбор­ке, состав­ля­ю­щей 15 % от исход­ной. Были полу­че­ны сле­ду­ю­щие резуль­та­ты сред­не­го зна­че­ния F‑меры:

  • наив­ный клас­си­фи­ка­тор: 52 %;
  • логи­сти­че­ская регрес­сия: 59 %.

Наив­ная клас­си­фи­ка­ция, стро­я­щая раз­би­е­ние Воро­но­го на осно­ве оцен­ки цен­тра, дает резуль­тат луч­ше, чем выше­опи­сан­ный кон­стант­ный клас­си­фи­ка­тор. Это гово­рит о том, что струк­ту­ра шагов, рас­смот­рен­ная для выде­лен­ных чело­ве­ком сег­мен­тов, име­ет место и для шагов, постро­ен­ных на про­грамм­но выде­лен­ных сег­мен­тах. Отме­тим, что логи­сти­че­ская регрес­сия замет­но повы­ша­ет каче­ство на боль­шин­стве шагов (в сред­нем на 7 %).

Выводы

Нами пред­ло­же­на кон­крет­ная струк­ту­ра фрей­ма, кото­рая схе­ма­ти­че­ски опи­сы­ва­ет сце­на­рий. Одним из досто­инств дан­ной струк­ту­ры явля­ет­ся ее уни­вер­саль­ность. Прак­ти­че­ская зна­чи­мость такой струк­ту­ры дан­ных состо­ит в опе­ра­ци­о­на­ли­зи­ру­е­мо­сти, т. е. в воз­мож­но­сти быть исполь­зо­ван­ной при ана­ли­зе сце­нар­но­го пове­де­ния субъ­ек­та, в том чис­ле для авто­ма­ти­че­ско­го извле­че­ния сце­на­рия из тек­стов на есте­ствен­ном язы­ке с исполь­зо­ва­ни­ем тех­но­ло­гий искус­ствен­но­го интеллекта.

Кро­ме того, была пред­ло­же­на мето­ди­ка авто­ма­ти­че­ско­го реше­ния зада­чи сег­мен­та­ции инструк­тив­но­го тек­ста, поз­во­ля­ю­щая выде­лить шаги сце­на­рия, кото­рые отра­жа­ют основ­ные пара­мет­ры дей­ствия как под­чи­нен­но­го опре­де­лен­ной цели, и клас­си­фи­ка­ции полу­чен­ных сег­мен­тов. Иссле­до­ва­ние пока­за­ло, что пред­ло­жен­ная схе­ма сег­мен­та­ции доста­точ­но эффек­тив­на, поз­во­ля­ет полу­чать фраг­мен­ты, содер­жа­щие необ­хо­ди­мую и доста­точ­ную инфор­ма­цию об одном шаге сце­на­рия. Про­ве­ден­ные экс­пе­ри­мен­ты пока­за­ли, что мно­же­ство шагов име­ют в век­тор­ном пред­став­ле­нии доволь­но про­стую струк­ту­ру, и про­де­мон­стри­ро­ва­ли при­ем­ле­мое каче­ство клас­си­фи­ка­ции полу­чен­ных сегментов.

Ста­тья посту­пи­ла в редак­цию 1 октяб­ря 2019 г.;
реко­мен­до­ва­на в печать 10 нояб­ря 2019 г.

© Санкт-Петер­бург­ский госу­дар­ствен­ный уни­вер­си­тет, 2020

Received: October 1, 2019
Accepted: November 10, 2019