Суббота, 26 сентябряИнститут «Высшая школа журналистики и массовых коммуникаций» СПбГУ

Разработка методов анализа сценариев поведения (на материале инструктивных интернет-текстов)

Рассматриваются вопросы моделирования сценариев поведения и методов их извлечения из текстов, циркулирующих в социальных медиа. Авторы исходят из базового в современной когнитивистике положения, согласно которому интенциональный аспект поведения человека отражается главным образом в его речевой деятельности, что дает основание «сценарное» воплощение деятельности, протекающей в разных ситуациях, извлекать из текстов, порождаемых в связи с этой деятельностью. Выбор в качестве материала исследования инструктивных текстов определяется тем, что мотивирующие их порождение коммуникативные интенции, жанровая форма и содержание, наиболее эксплицитно воплощают заключенную в них программу поведения человека. Предлагаются варианты методик автоматического построения сценариев поведения. Представлена разработанная в виде фрейма модель сценария, которая может быть использована в качестве основы автоматической системы сценарного анализа текстов инструкций и дальнейшего сопровождения пользователя данной системы. Описаны результаты эксперимента по автоматическому выявлению сценариев из текстов на естественном языке. Процесс извлечения сценария включает этап сегментации текста, в результате которой каждому выделенному сегменту ставится в соответствие отдельный шаг сценария. Дается описание процедур: разбиение текста на смысловые единицы, выбор наиболее важных фрагментов — центров, выражающих (лексическим значением и формой) тот или иной вид побудительной модальности, присоединение к центрам контекста. В психологическом плане это означает, что на данном этапе извлечения сценарной информации в инструктивном тексте выделяются сегменты, содержащие самостоятельные цели и описывающие действия, приводящие, по мнению автора текста, к их достижению. Реконструкция сценария мыслится как «сборка» целей, акторов, действий и условий, идентифицированных по этим функциям при автоматическом лингвистическом анализе выделенных сегментов. Это дало содержательно обоснованный результат разбиения текста на сегменты, которые в последующем классифицируются с достаточно высоким качеством по F-мере. 

Developing methods for behavior scenario analysis (on the material of instructional texts)

The article discusses the modeling of behavioral scenarios and methods for their extraction from texts published in social media. The authors proceed from the basic (in modern cognitive science) position that the intentional aspect of a person’s behavior is reflected in his speech activity. This gives reason to extract scenarios from the texts generated to carry out some activity. The choice of instructive texts is determined by the fact that their genre, content and communicative intentions of their authors most explicitly represent the program of human behavior. In this article we propose several methods for automatic construction of behavior scenarios, as well as a scenario model in the form of a frame. This model can be used in the system for automatic extraction of scenarios from texts and their further implementation. We describe an experiment on automatic scenario identification in texts and its results. The experiment includes text segmentation after which each segment is associated with a particular step of a scenario. Text segmentation involves dividing a text into semantic units, selecting the most important of them, which express (by their lexical meaning and form) incentive modality, and finding some details to these units. In psychological terms, this means that we extract those segments that contain description of some goals and particular actions that lead to their achievement. Reconstruction of the scenario in this case can be represented as automatic extraction of goals, actors, actions and conditions from selected segments. The result of text segmentation achieves a fairly high F-measure.

Мишланов Валерий Александрович — д-р филол. наук, проф.; mishl@psu.ru

Пермский государственный национальный исследовательский университет,
Российская Федерация, 614068, Пермь, ул. Букирева, 15

Чуганская Анфиса Анваровна — канд. психол. наук; anfisa.makh@gmail.com

Институт проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН,
Российская Федерация, 117312, Москва, пр. 60-летия Октября, 9

Смирнов Иван Валентинович — канд. физ.-мат. наук; ivs@isa.ru

Институт проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН

Суворова Маргарита Игоревна — аспирант; suvorova@isa.ru

Институт проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН

Курузов Илья Алексеевич — аспирант; kuruzov2014@mail.ru

Московский физико-технический институт (национальный исследовательский университет), 
Российская Федерация, 141701, Московская обл., Долгопрудный, Институтский пер., 9

Valerii A. Mishlanov — Dr. Sci. in Philology, Professor; mishl@psu.ru

Perm’ State University,
15, ul. Bukireva, Perm’, 614068, Russian Federation

Anfisa A. Chuganskaya — PhD in Psychology; anfisa.makh@gmail.com

Artificial Intelligence Research Institute of Federal Research Center ‘Computer Science and Control’, Russian Academy of Sciences,
9, pr. 60-letiia Oktiabria, Moscow, 117321, Russian Federation

Ivan V. Smirnov — PhD in Phys.-Math. Sci.; ivs@isa.ru

Artificial Intelligence Research Institute of Federal Research Center ‘Computer Science and Control’, Russian Academy of Sciences

Margarita I. Suvorova — Postgraduate Student; suvorova@isa.ru

Artificial Intelligence Research Institute of Federal Research Center ‘Computer Science and Control’, Russian Academy of Sciences

Ilya A. Kuruzov — Postgraduate Student; kuruzov2014@mail.ru

Moscow Institute of Physics and Technology (National Research University),
9, Institutskii per., Dolgoprudnyi, Moscow region, 141701, Russian Federation

Мишланов, В. А., Чуганская, А. А., Смирнов, И. В., Суворова, М. И., Курузов, И. А. (2020). Разработка методов анализа сценариев поведения (на материале инструктивных интернет-текстов). Медиалингвистика, 7 (1), 16–28.

DOI: 10.21638/spbu22.2020.102

URL: https://medialing.ru/razrabotka-metodov-analiza-scenariev-povedeniya-na-materiale-instruktivnyh-internet-tekstov/ (дата обращения: 26.09.2020)

Mishlanov, V. A., Chuganskaya, A. A., Smirnov, I. V., Suvorova, M. I., Kuruzov I. A. (2020). Developing methods for behavior scenario analysis (on the material of instructional texts). Media Linguistics, 7 (1), 16–28. (In Russian)

DOI: 10.21638/spbu22.2020.102

URL: https://medialing.ru/razrabotka-metodov-analiza-scenariev-povedeniya-na-materiale-instruktivnyh-internet-tekstov/ (accessed: 26.09.2020)

УДК 81'42

Рабо­та выпол­не­на при частич­ной под­держ­ке РФФИ (гран­ты № 17–07-00651 «Раз­ра­бот­ка моде­лей и мето­дов кон­стру­и­ро­ва­ния сце­на­ри­ев пове­де­ния на осно­ве ана­ли­за тек­стов» и № 18–29-22027 «Пер­со­наль­ные когни­тив­ные асси­стен­ты, сопро­вож­да­ю­щие дея­тель­ность чело­ве­ка в инфор­ма­ци­он­ном про­стран­стве»)

Постановка проблемы

Раз­ви­тие средств мас­со­вой ком­му­ни­ка­ции в совре­мен­ном инфор­ма­ци­он­ном обще­стве обу­сло­ви­ло весь­ма зна­чи­тель­ные изме­не­ния в пси­хо­ло­ги­че­ских и линг­ви­сти­че­ских меха­низ­мах обще­ния [Бара­нов 2001]. Сте­пень этих изме­не­ний в новой ком­му­ни­ка­тив­ной сре­де дости­га­ет зна­чи­тель­ных мас­шта­бов, поз­во­ля­ю­щих гово­рить о фор­ми­ро­ва­нии новых моде­лей рече­во­го вза­и­мо­дей­ствия. Для выяв­ле­ния сущ­но­сти про­ис­хо­дя­щих изме­не­ний в раз­лич­ных сфе­рах ком­му­ни­ка­ции сто­ит обра­тить­ся к ана­ли­зу сце­на­ри­ев рече­во­го пове­де­ния чело­ве­ка в опре­де­лен­ных ситу­а­ци­ях.

Пред­став­ляя в сло­вес­ной фор­ме сце­на­рий пове­де­ния, чело­век опи­ра­ет­ся на при­об­ре­тен­ный им ком­му­ни­ка­тив­ный опыт — зна­ние при­ня­тых в соци­у­ме сте­рео­ти­пов рече­во­го вза­и­мо­дей­ствия [Куз­не­цо­ва 2019]. Ана­лиз сце­на­ри­ев дает цен­ный мате­ри­ал для реше­ния зна­чи­мой пси­хо­ло­ги­че­ской и линг­ви­сти­че­ской зада­чи объ­ек­ти­ва­ции зна­ния в сфе­ре соци­аль­ных отно­ше­ний [Куз­не­цо­ва 2018]. В част­но­сти, сце­нар­ные тек­сты поз­во­ля­ют полу­чить пред­став­ле­ния о при­ня­тых нор­мах рече­во­го пове­де­ния в раз­лич­ных ситу­а­ци­ях соци­аль­но­го вза­и­мо­дей­ствия [Куз­не­цо­ва и др. 2019a]. В иссле­до­ва­тель­ском плане осо­бо зна­чи­мы­ми, на наш взгляд, явля­ют­ся обоб­щен­ные сце­на­рии, пред­став­лен­ные в «вир­ту­аль­ном» обще­нии: они дают бога­тый мате­ри­ал для про­ве­де­ния иссле­до­ва­ний в инте­ре­сах раз­лич­ных когни­тив­ных дис­ци­плин [Куз­не­цо­ва, Чудо­ва 2008].

Целью ста­тьи явля­ет­ся опи­са­ние осо­бен­но­стей ана­ли­за инструк­тив­ных тек­стов (на при­ме­ре тек­стов, свя­зан­ных с ситу­а­ци­ей покуп­ки авто­мо­би­ля) [Смир­нов и др. 2018], направ­лен­но­го на постро­е­ние моде­ли «сце­нар­но­го» рече­во­го пове­де­ния и созда­ние опти­маль­ных мето­дов извле­че­ния сце­на­ри­ев и их ком­по­нен­тов из тек­сто­во­го мате­ри­а­ла.

История вопроса

В когни­тив­ных нау­ках сце­на­рий, наря­ду с поня­ти­я­ми фрей­ма, ситу­а­тив­ной моде­ли и дру­ги­ми [Воло­су­хи­на 2010], рас­смат­ри­ва­ет­ся в каче­стве науч­но­го кон­струк­та, с помо­щью кото­ро­го мож­но осу­ще­ствить моде­ли­ро­ва­ние мен­таль­ных состо­я­ний субъ­ек­та [Демьян­ков 1994].

Одним из наи­бо­лее извест­ных направ­ле­ний в иссле­до­ва­нии сце­нар­ных моде­лей пове­де­ния явля­ет­ся фрей­мо­вый под­ход, опи­ра­ю­щий­ся на пред­ло­жен­ное М. Мин­ским поня­тие «фрей» [Мин­ский 1979] как струк­ту­ры дан­ных, пред­на­зна­чен­ной для опи­са­ния сте­рео­тип­ной ситу­а­ции.

Наря­ду с фрей­ма­ми, содер­жа­щи­ми декла­ра­тив­ные (дескрип­тив­ные) зна­ния, было пред­ло­же­но поня­тие сце­на­рия, хра­ня­ще­го зна­ния о дина­ми­че­ских явле­ни­ях, кото­рые поэто­му могут быть пред­став­ле­ны как ряд сме­ня­ю­щих друг дру­га состо­я­ний.

Ч. Фил­мор рас­смат­ри­ва­ет сце­на­рий как фик­си­ро­ван­ную в язы­ке когни­тив­ную струк­ту­ру, кото­рая вклю­ча­ет вари­ан­ты при­выч­ных меж­лич­ност­ных интерак­ций, реа­ли­зу­е­мых соглас­но нор­мам той или иной куль­ту­ры, а так­же инсти­ту­ци­о­наль­ных струк­тур, акку­му­ли­ру­ю­щих опыт про­фес­си­о­наль­но­го вза­и­мо­дей­ствия (см. [Куз­не­цо­ва 2018]). Р. Шенк и Р. Абель­сон в сход­ном зна­че­нии исполь­зу­ют тер­мин «скрипт», пони­мая под ним пред­опре­де­лен­ную после­до­ва­тель­ность сте­рео­тип­ных дей­ствий, харак­тер­ных для обще­из­вест­ной ситу­а­ции (см. [Пола­тов­ская 2013]).

В каче­стве осо­бо­го типа выде­ля­ют­ся ком­му­ни­ка­тив­ные сце­на­рии, или сце­на­рии рече­во­го пове­де­ния. По опре­де­ле­нию В. И. Шля­хо­ва, они пред­став­ля­ют собой ста­ти­ко-дина­ми­че­ские струк­ту­ры, вклю­ча­ю­щие несколь­ко рече­вых дей­ствий, кото­рые свя­за­ны меж­ду собой иерар­хи­че­ски­ми отно­ше­ни­я­ми. Автор под­чер­ки­ва­ет кон­вен­ци­о­наль­ную цен­ность ком­му­ни­ка­тив­ных сце­на­ри­ев: «Соци­ум выра­бо­тал пра­ви­ла и схе­мы рече­во­го пове­де­ния и ожи­да­ет от инди­ви­да опре­де­лен­ных дей­ствий в опре­де­лен­ных обсто­я­тель­ствах» [Шля­хов 2007: 26].

Отме­тим в этой свя­зи, что линг­ви­сти­ка в сою­зе когни­тив­ных наук при­об­ре­та­ет все воз­рас­та­ю­щую роль не толь­ко пото­му, что она пред­став­ля­ет­ся «фили­а­лом когни­тив­ной пси­хо­ло­гии» и исполь­зу­ет «арсе­нал пере­ра­бот­ки язы­ко­вой инфор­ма­ции для постро­е­ния моде­лей, ими­ти­ру­ю­щих внеш­ние про­яв­ле­ния чело­ве­че­ско­го пове­де­ния при реше­нии интел­лек­ту­аль­ных задач» [Демьян­ков 1994: 18], но и в силу того осо­бо­го обсто­я­тель­ства, кото­рое в чело­ве­че­ской дея­тель­но­сти зани­ма­ет рече­вая ком­му­ни­ка­ция. В сущ­но­сти, текст как вопло­ще­ние (объ­ек­ти­ва­ция) дея­тель­но­сти, реа­ли­зу­е­мой в дис­кур­се, пока едва ли не един­ствен­ный источ­ник сце­нар­но­го моде­ли­ро­ва­ния пове­де­ния, поэто­му опти­маль­ным мате­ри­а­лом для иссле­до­ва­ния сце­нар­но­го пове­де­ния ста­но­вят­ся не про­сто тек­сты на есте­ствен­ном язы­ке, а такие рече­вые про­из­ве­де­ния, кото­рые по сво­ей илло­ку­тив­ной при­ро­де и явля­ют­ся самой дея­тель­но­стью (тек­сты поли­ти­ко-адми­ни­стра­тив­ной, педа­го­ги­че­ской, мас­сме­дий­ной, реклам­ной и тому подоб­ной дея­тель­но­сти).

Неслу­чай­но сце­нар­ный под­ход при­влек боль­шое вни­ма­ние в рам­ках нар­ра­тив­но­го направ­ле­ния ком­му­ни­ка­ти­ви­сти­ки и гума­ни­тар­но­го зна­ния в целом (Э. Эббот, Л. Гриф­фин и др.) [Брок­мей­ер, Хар­ре 2000]. Мето­до­ло­ги­че­ской осо­бен­но­стью это­го направ­ле­ния ста­ло стрем­ле­ние иссле­до­вать соци­аль­ные фено­ме­ны как пред­став­лен­ные в тек­сте (нар­ра­ти­ве) после­до­ва­тель­но­сти собы­тий [Abbot 1992], кото­рые толь­ко так, в тек­сто­вом вопло­ще­нии, отра­жа­ю­щем точ­ку зре­ния рас­сказ­чи­ка, и могут стать пред­ме­том науч­но­го осмыс­ле­ния [Брок­мей­ер, Хар­ре 2000]. Из это­го сле­ду­ет, что к «тек­сто­цен­три­че­ским» нау­кам отно­сит­ся не толь­ко фило­ло­гия, для кото­рой «исход­ной реаль­но­стью» явля­ет­ся «текст во всей сово­куп­но­сти сво­их внут­рен­них аспек­тов и внеш­них свя­зей» [Аве­рин­цев 1979: 372], но и все дру­гие гума­ни­тар­ные дис­ци­пли­ны.

В нар­ра­тив­ном направ­ле­нии сто­ит выде­лить под­ход Х. Олке­ра, кото­рый пред­ло­жил исполь­зо­вать для ана­ли­ти­че­ско­го опи­са­ния меж­ду­на­род­ных собы­тий инстру­мен­та­рий, веду­щий свое про­ис­хож­де­ние от работ оте­че­ствен­но­го фило­ло­га В. Я. Про­п­па [Чуган­ская 2019]. Иссле­дуя тек­сты рус­ских вол­шеб­ных ска­зок, В. Я. Про­пп выде­ля­ет устой­чи­вую струк­ту­ру: опре­де­лен­ный круг основ­ных дей­ству­ю­щих лиц и опре­де­лен­ное мно­же­ство (более 30) их основ­ных функ­ций [Про­пп 1998]. По мне­нию Х. Олке­ра, ана­ло­гич­ный кар­кас обна­ру­жи­ва­ет­ся в струк­ту­ре сце­на­рия тех или иных собы­тий обще­ствен­ной жиз­ни [Олкер 1987: 33].

В линг­ви­сти­че­ских рабо­тах когни­ти­вист­ско­го направ­ле­ния поня­тие «сце­на­рий» вклю­ча­ет такие при­зна­ки содер­жа­ния тек­ста, как типи­зи­ро­ван­ность, нали­чие опре­де­лен­но­го набо­ра участ­ни­ков опи­сы­ва­е­мо­го дей­ствия, дина­мич­ность, свя­зан­ность с тем или иным видом соци­аль­ной прак­ти­ки [Куз­не­цо­ва и др. 2019б]. Важ­ной харак­те­ри­сти­кой явля­ет­ся так­же иерар­хич­ность струк­ту­ры сце­на­рия, в кото­рой ком­по­нен­ты верх­не­го уров­ня отра­жа­ют устой­чи­вые при­зна­ки, обя­за­тель­ные с точ­ки зре­ния содер­жа­ния сце­на­рия, а эле­мен­ты низ­ших уров­ней напол­ня­ют­ся в зави­си­мо­сти от кон­крет­ной ситу­а­ции [Куз­не­цо­ва 2018].

Будучи регу­ля­то­ром ком­му­ни­ка­тив­но­го пове­де­ния, сце­на­рий реа­ли­зу­ет­ся в кон­крет­ной про­блем­ной ситу­а­ции, раз­ре­ше­ние кото­рой тре­бу­ет фор­ми­ро­ва­ния неко­е­го пла­на дей­ствий для адап­та­ции име­ю­щих­ся сце­на­ри­ев к кон­крет­ной ситу­а­ции [Куз­не­цо­ва и др. 2019б]. В отли­чие от сце­на­рия, план свя­зан с кон­крет­ной ситу­а­ци­ей. При фор­ми­ро­ва­нии пла­на суще­ствен­но важ­ным ока­зы­ва­ет­ся вли­я­ние кар­ти­ны мира субъ­ек­та, частью кото­рой явля­ет­ся сце­на­рий [Оси­пов и др. 2017].

Связь сце­на­ри­ев с есте­ствен­ным язы­ком опре­де­ля­ет такое их каче­ство, как куль­ту­ро­спе­ци­фич­ность. Исполь­зу­е­мые язы­ко­вы­ми кол­лек­ти­ва­ми в раз­ных ситу­а­ци­ях обще­ния ком­му­ни­ка­тив­ные стра­те­гии, по мне­нию А. Веж­биц­кой, пред­став­ля­ют собой рече­вое выра­же­ние скры­той (непи­са­ной) систе­мы куль­тур­ных пра­вил, или куль­тур­ных сце­на­ри­ев, отра­жа­ю­щих этни­че­ские уста­нов­ки и нор­мы пове­де­ния [Веж­биц­кая 1999].

В насто­я­щей рабо­те пред­при­ня­та попыт­ка исполь­зо­ва­ния сце­нар­но­го под­хо­да к ана­ли­зу инструк­тив­ных тек­стов, содер­жа­ние и ком­му­ни­ка­тив­ный смысл (интен­ции) кото­рых в наи­боль­шей сте­пе­ни отве­ча­ют базо­во­му поня­тию сце­на­рия. Такие тек­сты содер­жат, как пра­ви­ло, пря­мые наиме­но­ва­ния основ­ных дей­ствий, состо­я­ний, при­зна­ков ситу­а­ции, в кото­рой инструк­ти­ру­е­мый (кол­лек­тив­ный адре­сат) мыс­лит­ся авто­ром тек­ста как испол­ни­тель опре­де­лен­ной роли. Ком­му­ни­ка­тив­ная цель тек­ста-инструк­ции заклю­ча­ет­ся в том, что­бы доне­сти до адре­са­та содер­жа­ние тех стан­дар­тов дей­ствий, соблю­де­ние кото­рых при­зна­ет­ся соци­у­мом суще­ствен­но важ­ным для успеш­но­го осу­ществ­ле­ния раз­лич­ных жиз­нен­ных прак­тик. Чет­кие и недву­смыс­лен­ные фор­му­ли­ров­ки, нали­чие экс­пли­цит­ной моти­ви­ру­ю­щей состав­ля­ю­щей, уси­ли­ва­ю­щей побу­ди­тель­ную модаль­ность тек­ста, важ­ны с точ­ки зре­ния мини­ми­за­ции пове­ден­че­ской вари­а­тив­но­сти, что в ито­ге обес­пе­чи­ва­ет дея­тель­ность, необ­хо­ди­мую для под­дер­жа­ния соци­у­ма. Чело­век, не име­ю­щий досту­па к инструк­тив­ным тек­стам, может испы­ты­вать слож­но­сти в регла­мен­ти­ро­ван­ных ситу­а­ци­ях, в кото­рых вла­де­ю­щий сце­на­ри­я­ми обыч­но реша­ет зада­чи авто­ма­ти­че­ски [Куз­не­цо­ва и др. 2019a].

Пред­став­ля­ет­ся целе­со­об­раз­ным исполь­зо­вать сце­нар­ный под­ход при изу­че­нии потре­би­тель­ско­го пове­де­ния (напри­мер, покуп­ки авто­мо­би­ля). В осно­ве под­хо­да лежит линг­ви­сти­че­ский (интен­ци­о­наль­ный, лек­си­ко-семан­ти­че­ский и грам­ма­ти­че­ский) ана­лиз инструк­тив­ных тек­стов, кото­рый может быть осу­ществ­лен в трех аспек­тах:

  • функ­ци­о­наль­ном (ком­му­ни­ка­тив­ном), преду­смат­ри­ва­ю­щем выяв­ле­ние ком­му­ни­ка­тив­ной интен­ции, пред­мет­ной цели, ком­по­зи­ции тек­сто­вых фраг­мен­тов;
  • струк­тур­ном, состо­я­щем в выде­ле­нии дей­ству­ю­щих лиц и опе­ран­дов: пред­ме­тов-целей и пред­ме­тов-усло­вий;
  • про­цес­су­аль­ном, име­ю­щем целью опи­са­ние «шагов» и «раз­ви­лок», или точек выбо­ра (ана­лиз в этом аспек­те может быть про­ве­ден с ори­ен­та­ци­ей на идеи В. Я. Про­п­па и Х. Олке­ра [Чуган­ская 2019]).

Описание методики исследования

В каче­стве мате­ри­а­ла ана­ли­за исполь­зу­ют­ся извле­чен­ные из Интер­не­та инструк­ции по покуп­ке авто­мо­би­ля. Кор­пус насчи­ты­ва­ет 100 уни­каль­ных тек­стов (объ­е­мом 147 445 слов), содер­жа­щих поэтап­ное опи­са­ние про­цес­са при­об­ре­те­ния авто­мо­би­ля. Тек­сты были раз­ме­че­ны вруч­ную тре­мя экс­пер­та­ми, резуль­та­ты раз­мет­ки исполь­зо­ва­лись при созда­нии общей моде­ли сце­на­рия.

В кон­тек­сте задач авто­ма­ти­че­ско­го ана­ли­за тек­стов (в нашем слу­чае иден­ти­фи­ка­ции фраг­мен­тов инструк­тив­ных тек­стов как опре­де­лен­ных шагов сце­на­рия) осо­бое зна­че­ние при­об­ре­та­ет метод реля­ци­он­но-ситу­а­ци­он­но­го ана­ли­за [Смир­нов и др. 2018], основ­ной зада­чей кото­ро­го явля­ет­ся «выяв­ле­ние зна­че­ний син­так­сем и семан­ти­че­ских свя­зей меж­ду ними» [Оси­пов и др. 2008: 5]. В осно­ву мето­да поло­жен ана­лиз гла­го­лов и дру­гих пре­ди­кат­ных слов, опре­де­ля­ю­щих соче­та­е­мость с син­так­се­ма­ми и струк­ту­ру пред­ло­же­ния в целом. Такой ана­лиз важен и в аспек­те изу­че­ния стро­е­ния дея­тель­но­сти, в част­но­сти он поз­во­ля­ет адек­ват­но опре­де­лить целе­вой ком­по­нент того или ино­го дей­ствия в сце­на­рии.

В реше­нии зада­чи авто­ма­ти­че­ско­го постро­е­ния сце­на­рия мож­но выде­лить два эта­па: ана­лиз струк­ту­ры инструк­тив­но­го тек­ста в озна­чен­ных выше трех аспек­тах и син­тез сце­на­рия на осно­ве полу­чен­ной сце­нар­ной инфор­ма­ции. В нашей рабо­те рас­смат­ри­ва­ет­ся пер­вый этап, пред­по­ла­га­ю­щий сег­мен­та­цию тек­ста на фраг­мен­ты, каж­дый из кото­рых посвя­щен дости­же­нию какой-либо одной цели (ана­лиз струк­тур­но­го аспек­та). Внут­ри каж­до­го фраг­мен­та авто­ма­ти­че­ский ана­лиз выяв­ля­ет фраг­мен­ты, опи­сы­ва­ю­щие усло­вия, в кото­рых дана цель, их вари­а­ции и опе­ра­ции, отве­ча­ю­щие обсуж­да­е­мым в тек­сте усло­ви­ям (ана­лиз про­цес­су­аль­но­го аспек­та). Фраг­мен­ты, содер­жа­щие ком­му­ни­ка­тив­ные цели авто­ра инструк­тив­но­го тек­ста, при руч­ной раз­мет­ке были отде­ле­ны от основ­но­го кор­пу­са, в кото­ром содер­жат­ся фраг­мен­ты, опи­сы­ва­ю­щие цели инструк­ти­ру­е­мо­го чита­те­ля (в нашем слу­чае — потен­ци­аль­но­го поку­па­те­ля авто­мо­би­ля), так что на дан­ном эта­пе иссле­до­ва­ния для функ­ци­о­наль­но­го ана­ли­за мето­ды авто­ма­ти­че­ско­го извле­че­ния сце­нар­ной инфор­ма­ции не раз­ра­ба­ты­ва­лись. В рам­ках пси­хо­ло­ги­че­ской струк­ту­ры сце­нар­но­го пове­де­ния каж­дый шаг сце­на­рия, пред­став­лен­ный выде­ля­е­мым фраг­мен­том тек­ста, может быть опре­де­лен как отдель­ное дей­ствие в соста­ве дея­тель­но­сти по покуп­ке авто­мо­би­ля. Таким обра­зом, метод авто­ма­ти­че­ско­го ана­ли­за струк­тур­но­го и про­цес­су­аль­но­го аспек­тов инструк­тив­но­го тек­ста пред­став­ля­ет собой авто­ма­ти­зи­ро­ван­ную про­це­ду­ру выде­ле­ния еди­ниц дея­тель­но­сти — дей­ствий и опе­ра­ци­о­наль­но­го соста­ва дея­тель­но­сти [Леон­тьев 1974].

Рас­смот­рим подроб­нее общую модель сце­на­рия, при­ня­тую в иссле­до­ва­нии. Обоб­щен­ная струк­ту­ра дан­ных, пред­ло­жен­ная авто­ра­ми ста­тьи, пред­став­ле­на на рисун­ке. В осно­ву ее лег метод пред­став­ле­ния зна­ний из обла­сти искус­ствен­но­го интел­лек­та, осно­вы­ва­ю­щий­ся на поня­тии фрей­ма [Мин­ский 1979]. Дан­ный фрейм­сце­на­рий пред­став­ля­ет собой вло­жен­ную струк­ту­ру, где каж­дый шаг явля­ет­ся отдель­ным фрей­мом.

Рис. Общая схе­ма фрей­ма-сце­на­рия

На осно­ве ана­ли­за инструк­тив­ных тек­стов были выде­ле­ны три вида сце­на­ри­ев:

  1. Про­стое дей­ствие, пред­став­ля­ю­щее собой один кон­крет­ный сце­на­рий, кото­рый необ­хо­ди­мо выпол­нить (напри­мер, поиск объ­яв­ле­ний о про­да­же подер­жан­ных авто или выбор функ­ци­о­на­ла авто­мо­би­ля).
  2. Ветв­ле­ния, или мно­же­ство сце­на­ри­ев, вклю­ча­ю­щих аль­тер­на­тив­ные шаги, необя­за­тель­но в опре­де­лен­ной после­до­ва­тель­но­сти. При­ме­ра­ми ветв­ле­ний явля­ют­ся сце­на­рии, преду­смат­ри­ва­ю­щие покуп­ку ино­мар­ки или оте­че­ствен­ной маши­ны, в кре­дит или за налич­ные сред­ства, ново­го или подер­жан­но­го авто­мо­би­ля.
  3. Цепоч­ка шагов, или мно­же­ство сце­на­ри­ев, кото­рые необ­хо­ди­мо выпол­нить в стро­го задан­ной после­до­ва­тель­но­сти (выбор кон­крет­ной моде­ли, осмотр авто­мо­би­ля в салоне, оформ­ле­ние покуп­ки). Этот вид сце­на­рия допус­ка­ет воз­вра­ще­ние на преды­ду­щие шаги (если при осмот­ре авто­мо­би­ля выяви­лись серьез­ные недо­стат­ки, мож­но выбрать новый вари­ант).

К дру­гим ком­по­нен­там фрей­ма отно­сят­ся актив­ные участ­ни­ки сце­на­рия (поку­па­тель, про­да­вец, стра­хо­вой агент, пред­ста­ви­тель ГИБДД) и опе­ран­ды: авто­мо­биль, его внеш­ние свой­ства (лако­кра­соч­ное покры­тие, кузов и др.), дого­вор куп­ли-про­да­жи, а так­же цель, т. е. жела­е­мая ситу­а­ция, кото­рая будет достиг­ну­та после выпол­не­ния дей­ствий сце­на­рия (опи­сы­ва­ет­ся хра­ня­щи­ми­ся в рабо­чей памя­ти «фак­та­ми о мире»), и усло­вия, в кото­рых собы­тие про­ис­хо­дит.

Для нача­ла выпол­не­ния любо­го сце­на­рия необ­хо­ди­мо осу­ще­ствить опре­де­лен­ные пред­усло­вия (так­же в рабо­чей памя­ти пред­став­лен­ные фак­та­ми о мире): при­нять реше­ния (купить новый авто­мо­биль), най­ти необ­хо­ди­мую инфор­ма­цию, оце­нить ресур­сы (поку­па­тель име­ет инфор­ма­цию о мар­ках авто­мо­би­ля, офи­ци­аль­ных пред­ста­ви­те­лях фир­мы, рас­по­ла­га­ет сред­ства­ми и вре­ме­нем на покуп­ку авто­мо­би­ля и др.).

Пер­вым эта­пом обра­бот­ки тек­стов инструк­ций, как уже было ска­за­но, явля­ет­ся сег­мен­та­ция, в резуль­та­те кото­рой исход­ный текст раз­де­ля­ют­ся на фраг­мен­ты, соот­вет­ству­ю­щие отдель­ным шагам сце­на­рия.

Сег­мен­та­цию мож­но раз­де­лить услов­но на четы­ре ста­дии. На пер­вой осу­ществ­ля­ет­ся раз­би­е­ние тек­ста на цель­ные смыс­ло­вые еди­ни­цы, под кото­ры­ми пони­ма­ют­ся пред­ло­же­ния и спис­ки, т. е. одно­род­ные ком­по­нен­ты пред­ло­же­ния, выде­лен­ные в тек­сте таким обра­зом, что каж­дый из них нахо­дит­ся на отдель­ной стро­ке.

Вто­рая ста­дия состо­ит в том, что­бы сре­ди смыс­ло­вых еди­ниц выде­лить эле­мент «реко­мен­ду­е­мое дей­ствие» — цен­тры буду­щих сег­мен­тов, к кото­рым мы отно­сим пре­ди­ка­тив­ные осно­вы выска­зы­ва­ний: гла­го­лы или гла­голь­ные соче­та­ния, выра­жа­ю­щие (лек­си­че­ским зна­че­ни­ем и фор­мой) тот или иной вид побу­ди­тель­ной модаль­но­сти — совет, реко­мен­да­цию, при­зыв и т. п. Таки­ми цен­тра­ми явля­ют­ся, напри­мер, сло­во­фор­мы 2 л. мн. ч. пове­ли­тель­но­го накло­не­ния гла­го­лов (опре­де­ли­тесь, сде­лай­те), модаль­ные наре­чия или без­лич­ные гла­го­лы с инфи­ни­ти­вом (мож­но сде­лать, нуж­но выбрать, сле­ду­ет офор­мить и т. п.) и др.

Несмот­ря на то что смыс­ло­вые цен­тры сег­мен­тов (пре­ди­ка­ты побу­ди­тель­ной модаль­но­сти) содер­жат важ­ней­шую инфор­ма­цию о сце­нар­ном дей­ствии, исполь­зо­вать для созда­ния сце­на­рия толь­ко эти дан­ные недо­ста­точ­но. Это свя­за­но с тем, что, как пока­за­ли экс­пе­ри­мен­ты, при рас­смот­ре­нии мно­же­ства таких цен­тров без уче­та кон­тек­ста соот­вет­ству­ю­щие им век­тор­ные пред­став­ле­ния ока­зы­ва­ют­ся сла­бо раз­де­ли­мы­ми, при этом сни­жа­ет­ся каче­ство клас­си­фи­ка­ции сег­мен­тов.

На тре­тьей ста­дии каж­до­му эле­мен­ту, полу­чен­но­му при раз­би­е­нии тек­ста, необ­хо­ди­мо поста­вить в соот­вет­ствие неко­то­рое век­тор­ное пред­став­ле­ние. В рам­ках иссле­до­ва­ния сце­на­ри­ев в инструк­тив­ных текстах каж­до­му сло­ву мы ста­ви­ли в соот­вет­ствие век­тор, исполь­зуя гото­вые моде­ли word2vec из RusVectores [Kutuzov, Kuzmenko 2017], а век­тор для эле­мен­та тек­ста нахо­ди­ли как сред­нее ариф­ме­ти­че­ское век­то­ров для слов, вхо­дя­щих в этот эле­мент, кро­ме стоп-слов. Подоб­ное век­тор­ное пред­став­ле­ние поз­во­ля­ет пред­ста­вить боль­шин­ство эле­мен­тов как доста­точ­но корот­кие тек­сты. Как было пока­за­но в более ран­них иссле­до­ва­ни­ях [Mikolov et al. 2013], дан­ный мето­ди­че­ский при­ем оправ­дан.

Поста­вив в соот­вет­ствие каж­до­му эле­мен­ту тек­ста век­тор, мы можем в даль­ней­ших рас­суж­де­ни­ях отож­деств­лять поня­тия «эле­мент тек­ста» и «век­тор». Все эле­мен­ты перед пер­вым цен­тром мы отно­сим к пер­во­му цен­тру, все эле­мен­ты после послед­не­го — к послед­не­му. Осталь­ные эле­мен­ты нахо­дят­ся меж­ду дву­мя цен­тра­ми, и для всех пар сосед­них цен­тров мы нахо­дим раз­би­е­ние пред­ло­же­ний меж­ду ними на два непе­ре­се­ка­ю­щих­ся мно­же­ства: кон­текст пер­во­го цен­тра и кон­текст вто­ро­го цен­тра. Есте­ствен­но пред­по­ло­жить, что эле­мен­ты раз­лич­ных кон­тек­стов не долж­ны чере­до­вать­ся. Поэто­му мы ста­вим допол­ни­тель­ное усло­вие: раз­би­е­ние долж­но быть таким, что все эле­мен­ты вто­ро­го мно­же­ства в тек­сте нахо­дят­ся после пер­во­го мно­же­ства.

Фор­ма­ли­зу­ем зада­чу нахож­де­ния это­го раз­би­е­ния. Пусть рас­сто­я­ние от кон­тек­ста до цен­тра — это сум­ма рас­сто­я­ний от пред­ло­же­ний кон­тек­ста до цен­тра. Тогда най­дем раз­би­е­ние, мини­ми­зи­ру­ю­щее рас­сто­я­ние меж­ду соот­вет­ству­ю­щи­ми цен­тра­ми и кон­тек­ста­ми. Эта зада­ча реша­ет­ся путем пере­бо­ра все­воз­мож­ных раз­би­е­ний за линей­ное вре­мя от коли­че­ства пред­ло­же­ний меж­ду цен­тра­ми. В каче­стве рас­сто­я­ния от пред­ло­же­ния до цен­тра мы исполь­зо­ва­ли евкли­до­во рас­сто­я­ние меж­ду соот­вет­ству­ю­щи­ми век­тор­ны­ми пред­став­ле­ни­я­ми.

Послед­ней, чет­вер­той, ста­ди­ей сег­мен­та­ции явля­ет­ся объ­еди­не­ние фраг­мен­тов, кото­рые состав­ля­ют один и тот же шаг в рам­ках сце­на­рия. Мы полу­ча­ем век­тор­ные пред­став­ле­ния для сег­мен­тов ана­ло­гич­но век­тор­ным пред­став­ле­ни­ям для эле­мен­тов, кото­рые опи­са­ны выше. Для каж­дой пары сосед­них сег­мен­тов было посчи­та­но рас­сто­я­ние меж­ду ними и объ­еди­не­ны в груп­пу сосед­ству­ю­щих сег­мен­тов, если рас­сто­я­ние меж­ду пара­ми сосед­них сег­мен­тов в этой груп­пе было мень­ше поро­га, уста­нав­ли­ва­е­мо­го экс­пе­ри­мен­таль­но.

В каче­стве рас­сто­я­ния мы исполь­зо­ва­ли взве­шен­ную линей­ную ком­би­на­цию из WMdistance и сиг­мо­и­да от сум­мы длин сег­мен­тов, где WMdistance — Word Mover’s Distance, один из мно­же­ства вари­ан­тов изме­ре­ния семан­ти­че­ской бли­зо­сти меж­ду дву­мя тек­ста­ми [Kusner et al. 2015], а сиг­мо­ид пони­ма­ет­ся как моно­тон­но воз­рас­та­ю­щая огра­ни­чен­ная функ­ция. Исполь­зо­ва­ние WMdistance обу­слов­ле­но тем, что для сег­мен­тов, кото­рые явля­ют­ся отно­си­тель­но боль­ши­ми тек­ста­ми, он пока­зал луч­шие резуль­та­ты, чем осталь­ные мет­ри­ки. Мы пред­по­ла­га­ем так­же, что корот­кие сег­мен­ты, ско­рее все­го, не пред­став­ля­ют сами по себе боль­шой цен­но­сти, поэто­му мы исполь­зу­ем сиг­мо­ид, кото­рый поощ­ря­ет объ­еди­не­ние корот­ких и штра­фу­ет объ­еди­не­ние длин­ных сег­мен­тов, при­чем штраф прак­ти­че­ски не раз­ли­ча­ет­ся для длин­ных и сверх­длин­ных тек­стов.

Полу­чен­ные сег­мен­ты исполь­зу­ют­ся для фор­ми­ро­ва­ния ново­го сце­на­рия или улуч­ше­ния уже суще­ству­ю­ще­го. Во вто­ром слу­чае име­ет­ся уже схе­ма шагов, а для каж­до­го шага — неко­то­рая кол­лек­ция соот­вет­ству­ю­щих сег­мен­тов, и может быть постав­ле­на зада­ча интер­пре­ти­ро­вать шаги как клас­сы, по кото­рым необ­хо­ди­мо рас­пре­де­лить наши объ­ек­ты (это стан­дарт­ная зада­ча клас­си­фи­ка­ции и воз­мож­но­сти ее реше­ния будут обсуж­де­ны ниже).

Результаты

Перей­дем к ана­ли­зу резуль­та­тов реше­ния сфор­му­ли­ро­ван­ных выше задач — выде­ле­ния сег­мен­тов, вопло­ща­ю­щих опре­де­лен­ный шаг сце­на­рия, их клас­си­фи­ка­ции.

При авто­ма­ти­че­ском ана­ли­зе сце­на­ри­ев в инструк­тив­ных текстах важ­но учи­ты­вать, в какой мере может быть фор­ма­ли­зо­ва­но раз­гра­ни­че­ние сосед­них шагов одно­го тек­ста-сце­на­рия и насколь­ко дости­жи­мо отож­деств­ле­ние фраг­мен­тов раз­ных тек­стов как пред­став­ля­ю­щих один и тот же шаг сце­на­рия.

Мы пред­по­ло­жи­ли, что мно­же­ство шагов в век­тор­ном про­стран­стве име­ет доволь­но про­стую струк­ту­ру, а имен­но: каж­дый шаг име­ет свой центр (век­тор), и раз­би­е­ние Воро­но­го [Aurenhammer 1991], постро­ен­ное на этих цен­трах, зада­ет кор­рект­ное раз­де­ле­ние век­тор­но­го про­стран­ства на шаги.

С целью про­вер­ки это­го пред­по­ло­же­ния про­ве­ден сле­ду­ю­щий экс­пе­ри­мент: вруч­ную выбран­ные и раз­ме­чен­ные сег­мен­ты были отоб­ра­же­ны в век­тор­ное про­стран­ство, для каж­до­го шага оце­нен соот­вет­ству­ю­щий центр как сред­нее ариф­ме­ти­че­ское век­то­ров для выбран­ных сег­мен­тов, для каж­до­го сег­мен­та опре­де­лен шаг по бли­жай­ше­му цен­тру и про­ве­де­но срав­не­ние полу­чен­ной раз­мет­ки с исход­ной.

На осно­ве ана­ли­за инструк­тив­ных тек­стов было выде­ле­но 12 шагов, для каж­до­го из кото­рых най­де­но от трех до девя­ти тек­сто­вых сег­мен­тов:

    1. Ваши день­ги.
    2. Цены.
    3. Объ­яв­ле­ния.
    4. Теле­фон­ный раз­го­вор.
    5. Доку­мен­ты на маши­ну.
    6. Мони­то­ринг сай­тов.
    7. ДКП.
    8. Осмотр.
    9. Тест-драйв.
    10. Мар­ка и модель маши­ны.
    11. Диа­гно­сти­ка.
    12. Год выпус­ка.

В наших экс­пе­ри­мен­тах для оцен­ки каче­ства каж­до­го клас­са мы исполь­зо­ва­ли F‑меру с пара­мет­ром 0.5, т. е. сред­нее гео­мет­ри­че­ское пол­но­ты (Recall) и его чисто­ты (Presicion) полу­чен­но­го клас­са, давая послед­ней боль­ший вес [Hastie, Tibshirani, Friedman 2009]. Для сум­мар­ной оцен­ки каче­ства мы исполь­зо­ва­ли усред­нен­ную F‑меру.

При ана­ли­зе вруч­ную выде­лен­ных сег­мен­тов из инструк­тив­ных тек­стов были полу­че­ны непло­хие, на наш взгляд, резуль­та­ты:

  • сред­нее зна­че­ние F‑меры — 89.6,
  • мини­маль­ное зна­че­ние F‑меры: — 68.2.

Сле­ду­ет, одна­ко, заме­тить, что неко­то­рые шаги (напри­мер, чет­вер­тый) рас­по­зна­ют­ся хуже. Это свя­за­но с тем, что такие шаги име­ют суще­ствен­ное пере­се­че­ние, так как вклю­ча­ют одно­тип­ную лек­си­ку.

Иссле­до­ва­ние пока­за­ло так­же, что если при авто­ма­ти­че­ском выде­ле­нии шагов сце­на­рия инструк­тив­ных тек­стов цен­тры оце­ни­ва­ют­ся не на всем мно­же­стве раз­ме­чен­ных тек­стов, а толь­ко на части, то каче­ство клас­си­фи­ка­ции на остав­шей­ся выбор­ке сколь­ко-нибудь суще­ствен­но не сни­жа­ет­ся (так, если мы отло­жим треть дан­ных как тесто­вую, зна­че­ние F‑меры пада­ет лишь до 80 %).

Доба­вим, что полу­чен­ные в ходе экс­пе­ри­мен­та резуль­та­ты поз­во­ля­ют счи­тать обос­но­ван­ным пред­по­ло­же­ние о том, что струк­ту­ра выяв­ля­е­мых в тек­сте шагов сце­на­рия не отли­ча­ет­ся слож­но­стью. В рам­ках иссле­до­ва­ния на вруч­ную выде­лен­ных сег­мен­тах мы пока­за­ли, что выде­лен­ные экс­пер­та­ми части тек­ста мож­но клас­си­фи­ци­ро­вать вполне каче­ствен­но, имея раз­мет­ку даже для неболь­шо­го коли­че­ства сег­мен­тов.

Одной из целей экс­пе­ри­мен­та была оцен­ка воз­мож­но­стей реше­ния зада­чи клас­си­фи­ка­ции авто­ма­ти­че­ски выде­лен­ных объ­ек­тов. Сег­мен­ты, полу­чен­ные про­грам­мой, были про­мар­ки­ро­ва­ны, в резуль­та­те чего была полу­че­на выбор­ка, вклю­ча­ю­щая 490 фраг­мен­тов. В этой выбор­ке отсут­ству­ет пятый шаг (мони­то­ринг сай­тов), посколь­ку для него нашлось толь­ко два сег­мен­та. Выбор­ка ока­за­лась не вполне сба­лан­си­ро­ван­ной, в част­но­сти седь­мой шаг (осмотр) состав­ля­ет почти поло­ви­ну выбор­ки (225 сег­мен­тов).

Обсу­дим мето­ды реше­ния зада­чи авто­ма­ти­че­ской клас­си­фи­ка­ции сег­мен­тов, начав с рас­смот­ре­ния «наив­но­го» клас­си­фи­ка­то­ра, осно­ван­но­го на оцен­ке цен­тров. Наив­ная клас­си­фи­ка­ция пред­по­ла­га­ет при­ме­не­ние той же моде­ли, кото­рая была исполь­зо­ва­на в преды­ду­щем раз­де­ле. Каж­до­му сег­мен­ту ста­вит­ся в соот­вет­ствие век­тор как сред­нее ариф­ме­ти­че­ское век­то­ров пред­ло­же­ний, кото­рые, в свою оче­редь, есть сред­нее ариф­ме­ти­че­ское век­то­ров слов. По раз­ме­чен­ным дан­ным мы полу­ча­ем центр каж­до­го клас­са как сред­нее ариф­ме­ти­че­ское соот­вет­ству­ю­щих век­то­ров из обу­ча­ю­щей выбор­ки. Для новых объ­ек­тов класс опре­де­ля­ет­ся по бли­жай­ше­му век­то­ру.

Далее рас­смот­рим логи­сти­че­скую регрес­сию [Hastie, Tibshirani, Friedman 2009] с l2-регу­ля­ри­за­ци­ей, кото­рая пока­за­ла один из наи­луч­ших резуль­та­тов сре­ди раз­лич­ных мето­дов. Пара­метр регу­ля­ри­за­ции под­би­рал­ся с уче­том кросс-вали­да­ции по пяти бло­кам.

Для изме­ре­ния каче­ства исполь­зо­ва­лась выше­опи­сан­ная F‑мера. Каче­ство наив­ной клас­си­фи­ка­ции опре­де­ля­лось на кросс-вали­да­ции по пяти бло­кам. Для логи­сти­че­ской регрес­сии каче­ство моде­ли изме­ря­лось на тесто­вой выбор­ке, состав­ля­ю­щей 15 % от исход­ной. Были полу­че­ны сле­ду­ю­щие резуль­та­ты сред­не­го зна­че­ния F‑меры:

  • наив­ный клас­си­фи­ка­тор: 52 %;
  • логи­сти­че­ская регрес­сия: 59 %.

Наив­ная клас­си­фи­ка­ция, стро­я­щая раз­би­е­ние Воро­но­го на осно­ве оцен­ки цен­тра, дает резуль­тат луч­ше, чем выше­опи­сан­ный кон­стант­ный клас­си­фи­ка­тор. Это гово­рит о том, что струк­ту­ра шагов, рас­смот­рен­ная для выде­лен­ных чело­ве­ком сег­мен­тов, име­ет место и для шагов, постро­ен­ных на про­грамм­но выде­лен­ных сег­мен­тах. Отме­тим, что логи­сти­че­ская регрес­сия замет­но повы­ша­ет каче­ство на боль­шин­стве шагов (в сред­нем на 7 %).

Выводы

Нами пред­ло­же­на кон­крет­ная струк­ту­ра фрей­ма, кото­рая схе­ма­ти­че­ски опи­сы­ва­ет сце­на­рий. Одним из досто­инств дан­ной струк­ту­ры явля­ет­ся ее уни­вер­саль­ность. Прак­ти­че­ская зна­чи­мость такой струк­ту­ры дан­ных состо­ит в опе­ра­ци­о­на­ли­зи­ру­е­мо­сти, т. е. в воз­мож­но­сти быть исполь­зо­ван­ной при ана­ли­зе сце­нар­но­го пове­де­ния субъ­ек­та, в том чис­ле для авто­ма­ти­че­ско­го извле­че­ния сце­на­рия из тек­стов на есте­ствен­ном язы­ке с исполь­зо­ва­ни­ем тех­но­ло­гий искус­ствен­но­го интел­лек­та.

Кро­ме того, была пред­ло­же­на мето­ди­ка авто­ма­ти­че­ско­го реше­ния зада­чи сег­мен­та­ции инструк­тив­но­го тек­ста, поз­во­ля­ю­щая выде­лить шаги сце­на­рия, кото­рые отра­жа­ют основ­ные пара­мет­ры дей­ствия как под­чи­нен­но­го опре­де­лен­ной цели, и клас­си­фи­ка­ции полу­чен­ных сег­мен­тов. Иссле­до­ва­ние пока­за­ло, что пред­ло­жен­ная схе­ма сег­мен­та­ции доста­точ­но эффек­тив­на, поз­во­ля­ет полу­чать фраг­мен­ты, содер­жа­щие необ­хо­ди­мую и доста­точ­ную инфор­ма­цию об одном шаге сце­на­рия. Про­ве­ден­ные экс­пе­ри­мен­ты пока­за­ли, что мно­же­ство шагов име­ют в век­тор­ном пред­став­ле­нии доволь­но про­стую струк­ту­ру, и про­де­мон­стри­ро­ва­ли при­ем­ле­мое каче­ство клас­си­фи­ка­ции полу­чен­ных сег­мен­тов.

Аверинцев, С. С. (1979). Филология. Русский язык: энциклопедия. Москва: Советская энциклопедия.

Баранов, А. Н. (2001). Введение в прикладную лингвистику. Москва: Эдиториал УРСС. 

Брокмейер, Й., Харре, Р. (2000). Нарратив: проблемы и обещания одной альтернативной парадигмы. Вопросы философии, 3, 29–42.

Вежбицкая, А. (1999). Семантические универсалии и описание языков. Москва: Языки русской культуры.

Волосухина, Н. В. (2010). К вопросу о трактовке понятий «концепт» и «фрейм» в современной лингвистике. В Материалы научно-методических чтений ПГЛУ (с. 41–46). Пятигорск: Изд-во Пятигорского государственного лингвистического университета.

Демьянков, В. З. (1994). Когнитивная лингвистика как разновидность интерпретирующего подхода. Вопросы языкознания, 4, 17–19.

Кузнецова, Ю. М. (2018). Сценарный подход к анализу текстов. Труды ИСА РАН, 1 (68), 31–41.

Кузнецова, Ю. М. (2019). Социальные сценарии поведения как предмет сетевых обсуждений. В Категория «социального» в современной педагогике и психологии. Мат-лы 7-й Всерос. науч.-практ. конф. с дистанц. и междунар. участием (с. 177–183). Ульяновск: Зебра.

Кузнецова, Ю. М., Осипов, Г. С., Смирнов, И. В., Чудова, Н. В. (2019a). Текст сетевой дискуссии как источник сценарной информации. Речевые технологии, 1, 30–44.

Кузнецова, Ю. М., Суворова, М. И., Чудова, Н. В. (2019б). Сценарий как форма репрезентации события в знаковой картине мира. Труды ИСА РАН, 1, 70–82.

Кузнецова, Ю. М., Чудова, Н. В. (2008). Психология жителей Интернета. Москва: Изд-во ЛКИ.

Леонтьев, А. Н. (1974). Деятельность. Сознание. Личность. Москва: Политиздат.

Минский, М. (1979). Фреймы для представления знаний. Москва: Энергия.

Олкер, Х. Р. (1987). Волшебные сказки, трагедии и способы изложения мировой истории. В Язык и моделирование социального взаимодействия (с. 408–440). Москва: Прогресс.

Осипов, Г. С., Панов, А. И., Чудова, Н. В., Кузнецова, Ю. М. (2017). Знаковая картина мира субъекта поведения. Москва: Физматлит.

Осипов, Г. С., Смирнов, И. В., Тихомиров И. А. (2008). Реляционно-ситуационный метод поиска и анализа текстов и его приложения. Искусственный интеллект и принятие решений, 2, 3–10.

Полатовская, О. С. (2013). Фрейм-сценарий как тип концептов. Вестник Иркутского государственного лингвистического университета, 4 (25), 161–166.

Пропп, В. Я. (1998). Морфология (волшебной) сказки: исторические корни волшебной сказки. Москва: Лабиринт.

Смирнов, И. В., Шелманов, А. О., Исаков, В. А., Станкевич, М. А. (2018). Открытое извлечение информации из текстов. Ч. I. Постановка задачи и обзор методов. Искусственный интеллект и принятие решений, 2, 47–61. DOI: 10.14357/20718594180204.

Чуганская, А. А. (2019). Сценарный подход в ассистировании экономического поведения покупателя. В Ломоносовские чтения — 2019. Секция экономических наук. Экономические отношения в условиях цифровой трансформации: сборник тезисов выступлений (с. 439–442). Москва: Изд-во Московского университета.

Шляхов, В. И. (2007). Сценарии русского речевого взаимодействия. Русский язык за рубежом, 2, 26– 34.

Abbot, A. (1992). From causes to events. Notes on narrative positivism. Sociological methods & research, 20 (4), 428–455.

Aurenhammer, F. (1991). Voronoi Diagrams — A Survey of a Fundamental Geometric Data Structure. ACM Computing Surveys, 23 (3), 345–405. DOI: 10.1145/116873.116880.

Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning. 2nd ed. Berlin: Springer.

Kusner, M., Sun, Y., Kolkin, N. I., Weinberger, K. Q. (2015). From embeddings to document distances. The 32nd International Conference on Machine Learning. Lille, France (pp. 957–966). Lille: ICML.

Kutuzov, A., Kuzmenko, E. (2017). WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In D. Ignatov et al. (Eds), Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science. Vol 661 (pp. 155–161). Springer: Cham. DOI 10.1007/978-3-319-52920-2-15. Электронный ресурс https://rusvectores.org/ru/.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed Representations of Word and Phrases and their Compositionality. In Advances in Neural Information Processing Systems (pp. 3111– 3119). Электронный ресурс https://arxiv.org/abs/1310.4546.

Abbot, A. (1992). From causes to events. Notes on narrative positivism. Sociological methods & research, 20 (4), 428–455.

Aurenhammer, F. (1991). Voronoi Diagrams — A Survey of a Fundamental Geometric Data Structure. ACM Computing Surveys, 23 (3), 345–405. DOI: 10.1145/116873.116880.

Averintsev, S. S. (1979). Philology. Russian language: encyclopedia. Moscow: Soviet Encyclopedia Publ. (In Russian)

Baranov, A. N. (2001). Introduction in applied lingvistics. Moscow: Editorial URSS Publ. (In Russian)

Brokmeier, I., Harre, R. (2000). Narrative: The Problems and Promises of One Alternative Paradigm. Voprosy filosofii, 3, 29–42. (In Russian)

Chuganskaia, A. A. (2019). Scenario approach in assisting the buyer ‘s economic behavior. In Lomonosovsky readings — 2019. Economic Sciences Section. Economic relations in the context of digital transformation: a collection of theses of speeches (pp. 439–442). Moscow: Moscow State University Publ. (In Russian)

Dem’iankov, V. Z. (1994). Cognitive linguistics as a form of interpretive approach. Voprosy iazykoznaniia, 4, 17–19. (In Russian)

Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning. 2nd ed. Berlin: Springer.

Kusner, M., Sun, Y., Kolkin, N. I., Weinberger, K. Q. (2015). From embeddings to document distances. The 32nd International Conference on Machine Learning. Lille, France (pp. 957–966). Lille: ICML.

Kutuzov, A., Kuzmenko, E. (2017). WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In D. Ignatov et al. (Eds), Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol. 661 (pp. 155–161). Springer: Cham. DOI 10.1007/978-3-319-52920-2-15. Retrieved from https://rusvectores.org/ru/.

Kuznetsova, Iu. M. (2018). Scenario approach to text analysis. Works of ISA RAS, 1 (68), 31–41. (In Russian)

Kuznetsova, Iu. M. (2019). Social scenarios of behavior as a subject of online discussion. In Category of “social” in modern pedagogy and psychology. Materials of the 7th All-Russian scientific and practical conference with remote and international participation (pp. 177–183). Ul’ianovsk: Zebra Publ. (In Russian)

Kuznetsova, Iu. M., Osipov, G. S., Smirnov, I. V., Chudova, N. V. (2019a). Text of network discussion as a source of script information. Rechevye tekhnologii, 1, 30–44. (In Russian)

Kuznetsova, Iu. M., Suvorova, M. I., Chudova, N. V. (2019b). Scenario as a form of representation of an event in a landmark picture of the world. Works of ISA RAS, 1, 70–82. (In Russian)

Kuznetsova, Iu. M., Chudova, N. V. (2008). Psychology of Internet residents. Moscow: LKI Publ.. (In Russian)

Leont’ev, A. N. (1974). Activity. Consciousness. Personality. Moscow: Politizdat Publ. (In Russian)

Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed Representations of Word and Phrases and their Compositionality. In Advances in Neural Information Processing Systems (pp. 3111–3119). Retrieved from https://arxiv.org/abs/1310.4546.

Minskii, M. (1979). Frames for presenting knowledge. Moscow: Energiya Publ. (In Russian)

Olker, Kh. R. (1987). Fairy tales, tragedies and the method of presenting the history of the world. In Language and modeling of social interaction (pp. 408–440). Moscow: Progress Publ. (In Russian)

Osipov, G. S., Panov, A. I., Chudova, N. V., Kuznetsova, Iu. M. (2017). Sign-based picture of the world of the subject behavior. Moscow: Fizmatlit Publ. (In Russian)

Osipov, G. S., Smirnov, I. V., Tikhomirov I. A. (2008). Relational-situational method of search and analysis of texts and its application. Artificial intelligence and decision making, 2, 3–10. (In Russian)

Polatovskaia, O. S. (2013). Frame script as a type of concept. Vestnik Irkutskogo gosudarstvennogo lingvisticheskogo universiteta, 4 (25), 161–166. (In Russian)

Propp, V. Ia. (1998). Morphology of the (magic) fairy tale: historical roots of the magic fairy tale. Moscow: Labyrinth Publ. (In Russian)

Shliakhov, V. I. (2007). Scenarios of Russian speech interaction. Russkii iazyk za rubezhom, 2, 26–34. (In Russian)

Smirnov, I. V., Shelmanov, A. O., Isakov, V. A., Stankevich, M. A. (2018). Open extraction of information from texts. Part I. Setting the task and reviewing the methods. Artificial intelligence and decision making, 2, 47–61. DOI: 10.14357/20718594180204. (In Russian)

Vezhbitskaia, A. (1999). Semantic universalia and description of languages. Moscow: Languages of Russian culture Publ. (In Russian)

Volosukhina, N. V. (2010). To the question of the interpretation of the concepts of “concept” and “frame” of modern linguistics. In Materials of scientific and methodological readings of PGLU (pp. 41–46). Piatigorsk: Pyatigorsky State Linguistic University Publ. (In Russian)

Ста­тья посту­пи­ла в редак­цию 1 октяб­ря 2019 г.;
реко­мен­до­ва­на в печать 10 нояб­ря 2019 г.

© Санкт-Петер­бург­ский госу­дар­ствен­ный уни­вер­си­тет, 2020

Received: October 1, 2019
Accepted: November 10, 2019