Рассматривается вопрос о выборе параметров лингвостатистического исследования при сравнении корпусов разной семантики. Обосновывается положение о том, что в набор таких параметров следует включить модели (структурные схемы) предложений как основных единиц выражения мысли. Это ставит задачу разработки метода для выявления структурных схем предложения, полный закрытый список которых представлен в академических грамматиках русского языка. Предложен краткий обзор работ по лингвостатистике под углом зрения выбора единиц анализа текста. Рассматриваются ключевые положения психологической школы Л. С. Выготского — А. Н. Леонтьева о строении элементов сознания, позволяющие различать компоненты аттитюда — аффективный, когнитивный и поведенческий. На материале сетевых дискуссий составлены три корпуса (коллекции) высказываний, каждый из которых воплощает один из этих компонентов. Принадлежность высказываний к той или иной коллекции определялась тремя экспертами-психологами. К лингвистическому анализу представлены 1360 высказываний — 269 аффективных, 859 когнитивных и 232 поведенческих. Анализ позволил выделить для каждого из трех типов высказываний наиболее характерные модели предложений, их оказалось семь. Затем модели запрограммировали и проверили гипотезу о результативности сопоставительного исследования корпусов по параметру «модель предложения». Качественный анализ материала показал, что коллекции эффективно дифференцируются по семантическим вариантам многозначных структурных схем. Количественный же анализ, учитывающий на этом этапе работы только максимально отвлеченную семантику модели предложения, позволил дифференцировать коллекции поведенческого и аффективного типа, но не решил задачу для коллекции высказываний когнитивного типа. Дальнейшее совершенствование методики исследования предполагает включение в анализ структурно-семантических вариантов многозначных моделей предложения.
Sentence model statistics as means of corpus studies of attitudes (based on the material of online discussions)
The paper considers the problem of choosing the parameters of linguostatistical studies when comparing corpora of different semantics. The proposition is to be proven that the set of such parameters should include the models of sentences (structural diagrams) as the basic units of thought expression. It sets the task of programming the sentence structural patterns which are presented in the academic grammars of the Russian language as a complete closed list. A brief overview of works on linguostatistics is offered from the point of view of the choice of text analysis units. We examine the key theses of the psychological school of L. S. Vygotsky — A. N. Leontiev on the structure of consciousness elements to distinguish the components of attitude — affective, cognitive and behavioral. Based on the material of online discussions, three corpora (collections) of statements have been compiled, each embodies one of those components. The belonging of statements to a particular collection was determined by three expert psychologists (if only their assessment completely coincided). The linguistic analysis includes 1360 utterances — 269 affective, 859 cognitive and 232 behavioral. Then, 7 sentence models were selected and programmed which semantics coincides with the content of any of the attitude components. This consistency ensured the interpretability of the work results. The hypothesis on the effectiveness of a comparative study of corpora using the “sentence model” parameter was verified. Qualitative analysis of the material showed that collections are effectively differentiated by semantic variants of polysemous structural patterns. Quantitative analysis, taking into account only the most abstract semantics of the sentence model at this stage of work, made it possible to differentiate the collections of behavioral and affective types, but did not solve the problem for the collection of cognitive-type utterances. Further improvement of the research methodology includes the analysis of structural and semantic variants of polysemous sentence models.
Салимовский Владимир Александрович — д-р филол. наук, проф.; salimovsky@rambler.ru
Пермский государственный национальный
исследовательский университет,
Российская Федерация, 614068, Пермь, ул. Букирева, 15
Станкевич Максим Алексеевич — мл. науч. сотр.;
maxastan95@gmail.com
Чудова Наталья Владимировна — канд. психол. наук, ст. науч. сотр.; nchudova@gmail.com
Федеральный исследовательский центр
«Информатика и управление» РАН,
Российская Федерация, 117312, Москва, пр. 60-летия Октября, 9
Vladimir A. Salimovsky — Dr. Sci. in Philology, Professor;
salimovsky@rambler.ru
Perm State University,
15, ul. Bukireva, Perm, 614068, Russian Federation
Maxim A. Stankevich — Junior Researcher;
maxastan95@gmail.com
Natalia V. Chudova — PhD in Psychology, Senior Researcher;
nchudova@gmail.com
Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences,
9, pr. 60-letiya Oktiabria, Moscow, 117312, Russian Federation
Салимовский В. А., Станкевич М. А., Чудова Н. В. (2024). Статистика моделей предложения как средство корпусных исследований аттитюдов (на материале сетевых дискуссий). Медиалингвистика, 11 (3), 341–356.
URL: https://medialing.ru/statistika-modelej-predlozheniya-kak-sredstvo-korpusnyh-issledovanij-attityudov-na-materiale-setevyh-diskussij/ (дата обращения: 17.09.2024)
Salimovsky V. A., Stankevich M. A., Chudova N. V. (2024). Sentence model statistics as means of corpus studies of attitudes (based on the material of online discussions). Media Linguistics, 11 (3), 341–356. (In Russian)
URL: https://medialing.ru/statistika-modelej-predlozheniya-kak-sredstvo-korpusnyh-issledovanij-attityudov-na-materiale-setevyh-diskussij/ (accessed: 17.09.2024)
УДК 81.33+159.9+004.8
Исследование выполнено в рамках научной программы Национального центра физики и математики, направление № 9 «Искусственный интеллект и большие данные в технических, промышленных, природных и социальных системах».
This study was conducted within the framework of the scientific program of the National Center for Physics and Mathematics, section no. 9 “Artificial intelligence and big data in technical, industrial, natural and social systems”.
Постановка проблемы
Проблематика сетевой психодиагностики активно представлена в последние годы в лингвистических и психологических исследованиях, в работах по автоматическому анализу текста. Первоначальный период «победных реляций» сменился трезвым пониманием того, что требуются тонко организованные исследования, в которых учитывалась бы специфика как определяемых по тексту психологических сущностей, так и параметров текстов, выбираемых в качестве так называемых маркеров. Если говорить о первых, то необходимо помнить о том, что предметом диагностики, основанной на анализе текстов, могут быть не только личностные особенности, эмоциональные реакции и психические состояния, но и различные компоненты познавательной сферы, в том числе связанные с самой организацией этой сферы, т. е. такие структуры, как образ мира и картина мира. Каждая структура психики порождается набором своих психологических механизмов и имеет своеобразные отношения с речью, так что и для диагностики особенностей этой структуры по тексту требуются свои текстовые показатели. В качестве таковых могут выступать весьма различные элементы языка и речи — от конкретных лексем, легко выделяемых современными лингвистическими анализаторами, до таких сложноорганизованных и пока не ставших предметом моделирования в системах искусственного интеллекта сущностей, как модель предложения или коммуникативный регистр. Настоящая работа посвящена исследованию возможности выявления в сетевых обсуждениях компонентов аттитюда (или типов картины мира) по характеру используемых моделей предложения.
Отношения сказуемого с подлежащим, составляющие структуру двусоставного предложения, представляют субъекту говорения/слушания отношение действия актора и объекта этого действия. Именно эти отношения образуют основу сознания, которое зарождается в антропогенезе и формируется в онтогенезе как раз для того, чтобы презентировать самому субъекту систему его действия с объектами. Как было показано в работах Л. С. Выготского и его школы, любой психический процесс возникает вначале в поле интерпсихического, в общении и взаимодействии и лишь затем становится интрапсихическим образованием, интериоризуется. Таким образом, представление (точнее было бы использовать неологизм «представливание») действия и его объекта зарождается в антропогенезе в коммуникации и формирует грамматику языка, а в онтогенезе, при овладении языком, отношение сказуемого и подлежащего возникает как средство структурирования реальности и определяет строение индивидуального сознания. В предложенной А. Н. Леонтьевым схеме строения элемента сознания значение предмета рассматривается как инструмент культуры, ответственный за аккумуляцию общественно-исторического опыта действования с предметом, его смысл — как инструмент накопления личного опыта взаимодействия с предметом, чувственная ткань сознания. Иначе говоря, сам образ предмета, отражающий его свойства, работает как инструмент обобщения знаний о множестве конкретных объектов, с которыми человек действовал как с предметом — носителем имени [Леонтьев 2004].
В общей психологии эти основания сознания рассматриваются в рамках проблематики картины мира, в социальной психологии — в рамках изучения так называемых социальных установок, аттитюдов. В социальной психологии аттитюд понимается как «определенное состояние сознания и нервной системы, выражающее готовность к реакции, организованное на основе предшествующего опыта, оказывающее направляющее и динамическое влияние на поведение» [Андреева 2018: 289]. Аттитюд обладает трехкомпонентной структурой, «в которой выделяются: а) когнитивный компонент (осознание объекта социальной установки); б) аффективный компонент (эмоциональная оценка объекта, выявление чувства симпатии или антипатии к нему); в) поведенческий (конативный) компонент (последовательное поведение по отношению к объекту)» [Андреева 2018: 290]. Другими словами, если рассматривать высказывание человека об объекте в социально-психологическом ключе, то мы обнаружим, что человек описывает свое эмоциональное, познавательное или поведенческое отношение к нему. В искусственном интеллекте представление о строении сознания, предложенное А. Н. Леонтьевым, получило развитие, существенное для моделирования целеполагания интеллектуального агента [Осипов и др. 2018]. В области лингвистики эти совместные с математиками и психологами работы [Салимовский и др. 2019] направлены на выявление речевой организации таких аспектов системы высказываний, как представленный в ней сценарий поведения (презентация сознанию значения предмета), личная история (нарратив, эксплицирующий смысл предмета для субъекта высказывания), образ предмета (описание свойств и связей предмета).
В настоящей статье мы хотели бы предложить средство анализа текста как системы высказываний, содержащей эти типы в разных пропорциях. Такая лингвостатистическая типологизация корпусов текстов, собранных в сетевых дискуссиях, позволила бы при дальнейшей автоматизации анализа речи проводить мониторинг социальных сетей на предмет выявления поведенческого, эмоционального и когнитивного аспектов аттитюда.
На следующем этапе работы планируется обращение также к корпусу высказываний, в которых в качестве доминирующей реализуется собственно коммуникативная интенция. Тем самым субъектно-объектное отношение будет дополнено субъектно-субъектным, диалогическим [Дускаева и др. 2019].
Итак, на наш взгляд, модель предложения может рассматриваться как единица анализа действия, презентированного сознанию субъекта. Говоря о единице анализа, мы опираемся на представление Л. С. Выготского: «Под единицей мы подразумеваем такой продукт анализа, который, в отличие от элементов, обладает всеми основными свойствами, присущими целому, и которые являются далее неразложимыми живыми частями этого единства» [Выготский 2021: 14]. В настоящий момент для задач автоматического анализа текстов сетевого контента достаточно остро стоит вопрос о том, продолжать ли проводить поэлементный анализ, выделяющий в тексте отдельные лексемы, части речи, пунктуационные знаки и т. п., или же необходимо переходить к анализу лингвистических единиц, характеризующих психологическую реальность, стоящую за высказыванием автора. В проведенном в 2021 г. [Moreno et al. 2021] обзорно-аналитическом исследовании методов автоматического анализа высказываний и их корреляции с личностным опросником «Большой пятерки» (на основе данных, представленных в 84 публикациях о связи текстовых параметров с данными психодиагностики) эта проблема представлена так: «В литературе можно найти два основных метода анализа языка для изучения личности — методы, основанные на критериях экспертов… и методы, основанные на вычислительных моделях языка (речь идет о современных методах машинного обучения. — Авт.). Основное различие между ними заключается в том, что последние модели фокусируются на семантических отношениях между словами, фразами, абзацами и т. д., в то время как первые модели предполагают анализ, который направлен на обнаружение шаблонов (обычно определяемых как правила в регулярных выражениях или грамматике и даже поддерживаемых синтаксическими анализаторами)» [Moreno et al. 2021: 2]. На основе проведенного статистическими средствами метаанализа делается вывод о том, что «комбинация синтаксической и семантической информации по сравнению с использованием только одного типа информации» обладает большей эффективностью [Moreno et al. 2021: 5]. К такому же выводу приходит и отечественный исследователь [Devyatkin 2019].
В настоящей работе, учитывая включенность механизмов синтаксиса в речевое мышление [Ахутина 2022] и важную роль моделей предложения в переходе от структур психики к внешней речи [Норман 2011], мы проведем статистический анализ реализации моделей предложения в текстах сетевых дискуссий с целью различения компонентов аттитюда — аффективного, когнитивного и поведенческого.
История вопроса
В количественном анализе текста по его языковым параметрам, как нам представляется, можно различать два основных подхода. Первый, преобладающий, состоит в выборе в качестве параметров статистического исследования тех грамматических и лексико-семантических категорий, которые во флективных языках образуют основу языковой системы — частей речи, их морфологических категорий, а также типов словосочетания, видов простого предложения (прежде всего по цели высказывания, составу главных членов), видов сложного предложения с их дальнейшей типологизацией, семантических классов слов и др. Назначение работ этого направления — представить по возможности полную картину количественных закономерностей функционирования языка в речевых разновидностях.
Второй подход состоит во включении в состав параметров количественного анализа первоначально только тех языковых средств, функционирование которых может подтвердить (или опровергнуть) гипотезу исследователя о причинной зависимости их регулярного употребления в том или ином типе текстов от его содержательных характеристик или влияния определенных психологических либо социальных факторов. Этот подход важен как для изучения специфики разновидностей речи [Кожина 2020], так и для решения пограничных лингвосоциопсихологических задач.
Часто исследователи стремятся совместить эти подходы: расширяют, насколько это возможно, состав параметров количественного анализа текстов и в той мере, в какой это удается, объясняют полученные количественные данные.
Широкое использование статистических методов в анализе текстов начинается в 1960–1970‑е годы (см., например: [Андреев 1967; Адмони 1963; Головин 1971; Кожина 1972; Лесскисс 1962; Шайкевич 1968; Пиотровский 1968]).
Нужно отметить, что установка лингвистов на широкий охват в статистическом анализе речи грамматических и лексико-семантических явлений объясняется логикой развития языкознания: после того как стала очевидной неполнота знаний о языке, получаемых только качественными методами, начала развиваться количественная лингвистика, назначение которой многие исследователи видели главным образом в дополнении знаний о грамматическом и лексическом строе языка. Вместе с тем в рассматриваемый период складываются первые собственно речеведческие концепции, в которых лингвостатистика используется для изучения организации речи, закономерностей речевой деятельности.
Именно в речеведении наиболее последовательно стал реализоваться второй из указанных подходов. По отношению к функциональной стилистике его содержание емко охарактеризовала М. Н. Кожина: «Можно идти эмпирическим путем и подвергать статистическому обследованию одну за другой единицы языковой системы, функционирующие в речи… Этот путь в конце концов приведет к решению поставленных задач, особенно — к полному описанию статистической структуры стилей. Однако этот путь не экономен… Частота употребления не всех и не каждого из языковых средств дает более или менее четкие границы по стилям. Более эффективным представляется другой возможный путь. Исходя из теоретических посылок… целесообразно статистическое обследование стилей речи начинать преимущественно с тех языковых единиц… которые благодаря своей семантико-грамматической природе более “соответствуют” задачам общения в исследуемом стиле. Степень употребительности этих единиц (частота) находится в причинной зависимости от назначения соответствующей формы общественного сознания, вида деятельности и т. д.» [Кожина 2020: 180–181].
Думается, что этот способ количественного анализа речи применим не только к функциональным стилям, но к любым множествам текстов, организация которых подчинена общему принципу и конкретизирующим его закономерностям.
В 1980–1990‑е годы интерес к вопросам лингвостатистики ослабевает. Но через непродолжительное время он возрождается в связи с бурным развитием вычислительной техники и успехами искусственного интеллекта1.
Сегодня внимание исследователей сосредоточено прежде всего на программных аспектах решения широкого круга задач анализа текста, возможностях различных алгоритмов машинного обучения и архитектур нейронных сетей [Golbeck 2016; Hawkins et al. 2017; Qiu et al. 2017; Moreno et al. 2021]. При этом лингвистическая проблематика изучения речевой системности, создаваемой выбором и использованием разноуровневых языковых единиц и детерминируемая «внешними» — психологическими и социальными — факторами, в статистическом анализе текста стала отходить на второй план. Объясняется это, по-видимому, как сложностью междисциплинарного взаимодействия специалистов при разработке методов программного исследования, так и разделяемым многими авторами мнением о том, что устоявшиеся представления о составе параметров статистического изучения речи достаточны для поиска новых решений классификационной задачи в интеллектуальном анализе текста. Состав таких параметров, как и в прежние годы, охватывает основные грамматические категории языка и его словарь, при этом больше всего внимания уделяется частоте употребления слов, их распределению по частям речи, длине предложения, а также биграммам и триграммам символов и слов, пунктуационным знакам [Куртукова и др. 2022]).
В то же время альтернативным стал подход, заключающийся в разработке средств искусственного интеллекта на базе не только математической, но и лингвистической теории. В качестве приложения метода реляционно-ситуационного анализа текста [Осипов 2011] этот подход реализован в инструменте TITANIS [Smirnov et al. 2021]. Здесь состав параметров статистического исследования текста задан концепцией функционального синтаксиса русского языка. Важное достоинство указанного метода заключается в том, что его объектом стала структура предложения, создаваемая сочетанием взаимообусловленных синтаксем. Введение в анализ как формы, так и семантики предложения может послужить предпосылкой компьютерного моделирования воплощения в речи (т. е. в последовательности предложений-высказываний) внутренних — мыслительных и аффективных — процессов. Поэтому актуальной представляется задача программирования и включения в инструменты анализа текста не только конституентов моделей предложения, но и самих моделей, являющихся отвлеченными образцами создания предложений.
Для реализации этого замысла представляются ценными суждения В. А. Белошапковой о соотношении двух основных трактовок модели (или структурной схемы) предложения — как его предикативного или же номинативного минимума. По мнению указанного автора, эти трактовки, при всем различии между ними, «дополняют друг друга, представляя собой разные уровни абстракции: бóльшую при ориентации на предикативный минимум и меньшую при ориентации на номинативный минимум. Это позволяет говорить о двух типах структурных схем предложений — минимальных и расширенных. Расширенные схемы представляют собой минимальные схемы + не входящие в них конститутивные, т. е. существенные для семантической структуры предложения, компоненты. Таким образом, между минимальными и расширенными схемами предложений существуют отношения включения» [Белошапкова 1989: 636].
Грамматика современного русского языка располагает полным систематизированным описанием минимальных структурных схем предложения, представленных его предикативной основой [Шведова 1980]. Между тем в исследованиях, посвященных расширенным схемам, пока лишь рассматриваются и иллюстрируются принципы их выделения. Полного закрытого списка расширенных структурных схем эти работы не содержат. Поэтому в настоящее время задача программирования моделей предложения может ставиться только по отношению к минимальным схемам и их регулярным реализациям. При этом в нужных случаях объектом программирования могут быть и расширенные модели, а также распространяющие их формы слов [Кузнецова и др. 2022].
Ниже мы рассмотрим результаты использования в пилотном исследовании программного средства, содержащего ряд моделей предложения, которые, предположительно, позволяют дифференцировать коллекции высказываний, составленные на психологическом основании.
Описание методики исследования
Психологический аспект методики исследования сводился к сбору размеченных корпусов текстов сетевых дискуссий. Разметка осуществлялась тремя психологами методом сплошной выборки: каждое высказывание в дискуссии каждым экспертом отмечалось как относящееся к одному из трех аспектов аттитюда (аффективному, когнитивному или поведенческому) или оценивалось как собственно коммуникативное действие, т. е. высказывание, не связанное с предметом разговора и не эксплицирующее отношение автора к этому предмету. К первому типу высказываний в соответствии с типологией эмоциональных явлений С. Л. Рубинштейна относились высказывания, содержащие как собственно эмоции автора, так и описание им своих чувств и своего отношения к предмету обсуждения. К когнитивным высказываниям относились те, в которых давалось описание свойств конкретного предмета, и те, в которых автор обсуждал межпредметные связи, свойства класса предметов, основания классификации, давал определение. Содержащими поведенческий компонент считались высказывания, в которых автор описывал конкретные события, произошедшие с ними или кем-либо другим, или представлял сценарий поведения, рекомендуемую или вызывающую опасения схему действия.
Мы разметили три дискуссии, содержащие 3214 высказываний. Как правило, высказывание представляло собой комментарий, но иногда один комментарий содержал два-три высказывания. Далее в процедуре компьютерной обработки корпуса высказываний, размеченных тремя экспертами, была оценена согласованность разметки. К лингвистическому анализу предложили те высказывания некоммуникативного (предметного) типа, в отношении которых была получена стопроцентная согласованность. Таких высказываний оказалось 1360: 269 аффективных, 859 когнитивных, 232 поведенческих.
Лингвистический аспект. Применяются качественно-количественный и сопоставительный методы анализа материала. Качественный метод, состоящий в анализе структуры и семантики предложений-высказываний, направлен на обнаружение соответствия между значением моделей (структурных схем) предложения и содержанием каждого из трех компонентов аттитюда: 1) аффективного (эмоциональной оценкой объекта), 2) когнитивного (его свойства и связи, познанные человеком) и 3) поведенческого (личный или социальный опыт поведения по отношению к объекту).
Количественный анализ заключается в установлении числа актуализаций структурных схем предложения, соответствующих по своей семантике содержанию какого-либо из компонентов аттитюда и выражающих это содержание.
Сопоставительный анализ состоит в сравнении числа актуализаций каждой из рассматриваемых структурных схем в материалах трех коллекций и в объяснении обнаруживаемых различий.
В целом методика исследования призвана продемонстрировать результативность включения параметра «структурная схема предложения» в состав важнейших переменных лингвостатистического анализа текстов в работах по компьютерному когнитивному моделированию.
Программный аспект. Метод для выявления моделей предложений основывается на морфологической разметке инструмента MyStem2, работа с которым осуществлялась при помощи языка программирования Python 3. Данный анализатор позволяет представлять текст в виде последовательности токенов, каждый из которых отражает информацию о лемме и граммемах слов в тексте.
После получения морфологической разметки MyStem программный метод проходит в цикле через последовательность токенов и фиксирует ряд булевых и количественных параметров текста, которые могут указывать на реализацию той или иной модели предложения. Примерами таких параметров являются количество существительных и местоимений в именительном падеже, наличие в тексте полнознаменательных глаголов, вопросительных слов и вопросительного знака, инфинитивов, глаголов в повелительном наклонении, существительных в родительном и творительном падеже, полных прилагательных, лемм «есть» и «нет» и др. После вычисления параметров текста программный метод сопоставляет эти параметры с необходимыми условиями реализации моделей. Например, модель Interr S определяется тогда, когда в тексте есть вопросительное слово и вопросительный знак, а модель N1–N1 может характеризоваться отсутствием знаменательных глаголов и наличием двух существительных в именительном падеже.
Так как метод выявления модели предложения работает с простыми предложениями, размеченные фрагменты текстов были разбиты на клаузы с сохранением квалификации аттитюда в исходных предложениях. После применения метода выявления модели предложения на материале клауз при помощи критерия согласия хи-квадрат проводилось попарное сравнение выборок аттитюдов отдельно для каждой из семи моделей.
Анализ материала
Лингвистический анализ материала
Та или иная модель предложения регулярно используется при реализации какого-либо компонента аттитюда тогда, когда ее семантика соответствует содержанию этого компонента. Если же такого соответствия нет, модель предложения оказывается невостребованной: она хотя и представлена в собранных коллекциях, но лишь немногими высказываниями. Одна и та же модель предложения может регулярно использоваться при реализации двух или даже трех компонентов аттитюда. Это происходит в тех случаях, когда содержанию разных его компонентов соответствуют разные значения модели.
Обратимся к анализу высказываний каждой из трех коллекций.
В коллекции высказываний, воплощающих аффективный компонент аттитюда, особенно активно используются две модели:
N1–N1 Автор молодец!; Джек Лондон — гений!; Ты красава; Вы 65-летний не служивший дед с бронью; Пост 100 % заказуха.
N1–Adj1полн. Очень сильная песня и очень сильное исполнение; Вербовка клевая в фильме; Юмор такой же бородатый; Хоть кто-то грамотный; Все такие «умные».
Реализация обеих моделей предложения закономерна. Структурная схема N1–N1 в числе своих семантических вариантов имеет и такой, который отвечает потребности участников сетевого общения в эмоциональных оценках кого-чеголибо, а именно значение «оценка субъекта» [Шведова 1980: 281]. Оно реализуется, если сказуемое выражено существительным оценивающей семантики (гений, молодец, красава и т. п.).
В свою очередь, указанной потребности соответствует структурная схема N1–Adj1полн., имея значение «отношение между субъектом и его предикативным признаком — свойством или качеством» [Шведова 1980: 289].
Разумеется, в речевом воплощении эмоциональных оценок принимает участие целый комплекс разноуровневых лингвистических средств, организуемых формами предложений и сверхфразовых единств. В наших примерах это инверсия (очень сильная песня), использование интенсификатора (очень сильная), жаргонные слова, метафоры, ирония.
Перейдем к высказываниям, в которых доминирует познавательная (когнитивная) установка.
Чаще всего она реализуется использованием модели N1–N1 — преимущественно в значении идентификации предмета речи с кем-/чем‑л. (в том числе при отнесении к известному, толковании, отрицании тождества) [Шведова 1980: 279–280]: Суббренд — это отдельный бренд; Применяемые в пищевой промышленности оливки — это плоды окультуренного вида масличного дерева; Подпись — это письменное собственноручное заверение документа; День прорыва и день снятия [блокады] — разные праздники; Это декларация, а не сертификат.
Вполне очевидно, что модель N1–Adj1полн., отображающая свойства или качества предмета речи, тоже ориентирована на выражение результатов познавательного процесса: Оливки зеленые, маслины черные же; Внешне они абсолютно идентичные; У Гондора местность более лесистая, культура более урбанизированная; Материалы крепкие; Состав… отнюдь не полный.
Показательно и использование структурной схемы вопросительного предложения с местоименным вопросительным словом — Interr S. Ее актуализации являются запросом сведений о различных свойствах и отношениях объекта. Именно поэтому она регулярно фиксируется в коллекции высказываний, реализующих когнитивный компонент аттитюда: Так что такое фиктивное повышение цен? Из чего ты делаешь этот вывод? Какой правящий класс в стране? В какой области он доктор? Как называется данный документ? В чем сложность печатать корпуса из пластика?
Нужно учитывать, что при познании человеком объекта в нем обнаруживаются разные по своему типу свойства и отношения: бытийные, причинно-следственные, партитивные (классификационные, части и целого), посессивные (принадлежности), статуальные (состояния, изменения состояния), функциональные и др. Из числа моделей предложения, выражающих эти свойства, выберем две со значением бытийности:
Есть N1 (регулярная реализация структурной схемы N1–Vf). У меня есть интернет; Есть такая фиpма, как Pridе; Уже есть защита собственности в суде, есть свобода перемещения; Есть документальные подтверждения; В каждом крупном городе есть какие-то памятники, колонны и прочее;
Нет N2. У меня нет юридического образования; Нет у этого документа названия; Нет никаких принципиальных ограничений; Но у них нет производства на территории РФ; Аналогов за эту цену просто нет.
Ориентированность этих моделей на реализацию познавательной установки определяет их регулярную реализацию в рассматриваемой коллекции высказываний.
Поведенческий компонент аттитюда регулярно реализуют модели, имеющие императивную семантику (в наших материалах семантику совета, рекомендации). Используя их, субъект речи хочет повлиять на поведение собеседника.
Это определенно-личные предложения с главным членом, выраженным повелительным наклонением глагола, — регулярная реализация структурной схемы N1–Vf. Обозначим эти предложения символами Imp (Ну не ходи тогда;Воспользуйся логикой и Гуглом; Продавай их по 1500; Ну так найди ему годные самоделки и пришли; Только не доверяйте обзорам на ютубе). И Praed Inf (Нужно покупать с внешними подключателями к розетке; Без проблем вернуть можно; Не стоит нагонять паники; Нужно читать договор еще внимательнее; При сомнениях нужно советоваться со специалистами).
Кроме простых неосложненных предложений императивной семантики, регулярно используемым синтаксическим средством описания поведения субъекта являются простые предложения с однородными сказуемыми и сложные предложения, отражающие последовательность действий и событий: …сначала заполняешь договор, потом оплачиваешь, а уже затем [идешь] к врачу; …отправляешь договор на ознакомление, а тебе через две минуты прилетает подпись.
Важно отметить, что семантические варианты моделей предложения часто имеют структурные особенности. Например, в модели N1–N1 «выбор связок и связочных образований… определяется семантической структурой предложения» [Шведова 1980: 284]. В наших материалах эта модель при реализации аффективного компонента аттитюда обычно используется с нулевой связкой (Автор молодец!), а когнитивного — в большинстве случаев со связкой это (Суббренд — это отдельный бренд). У других моделей обнаруживаются свои структурно-семантические варианты.
Статистический анализ материала
Сравнительный анализ (попарное сравнение по критерию хи-квадрат) представленности моделей предложения в высказываниях, автоматически отнесенных программными средствами к одному из аспектов аттитюда, показал следующее (табл. 1, 2):
— высказывания поведенческого типа отличаются более частым использованием моделей 6 и 7 (Imp, Praed Inf) и более редким использованием моделей 1, 2 и 3 (N1–N1, Interr S, N1—Adj1полн.);
— высказывания аффективного типа отличаются частым использованием модели 2 (Adj1полн.) — по сравнению с высказываниями как поведенческого типа, так и когнитивного, а также с редким использованием (точнее, отсутствием в корпусе примеров использования) модели 5 (Есть N1);
— для высказываний когнитивного типа в изученном корпусе не найдено специфических моделей предложений, которые использовались бы значимо чаще или реже, чем в высказываниях аффективного и когнитивного типа: относительно более частое использование модели 5 (Есть N1) все же не позволяет отличить когнитивный тип высказывания от поведенческого, а модели 4 (Нет N2) — от высказываний как поведенческого, так и аффективного типа.
Таблица 1. Представленность в подкорпусах высказываний, содержащих рассматриваемые модели предложений
Модель предложения | Подкорпус аффективных высказываний (%) | Подкорпус когнитивных высказываний (%) | Подкорпус поведенческих высказываний (%) | Общее число клауз с данной моделью |
1. N1-ADJ1полн. | 28 (6,91) | 83 (4,01) | 21 (2,16) | 149 |
2. N1-N1 | 40 (9,88) | 270 (13,04) | 63 (6,49) | 430 |
3. Interr S | 17 (4,2) | 83 (4,01) | 13 (1,34) | 132 |
4. Есть N1 | 0 | 37 (1,79) | 8 (0,82) | 49 |
5. Нет N2 | 1 (0,25) | 28 (1,35) | 4 (0,41) | 38 |
6. Imp | 14 (3,46) | 47 (2,27) | 66 (6,8) | 151 |
7. Praed Inf | 7 (1,73) | 57 (2,75) | 43 (4,43) | 133 |
Клаузы без моделей 1–7 | 298 (73,58) | 1466 (70,79) | 752 (77,53) | 2957 |
Число клауз в подкорпусе | 405 | 2071 | 970 | 4039 |
Таблица 2. Статистическая значимость различий в представленности моделей в подкорпусах
Модель | Аттитюд1 | Аттитюд2 | р | р* |
N1-ADJ1полн. | Аффективный | Поведенческий | 0,00003 | *** |
N1-ADJ1полн. | Когнитивный | Поведенческий | 0,01245 | ** |
N1-ADJ1полн. | Аффективный | Когнитивный | 0,01416 | ** |
N1-N1 | Когнитивный | Поведенческий | 0,00000 | *** |
N1-N1 | Аффективный | Поведенческий | 0,03949 | * |
N1-N1 | Аффективный | Когнитивный | 0,09380 | |
Interr S | Когнитивный | Поведенческий | 0,00014 | *** |
Interr S | Аффективный | Поведенческий | 0,00191 | *** |
Interr S | Аффективный | Когнитивный | 0,96853 | |
Есть N1 | Аффективный | Когнитивный | 0,01291 | ** |
Есть N1 | Когнитивный | Поведенческий | 0,05925 | |
Есть N1 | Аффективный | Поведенческий | 0,14873 | |
Нет N2 | Когнитивный | Поведенческий | 0,02955 | * |
Нет N2 | Аффективный | Когнитивный | 0,10142 | |
Нет N2 | Аффективный | Поведенческий | 1,00000 | |
Imp | Когнитивный | Поведенческий | 0,00000 | *** |
Imp | Аффективный | Поведенческий | 0,02198 | * |
Imp | Аффективный | Когнитивный | 0,21701 | |
Praed Inf | Когнитивный | Поведенческий | 0,02071 | * |
Praed Inf | Аффективный | Поведенческий | 0,02236 | * |
Praed Inf | Аффективный | Когнитивный | 0,30944 |
Результаты исследования
Лингвистический (качественный) анализ размеченных вручную психологами коллекций высказываний в сетевых дискуссиях показал, что эти коллекции могут быть надежно дифференцированы по семантическим вариантам многозначных структурных схем. Статистический (количественный) анализ коллекций, автоматически размеченных созданными программными средствами, позволил дифференцировать коллекции поведенческого и аффективного типа, но не решил эту задачу для высказываний когнитивного типа. Поскольку на этом этапе работы программные средства учитывают только максимально отвлеченную семантику модели предложения, очевидно, что дальнейшее совершенствование методики исследования предполагает включение в автоматический анализ структурно-семантических вариантов многозначных моделей предложения.
Необходимо учитывать также особенности использованного материала. Вопервых, семь рассмотренных моделей представлены только в 27 % клауз, выделенных автоматически. Во-вторых, коллекция высказываний когнитивного типа оказалась в изученных сетевых дискуссиях впятеро больше коллекции высказываний аффективного типа и вдвое больше коллекции высказываний поведенческого типа. Соответственно, можно ожидать, что при увеличении числа размеченных сетевых дискуссий и при увеличении числа моделей, распознаваемых автоматически специально созданными программными средствами, характеристика высказываний аффективного типа уточнится, а для высказываний когнитивного типа будут найдены специфицирующие их модели предложений.
В заключение хотелось бы отметить методологическую особенность лингвистических исследований, проводимых в интересах психодиагностики. В такого рода задачах текстовый «портрет» высказываний составляется лингвистом для психологического понятия, нашедшего свою реализацию в тексте. Это значит, что описанию подлежит не сама реальность, а ее научная модель. Доступ к этой модели лингвист получает из дефиниции, предлагаемой психологией, и из размеченного психологами корпуса. Можно сказать, что в междисциплинарных исследованиях по анализу текстов сетевых обсуждений лингвист исследует интуитивные решения эксперта-психодиагноста, а специалист по искусственному интеллекту моделирует неосознаваемые «рассуждения» психолога, выносящего на основе доступных ему текстов суждение о свойствах их авторов (отдельных людей или групп). Как показало пилотажное исследование, понятие аттитюда и представление о его аспектах может быть успешно операционализировано как грамматический «профиль» текстов сетевых обсуждений, где в качестве показателей выступают модели предложений.
Выводы
Для лингвостатистики большое значение имеет выбор параметров анализа речи. Представляется важным ввести в их состав модели (структурные схемы) предложения, являющегося основной единицей выражения мысли. Поскольку академические грамматики русского языка содержат полный и закрытый список структурных схем предложения как его предикативного минимума, считаем целесообразным их программирование и использование в инструментах автоматического анализа текста. От минимальных структурных схем в необходимых случаях возможен переход к расширенным структурным схемам (к номинативному минимуму предложения) и правилам их распространения.
Включенность механизмов синтаксиса в речевое мышление и важная роль моделей предложения в переходе от внутренней речи к внешней являются основанием для предположения о том, что статистический анализ реализации синтаксических моделей в текстах может стать эффективным средством сетевой психодиагностики. Поставлена задача автоматического различения трех коллекций, составленных из высказываний, воплощающих эмоциональное, познавательное или поведенческое отношение к объекту (один из этих компонентов аттитюда).
В пилотажном исследовании выбраны семь моделей предложения, семантика которых соответствует содержанию какого-либо из указанных компонентов. Качественный анализ материала показал, что многозначные модели реализуют в разных коллекциях различные семантические варианты — именно те, которые совпадают с содержанием аттитюда. Количественный анализ, ориентированный на данном этапе работы только на наиболее отвлеченное значение синтаксической модели (без учета ее семантического варьирования), позволил дифференцировать коллекции поведенческого и аффективного типа, но не решил эту задачу для коллекции высказываний, воплощающих когнитивный компонент. Дополнение количественного анализа материала качественным обеспечило интерпретируемость полученных статистических данных. Совершенствование охарактеризованной методики предполагает включение в исследование формальных признаков, обнаруживаемых у реализаций семантических вариантов синтаксической модели.
Впоследствии различные медиатексты смогут быть представлены как содержащие высказывания, реализующие преимущественно одни модели предложений и не реализующие другие, а сами тексты в этом случае можно будет рассматривать как проявляющие аффективное, когнитивное или поведенческое отношение коллективного субъекта к обсуждаемым социальным объектам. Появление такого инструмента автоматического социально-психологического анализа медиатекстов позволит проводить исследование отношения пользователей соцсетей и комментаторов электронных СМИ к социально значимым объектам и событиям.
1 Журнал «Информационные технологии и вычислительные системы». Электронный ресурс http://www.jitcs.ru/; Журнал «Искусственный интеллект и принятие решений». Электронный ресурс https://www.aidt.ru/ru/scope/subjects; Журнал «Труды Институт системного анализа РАН». Электронный ресурс http://www.isa.ru/proceedings/. ↑
2 МyStem. Электронный ресурс https://yandex.ru/dev/mystem/. ↑
Адмони, В. Г. (1963). Качественный и количественный анализ грамматических явлений. Вопросы языкознания, 4, 57–63.
Андреев, Н. Д. (1967). Статистико-комбинаторные методы в теоретическом и прикладном языкознании. Л.: Наука.
Андреева, Г. М. (2018). Социальная психология. М.: Аспект Пресс.
Ахутина, Т. В. (2022). Порождение речи. Нейролингвистический анализ синтаксиса. М.: Ленанд.
Белошапкова, В. А. (Ред.) (1989). Современный русский язык. М.: Высшая школа.
Выготский, Л. С. (2021). Мышление и речь. СПб.: Питер.
Головин, Б. Н. (1971). Язык и статистика. М.: Просвещение.
Дускаева, Л. Р., Редькина, Т. Ю., Цветова, Н. С. (2019). Критика речи в медиалингвистике. М.: Флинта.
Кожина, М. Н. (1972). О речевой системности научного стиля сравнительно с некоторыми другими. Пермь: Перм. гос. ун-т.
Кожина, М. Н. (2020). Речеведение. Теория функциональной стилистики. Избранные труды. М.: Флинта; Наука.
Кузнецова, Ю. М., Мишланов, В. А., Салимовский, В. А., Чудова, Н. В. (2022). Категория речевой системности при моделировании аффективных процессов (на материале сетевого общения). Медиалингвистика, 9 (3), 190–209.
Куртукова, А. В., Романов, А. С., Федотова, А. М., Шелупанов, А. А. (2022). Применение методов машинного обучения и отбора признаков на основе генетического алгоритма в решении задачи определения втора русскоязычного текста для кибербезопасности. Доклады ТУСУР, 1 (25), 79–85.
Леонтьев, А. H. (2004). Деятельность, сознание, личность. М.: Смысл; Academia.
Лесскисс, Г. А. (1962). О размере предложений в русской научной и художественной прозе 60-х гг. XIX в. Вопросы языкознания, 2, 78–95.
Норман, Б. Ю. (2011). Основы психолингвистики. Минск: Белорус. гос. ун-т.
Осипов, Г. С. (2011). Методы искусственного интеллекта. М.: Физматлит.
Осипов, Г. С., Панов, А. И., Чудова, Н. В., Кузнецова, Ю. М. (2018). Знаковая картина мира субъекта поведения. М.: Физматлит.
Пиотровский, Р. Г. (1968). Информационные измерения языка. Л.: Наука.
Салимовский, В. А., Осипов, Г. С., Кузнецова, Ю. М., Суворова, М. И., Чудова, Н. В. (2019). Лингвистические аспекты целеполагания в когнитивном моделировании (на материале речевого жанра «план-инструкция»). Искусственный интеллект и принятие решений, 4, 10–22.
Шайкевич, А. Я. (1968). Опыт статистического выделения функциональных стилей. Вопросы языкознания, 1, 64–76.
Шведова, Н. Ю. (Ред.) (1980). Русская грамматика. В 2 т. Т. 2. М.: Наука.
Devyatkin, D. (2019). Extraction of Cognitive Operations from Scientific Texts. In Russian Conference on Artificial Intelligence (pp. 189–200). Ulyanovsk: Springer.
Golbeck, J. (2016). Predicting personality from social media text. AIS Transactions on Replication Research, 2 (2), 1–10.
Hawkins, I, Raymond, C., Boyd, R. L. (2017). Such stuff as dreams are made on: Dream language, LIWC norms, and personality correlates. Dreaming, 27 (2), 102–121.
Moreno, J., Martínez-Huertas, J., Olmos, R., Jorge-Botana, G., Botella, J. (2021). Can personality traits be measured analyzing written language? A meta-analytic study on computational methods. Personality and Individual Differences, 177. Электронный ресурсhttps://www.researchgate.net/publication/350250036_Can_personality_traits_be_measured_analyzing_written_language_A_meta-analytic_study_on_computational_methods.
Qiu, L., Lu, J., Ramsay, J., Yang, S., Qu, W., Zhu, T. (2017). Personality expression in Chinese language use. International Journal of Psychology, 52 (6), 463–472.
Smirnov, I., Stankevich, M., Kuznetsova, Y., Suvorova, M., Larionov, D., Nikitina, E., Savelov, M., Grigoriev, O. (2021). TITANIS: A Tool for Intelligent Text Analysis in Social Media. In Lecture notes in computer science (pp. 232–247). Cham: Springer Nature Switzerland.
Admoni, V. G. (1963). Qualitative and quantitative analysis of grammatical phenomena. Voprosy iazykoznaniia, 4, 57–63. (In Russian)
Akhutina, T. V. (2022). Generation of speech. Neurolinguistic analysis of syntax. Moscow: Lenand Publ. (In Russian)
Andreev, N. D. (1967). Statistical-combinatorial methods in theoretical and applied linguistics. Leningrad: Nauka Publ. (In Russian)
Andreeva, G. M. (2018). Social Psychology. Moscow: Aspekt Press. (In Russian)
Beloshapkova, V. A. (Ed.) (1989). Modern Russian language. Moscow: Vysshaia shkola Publ. (In Russian)
Deviatkin, D. (2019). Extraction of Cognitive Operations from Scientific Texts. In Russian Conference on Artificial Intelligence (pp. 189–200). Ulyanovsk: Springer.
Duskaeva, L. R., Red’kina, T. Iu., Tsvetova, N. S. (2019). Criticism of speech in media linguistics. Moscow: Flinta Publ. (In Russian)
Golbeck, J. (2016). Predicting personality from social media text. AIS Transactions on Replication Research, 2 (2), 1–10.
Golovin, B. N. (1971). Language and statistics. Moscow: Prosveshchenie Publ. (In Russian)
Hawkins, I., Raymond, C., Boyd, R. L. (2017). Such stuff as dreams are made on: Dream language, LIWC norms, and personality correlates. Dreaming, 27 (2), 102–121.
Kozhina, M. N. (1972). About the speech systematicity of the scientific style in comparison with some others. Perm: Permskii gosudarstvennyi universitet Publ. (In Russian)
Kozhina, M. N. (2020). Speech science. Theory of functional stylistics. Favorite works. Moscow: Flinta Publ.; Nauka Publ. (In Russian)
Kuznetsova, Iu. M., Mishchlanov, V. A., Salimovskii, V. A., Chudova N. V. (2022). The category of speech consistency in modeling affective processes (based on the material of network communication). Media Linguistics, 9 (3), 190–209. (In Russian)
Kurtukova, A. V., Romanov, A. S., Fedotova, A. M., Shelupanov, A. A. (2022). Application of machine learning methods and feature selection based on a genetic algorithm in solving the problem of determining the second text of a Russian-language text for cybersecurity. Doklady TUSUR, 1 (25), 79–85. (In Russian)
Leont’ev, A. N. (2004). Activity, consciousness, personality. Moscow: Smysl Publ.; Academiia Publ. (In Russian)
Lesskiss, G. A. (1962). On the size of sentences in Russian scientific and artistic prose of the 60s. 19th century. Voprosy iazykoznaniia, 2, 78–95. (In Russian)
Moreno, J., Martínez-Huertas, J., Olmos, R., Jorge-Botana, G., Botella, J. (2021). Can personality traits be measured analyzing written language? A meta-analytic study on computational methods. Personality and Individual Differences, 177. Available at https://www.researchgate.net/publication/350250036_Can_personality_traits_be_measured_analyzing_written_language_A_meta-analytic_study_on_computational_methods.
Norman, B. Iu. (2011). Fundamentals of psycholinguistics. Minsk: Belaruskii gosudarstvennyi universitet Publ. (In Russian)
Osipov, G. S. (2011). Artificial intelligence methods. Moscow: Fizmatlit Publ. (In Russian)
Osipov, G. S., Panov, A. I., Chudova, N. V., Kuznetsova, Iu. M. (2018). An iconic picture of the world of the subject of behavior. Moscow: Fizmatlit Publ. (In Russian)
Piotrovskii, R. G. (1968). Information dimensions of language. Leningrad: Nauka Publ. (In Russian)
Qiu, L., Lu, J., Ramsay, J., Yang, S., Qu, W., Zhu, T. (2017). Personality expression in Chinese language use. International Journal of Psychology, 52 (6), 463–472.
Salimovskii, V. A., Osipov, G. S., Kuznetsova, Iu. M., Suvorova, M. I., Chudova, N. V. (2019). Linguistic aspects of goal setting in cognitive modeling (based on the material of the speech genre “plan-instruction”). Iskusstvennyi intellekt i priniatie reshenii, 4, 10–22. (In Russian)
Shvedova, N. Iu. (Ed.) (1980). Russian grammar. In 2 vols. Vol. 2. Moscow: Nauka Publ. (In Russian) Smirnov, I., Stankevich, M., Kuznetsova, Y., Suvorova, M., Larionov, D., Nikitina, E., Savelov, M., Grigoriev, O. (2021). TITANIS: A Tool for Intelligent Text Analysis in Social Media. In Lecture notes in computer science (pp. 232–247). Cham: Springer Nature Switzerland.
Vygotskii, L. S. (2021). Thinking and speech. St. Petersburg: Piter Publ. (In Russian)
Статья поступила в редакцию 19 сентября 2023 г.;
рекомендована к печати 7 апреля 2024 г.
© Санкт-Петербургский государственный университет, 2024
Received: September 19, 2023
Accepted: April 7, 2024