ГРНТИ 20.15.05
МЕТОДИКА ОЦЕНКИ ТОНАЛЬНОСТИ МАТЕРИАЛОВ
Насруллаева Айкерім Бахитжанқызы
Магистр, Астана Халықаралық университеті, Нұр-Сұлтан, Қазақстан
Аннотация : Обширное распространение Интернета, который содержит особые ресурсы для публикации мнений привело к появлению в 2000-х гг. новой области исследовательских работ в компьютерной лингвистике, которое получила название анализ тональности.
Ключевые слова : Тональность, выражение чувств, нейтрал, позитив, негатив.
В рамках информационно-аналитического обеспечения вопросов проведения государственной информационной политики, оценка тональности производится с точки зрения возможного влияния публикации на имидж государства. Оценка осуществляется в контексте определенного события или явления.
Тональность оценивается по стандартной шкале «негативная – нейтральная – позитивная».
При оценке тональности во внимание принимается следующее:
- Информационный повод (события, заявления известных личностей, публикация результатов исследований);
- Заголовок, текст публикации / речь диктора;
- Оформление (иллюстрации, выноски).
Рисунок 1. Модуль анализа тональности
Материалы позитивного характера:
В материалах позитивного характера преимущественно преобладает информация о положительных результатах работы государства, оперативное решение государством критических вопросов республиканского и регионального масштабов.
Вместе с тем материал приобретает положительный характер, если государственную точку зрения поддерживает авторитетные отечественные и зарубежные эксперты.
Кроме того, сообщения об успешной реализации поручений Президента, социально-экономическом развитии за счет реализации государственных программ и улучшении качества жизни населения в целом оцениваются в положительном ключе.
Материалы нейтрального характера:
К материалам нейтральной тональности, прежде всего относятся сообщения информационного характера (официальные мероприятия: встречи, брифинги, отчеты ведомств, коллегии).
В основном в нейтральных материалах содержатся: разъяснения по отдельным нормам законов, кодексов, планов, гос.программ; статистические данные об итогах работ ведомств.
Если представленные экспертные мнения сбалансированы или не отличаются резкостью, тональность будет определена, как нейтральная.
Материалы негативного характера:
В материалах негативного характера присутствует критика некомпетентности государства в решении некоторых задач (обвинение государства в допущении к госаппарату непрофессионалов, не эффективная реализация программ).
Если заголовок статьи носит провокационный характер и выражает критику по отношению к государству, то материал оценивается в негативную сторону. Это может быть вольная интерпретация действия государства, негативный прогноз и т.д.
К примеру, если деятельность государства в глазах общества выглядит не достойным доверия, что в итоге привело к протестным акциям (митинги, сборы подписей, открытые письма), то тональность материала — негативная.
Кроме того, если материал содержит в себе публикации рейтингов, представляющих Казахстан в невыгодном свете, либо оценка ситуации представлена критически настроенными лицами, в таком случае он оценивается негативно.
Если в материале используются иллюстрации – коллажи, фотографии, диаграммы, карикатуры в ироничной или негативной форме отражающие деятельность государства, то они дают основание для оценки тональности материала как негативную.
Датасет | Описание | Аннотирование | Классы |
RuReviews | Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине. | Автоматическое | 3 |
RuSentiment | Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте. | Ручное | 5 |
Russian Hotel Reviews Dataset | Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей. | Автоматическое | 5 |
RuSentRel | Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций. | Ручное | 2 |
LINIS Crowd | Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ. | Ручное | 5 |
Twitter Sentiment for 15 European Languages | Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском. | Ручное | 3 |
SemEval-2016 Task 5: Russian | Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному бизнесу. Основан на SentiRuEval-2015. | Ручное | 3 |
SentiRuEval-2016 | Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках. | Ручное | 3 |
SentiRuEval-2015 | Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей. | Ручное | 4 |
RuTweetCorp | Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии. | Автоматическое | 3 |
Kaggle Russian News Dataset | Открытый набор с примерами настроений из российских новостей. | Не указано | 3 |
Kaggle Sentiment Analysis Dataset | Набор с примерами настроений из российских новостей. | Не указано | 3 |
Kaggle IS161AIDAY | Набор с примерами настроений, опубликованный Alem Research. | Не указано | 3 |
Kaggle Russian_twitter_sentiment | Набор с примерами настроений из русскоязычных Twitter-сообщений. | Не указано | 2 |
Таблица 1. Русскоязычные датасеты для анализа тональности
Трудность изучения тональности определяется последующими основаниями:
- выражение чувств очень зависит от контекста и предметной области;
- в одном и том же фрагменте текста может идти речь о нескольких объектах, так что трудно найти, по отношению к какому из объектов выражено мнение;
- не постоянно чувственно окрашенные слова выражают подобающую тональность всего текста;
- наличие драматичности и сарказма, которые могут инвертировать тональность;
Заключение
Техсредства изменяют структуру текста, могут приводить к искажению его начального значения. Так, который был отобран для изучения текстовый фрагмент, помещенный в ПО, претерпевает значительные изменения. Автор повествования сменяется создателем обработки и изучения. В поле исследователя остаются в большей степени образованные коды, к которым обращены части текста.
Список литературы
1 Блинов П.Д. Метод, алгоритмы и программная система аспектно- эмоционального анализа текстов : дис. … канд. тех. наук : 05.12.17; МГУП им. Ивана Федорова. – М.: МГУП, 2016.-141с.
2 Иванов, В.В. Извлечение аспектов, тональности и категорий аспектов на основании
отзывов пользователей о ресторанах и автомобилях / Иванов В. В., Тутубалина Е. В.,
Мингазов Н. Р., Алимова И. C. // Компьютерная лингвистика и интеллектуальные
технологии: по материалам ежегодной Международной конференции «Диалог» . —
Москва: РГГУ, 2015. — С. 46-56.
3 Оценка методов автоматического анализа текста: синтаксические парсеры русского
языка [Электронный ресурс] // Оценка методов автоматического анализа
текстов. Режим доступа: http://ru-eval.ru/new/syntax/about, свободный.
4 Скатов, Д.С. Синтаксический анализатор естественного языка DictaScope Syntax /
Д.С. Скатов, В.В. Окатьев, Т.Е. Ратанова // Компьютерная лингвистика и
интеллектуальные технологии: по материалам ежегодной Международной
конференции «Диалог». — М: РГГУ, 2012. – С. 140-148.
5 Сметанин, С.И. Программа для анализа тональности сообщений в социальных сетях
/ Сметанин С.И. // Сборник тезисов XXII Международной научной конференции
студентов, аспирантов и молодых ученых «Ломоносов-2016» секция
«Вычислительна математика и кибернтекика». — М: МАКС Пресс, апрель 2016. – С.
86-87.