07 июня 2015

Лингвисты InfoQubes выступили на Диалог-2015

C 27 по 30 мая лингвисты InfoQubes приняли участие в ежегодной конференции «Диалог», которая вот уже более  уже более 40 лет является крупнейшей в России международной научной конференцией в области теоретической и компьютерной лингвистики и автоматической обработки текстов (NLP), и поделились подходами, позволившими добиться выдающихся результатов в рамках независимого тестирования автоматических систем тональности SentiRuEval (2015).

Конференция «Диалог» вот уже более 40 лет ежегодно собирает ведущих российских лингвистов, инженеров-практиков и наиболее авторитетных мировых ученых. В этом году одна из секций конференции была посвящена обсуждению результатов тестирования систем автоматического анализа, в том числе SentiRuEval – независимому тестированию систем распознавания тональности, проведенному в рамках Dialogue Evaluation при поддержке «Диалог» в начале 2015 года. В ходе тестирования качества автоматического распознавания тональности твитов участники представляли свои результаты в двух дорожках: твиты, посвященные деятельности банков и  телекоммуникационных компаний. Каждая из дорожек оценивалась экспертной комиссией по двум основным метрикам. По телекоммуникационным компаниям результаты InfoQubes были признаны лучшими по обеим метрикам среди всех участников тестирования. По банкам по одной из метрик алгоритмы InfoQubes также заняли первое место, по второй метрике – третье, что подтвердило лидирующие позиции InfoQubes  в области анализа тональности на русском языке.

Для достижения лучших результатов в сжатые сроки проведения тестирования большинство участников SentiRuEval, как следовало из их докладов на конференции, использовали гибридные подходы к анализу, задействующие как основанные на правилах (rule-based) алгоритмы, так и машинное обучение (Machine Learning). Особенность подхода InfoQubes заключалась в дополнении этих подходов параметрами, основанными на синтаксической сочетаемости слов, позволившими повысить точность распознавания тональности. Судя по вопросам аудитории, именно этот аспект – использование синтаксиса – вызвал наибольший интерес слушателей.

Более подробное описание доклада InfoQubes доступно по ссылке.

Вернуться к списку новостей