Новости

Интернет-корпус казахского языка

15.11.2022

Бесценным и значимым средством общения всего человечества на нашей планете является язык. У каждого народа имеется свой национальный язык, который отражает его культуру, менталитет. С помощью языка каждый человек идентифицирует себя с социумом, со своей культурой. Язык помогает человеку выразить свои мысли, передать информацию, наладить отношения, выразить эмоции. Он может функционировать в пределах одного племени или целого этноса, может быть средством общения только одной социальной группы или быть средством международного общения.

С древних времен язык является объектом изучения многих ученых, которые выясняют структуру, состав, функции языка, его значение в обществе, этническую принадлежность. В зависимости от целей и задач язык изучают философы, логики, психологи, социологи, антропологи и др. Непосредственным объектом исследования язык является такой научной области, как лингвистика (языкознание), в которой определились направления, занимающиеся различными аспектами языка. В лингвистике выделяются направления, которые занимаются конкретными языками. В современной лингвистике выделилось направление, которое изучает языки с использованием новых технологий.

В рамках Государственной программы "Цифровой Казахстан" появилась острая необходимость создания различных языковых ресурсов на основе цифровых технологий. В этом направлении актуальным является разработка Интернет-корпуса казахского языка. Как отметил Президент Касым-Жомарт Токаев, «цифровизация – это не следование модной тенденции, а ключевой инструмент достижения национальной конкурентоспособности».

Интернет-корпус – это не просто техническая поддержка лингвистических исследований. Это справочно-информационная база по современному казахскому языку интернет-пространства, которая позволяет получать ответы на многие вопросы, возникающие у широкого круга потребителей, использующих и изучающих казахский язык, а также ставить новые проблемы, которые ранее не входили в круг проблем лингвистики, революционизировать работу с языковым материалом.

Что отличает Интернет-корпус? Благодаря интерфейсу Интернет-корпуса, при поиске удобно задавать любые настройки из вышеперечисленных интернет-жанр (блог, новости и т.д.), а также сортировать уже полученные результаты по данным признакам. Создание критической массы текстов конкретных типов, достаточной для объективного представления частотности, приемлемости или особенности употребления того или иного слова или языковой конструкции.

В чем заключается польза Интернет-корпуса? С его помощью можно изучать язык интернет-пространства: лингвистический анализ, выявлять социальную дифференциацию, экономический эффект той или иной продукции, услуги, определять политическое влияние и т.д.

Какова прикладная ценность Интернет-корпуса? Что можно выполнять с его помощью?

  • изучать влияния пола, возраста на язык,
  • определять частотности слов,
  • анализировать казахоязычного контента социальных сетей,
  • разрабатывать инструменты для выявления мнений и анализа тональности на основе данных, получаемых из социальных сетей и комментариев пользователей Интернет-услуг и др.
  • Какова перспектива Интернет-корпуса казахского языка?
  • Перспектива обусловлена долгосрочной стратегической целью:
  • создать дифференциально масштабный корпус объемом не менее 50 млрд. слов;
  • полностью автоматизировать методы сбора, очистки и лингвистической разметки корпуса;
  • создать многофункциональный инструмент с целью получения различной информации: лингвистической и экстралингвистической;
  • испытывать и совершенствовать разные системы автоматической разметки, автоматической классификации текстов, задействовать машинное обучение;
  • развить казахстанскую интернет лингвистику как одно из современных направлений компьютерной лингвистики.

Интернет-корпус способствует проведению фундаментально-прикладных исследований казахского языка как с точки зрения современной лингвистики, так и с использованием информационных технологий, внедрению их результатов в учебный процесс в целях оптимизации изучения, исследования, преподавания казахского и иностранного языков. В ходе разработки корпуса используются как лингвистические методы анализа казахского языка (морфологический, синтаксический, семантический, лексикографический), так и методы корпусной лингвистики: инвентаризация текстов, лексикографическая обработка, первичная разметка текстов, токенизация, лемматизация, морфологический анализ. Для того чтобы разработать платформу Корпуса и составить репрезентативную текстовую базу для его наполнения в ходе выполнения проекта будет использоваться совокупность лингвистических методов, апробированная специалистами разработки Национального корпуса русского языка:

выборка и систематизация текстов, инвентаризация текстов по хронологическим, жанровым и стилевым критериям;

графематический анализ, позволяющий выделить синтаксические и структурные единицы входного текста (абзацы, предложения, словосочетания, отдельные слова, знаки препинания);

морфологический анализ, предполагающий определить структуру слова, основное слово и его словоформу, отнесение к той или иной части речи для дальнейшей процедуры снятия омонимии;

синтаксический анализ, позволяющий определить функцию слова в составе предложения, его сочетаемость с другими словами, порядок слов в предложении;

семантический анализ, необходимый для анализа текста по смыслу, уточнения связи слов, исключающий бессмысленный набор слов.

Интернет-корпус предназначен для поддержки работы лингвистов, лексикографов, журналистов, переводчиков, литературоведов, специалистов в области компьютерных исследований, специалистов-экспертов, специалистов в области юриспруденции, политики, экономики, занимающихся мониторингом эмоционального, потребительского настроения общества, организации образовательной среды в целях изучения и исследования казахского языка широким кругом как отечественных, так и зарубежных потребителей.

Реализация проекта активизирует новые формы использования компьютерных технологий, формирование у пользователей (специалистов, студентов, магистрантов, докторантов, школьников, учителей, т.п.) новых форм диалога «пользователь-компьютер» для различных видов работ с казахским языком; главное условие эффективности – скорость поиска, устранение механистической работы с различными текстами, поиском форм слов, подбора необходимого слова в различных реализациях и контекстах, что позволит решить ряд вопросов и достичь существенного эффекта экономии в исследовании, изучении казахского языка, а также коллекционировать его разнообразие и богатство.

 

Гульмира МАДИЕВА,

д.филол.н., профессор филолог. факультета

 

Мадина МАНСУРОВА,

к.ф.-м.н., и.о. профессора

факультета ИТ