A statistical test for correspondence of texts to the Zipf-Mandelbrot law

Авторы

  • Anik Chakrabarty Новосибирский государственный университет
  • Михаил Чебунин Институт математики им. С.Л. Соболева СО РАН, Новосибирский государственный университет
  • Артем Ковалевский Новосибирский государственный технический университет, Новосибирский государственный университет
  • Илья Пупышев Новосибирский государственный технический университет, Новосибирский государственный университет
  • Наталия Закревская Новосибирский государственный технический университет
  • Qianqian Zhou School of Mathematical Sciences, Nankai University

Ключевые слова:

закон Ципфа, слабая сходимость, гауссовский процесс.

Аннотация

Анализируется соответствие текстов простой вероятностной модели. Модель предполагает, что слова выбираются независимо друг от друга из бесконечного словаря, и вероятностное распределение слов соответствует закону Ципфа - Мандельброта. Мы последовательно подсчитываем, сколько разных слов появилось с начала текста, получая процесс количеств разных слов. Затем мы оцениваем параметры закона Ципфа - Мандельброта по той же последовательности и строим оценку математического ожидания числа разных слов в тексте. Потом мы вычитаем соответствующие значения оценки из последовательности и нормируем по координатам, получая случайный процесс на отрезке от 0 до 1. Мы доказываем, что этот процесс (эмпирический мост текста) сходится слабо в равномерной метрике в С(0,1) к центрированному гауссовскому процессу с непрерывными п.н. траекториями. Мы разрабатываем и реализуем алгоритм вычисления вероятностного распределения интеграла от квадрата этого процесса. Мы рассматриваем несколько примеров применения алгоритма к анализу однородности текстов на английском, французском, русском и китайском языках.

Загрузки

Опубликован

2020-11-27

Выпуск

Раздел

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Наиболее читаемые статьи этого автора (авторов)