A statistical test for correspondence of texts to the Zipf-Mandelbrot law
Ключевые слова:
закон Ципфа, слабая сходимость, гауссовский процесс.Аннотация
Анализируется соответствие текстов простой вероятностной модели. Модель предполагает, что слова выбираются независимо друг от друга из бесконечного словаря, и вероятностное распределение слов соответствует закону Ципфа - Мандельброта. Мы последовательно подсчитываем, сколько разных слов появилось с начала текста, получая процесс количеств разных слов. Затем мы оцениваем параметры закона Ципфа - Мандельброта по той же последовательности и строим оценку математического ожидания числа разных слов в тексте. Потом мы вычитаем соответствующие значения оценки из последовательности и нормируем по координатам, получая случайный процесс на отрезке от 0 до 1. Мы доказываем, что этот процесс (эмпирический мост текста) сходится слабо в равномерной метрике в С(0,1) к центрированному гауссовскому процессу с непрерывными п.н. траекториями. Мы разрабатываем и реализуем алгоритм вычисления вероятностного распределения интеграла от квадрата этого процесса. Мы рассматриваем несколько примеров применения алгоритма к анализу однородности текстов на английском, французском, русском и китайском языках.