50 Методи відбору документів Ольга Косовська Кафедра соціальних комунікацій та інформаційної діяльності, Національний університет “Львівська політехніка”, УКРАЇНА, м.Львів, вул.С.Бандери, 12, E-mail: olgakosovska@gmail.com In the paper brief review of Zipf’s and Bradford's laws, which can be used for selecting and arranging documents, is presented. Ключові слова документ, закон. Термін «документ» походить від латинського слова documentum, яке, в свою чергу, походить від docere, що означає навчати. Звідси випливає що термін «документ» у минулому мав більш точне, ніж сьогодні, значення: «те, що служить для навчання». Наявність декількох визначень не заважає документам брати найактивнішу участь в житті суспільства, переносячи інформацію крізь час і простір. Відмічено, що зростання документів носить експоненціальний характер[2]. При цьому щорічний приріст потоків науково-технічної інформації складає 7-10%. Швидкість зростання документів досить велика, виникає питання: як знайти потрібний документ за короткий час, як вибрати серед усіх документів найбільш важливий і значущий? Постає задача у розробці не лише методів відбору матеріалів, але і у визначенні методів рангування (сортування) документів у певному порядку. Існують закони, які допомагають у всьому цьому розібратись. Найбільш відомий гіперболічний закон, який відноситься до статистичної обробки текстів, сформульований Ціпфом [1]. Він стосується розподілу слів в достатньо великих вибірках тексту. Точніше, Дж. Ціпф, зібравши величезний статистичний матеріал, спробував показати, що розподіл слів природної мови підпорядковується одному простому закону, який можна сформулювати наступним чином. Якщо до якогось досить великого тексту скласти список усіх в ньому слів, що повторюються, потім розмістити ці слова в порядку спадання частоти їх повторюваності в даному тексті і пронумерувати в порядку від 1 (порядковий номер найбільш часто вживаного слова) до R, то для будь-якого слова добуток його порядкового номера (рангу) (в такому списку) та частоти його повторюваності в тексті буде величиною постійною, що має приблизно однакове значення для будь-якого слова з цього списку. Аналітично закон Ціпфа може бути виражений у вигляді const fr , (1) де f - частота зустрічальності слова в тексті; r- ранг (порядковий номер) слова в списку; const- емпірична постійна величина. Отримана залежність графічно виражається гіперболою. Найважливішим для розглянутої нами проблеми є той факт, що і документи всередині будь-якої галузі знань можуть розподілятися відповідно