KRZYSZTOF ULMAN, KRZYSZTOF RZECKI *1 ALGORYTM WYKRYWANIATREŚCI NA STRONACH PORTALI INTERNETOWYCH DETECTION ALGORITHM FOR CONTENT ON INTERNET WEB PORTALS * Inż. Krzysztof Ulman, dr inż. Krzysztof Rzecki, Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska. Streszczenie W artykule przedstawiono podejście wykorzystane podczas projektowania i implementow- ania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.). Słowa kluczowe: wykrywanie treści, eksploracja danych, ekstrakcja danych, gromadzenie danych, analiza budowy stron WWW, HTML Abstract The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc. Keywords: web pages contents recognition, data mining, web scraping, data collection, web pages structure analysis, HTML