Muhammad Joko Umbaran Haris Bahrudin Scraping Web Marketplace Menggunakan SCRAPING WEB MARKETPLACE MENGGUNAKAN METODE DOM PARSING UNTUK PENGUMPULAN DATA PRODUK Muhammad Joko Umbaran Haris Bahrudin a Hardan Gutama b a Universitas Alma Ata, Sistem Informasi, Indonesia b Universitas Alma Ata, Informatika, Indonesia INFORMASI ARTIKEL ABSTRACT Sejarah Artikel Diterima Redaksi: 28 Februari 2020 Revisi Akhir: 10Maret 2020 Diterbitkan Online:25 Maret 2020 Web Scraper is a way of extracting scripts that run there that are commonly chosen to do web memos via DOM parsing. Specific nodes that are collected using DOM parsers and tools like XPath help the process of scraping web pages. In this study using the DOM Parsing method to obtain product data on the market. Sraper can be further developed as a data collection technique on the internet for further research that can be provided about the concept of big data to be used for forecasting or getting the information needed. Alone Parsing is a way of breaking data or symbols, both in language and in language, according to formal grammar rules. After using the parshing technique, it will be generated again using Parse Tree, which is a process of compiling product data that forms like a tree, using siyntak analysis to break down product categories. KATA KUNCI Web, Web Sraping, DOM, Parsing, Marketplace KORESPONDENSI E-mail: haris.bahrudin@uaa.ac.id 1. PENDAHULUAN Web scraping saat ini menjadi tren yang banyak dilakukan oleh perusahaan atau pun individu untuk tujuan tertentu. Teknik merupakan metode untuk mengekstrasi data dari halaman website. Anda bisa saja secara manual mengcopy detail data dari halaman web ke halaman spreadsheet, namun biasanya data yang ada di dalam website merupakan data yang besar sehingga membutuhkan tempat berkapasitas besar serta waktu yang cukup lama. Oleh karena itu, salah satu cara yang dapat Anda gunakan untuk mengunduh data besar dari website adalah dengan menggunakan "web scraper". Web scraper adalah program yang dapat membuka halaman website kemudian mendownload data yang ada di dalam web, mengekstrak ke dalam format yang terstruktur, dan menyimpannya ke dalam sebuah file atau database. Web scraper dapat mengunduh konten yang biasanya berupa teks dan diformat sebagai HTML dari beberapa halaman web dan mengekstrak data darinya. Dalam penelitian ini scraping produk menjadi hal yang populer yang digunakan untuk memjual produk yang sama, kebanyakan para pelaku dropshiper menggunakan teknik scraping untuk menjual produk yang sama di toko online. Pada penelitian ini Sraping menggunakan metode DOM Parsing secara umum digunakan mengetahui cara kerja internal halaman web dan mengekstrak skrip yang berjalan di dalamnya biasa memilih untuk melakukan web scraping melalui parsing DOM. Node spesifik dikumpulkan menggunakan parser DOM dan alat-alat seperti XPath membantu proses scraping sebuah halaman web. 2. TINJAUAN PUSTAKA Terdapat 3 Metode yang bisanya digunakan untuk scraping website salahsatunya adalah HTML Parsing merupakan metode yang paling sering digunakan dalam proses parsing data dari halaman website. Pada umumnya, HTML parsing dilakukan menggunakan JavaScript dan menargetkan halaman HTML linear dan nested. Script ini digunakan untuk mengekstraksi tulisan, link dan data. Dan yang kedua adalah Regular Expressions metode ini berguna jika Anda ingin melakukan tugas ekstraksi data yang sederhana. Sebagai contoh seperti ketika Anda ingin mendapatkan daftar semua email dari halaman web. Regular Expressions ini tidak cocok untuk pekerjaan ekstraksi yang rumit, seperti mengekstrak data dari beberapa halaman deskripsi produk di situs web E-commerce. Namun akan sangat berguna untuk proses transformasi dan pembersihan data. Dan yang terakhir adalalah DOM parsing yang digunakan dalam penelitian ini merupakan metode yang paling cocok untuk mengambil data pada webiste karena mempunyai beberapa metode pokok yang bisa menjadi penunjang untuk pengambilan data. brought to you by CORE View metadata, citation and similar papers at core.ac.uk provided by Universitas Putera Batam (UPB): Open Journal Systems