FLORESTA, Curitiba, PR, v. 50, n. 3, p. 1669 - 1678, jul/set 2020. Souza, D. V. et.al. ISSN eletrônico 1982-4688 DOI: 10.5380/rf.v50 i3. 65720 1669 k-NEAREST NEIGHBOR AND LINEAR REGRESSION IN THE PREDICTION OF THE ARTIFICIAL FORM FACTOR Deivison Venicio Souza 1* , Júlio Cesar Nievola 2 , Ana Paula Dalla Corte 3 , Carlos Roberto Sanquetta 3 1 Federal University of Pará, Faculty of Forestry Engineering, Altamira, Pará, Brasil. E-mail: deivisonvs@ufpa.br* 2 Pontifical Catholic University of Paraná, Graduate Program in Computer Science, Curitiba, Paraná, Brasil. E-mail: nievola@ppgia.pucpr.br 3 Federal University of Paraná, Department of Forestry Sciences, Curitiba, Paraná, Brasil. E-mail: anapaulacorte@gmail.com; carlossanquetta@gmail.com Received for publication on: 30/03/2019 – Accepted for publication on: 07/06/2019 ________________________________________________________________________________________________________________ Resumo k-vizinhos mais próximos e regressão linear na predição do fator de forma artificial . A proposta deste estudo foi testar se a abordagem não-paramétrica, conhecida como k-Nearest-Neighbor (k-NN), poderia melhorar as estimativas do fator de forma artificial (f1,3) individual de árvores do híbrido Eucalyptus urophylla x Eucalyptus grandis, em comparação ao método de Mínimos Quadrados Ordinário. Foram selecionadas e derrubadas 149 árvores-amostras e medidos ao longo do fuste os diâmetros a 10% (d0,1), 30% (d0,3), 50% (d0,5) e 70% (d0,7) da altura do fuste comercial e, posteriormente, a cada 2m. Modelos matemáticos reconhecidos na literatura para predição do fator de forma foram ajustados para comparação. O hiperparâmetro k de ajuste ótimo para o estimador k-NN foi obtido através de repetidas validações cruzadas. Os dados de treinamento do modelo de regressão k-NN foram idênticos aos utilizados no ajuste dos modelos de regressão linear. A maior parte dos modelos de regressão linear múltipla apresentou problemas de colinearidade ou multicolinearidade. O uso da covariável ( 0.3 . 0.7 )/ 1.3 2 e k = 15 possibilitou a construção de modelos k-NN com melhor capacidade de generalização. O potencial do estimador k-NN para predizer o fator de forma artificial e, por conseguinte, obter estimativas menos viesadas dos volumes individuais de árvores foi admitido e, considerado superior ao uso da regressão linear e fatores de forma médios. A abordagem k-NN pode ser considerada mais genérica para predizer o fator de forma de árvores, e seu uso pode ser aconselhado quando modelos de regressão linear clássicos, ou outros métodos mais simples, não mostrarem bons resultados. Palavras-chave: Eucalyptus, aprendizado de máquina, vizinho mais próximo, regressão linear, fator de forma 0,7 Abstract The proposal of this study was to test whether the performance of the nonparametric approach k-Nearest Neighbor (k-NN), would improve estimates of individual artificial form factor (f1.3) of trees of the hybrid Eucalyptus urophylla x Eucalyptus grandis compared to the Ordinary Least Squares method. A total of 149 sample-trees were selected, felled, and diameter was measured along the trunk at 10% (d0.1), 30% (d0.3), 50% (d0.5) and 70% (d0.7) of commercial height and posteriorly at 2m intervals. Mathematical models recognized in the literature for predicting the form factor were adjusted for comparison. The hyperparameter k of optimum adjustment for the k-NN estimator was obtained by repeated cross-validation. The training data of the k-NN regression model were identical to those used in the adjustment of the linear regression models since most multiple linear regression models present problems of collinearity or multicollinearity. The use of the covariate ( 0.3 . 0.7 )/ 1.3 2 and k = 15 made it possible to construct k-NN models with better generalization capacity. The potential of the k-NN estimator to predict the artificial form factor and thus to obtain less biased estimates of individual tree volumes was demonstrated and considered to be superior to the use of linear regression and average form factors. The k-NN approach can be considered more generic for prediction of the tree form factor, and its use is recommended when classical linear regression models or other simpler methods do not yield good results. Keywords: Eucalyptus, machine learning, nearest neighbor, linear regression, form factor 0.7 _______________________________________________________________________________________ INTRODUCTION In 2016, the total area of planted trees in Brazil increased by 0.5% in relation to the year 2015, totaling 7.84 million hectares (ha). The genus Eucalyptus occupies 5.7 million hectares of planted trees with a 2.4% annual growth rate during the last five years. In this period, the state of Mato Grosso do Sul had the largest expansion of Eucalyptus culture registering an increase of 400,000 ha, with an average annual growth rate of 1.3%. Among the Brazilian states, the state of Pará was 10th in terms of area of planted Eucalyptus in 2016, covering 133,996 ha (IBÁ, 2017). The accurate estimation of wood volume is among the most important pieces of information about a forest plantation, which among other factors is essential for proper forest management. The use of volume equations,