Supplementary Material: Scalable Matrix-valued Kernel Learning for High-dimensional Multivariate Regression and Nonlinear Granger Causality Vikas Sindhwani, H` a Quang Minh, Aur´ elie C. Lozano 1 Sums of operator-valued reproducing kernels Proposition 1. Let K 1 ,...,K m be operator-valued reproducing kernels of a dictionary of RKHS D = {H K 1 ,..., H Km } mapping X→Y , with respective norms || || H K 1 ,..., || || H Km . (a) K D = ∑ m i=1 λ i K i , with λ i > 0, i =1,...,m, is the reproducing kernel of the Hilbert space H D = H K 1 + ··· + H Km = {f = m  i=1 f i | f i ∈H K i }, with norm || || H D given by ||f || 2 H D = min f i ∈H K i , ∑ m i=1 f i =f m  i=1 ||f i || 2 H K i λ i . (1) (b) If, furthermore, H K i ∩H K j = {0}, i = j , then H D = H K 1 ⊕···⊕H Km , that is each f ∈H D admits a unique orthogonal decomposition f = m  i=1 f i , f i ∈H K i , with norm ||f || 2 H D = m  i=1 ||f i || 2 H K i λ i . 1