Procrustes Analysis for High-Dimensional Data

Angela Andreella; Livio Finos

doi:10.1007/s11336-022-09859-5

Procrustes Analysis for High-Dimensional Data

Published online by Cambridge University Press: 01 January 2025

Angela Andreella

and

Livio Finos

Show author details

Angela Andreella: Affiliation:
Ca’ Foscari University Of Venice
Livio Finos*: Affiliation:
University Of Padova
*: Correspondence should be made to Livio Finos, Department of Developmental Psychology and Socialization, University of Padova, Via Venezia, 8, Padua, Italy. Email: [email protected]

Article contents

Abstract
Perturbation Model
ProMises Model
Efficient ProMises Model
Functional Magnetic Resonance Imaging Data Application
Discussion
Funding
Footnotes
References

Rights & Permissions

Abstract

The Procrustes-based perturbation model (Goodall in J R Stat Soc Ser B Methodol 53(2):285–321, 1991) allows minimization of the Frobenius distance between matrices by similarity transformation. However, it suffers from non-identifiability, critical interpretation of the transformed matrices, and inapplicability in high-dimensional data. We provide an extension of the perturbation model focused on the high-dimensional data framework, called the ProMises (Procrustes von Mises–Fisher) model. The ill-posed and interpretability problems are solved by imposing a proper prior distribution for the orthogonal matrix parameter (i.e., the von Mises–Fisher distribution) which is a conjugate prior, resulting in a fast estimation process. Furthermore, we present the Efficient ProMises model for the high-dimensional framework, useful in neuroimaging, where the problem has much more than three dimensions. We found a great improvement in functional magnetic resonance imaging connectivity analysis because the ProMises model permits incorporation of topological brain information in the alignment’s estimation process.

Keywords

functional alignment functional magnetic resonance imaging high-dimensional data Procrustes analysis Von Mises–Fisher distribution

Type: Theory and Methods
Information: Psychometrika , Volume 87 , Issue 4 , December 2022 , pp. 1422 - 1438

DOI: https://doi.org/10.1007/s11336-022-09859-5 [Opens in a new window]
Creative Commons: This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
Copyright: Copyright © 2022 The Author(s)

The Procrustes problem is aimed at matching matrices using similarity transformations by minimizing their Frobenius distance. It allows comparison of matrices with dimensions defined in an arbitrary coordinate system. This method raised the interest of applied researchers hence highlighting its potentiality through a plethora of applications in several fields, such as ecology (Saito et al., Reference Saito, Fonseca-Gessner and Siqueira2015), biology (Rohlf & Slice, Reference Rohlf and Slice1990), analytical chemometrics (Andrade et al., Reference Andrade, Gómez-Carracedo, Krzanowski and Kubista2004), and psychometrics (Green, Reference Green1952; McCrae et al., Reference McCrae, Zonderman, Costa, Bond and Paunonen1996).

The interest of a large audience from applied fields stimulates, in parallel, the growth of a vast body of literature. Despite this, essentially all applications comprise spatial coordinates (i.e., two- or three-dimensional). Haxby et al. (Reference Haxby, Guntupalli, Connolly, Halchenko, Conroy, Gobbini, Hanke and Ramadge2011) first introduced the use of this approach into a different context: align functional Magnetic Resonance Images (fMRI). The coordinates are hence substituted by voxels (i.e., three-dimensional pixels), and the problem becomes inherently high-dimensional. The approach rapidly grew in popularity in the neuroimaging community because of its effectiveness. However, the proposed solution is naive; the extension from the spatial context to a more general and high-dimensional one is a theoretical challenge that needs adequate attention.

The most serious concern is the results’ interpretability. In most cases, Procrustes methods turn into an ill-posed problem. It is a barely noticeable problem with spatial coordinates because the solution is unique up to rotations; hence, the user has the freedom to choose the point of view that provides the nicest picture. When the dimensions do not have a spatial meaning, any rotation completely changes the interpretation of the results.

To tackle this problem, we revise the perturbation model (Goodal, Reference Goodall1991), which rephrases the Procrustes problem as a statistical model. The matrices are defined as a random perturbation of a reference matrix plus an error term. The perturbation is expressed by rotation, scaling, and translation, and the matrix normal distribution (Gupta & Nagar, Reference Gupta and Nagar2018) is assumed for the error terms. Like Green and Mardia (Reference Mardia, Fallaize, Barber, Jackson and Theobald2013) and Mardia et al. (Reference Green and Mardia2006), we assume that the orthogonal matrix parameter follows the von Mises–Fisher distribution. We prove that the proposed prior distribution is conjugate, making the estimation process quite fast. Indeed, the maximum a posterior estimate of the orthogonal matrix parameters results in a minor modification of the original solution because the prior information enters into the pairwise cross-product of the matrices to be aligned. The prior distribution plays the role of regularizing term, resolving the non-identifiability of the orthogonal matrix parameter. In the application to fMRI data in Sect. 4, we further show that specification of a prior distribution permits the integration of functional and topological aspects, which largely improves the results’ interpretability. We then propose a comprehensive approach to the Procrustes problem: the ProMises (Procrustes von Mises–Fisher) model.

The second problem raised by the extension to the high-dimensional framework is computational. The estimation algorithm of a Procrustes-based method involves a series of singular value decompositions of $m \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m\times m$$\end{document} matrices (m dimensions). In a typical fMRI data set, the subjects (i.e., the matrices to be aligned) have a few hundred (observations/rows) n and hundreds of thousands of voxels (dimensions/columns) m. We prove that the minimization problem can be solved by a series of singular value decompositions of $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n\times n$$\end{document} matrices, reducing the computation burden and making the ProMises model applicable to matrices with virtually any number of columns. We denote this approach as the Efficient ProMises model.

We emphasize here that the problem of aligning fMRI data is not three-dimensional as it could appear at first glance, although it is high-dimensional: Each voxel is one dimension of the problem. Nevertheless, in such conditions, three critical issues arise: The first is that the Procrustes method combines any voxel inside the brain without distinguishing between adjacent and distant anatomical locations. This can be questionable because the voxels have a spatial organization, and, despite the inter-subject variability, we expect some degree of spatial similarity between subjects in their functional organization. Therefore, we want the subjects’ voxels of a given location to be more likely to contribute to the construction of voxels with the same location in the common space. The second issue revolves around the non-identifiability of orthogonal transformations $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} , where i indexes the subjects. The Procrustes method does not return a unique solution of the maximum likelihood estimate for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} : Given a solution (i.e., a three-dimensional image), any linear combination that mixes the voxels’ values is an equivalent solution to the problem. The solutions are equivalent only from a mathematical point of view because the practical consequence is the loss of results’ topological interpretability. The third issue is the computational load: applying the Procrustes-based alignment to the whole brain implies the decomposition of many square matrices of dimensions roughly equal to 200.000 (i.e., the number of voxels.)

The Efficient ProMises model resolves all these three issues. The use of a properly chosen prior shrinks the estimate to the anatomical solution (i.e., no rotation), hence making the solution unique and interpretable from an anatomical point of view. Finally, as mentioned before, the Efficient implementation permits performing functional alignment on high-dimensional data such as fMRI data.

The paper is organized as follows. Section 1 introduces the perturbation model (Goodall, Reference Goodall1991), stressing its critical issues. Section 2 illustrates the ProMises model and its challenges: identifiability, interpretability, and flexibility. Section 3 defines the Efficient version of the ProMises model, which permits application of the functional alignment to high-dimensional data. Finally, the presented model is evaluated by analyzing task-related fMRI data in Sect. 4. The entire code used is available in https://github.com/angeella/ProMisesModel using the programming language Python (Van Rossum and Drake Jr, Reference Van Rossum and Drake1995) and in https://github.com/angeella/alignProMises using the R (R Core Team, 2018) package alignProMises. We report the proofs of the main lemmas here, whereas the remaining proofs are included in the supplementary material.

1. Perturbation Model

1.1. Background

Let ${X_{i} \in {I R}^{n \times m}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_{i} \in \mathrm{I\!R}^{n \times m} \}_{i = 1,\dots ,N}$$\end{document} be a set of matrices to be aligned. The Procrustes-based method uses similarity transformations to match each matrix to the target one as closely as possible, according to the Frobenius distance.

Each matrix $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} could be then assumed to be a similarity transformation of a shared matrix $M \in {I R}^{n \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}} \in \mathrm{I\!R}^{n \times m}$$\end{document} , which contains the common reference space’s coordinates, plus a random error matrix $E_{i} \in {I R}^{n \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{E}}_i \in \mathrm{I\!R}^{n \times m}$$\end{document} . The perturbation model proposed by Goodall (Reference Goodall1991) is then reported.

Definition 1

(Goodall, Reference Goodall1991) Let ${X_{i} \in {I R}^{n \times m}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_{i} \in \mathrm{I\!R}^{n \times m} \}_{i = 1,\dots ,N}$$\end{document} be a set of matrices to be aligned and $O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathcal {O}}(m)$$\end{document} the orthogonal group in dimension m. The perturbation model is defined as

\begin{matrix} X_{i} = α_{i} (M + E_{i}) R_{i}^{⊤} + 1_{n}^{⊤} t_{i} subject to R_{i} \in O (m), \end{matrix}

where $E_{i} \sim MN_{n, m} (0, Σ_{n}, Σ_{m})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{E}}_i \sim \mathcal{MN}\mathcal{}_{n,m}(0,\varvec{\Sigma }_n,\varvec{\Sigma }_m)$$\end{document} —i.e., the matrix normal distribution with $Σ_{n} \in {I R}^{n \times n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n \in \mathrm{I\!R}^{n \times n}$$\end{document} and $Σ_{m} \in {I R}^{m \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m \in \mathrm{I\!R}^{m \times m}$$\end{document} scale parameters— $M \in {I R}^{n \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}} \in \mathrm{I\!R}^{n \times m}$$\end{document} is the shared matrix, $α_{i} \in {I R}^{+}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\alpha _i \in \mathrm{I\!R}^{+}$$\end{document} is the isotropic scaling, $t_{i} \in {I R}^{1 \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{t}}_i \in \mathrm{I\!R}^{1 \times m}$$\end{document} defines the translation vector, and $1_{n} \in {I R}^{1 \times n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathbf {1}}_n \in \mathrm{I\!R}^{1 \times n}$$\end{document} is a vector of ones.

To simplify the problem, the column-centered $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} are considered. The distribution is

\begin{matrix} \begin{matrix} vec (C_{n} X_{i} | R_{i}, α_{i}, M, Σ_{m}, Σ_{n}) \sim N_{nm} (vec (α_{i} C_{n} M R_{i}^{⊤}), R_{i} Σ_{m} R_{i}^{⊤} \otimes α_{i}^{2} C_{n} Σ_{n} C_{n}^{⊤}), \end{matrix} \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \begin{aligned} \text{ vec }({{C}}_n{{X}}_i| {{R}}_i, \alpha _i, {{M}}, {\Sigma }_m, {\Sigma }_n) \sim {\mathcal {N}}_{n m}(\text{ vec }(\alpha _i {{C}}_n{{M}} {{R}}_i^\top ), {{R}}_i {\Sigma }_m {{R}}_i^\top \otimes \alpha _i^2 {{C}}_n {\Sigma }_n {{C}}_n^\top ), \end{aligned}\end{aligned}$$\end{document}

where $C_{n} = I_{n} - \frac{1}{n} J_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{C}}_n = {\varvec{I}}_n - \frac{1}{n} {\varvec{J}}_n$$\end{document} , $I_{n} \in {I R}^{n \times n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{I}}_n \in \mathrm{I\!R}^{n \times n}$$\end{document} is the identity matrix, $J_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{J}}_n$$\end{document} is a $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n \times n$$\end{document} matrix of ones, and $vec (A)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\text {vec}({\varvec{A}})$$\end{document} the vectorization of the matrix $A$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{A}}$$\end{document} . Let the singular value decomposition of $C_{n} = Γ Δ Γ^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{C}}_n = \varvec{\Gamma } \varvec{\Delta } \varvec{\Gamma }^\top $$\end{document} , where $Γ \in {I R}^{n \times (n - 1)}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Gamma } \in \mathrm{I\!R}^{n \times (n-1)}$$\end{document} , then:

\begin{matrix} \begin{matrix} vec (Γ^{⊤} C_{n} X_{i} | R_{i}, α_{i}, M, Σ_{m}, Σ_{n}) \sim & N_{(n - 1) m} (vec (α_{i} Γ^{⊤} C_{n} M R_{i}^{⊤}), \\ R_{i} Σ_{m} R_{i}^{⊤} \otimes α_{i}^{2} Γ^{⊤} C_{n} Σ_{n} C_{n}^{⊤} Γ) . \end{matrix} \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \begin{aligned} \text{ vec }({\Gamma }^\top {{C}}_n{{X}}_i| {{R}}_i, \alpha _i, {{M}}, {\Sigma }_m, {\Sigma }_n) \sim&{\mathcal {N}}_{(n-1) m}(\text{ vec }(\alpha _i {\Gamma }^\top {{C}}_n{{M}} {{R}}_i^\top ), \\&\quad {{R}}_i {\Sigma }_m {{R}}_i^\top \otimes \alpha _i^2 {\Gamma }^\top {{C}}_n {\Sigma }_n {{C}}_n^\top {\Gamma }). \end{aligned}\end{aligned}$$\end{document}

The $Γ^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Gamma }^\top $$\end{document} transformation leads to independence between the rows of $E_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{E}}_i$$\end{document} without affecting the estimation of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . $Γ^{⊤} C_{n} X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Gamma }^\top {\varvec{C}}_n {\varvec{X}}_i$$\end{document} and $Γ^{⊤} C_{n} M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Gamma }^\top {\varvec{C}}_n {\varvec{M}}$$\end{document} have now $n - 1$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n-1$$\end{document} rows; however, we can simply re-project them on ${I R}^{n \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\mathrm{I\!R}^{n \times m}$$\end{document} using $Γ$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Gamma }$$\end{document} . Because we can always write ${\tilde{X}}_{i} = Γ Γ^{⊤} C_{n} X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\tilde{{\varvec{X}}}_i = \varvec{\Gamma } \varvec{\Gamma }^\top {\varvec{C}}_n {\varvec{X}}_i$$\end{document} , $\tilde{M} = Γ Γ^{⊤} C_{n} M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\tilde{{\varvec{M}}} = \varvec{\Gamma } \varvec{\Gamma }^\top {\varvec{C}}_n {\varvec{M}}$$\end{document} , and ${\tilde{Σ}}_{n} = Γ Γ^{⊤} C_{n} Σ_{n} C_{n}^{⊤} Γ Γ^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\tilde{\varvec{\Sigma }}_n = \varvec{\Gamma }\varvec{\Gamma }^\top {\varvec{C}}_n \varvec{\Sigma }_n {\varvec{C}}_n^\top \varvec{\Gamma }\varvec{\Gamma }^\top $$\end{document} without loss of generality, we can re-write Definition 1 as follows:

Definition 2

(1)

\begin{matrix} X_{i} = α_{i} (M + E_{i}) R_{i}^{⊤} subject to R_{i} \in O (m), \end{matrix}

where $E_{i} \sim MN_{nm} (0, Σ_{n}, Σ_{m})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{E}}_i \sim \mathcal{MN}\mathcal{}_{n m}(0,\varvec{\Sigma }_n,\varvec{\Sigma }_m)$$\end{document} . This way, we obtain the following:

(2)

\begin{matrix} vec (X_{i} | R_{i}, α_{i}, M, Σ_{m}, Σ_{n}) \sim N_{nm} (vec (α_{i} M R_{i}^{⊤}), R_{i} Σ_{m} R_{i}^{⊤} \otimes α_{i}^{2} Σ_{n}) . \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \text {vec}({\varvec{X}}_i| {\varvec{R}}_i, \alpha _i, {\varvec{M}}, \varvec{\Sigma }_m, \varvec{\Sigma }_n) \sim {\mathcal {N}}_{n m}(\text {vec}(\alpha _i {\varvec{M}} {\varvec{R}}_i^\top ), {{R}}_i {\Sigma }_m {{R}}_i^\top \otimes \alpha _i^2 {\Sigma }_n). \end{aligned}$$\end{document}

The following notation is also adopted: $| | \cdot | |$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$||\cdot ||$$\end{document} to indicate the Frobenius norm and $< \cdot, \cdot >$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$<\cdot ,\cdot>$$\end{document} for the Frobenius inner product (Golub & van Loan, Reference Golub and Van Loan2013).

The main objective of this work is comparing the shapes $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} instead of the form’s analysis of the matrices. For that, the parameters of interest are $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} and $α_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\alpha _i$$\end{document} , whereas $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} , and $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} are considered as nuisance parameters for each $i = 1, \dots, N$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$i = 1, \dots , N$$\end{document} . The estimation of the unknown parameters changes if these nuisance parameters are known. Section 1.2 initially presents the estimates under this assumption and then provides the more realistic case of unknown nuisance parameters.

1.2. Estimation of the Perturbation Model

We formalize some results from Theobald and Wuttke (Reference Theobald and Wuttke2006) in the case of known nuisance parameters $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} , and $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} , with $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} and $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} positive definite matrices by the following theorem:

Theorem 1

(Theobald & Wuttke Reference Theobald and Wuttke2006) Consider the perturbation model described in Definition 2, and the singular value decomposition $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} = U_{i} D_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}= {\varvec{U}}_i {\varvec{D}}_i {\varvec{V}}_i^\top $$\end{document} . The maximum likelihood estimators equal ${\hat{R}}_{i} = U_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\hat{{\varvec{R}}}_i = {\varvec{U}}_i {\varvec{V}}_i^\top $$\end{document} , and ${\hat{α_{i}}}_{{\hat{R}}_{i}} = | | Σ_{m}^{- 1 / 2} {\hat{R}}_{i}^{⊤} X_{i}^{⊤} {Σ_{n}}^{- 1 / 2} {| |}^{2} / t r (D_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\hat{\alpha _i}_{\varvec{{\hat{R}}}_i} = ||\varvec{\Sigma }_m^{-1/2} \hat{{\varvec{R}}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma _n}^{-1/2}||^2/tr{({\varvec{D}}_i)}$$\end{document} .

Now consider N independent observations $X_{1}, \dots, X_{N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_1, \dots , {\varvec{X}}_N$$\end{document} . The joint log-likelihood is simply the sum of N log-likelihoods.

In the case of unknown nuisance parameters $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} , and $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} , the joint likelihood cannot be written as product of separated likelihoods, one for each $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} , because each of the unknown parameters is a function of the others. The solution must be found by an iterative algorithm. In particular, the two covariance matrices $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} and $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} can be estimated by a two-stage algorithm defined in Dutilleul (Reference Dutilleul1999), where ${\hat{Σ}}_{n} = {\sum_{i = 1}^{N} (X_{i} - \hat{M}) {\hat{Σ}}_{m}^{- 1} {(X_{i} - \hat{M})}^{⊤}} / N m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{\Sigma }}}_n = \{\sum _{i=1}^{N}({\varvec{X}}_i - \varvec{{\hat{M}}}) \varvec{{\hat{\Sigma }}}_m^{-1} ({\varvec{X}}_i - \varvec{{\hat{M}}})^\top \}/Nm$$\end{document} and ${\hat{Σ}}_{m} = {\sum_{i = 1}^{N} {(X_{i} - \hat{M})}^{⊤} {\hat{Σ}}_{n}^{- 1} (X_{i} - \hat{M})} / N n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{\Sigma }}}_m = \{\sum _{i=1}^{N}({\varvec{X}}_i - \varvec{{\hat{M}}})^\top \varvec{{\hat{\Sigma }}}_n^{-1} ({\varvec{X}}_i - \varvec{{\hat{M}}})\}/Nn$$\end{document} are maximum likelihood estimators.

The necessary and sufficient condition for the existence of ${\hat{Σ}}_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{\Sigma }}}_n$$\end{document} and ${\hat{Σ}}_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{\Sigma }}}_m$$\end{document} is $N \geq \frac{m}{n} + 1$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$N \ge \frac{m}{n} + 1$$\end{document} , assuming $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} and $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} are positive definite matrices. In real applications, this assumption could be problematic. For example, in fMRI data analysis, m roughly equals 200, 000, and n approximately equals 200; therefore, the researcher would have to analyzing at least 1, 001 subjects, which is virtually impossible because fMRI is costly.

Various solutions can be found in the literature: Theobald and Wuttke (Reference Theobald and Wuttke2006) proposed a regularization for the covariance matrix, whereas Lele (Reference Lele1993) estimated $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} using the distribution of $X_{i} X_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i {\varvec{X}}_i^\top $$\end{document} . In this work, we maintain a general formulation of the estimator for ${\hat{Σ}}_{m} = g ({\hat{Σ}}_{n}, \hat{M}, X_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{{\hat{\Sigma }}}}_m = g(\varvec{{\hat{\Sigma }}}_n, \varvec{{\hat{M}}}, {\varvec{X}}_i)$$\end{document} and ${\hat{Σ}}_{n} = g ({\hat{Σ}}_{m}, \hat{M}, X_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{{\hat{\Sigma }}}}_n = g(\varvec{{\hat{\Sigma }}}_m, \varvec{{\hat{M}}}, {\varvec{X}}_i)$$\end{document} , because we aim to find a proper estimate of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} rather than $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} and $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} . The shared matrix $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} is estimated by the element-wise arithmetic mean of ${{\hat{X}}_{i}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{\hat{{\varvec{X}}}_i\}_{i = 1, \dots , N}$$\end{document} , where ${\hat{X}}_{i} = {\hat{α}}_{{\hat{R}}_{i}}^{- 1} X_{i} {\hat{R}}_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\hat{{\varvec{X}}}_i = {\hat{\alpha }}_{\hat{{\varvec{R}}}_i}^{-1} {\varvec{X}}_i \hat{{\varvec{R}}}_i$$\end{document} . We then modified the iterative algorithm of Gower (Reference Gower1975) (i.e., generalized Procrustes analysis), to estimate $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} .

Groisser (Reference Groisser2005) proved the convergence of the generalized Procrustes analysis algorithm. However, it leads to non-identifiable estimators of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} , $i = 1, \dots, N$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$i = 1, \dots , N$$\end{document} , proved by the following lemma:

Lemma 1

Let ${{\hat{R}}_{i}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{\varvec{{\hat{R}}}_i\}_{i=1,\dots ,N}$$\end{document} be the maximum likelihood solutions for ${R_{i}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{R}}_i\}_{i=1,\dots ,N}$$\end{document} with $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} , and $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} as unknown parameters. If $Z \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Z}} \in {\mathcal {O}}(m)$$\end{document} , then ${{\hat{R}}_{i} Z}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{\varvec{{\hat{R}}}_i {\varvec{Z}}\}_{i = 1, \dots , N}$$\end{document} are still valid maximum likelihood solutions for ${{\hat{R}}_{i}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{\varvec{{\hat{R}}}_i\}_{i = 1, \dots , N}$$\end{document} .

Proof.

Consider $Z \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Z}} \in {\mathcal {O}}(m)$$\end{document} , and

\begin{matrix} \frac{1}{α_{i}} X_{i} R_{i} Z - M Z = E_{i} Z \sim MN (0, Σ_{n}, Z^{⊤} Σ_{m} Z) . \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \dfrac{1}{\alpha _i} {\varvec{X}}_i {\varvec{R}}_i {\varvec{Z}} - {\varvec{M}}{\varvec{Z}} = {\varvec{E}}_i {\varvec{Z}} \sim \mathcal{MN}\mathcal{}(0, \varvec{\Sigma }_n, {\varvec{Z}}^\top \varvec{\Sigma }_m {\varvec{Z}}). \end{aligned}$$\end{document}

Consider the proof of Theorem 1 placed in the supplementary material, we have

(3)

\begin{matrix} max_{R_{i} \in O (m)} \sum_{i = 1}^{N} < R_{i}, X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} > = max_{R_{i} \in O (m)} \sum_{i = 1}^{N} t r (Z^{⊤} R_{i}^{⊤} X_{i}^{⊤} Σ_{n}^{- 1} M Z Z^{⊤} Σ_{m}^{- 1} Z) . \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \max _{{\varvec{R}}_i \in {\mathcal {O}}(m)} \sum _{i = 1}^{N} <{\varvec{R}}_i, {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}> = \max _{{\varvec{R}}_i \in {\mathcal {O}}(m)} \sum _{i =1}^{N} tr({\varvec{Z}}^\top {\varvec{R}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} {\varvec{Z}} {\varvec{Z}}^\top \varvec{\Sigma }_m^{-1} {\varvec{Z}}). \end{aligned}$$\end{document}

Since $Z^{⊤} Z = Z Z^{⊤} = I_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Z}}^\top {\varvec{Z}} = {\varvec{Z}} {\varvec{Z}}^\top = {\varvec{I}}_m$$\end{document} , the solutions ${{\hat{R}}_{i} Z}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{\hat{{\varvec{R}}}_i {\varvec{Z}}\}_{i = 1, \dots , N}$$\end{document} are still valid solutions for the maximization (3). $□$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\square $$\end{document}

To sum up, in the more realistic case, when we must estimate the nuisance parameters, the Procrustes solutions are infinite in general, in both in the high-dimensional case and the low-dimensional by Lemma 1. We emphasize here that, to resolve the non-identifiability of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} , the proposed ProMises model imposes a prior distribution for the parameter $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} .

2. ProMises Model

2.1. Background

In the previous section, we justified how the perturbation model could be problematic because Lemma 1 proves the non-identifiability of the parameter $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} in the realistic case of unknown nuisance parameters. This scenario returns to be critical in several applications, where the m columns of the matrix $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} do not express the three-dimensional spatial coordinates, such as in the fMRI data framework illustrated in Sect. 4. In the high-dimensional case, the final orientations of the aligned data can be relevant for interpretation purposes.

For that, we propose its Bayesian approach: the ProMises model. We stress here that a proper prior distribution leads to a closed-form and interpretable, unique point estimate of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . The specification of the prior parameters is essential, especially in our high-dimensional context.

2.2. Interpretation of the Prior Parameters

Because $R_{i} \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i \in {\mathcal {O}}(m)$$\end{document} , a proper prior distribution must take values in the Stiefel manifold $V_{m} ({I R}^{m})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$V_{m}(\mathrm{I\!R}^m)$$\end{document} . The matrix von Mises–Fisher distribution is a non-uniform distribution on $V_{m} ({I R}^{m})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$V_{m}(\mathrm{I\!R}^m)$$\end{document} , which describes a rigid configuration of m distinct directions with fixed angles. It was proposed by Downs (Reference Downs1972) and investigated by many authors (e.g., Chikuse, Reference Jupp and Mardia1979; Jupp & Mardia Reference Chikuse2003).

We report below the formal definition of the von Mises–Fisher distribution.

Definition 3

(Downs, Reference Downs1972) The von Mises–Fisher distribution for $R_{i} \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i \in {\mathcal {O}}(m)$$\end{document} is

(4)

\begin{matrix} f (R_{i}) = C (F, k) exp {t r (k F^{⊤} R_{i})}, \end{matrix}

where $C (F, k)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$C({\varvec{F}}, k)$$\end{document} is a normalizing constant, $F \in {I R}^{m \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}} \in \mathrm{I\!R}^{m \times m}$$\end{document} is the location matrix parameter, and $k \in {I R}^{+}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$k \in \mathrm{I\!R}^{+}$$\end{document} is the concentration parameter.

The parameter k defined in (4) balances the amount of concentration of the distribution around $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} . If $k \to 0$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$k \rightarrow 0$$\end{document} , the prior distribution is near a uniform distribution (i.e., unconstrained). If $k \to + \infty$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$k \rightarrow +\infty $$\end{document} , the prior distribution tends toward a Dirac distribution (i.e., maximum constraint).

A proper specification of the prior distribution leads to improved estimation of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . Therefore, the core of the ProMises model is the specification of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} defined in (4). Consider the polar decomposition and singular value decomposition of $F = P K = L Σ B^{⊤} = L B^{⊤} B Σ B^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}= {\varvec{P}} {\varvec{K}} = {\varvec{L}} \varvec{\Sigma }{\varvec{B}}^\top = {\varvec{L}} {\varvec{B}}^\top {\varvec{B}} \varvec{\Sigma } {\varvec{B}}^\top $$\end{document} , where $P, L, B \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}}, {\varvec{L}}, {\varvec{B}} \in {\mathcal {O}}(m)$$\end{document} , and $K \in {I R}^{m \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{K}} \in \mathrm{I\!R}^{m \times m}$$\end{document} are symmetric positive semi-definite matrices, and $Σ \in {I R}^{m \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma } \in \mathrm{I\!R}^{m \times m}$$\end{document} diagonal matrix with non-negative real numbers on the diagonal. The mode of the density defined in (4) equals $P$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}}$$\end{document} (Jupp & Mardia, Reference Jupp and Mardia1979), so the most plausible rotation matrix depends on the orientation characteristic of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} . Merging the two decompositions, $P = L B^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}} = {\varvec{L}} {\varvec{B}}^\top $$\end{document} describes the orientation part of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} , and $K = B Σ B^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{K}} = {\varvec{B}} \varvec{\Sigma } {\varvec{B}}^\top $$\end{document} defines the concentration part. The mode is specified by the product of the left and right singular vectors of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} . These decompositions are useful to understand when the density (4) is uni-modal. If $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} has full rank, $Σ$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }$$\end{document} does too, the polar decomposition is unique, and thus the mode of the density (i.e., $P$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}}$$\end{document} is the global maximum). Let $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} be a full rank matrix, then the maximum equals ${max}_{R_{i} \in O (m)} t r (F R_{i}^{⊤}) = t r {L B^{⊤} B Σ B^{⊤} {(L B^{⊤})}^{⊤}} = t r (Σ)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\max _{{\varvec{R}}_i \in {\mathcal {O}}(m)} \,\, tr({\varvec{F}} {\varvec{R}}_i^\top ) = tr\{{\varvec{L}} {\varvec{B}}^\top {\varvec{B}} \varvec{\Sigma } {\varvec{B}}^\top ({\varvec{L}} {\varvec{B}}^\top )^\top \} = tr(\varvec{\Sigma })$$\end{document} .

To sum up, the prior specification allows us to include a priori information about the optimal orientation in the perturbation model. We anticipate here the result of Lemma 3: If $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} is defined as a full rank matrix, the maximum a posteriori solution ${\hat{R}}^{^{'}}_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{R}}^{'}}_i$$\end{document} will be unique with the orientation structure of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} .

Two simple examples of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} are delineated below.

Example 1

The most simple definition of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} is $I_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{I}}_m$$\end{document} (Lee, Reference Lee2018). The eigenvalues are all 1, and $L$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{L}}$$\end{document} and $B$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{B}}$$\end{document} are equal to $e_{1}, \dots, e_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{e}}_1,\dots , {\varvec{e}}_m$$\end{document} , where $e_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{e}}_i$$\end{document} is the standard basis forming an orthonormal basis of ${I R}^{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\mathrm{I\!R}^{m}$$\end{document} . The prior distribution shrinks the possible solutions for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} toward orthogonal matrices that consider only the combination of variables with the same location.

Alternatively, considering the fMRI scenario, the hyperparameter $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} can be defined as an Euclidean similarity matrix using the 3D anatomical coordinates x, y, and z of each voxel:

\begin{matrix} F = [exp {- \sqrt{{(x_{i} - x_{j})}^{2} + {(y_{i} - y_{j})}^{2} + {(z_{i} - z_{j})}^{2}}}], \end{matrix}

where $i, j = 1, \dots m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$i,j = 1,\dots m$$\end{document} . In this way, $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} is a symmetric matrix with ones in the diagonal, which means that voxels with the same spatial location are combined with weights equalling 1, and the weights decrease as the voxels to be combined are more spatially distant.

Example 2

Consider N matrices, one for each plant, describing the three-dimensional spatial trajectories of a climbing plant, Pisum sativum, having wooden support as a stimulus (Guerra et al., Reference Guerra, Peressotti, Peressotti, Bulgheroni, Baccinelli and D’Amico2019) across time. The spatiotemporal trajectories of the plants are analyzed until they come to grasp the stick. The aim is to functionally align the three time series, one for each coordinate (x, y, z); then, we have $m = 3$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m=3$$\end{document} . In this case, we could suppose that the rotation along the z axis is not of interest because the functional misalignment between plants can be along the x-axis and y-axis with the z-axis being the one that reflects the growth of the plants and the x-axis and y-axis describing the elliptical movement (circumnutation) of the plants (Guerra et al., Reference Guerra, Peressotti, Peressotti, Bulgheroni, Baccinelli and D’Amico2019). Therefore, the $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} location matrix parameter can be described as follows:

(5)

\begin{matrix} F = (\begin{matrix} 0.5 & 0.5 & 0 \\ 0.5 & 0.5 & 0 \\ 0 & 0 & 1 \end{matrix}) . \end{matrix}

The axes x and y have the same probability of entering in the calculation of the first two dimensions of the final common space, whereas the z axis is not considered.

We use the kinematic plant data from Guerra et al. (Reference Guerra, Peressotti, Peressotti, Bulgheroni, Baccinelli and D’Amico2019), consisting of five matrices/plants. Figure 1 shows the elliptical movement expressed by the axes x and y, in the case of unaligned and aligned plant trajectories. The rotation transformations are estimated by the ProMises model with $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} expressed as (5). We do not go into detail about the meaning of the results because we have introduced this example to explain the usefulness of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} . However, we can note how the ProMises model aligns the final coordinates of the tendrils (i.e., when the plant touches the wooden support).

Figure 1. Left panel: Unaligned spatial trajectories of the tendrils of two plants. Right panel: Aligned spatial trajectories of the tendrils of two plants.

2.3. Von Mises–Fisher Conjugate Prior

The von Mises–Fisher distribution (4) was proved by Khatri and Mardia (Reference Khatri and Mardia1977) to be a member of the standard exponential family (Barndorff–Nielsen, Reference Barndorff-Nielsen2014). Green and Mardia (Reference Green and Mardia2006) mentioned that the von Mises–Fisher distribution is a conjugate prior for the matrix normal distribution, which we formally prove in the following lemma under the perturbation model’s assumptions.

Lemma 2

Consider the perturbation model of Definition 2, with $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} distributed according to (4), then the posterior distribution $f (R_{i} | k, F, X_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$f({\varvec{R}}_i| k, {\varvec{F}}, {\varvec{X}}_i)$$\end{document} is a conjugate distribution to the von Mises–Fisher prior distribution with location posterior parameter equalling the following:

(6)

\begin{matrix} F^{⋆} = {X_{i}}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} + k F . \end{matrix}

The posterior location parameter is the sum of $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}$$\end{document} and the prior location parameter $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} multiplied by k. Consider the singular value decomposition of $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}$$\end{document} :

(7)

\begin{matrix} X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} = U_{i} D_{i} V_{i}^{⊤} = U_{i} V_{i}^{⊤} V_{i} D_{i} V_{i}^{⊤} . \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1} = {\varvec{U}}_i {\varvec{D}}_i {\varvec{V}}_i^\top = {\varvec{U}}_i {\varvec{V}}_i^\top {\varvec{V}}_i {\varvec{D}}_i {\varvec{V}}_i^\top . \end{aligned}$$\end{document}

The right part of (7) $V_{i} D_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{V}}_i {\varvec{D}}_i {\varvec{V}}_i^\top $$\end{document} is the elliptical part of $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}$$\end{document} , which is a measure of variation relative to the decomposition $U_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{U}}_i {\varvec{V}}_i^\top $$\end{document} (i.e., the maximum likelihood estimator of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} ). Focus on the right part of (6), $F = P K$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}={\varvec{P}} {\varvec{K}}$$\end{document} , which is the polar decomposition of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} , where $P$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}}$$\end{document} is the mode of the von Mises–Fisher distribution, and $K$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{K}}$$\end{document} is its measure of variation. Therefore, $F^{⋆}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}^\star $$\end{document} is expressed as a combination of the maximum likelihood estimate ${\hat{R}}_{i} = U_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{R}}}_i = {\varvec{U}}_i {\varvec{V}}_i^\top $$\end{document} and the prior mode $P$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{P}}$$\end{document} , multiplied by corresponding measures of variation.

Thanks to the conjugacy, the estimation process remains simple; with a small modification we keep the previous algorithm without increasing the computational burden.

2.4. Estimation of the ProMises Model

This section delineates the estimation process for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} using the ProMises method. First of all, $f (X_{i} | α_{i}, R_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$f(\varvec{X_i} | \alpha _i, \varvec{R_i})$$\end{document} depends only on the product $α_{i} R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\alpha _i \varvec{R_i}$$\end{document} , we thus refer to the distribution $f (X_{i} | α_{i} R_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$f(\varvec{X_i} | \alpha _i \varvec{R_i})$$\end{document} instead of $f (X_{i} | α_{i}, R_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$f(\varvec{X_i} | \alpha _i, \varvec{R_i})$$\end{document} defined in (2). The following density is then considered as prior distribution for the product $α_{i} R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\alpha _i \varvec{R_i}$$\end{document} :

(8)

\begin{matrix} f (α_{i} R_{i}) \sim exp {\frac{k}{α_{i}} t r (F^{⊤} R_{i})} α_{i}^{- 1} . \end{matrix}

The following theorem delineates the estimation of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} with known nuisance parameters:

Theorem 2

The ProMises model is defined as the perturbation model specified in Definition 2 imposing the prior distribution (8) for $α_{i} R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\alpha _i {\varvec{R}}_i$$\end{document} . Let the singular value decomposition of $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} + k F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1} + k {\varvec{F}}$$\end{document} be $U_{i} D_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{U}}_i {\varvec{D}}_i {\varvec{V}}_i^\top $$\end{document} . Then, the maximum a posteriori estimators equal ${\hat{R}}^{^{'}}_{i} = U_{i} V_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{R}}^{'}}_i = {\varvec{U}}_i {\varvec{V}}_i^\top $$\end{document} and ${\hat{α_{i}}}_{{\hat{R}}^{^{'}}_{i}}^{^{'}} = | | Σ_{m}^{- 1 / 2} {\hat{R}}^{^{'} ⊤}_{i} X_{i}^{⊤} Σ_{n}^{- 1 / 2} {| |}^{2} / t r (D_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\hat{\alpha _i}_{\varvec{{\hat{R}}^{'}}_i}^{'}=||\varvec{\Sigma }_m^{-1/2} \varvec{{\hat{R}}^{'\top }}_i {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1/2}||^2/tr({\varvec{D}}_i)$$\end{document} .

The prior information about $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} ’s structure is directly entered in the singular value decomposition step; the maximum a posteriori estimator turns out to be a slight modification of the solution given in Theorem 1. We decompose $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} + k F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1} + k {\varvec{F}}$$\end{document} instead of $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}$$\end{document} .

Let ${X_{i} \in {I R}^{n \times m}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_{i} \in \mathrm{I\!R}^{n \times m} \}_{i = 1,\dots ,N}$$\end{document} be a set of independent matrices. Then, the joint posterior distribution is simply the product of the single posterior distribution.

If $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} , and $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} are unknown, the maximization problem has no closed-form solution, like in Sect. 1.2. Because we proved that the prior specification modifies only the singular value decomposition step of Theorem 1, we then modify the Line 5 of Algorithm 1, as follows:

2.5. On the Choice of the Parameter of the von Mises–Fisher Distribution

We choose the von Mises–Fisher distribution as prior distribution for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} for its useful and practical properties. First, as shown, it is a conjugate prior distribution, leading to a direct calculation and interpretation of ${\hat{R}}^{^{'}}_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\hat{R}}^{'}}_i$$\end{document} . Second, it expresses the orthogonality constraint imposed by the Procrustes problem. Finally, the definition of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} does not require strong assumptions (Downs, Reference Downs1972); nevertheless, if we specify it as a full-rank matrix, we guarantee solution’s uniqueness. This permits formulation of the below lemma.

Lemma 3

If $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} has full rank, the maximum a posteriori estimates for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} given by Theorem 2 are unique.

Proof.

Consider the proof of Lemma 1. Multiplying by $Z$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Z}}$$\end{document} leads to the following maximization:

\begin{matrix} \sum_{i = 1}^{N} t r (Z^{⊤} R_{i}^{⊤} (X_{i}^{⊤} Σ_{n}^{- 1} M Z Z^{⊤} Σ_{m}^{- 1} Z + k F)) \neq \sum_{i = 1}^{N} t r (R_{i}^{⊤} (X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} + k F)) \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \sum _{i=1}^{N} tr({\varvec{Z}}^\top {\varvec{R}}_i^\top ({\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} {\varvec{Z}} {\varvec{Z}}^\top \varvec{\Sigma }_m^{-1} {\varvec{Z}} + k {\varvec{F}})) \ne \sum _{i=1}^{N} tr( {\varvec{R}}_i^\top ({\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1} + k {\varvec{F}})) \end{aligned}$$\end{document}

since the cyclic permutation invariance property of the trace does not work as Lemma 1 having the additional term $k t r (F R_{i})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$k tr( {\varvec{F}} {\varvec{R}}_i)$$\end{document} .

In addition, recalling Lemma 4, the solution for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} is unique if and only if $X_{i}^{⊤} Σ_{n}^{- 1} M Σ_{m}^{- 1} + k F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{M}} \varvec{\Sigma }_m^{-1}+ k {\varvec{F}}$$\end{document} has full rank. If $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} is defined with full rank, so ${\tilde{X}}_{i}^{⊤} \tilde{M} + k F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{{\tilde{X}}}_i^\top \varvec{{\tilde{M}}} + k {\varvec{F}}$$\end{document} , and the solution for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$R_i$$\end{document} is unique. Furthermore, recalling Jupp and Mardia (Reference Jupp and Mardia1979), the mode of the von Mises–Fisher is the orientation part of location matrix parameter. Because the polar decomposition of $F^{⋆}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}^\star $$\end{document} is unique, the maximum a posteriori estimate is unique. $□$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\square $$\end{document}

To sum up, the ProMises model enables resolving the non-identifiability of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{R_i}$$\end{document} that characterizes the perturbation model. The prior information inserted in the model permits guidance of the estimation process, computing a unique and interpretable data orthogonal transformation. Finally, all these properties are reached without complicating the estimation process of the perturbation model; we only modify the singular value decomposition step of Algorithm 1.

3. Efficient ProMises Model

The framework depicted above can be applied both in low- and high-dimensional settings. However, the extension to the high-dimensional case does not come for free if the perturbation model is used. When $n < m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n<m$$\end{document} , rank equals n, the identifiability of the solution is lost even when the nuisance parameters are known. The lemma below formally states:

Lemma 4

Consider $X_{i} \in {I R}^{n \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i \in \mathrm{I\!R}^{n \times m}$$\end{document} , if $n < m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n < m$$\end{document} , then the maximum likelihood estimate for $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} defined in Theorem 1 is not unique.

Although the ProMises model provides unique solutions even in high-dimensional frameworks, a second issue remains prominent: the computational load. At each step, the presented algorithms perform N singular values decompositions of $m \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m\times m$$\end{document} matrices, which have a polynomial-time complexity $O (m^{3})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$O(m^3)$$\end{document} . When m becomes large, as in fMRI data where m is a few hundred thousands, the computation runtime, and the required storing memory, becomes inadmissible.

This section proposes the Efficient ProMises model, which resolves the two above points. The method is efficient in terms of space and time complexity and fixes the non-identifiability of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . The algorithm allows a faster and more accessible shape analysis without loss of information in the case of $n ≪ m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n \ll m$$\end{document} . It essentially merges the thin singular value decomposition (Bai et al., Reference Bai, Demmel, Dongarra, Ruhe and van der Vorst2000) with the Procrustes problem.

In practice, the Efficient ProMises approach projects the matrices $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} into an n-lower-dimensional space using a specific semi-orthogonal transformation (Abadir & Magnus, Reference Abadir and Magnus2005; Groß et al., Reference Groß, Trenkler and Troschke1999) $Q_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Q}}_i$$\end{document} , with dimensions $m \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m \times n$$\end{document} , which preserve all the data’s information. It aligns, then, the reduced $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n\times n$$\end{document} matrices ${X_{i} Q_{i} \in {I R}^{n \times n}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_i {\varvec{Q}}_i \in \mathrm{I\!R}^{n \times n }\}_{i = 1, \dots , N}$$\end{document} by the perturbation or ProMises model. Finally, it projects the aligned matrices back to the original $n \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n\times m$$\end{document} -size matrices ${X_{i} \in {I R}^{n \times m}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_i \in \mathrm{I\!R}^{n \times m }\}_{i = 1, \dots , N}$$\end{document} using the transpose of ${Q_{i}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{Q}}_i\}_{i = 1, \dots , N}$$\end{document} .

The following theorem proves that the maximum defined in Eq. (3) using ${X_{i} Q_{i} \in {I R}^{n \times n}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_i {\varvec{Q}}_i \in \mathrm{I\!R}^{n \times n }\}_{i = 1, \dots , N}$$\end{document} equals the original maximum because the Procrustes problem analyzes the first $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n \times n$$\end{document} dimensions of $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . The maximum remains the same if we multiply ${X_{i} \in {I R}^{n \times m}}_{i = 1, \dots, N}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\{{\varvec{X}}_i \in \mathrm{I\!R}^{n \times m }\}_{i = 1, \dots , N} $$\end{document} by $Q_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Q}}_i$$\end{document} .

Theorem 3

Consider the perturbation model in Definition 2 with $Σ_{m} = σ^{2} I_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m = \sigma ^2 {\varvec{I}}_m$$\end{document} and the thin singular value decompositions of $X_{i} = L_{i} S_{i} Q_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i = {\varvec{L}}_i {\varvec{S}}_i {\varvec{Q}}_i^\top $$\end{document} for each $i = 1, \dots, N$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$i = 1, \dots , N$$\end{document} , where $Q_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Q}}_i$$\end{document} has dimensions $m \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m \times n$$\end{document} . The following holds

\begin{matrix} max_{R_{i} \in O (m)} t r (R_{i}^{⊤} X_{i}^{⊤} Σ_{n}^{- 1} X_{j} Σ_{m}^{- 1}) = max_{R_{i}^{⋆} \in O (n)} t r (R_{i}^{⋆ ⊤} Q_{i}^{⊤} X_{i}^{⊤} Σ_{n}^{- 1} X_{j} Σ_{m}^{- 1} Q_{j}^{⊤}) . \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \max _{{\varvec{R}}_i \in {\mathcal {O}}(m)} tr({\varvec{R}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{X}}_j \varvec{\Sigma }_m^{-1}) = \max _{{\varvec{R}}_i^{\star } \in {\mathcal {O}}(n)} tr({\varvec{R}}_i^{ \star \top } {\varvec{Q}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{X}}_j \varvec{\Sigma }_m^{-1} {\varvec{Q}}_j^\top ). \end{aligned}$$\end{document}

Additionally, the condition for the existence of ${\hat{Σ}}_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\hat{\varvec{\Sigma }}_n$$\end{document} by Dutilleul (Reference Dutilleul1999) is satisfied because $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} now has dimensions $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n \times n$$\end{document} , and the functional alignment needs at least $N = 2$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$N = 2$$\end{document} observations.

So, Theorem 3 is used to define an Efficient version of the ProMises model.

Lemma 5

Consider the assumptions of Theorem 3, then

\begin{matrix} max_{R_{i} \in O (m)} t r (R_{i}^{⊤} X_{i}^{⊤} {Σ_{n}}^{- 1} X_{j} Σ_{m}^{- 1} + k F) = max_{R_{i}^{⋆} \in O (n)} t r {R_{i}^{⋆ ⊤} (Q_{i}^{⊤} X_{i}^{⊤} Σ_{n}^{- 1} X_{j} Σ_{m}^{- 1} Q_{j}^{⊤} + k F^{⋆})}, \end{matrix}

\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\begin{aligned} \max _{{\varvec{R}}_i \in {\mathcal {O}}(m)} tr({\varvec{R}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma _n}^{-1} {\varvec{X}}_j \varvec{\Sigma }_m^{-1} + k {\varvec{F}}) = \max _{{\varvec{R}}_i^{\star } \in {\mathcal {O}}(n)} tr\{{\varvec{R}}_i^{\star \top } ({\varvec{Q}}_i^\top {\varvec{X}}_i^\top \varvec{\Sigma }_n^{-1} {\varvec{X}}_j \varvec{\Sigma }_m^{-1} {\varvec{Q}}_j^\top + k {\varvec{F}}^\star )\}, \end{aligned}$$\end{document}

where $F \in {I R}^{m \times m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${{F}} \in \mathrm {I\!R}^{m \times m}$$\end{document} and $F^{⋆} = Q_{i}^{⊤} F Q_{j} \in {I R}^{n \times n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${{F}}^\star = {{Q}}_i^\top {{F}} {{Q}}_j \in \mathrm {I\!R}^{n \times n}$$\end{document} .

Proofs of Theorem 3 and Lemma 5 are shown in the supplementary material, whereas here, we make some further considerations about the proposed method.

At first glance, the assumption $Σ_{m} = σ^{2} I_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m = \sigma ^2 {\varvec{I}}_m$$\end{document} may dilute the resul’s impact. However, this assumption does not imply that the data are column-wise independent because this dependence is modeled by $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} . Additionally, the joint and accurate estimate of $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} , $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} and $R_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i$$\end{document} requires a large number of observations. So, it is common in real applications to set $Σ_{m}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_m$$\end{document} and $Σ_{n}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$\varvec{\Sigma }_n$$\end{document} to be proportional to the identities in Procrustes-like problems (Haxby et al., Reference Haxby, Guntupalli, Nastase and Feilong2020). When the model is high-dimensional, this problem becomes even more pronounced because of the huge number of parameters to be estimated.

The Efficient ProMises approach reaches the same maximum while working in the reduced space of the first n eigenvectors, which contains all the information, instead of the full data set. Therefore, the original problem estimates orthogonal matrices of size $m \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m\times m$$\end{document} : $R_{i} \in O (m)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i \in {\mathcal {O}}(m)$$\end{document} , whereas the Efficient solution provides a set of orthogonal matrices of size $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n\times n$$\end{document} : $R_{i}^{⋆} \in O (n)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{R}}_i^{\star } \in {\mathcal {O}}(n)$$\end{document} . Even when the solution is projected back into the $m \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m\times m$$\end{document} space through $Q_{i} R_{i}^{⋆} Q_{i}^{⊤}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{Q}}_i{\varvec{R}}_i^{\star }{\varvec{Q}}_i^\top $$\end{document} , the rank remains n, whereas the matrices of the original solutions have rank m. This should clarify that the Efficient approach reaches the same fit to the data under a different set of constraints that is $n \times n$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n\times n$$\end{document} orthogonal matrices instead of $m \times m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$m\times m$$\end{document} matrices; hence, the solutions of the two algorithms will not be identical.

Then, we add on Algorithm 1 the lines used to reduce the dimensions of $X_{i}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{X}}_i$$\end{document} , and we modify Line 5 to insert the prior information:

The Efficient approach reduces the time complexity from $O (m^{3})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathcal {O}}(m^3)$$\end{document} to $O (m n^{2})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathcal {O}}(m n^2)$$\end{document} and the space complexity from $O (m^{2})$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathcal {O}}(m^2)$$\end{document} to $O (m n)$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathcal {O}}(m n)$$\end{document} .

4. Functional Magnetic Resonance Imaging Data Application

4.1. Motivation

The alignment problem is recognized in fMRI multi-subject studies because the brain’s anatomical and functional structures vary across subjects. The most used anatomical alignments are the Talairach normalization (Talairach & Tournoux, Reference Talairach and Tournoux1988) and the Montréal Neurological Institute (MNI) space normalization (Jenkinson et al., Reference Jenkinson, Bannister, Brady and Smith2002), where the brain images are aligned to an anatomical template by affine transformations using a set of major anatomical landmarks. However, this alignment does not explore the between-subjects variability in anatomical positions of the functional loci. The functional brain regions are not consistently placed on the anatomical landmarks defined by the Talairach and MNI templates. The anatomical alignment is then an approximate inter-subject registration of the functional cortical areas. Haxby et al. (Reference Haxby, Guntupalli, Connolly, Halchenko, Conroy, Gobbini, Hanke and Ramadge2011) proved that functional brain anatomy exhibits a regular organization at a fine spatial scale shared across subjects.

Therefore, we can assume that anatomical and functional structures are subject-specific (Conroy et al., Reference Conroy, Singer, Haxby and Ramadge2009; Sabuncu et al., Reference Sabuncu, Singer, Conroy, Bryan, Ramadge and Haxby2010) and that the neural activities in different brains are noisy rotations of a common space (Haxby et al., Reference Haxby, Guntupalli, Connolly, Halchenko, Conroy, Gobbini, Hanke and Ramadge2011). Functional alignments (e.g., Procrustes methods) attempt to rotate the neural activities to maximize similarity across subjects.

Specifically, each subject’s brain activation can be represented by a matrix, where the rows represent the stimuli/time points, and the columns represent the voxels. The stimuli are time-synchronized among subjects, so we have correspondence among the matrices’ rows. However, the columns are not assumed to be in correspondence among subjects, as explained before. Each time series of brain activation (i.e., each of the matrices’ columns) represents the voxels’ functional characteristics that the anatomical normalization fails to align. We aim to represent the neural responses to stimuli into a common high-dimensional space, rather than in a canonical anatomical space that does not consider the variability of functional topographies loci.

Figure 2 shows three voxels’ neural activities (i.e., $v_{1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_1$$\end{document} , $v_{2}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_2$$\end{document} , and $v_{3}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_3$$\end{document} ) three columns of the data matrix in two subjects recorded across time. The functional pattern of $v_{2}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_2$$\end{document} is equal across subjects, whereas $v_{1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_1$$\end{document} and $v_{3}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_3$$\end{document} are swapped. A rotation matrix can resolve this misalignment, with the swap being a particular case of the rotation matrix. For further details about the motivation in using functional Procrustes-based alignment in fMRI studies, see Haxby et al. (Reference Haxby, Guntupalli, Nastase and Feilong2020).

Figure 2. Illustration of functional misalignment between fMRI images, where three voxels’ time series are plotted considering two subjects. The time series of voxels $v_{1}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_1$$\end{document} and $v_{3}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_3$$\end{document} of the second subject are swapped with respect to the first subject.

4.2. Data Description

We apply the proposed method to data from Pernet et al. (Reference Pernet, McAleer, Latinus, Gorgolewski, Charest, Bestelmeyer, Watson, Fleming, Crabbe, Valdes-Sosa and Belin2015), available at https://openneuro.org/datasets/ds000158/versions/1.0.0. The study consists of neural activations of 218 subjects passively listening to vocal (i.e., speech) and nonvocal sounds. Because the application has had a mere illustrative purpose, we choose to use a small number of subjects (18) to facilitate the example’s reproducibility by the readers. We preprocessed the data using the Functional MRI of the Brain Software Library (FSL) (Jenkinson et al., Reference Jenkinson, Beckmann, Behrens, Woolrich and Smith2012) using a standard processing procedure (i.e., high-pass filtering, brain extraction, spatially smoothing, registration to standard MNI space, dealing with motion and differences in slice acquisition time). Anatomical and functional alignment (based on the ProMises model) is compared, having images preprocessed in the same way, but in one case, the functional alignment is applied, while in the other case not. For details about the experimental design and data acquisition, please see Pernet et al. (Reference Pernet, McAleer, Latinus, Gorgolewski, Charest, Bestelmeyer, Watson, Fleming, Crabbe, Valdes-Sosa and Belin2015).

4.3. Functional Connectivity

We performed region of interest and seed-based correlation analysis (Cordes et al., Reference Cordes, Haughton, Arfanakis, Wendt, Turski, Moritz, Quigley and Meyerand2000). The seed-based correlation map shows the level of functional connectivity between a seed and every voxel in the brain, whereas the region of interest analysis expresses the functional correlation between predefined regions of interest coming from a standard atlas. The analysis process is defined as follows: First, the subject images are aligned using Algorithm 3, then the element-wise arithmetic mean across subjects is calculated, and finally, the functional connectivity analysis is developed on this average matrix.

We take the frontal pole as seed, being a region with functional diversity (Liu et al., Reference Liu, Qin, Li, Fan, Wang, Jiang and Yu2013). The anatomical alignment considered here refers to the MNI space normalization (Jenkinson et al., Reference Jenkinson, Bannister, Brady and Smith2002). Figure 3 shows the correlation values between the seed and each voxel in the brain using data without functional alignment (top of Fig. 3) and with functional alignment using the Efficient ProMises model (bottom of Fig. 3). The first evidence is that the functional alignment produces more interpretable maps, where the various regions, such as the superior temporal gyrus, are delineated by marked spatial edges, while the non-aligned map produces more spread regions, hence being less interpretable. It is interesting to evaluate the regions more correlated with the frontal pole, for example, the superior temporal gyrus. This region is associated with the processing of auditory stimuli. The correlation of the superior temporal gyrus with the seed is clear in the bottom part of Fig. 3, where functionally aligned images are used.

Figure 3. Seed-based correlation map for $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , using data only aligned anatomically (top figure), and data also functionally aligned by the Efficient ProMises model (bottom figure). The black point refers to the seed used (i.e., frontal pole with MNI coordinates (0, 64, 18)). So, the brain map indicates the level of correlation between each voxel and the frontal pole.

In contrast, the region of interest correlations analysis shows the integration mechanisms between specialized brain areas. Figure 4 indicates the correlation matrices of time-series extracted from the 39 main regions of the atlas of Varoquaux et al. (Reference Varoquaux, Gramfort, Pedregosa, Michel and Thirion2011). Using functionally aligned data (right side of Fig. 4), we can see delineated blocks of synchronized regions that can be interpreted as large-scale functional networks. Instead, using data without functional alignment (left side of Fig. 4) the distinctions between blocks are clearly worse. Using functionally aligned data, the left and right visual systems, composed of the dorsolateral prefrontal cortex (DLPFC), frontal pole (Front pol), and parietal (Par), are clearly visible, whereas in the analysis using functionally nonaligned data, this distinction is hidden by noise.

Figure 4. Correlation matrix for $M$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document} , using data only aligned anatomically (left figure) and data also functionally aligned by the Efficient ProMises model (right figure). The cells of the matrix represent the correlation between the regions (represented by the row/column labels) of the Varoquaux et al. (Reference Varoquaux, Gramfort, Pedregosa, Michel and Thirion2011)’s atlas.

The preprocessed data are available on the GitHub repository: http://github.com/angeella/fMRIdata, as well as the code used to perform functional connectivity: http://github.com/angeella/ProMisesModel/Code/Auditory.

5. Discussion

The ProMises model provides a methodologically grounded approach to the Procrustes problem allowing functional alignment on high-dimensional data in a computationally efficient way. The issues of the perturbation model (Goodall, Reference Goodall1991)—non-uniqueness, critical interpretation, and inapplicability when $n ≪ m$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$n \ll m$$\end{document} —are completely surpassed thanks to our Bayesian extension. Indeed, the ProMises method returns unique and interpretable orthogonal transformations, and its efficient approach extends the applicability to high-dimensional data. The presented method is particularly useful in fMRI data analysis because it allows the functional alignment of images having roughly $200 \times$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$200 \times $$\end{document} 200,000 dimensions, obtaining a unique representation of the aligned images in the brain space and a unique interpretation of the related results.

In the application example presented in Sect. 4, a subsample was analyzed. However, the algorithm has a linear growth in N, and therefore, it is not a problem to work with larger samples. Also, the algorithm permits a parallel computation for the subjects.

The Bayesian framework gives the user the advantage and the duty to insert prior information into the model through k and $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} . The parameter k plays the role of regularization parameter, which is rarely known a priori. We estimated it by cross-validation, although it may be interesting to adapt approximations-based methods (e.g., generalized cross-validation) to reduce the computational burden. Alternatively, we could assume a prior distribution taking values in $R^{+}$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\mathbb {R}}^{+}$$\end{document} for the regularization parameter k and proceed to jointly estimate this parameter as well. More interestingly, the matrix $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} addresses the estimate of the optimal rotations, which is favorable in the analysis of fMRI data because, in this context, the variables have a spatial anatomical location. In the example in Sect. 4, our definition of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} favors the combination of voxels with equal location. However, a more thoughtful specification can entirely exploit the voxels’ specific spatial position in the anatomical template. This opens up the possibility to explore various specifications of $F$ \documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{F}}$$\end{document} and will be the subject of further research.

Acknowledgements

The authors thank the Editor, the Associate Editor as well as the two anonymous referees for helpful comments that greatly improved the paper. Angela Andreella gratefully acknowledges funding from the grant BIRD2020/SCAR_ASEGNIBIRD2020_01 of the University of Padova, Italy, and PON 2014-2020/DM 1062 of the Ca’ Foscari University of Venice, Italy. Some of the computational analyses done in this manuscript were carried out using the University of Padova Strategic Research Infrastructure Grant 2017: “CAPRI: Calcolo ad Alte Prestazioni per la Ricerca e l’Innovazione”, http://capri.dei.unipd.it. The authors thank Prof. Umberto Castiello and Dr. Silvia Guerra for sharing the cinematic plant data.

Funding

Open access funding provided by Università degli Studi di Padova within the CRUI-CARE Agreement.

Footnotes

Supplementary Information The online version contains supplementary material available at https://doi.org/S0033312300005524a.

Publisher's Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

References

Abadir, K. M., Magnus, J. R., Matrix algebra Cambridge Cambridge University Press 10.1017/CBO9780511810800CrossRef Google Scholar

Andrade, J. M., Gómez-Carracedo, M. P., Krzanowski, W., Kubista, M., (2004). Procrustes rotation in analytical chemistry, a tutorial Chemometrics and Intelligent Laboratory Systems 72 (2) 123–132 10.1016/j.chemolab.2004.01.007CrossRef Google Scholar

Bai, Z., Demmel, J., Dongarra, J., Ruhe, A., & van der Vorst, H. (2000). Templates for the solution of algebraic eigenvalue problems: a practical guide. Society for Industrial and Applied Mathematics.CrossRef Google Scholar

Barndorff-Nielsen, O Information and exponential families: In statistical theory New York, USA Wiley 10.1002/9781118857281Google Scholar

Chikuse, Y Statistics on special manifolds 2003. Berlin SpringerCrossRef Google Scholar

Conroy, B. R., Singer, B. D., Haxby, J. V., Ramadge, P. J., (2009). Fmri-based inter-subject cortical alignment using functional connectivity Advances in Neural Information Processing systems 22 378 26388679 4572745Google Scholar PubMed

Cordes, D., Haughton, V. M., Arfanakis, K., Wendt, G. J., Turski, P. A., Moritz, C. H., Quigley, M. A., Meyerand, M. E., (2000). Mapping functionally related regions of brain with functional connectivity mr imaging American Journal of Neuroradiology 21 (9) 1636–1644 11039342 8174861Google Scholar PubMed

Downs, T. D., (1972). Orientation statistics Biometrika 59 (3) 665–676 10.1093/biomet/59.3.665CrossRef Google Scholar

Dutilleul, P., (1999). The mle algorithm for the matrix normal distribution Journal of Statistical Computation and Simulation 64 (2) 105–123 10.1080/00949659908811970CrossRef Google Scholar

Golub, G. H., & Van Loan, C. F. (2013). Matrix computations. Johns Hopkins studies in the mathematical sciences. Johns Hopkins University Press.CrossRef Google Scholar

Goodall, C., (1991). Procrustes methods in the statistical analysis of shape Journal of the Royal Statistical Society: Series B (Methodological) 53 (2) 285–321CrossRef Google Scholar

Gower, J. C., (1975). Generalized procrustes analysis Psychometrika 40 (1) 33–51 10.1007/BF02291478CrossRef Google Scholar

Green, B. F., (1952). The orthogonal approximation of an oblique structure in factor analysis Psychometrika 17 (4) 429–440 10.1007/BF02288918CrossRef Google Scholar

Green, P. J., Mardia, K. V., (2006). Bayesian alignment using hierarchical models, with applications in protein bioinformatics Biometrika 93 (2) 235–254 10.1093/biomet/93.2.235CrossRef Google Scholar

Groisser, D., (2005). On the convergence of some procrustean averaging algorithms Stochastics an International Journal of Probability and Stochastic Processes 77 (1) 31–60 10.1080/17442500512331341059CrossRef Google Scholar

Groß, J., Trenkler, G., Troschke, S. O., (1999). On semi-orthogonality and a special class of matrices Linear Algebra and its Applications 289 1–3 169–182Google Scholar

Guerra, S., Peressotti, A., Peressotti, F., Bulgheroni, M., Baccinelli, W., D’Amico, E., et al. (2019). Flexible control of movement in plants. Scientific Reports, 9(1), 1–9.CrossRef Google Scholar

Gupta, A. K., & Nagar, D. K. (2018). Matrix variate distributions (Vol. 104). Chapman and Hall/CRC.Google Scholar

Haxby, J. V., Guntupalli, J. S., Connolly, A. C., Halchenko, Y. O., Conroy, B. R., Gobbini, M. I., Hanke, M., Ramadge, P. J., (2011). A common, high-dimensional model of the representational space in human ventral temporal cortex Neuron 72 (2) 404–416 10.1016/j.neuron.2011.08.026 22017997 3201764CrossRef Google Scholar PubMed

Haxby, J. V., Guntupalli, J. S., Nastase, S. A., Feilong, M., (2020). Hyperalignment: modeling shared information encoded in idiosyncratic cortical topographies Elife 9 e56601 10.7554/eLife.56601 32484439 7266639CrossRef Google Scholar PubMed

Jenkinson, M., Bannister, P., Brady, M., Smith, S., (2002). Improved optimization for the robust and accurate linear registration and motion correction of brain images Neuroimage 17 (2) 825–841 10.1006/nimg.2002.1132 12377157CrossRef Google Scholar PubMed

Jenkinson, M., Beckmann, C. F., Behrens, T. E., Woolrich, M. W., & Smith, S. M. (2012). Fsl. Neuroimage, 62(2), 782–790.CrossRef Google Scholar

Jupp, P. E., Mardia, K. V., (1979). Maximum likelihood estimators for the matrix von mises-fisher and bingham distributions The Annals of Statistics 7 (3) 599–606 10.1214/aos/1176344681CrossRef Google Scholar

Khatri, C., Mardia, K. V., (1977). The von mises-fisher matrix distribution in orientation statistics Journal of the Royal Statistical Society: Series B (Methodological) 39 (1) 95–106CrossRef Google Scholar

Lee, T., (2018). Bayesian attitude estimation with the matrix fisher distribution on so(3) IEEE Transactions on Automatic Control 63 (10) 3377–3392 10.1109/TAC.2018.2797162CrossRef Google Scholar

Lele, S., (1993). Euclidean distance matrix analysis (edma): Estimation of mean form and mean form difference Mathematical Geology 25 (5) 573–602 10.1007/BF00890247CrossRef Google Scholar

Liu, H., Qin, W., Li, W., Fan, L., Wang, J., Jiang, T., Yu, C., (2013). Connectivity-based parcellation of the human frontal pole with diffusion tensor imaging Journal of Neuroscience 33 (16) 6782–6790 10.1523/JNEUROSCI.4882-12.2013 23595737CrossRef Google Scholar PubMed

Mardia, K. V., Fallaize, C. J., Barber, S., Jackson, R. M., Theobald, D. L., (2013). Bayesian alignment of similarity shapes The Annals of Applied Statistics 7 (2) 989 10.1214/12-AOAS615 24052809 3774796CrossRef Google Scholar PubMed

McCrae, R., Zonderman, A., Costa, P., Bond, M., Paunonen, S., (1996). Evaluating replicability of factors in the revised neo personality inventory: Confirmatory factor analysis versus procrustes rotation Journal of Personality and Social Psychology 70 (3) 552–566 10.1037/0022-3514.70.3.552CrossRef Google Scholar

Pernet, C. R., McAleer, P., Latinus, M., Gorgolewski, K. J., Charest, I., Bestelmeyer, P. E., Watson, R. H., Fleming, D., Crabbe, F., Valdes-Sosa, M., Belin, P., (2015). The human voice areas: Spatial organization and inter-individual variability in temporal and extra-temporal cortices Neuroimage 119 164–174 10.1016/j.neuroimage.2015.06.050 26116964CrossRef Google Scholar PubMed

R Core Team. (2018). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing.Google Scholar

Rohlf, F. J., Slice, D., (1990). Extensions of the procrustes method for the optimal superimposition of landmarks Systematic Biology 39 (1) 40–59Google Scholar

Sabuncu, M. R., Singer, B. D., Conroy, B., Bryan, R. E., Ramadge, P. J., Haxby, J. V., (2010). Function-based intersubject alignment of human cortical anatomy Cerebral Cortex 20 (1) 130–140 10.1093/cercor/bhp085 19420007CrossRef Google Scholar PubMed

Saito, V. S., Fonseca-Gessner, A. A., Siqueira, T., (2015). How should ecologists define sampling effort? the potential of procrustes analysis for studying variation in community composition Biotropica 47 (4) 399–402 10.1111/btp.12222CrossRef Google Scholar

Talairach, J. J., & Tournoux, P. (1988). Co-planar stereotaxic atlas of the human brain 3-dimensional proportional system: An approach to cerebral imaging. Thieme Medical Publishers.Google Scholar

Theobald, D. L., Wuttke, D. S., (2006). Empirical Bayes hierarchical models for regularizing maximum likelihood estimation in the matrix Gaussian procrustes problem Proceedings of the National Academy of Sciences 103 (49) 18521–18527 10.1073/pnas.0508445103CrossRef Google Scholar PubMed

Van Rossum, G. & Drake, F. L. Jr, (1995). Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam.Google Scholar

Varoquaux, G., Gramfort, A., Pedregosa, F., Michel, V., & Thirion, B. (2011). Multi-subject dictionary learning to segment an atlas of brain spontaneous activity. In Biennial international conference on information processing in medical imaging (pp. 562–573). Springer.CrossRef Google Scholar

Figure 1. Left panel: Unaligned spatial trajectories of the tendrils of two plants. Right panel: Aligned spatial trajectories of the tendrils of two plants.

Figure 2. Illustration of functional misalignment between fMRI images, where three voxels’ time series are plotted considering two subjects. The time series of voxels v1\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_1$$\end{document} and v3\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$$v_3$$\end{document} of the second subject are swapped with respect to the first subject.

Figure 3. Seed-based correlation map for M\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document}, using data only aligned anatomically (top figure), and data also functionally aligned by the Efficient ProMises model (bottom figure). The black point refers to the seed used (i.e., frontal pole with MNI coordinates (0, 64, 18)). So, the brain map indicates the level of correlation between each voxel and the frontal pole.

Figure 4. Correlation matrix for M\documentclass[12pt]{minimal}\usepackage{amsmath}\usepackage{wasysym}\usepackage{amsfonts}\usepackage{amssymb}\usepackage{amsbsy}\usepackage{mathrsfs}\usepackage{upgreek}\setlength{\oddsidemargin}{-69pt}\begin{document}$${\varvec{M}}$$\end{document}, using data only aligned anatomically (left figure) and data also functionally aligned by the Efficient ProMises model (right figure). The cells of the matrix represent the correlation between the regions (represented by the row/column labels) of the Varoquaux et al. (2011)’s atlas.

Andreella and Finos supplementary material

File 236.8 KB

Article contents

Procrustes Analysis for High-Dimensional Data

Abstract

Keywords

1. Perturbation Model

1.1. Background

Definition 1

Definition 2

1.2. Estimation of the Perturbation Model

Theorem 1

Lemma 1

Proof.

2. ProMises Model

2.1. Background

2.2. Interpretation of the Prior Parameters

Definition 3

Example 1

Example 2

2.3. Von Mises–Fisher Conjugate Prior

Lemma 2

2.4. Estimation of the ProMises Model

Theorem 2

2.5. On the Choice of the Parameter of the von Mises–Fisher Distribution

Lemma 3

Proof.

3. Efficient ProMises Model

Lemma 4

Theorem 3

Lemma 5

4. Functional Magnetic Resonance Imaging Data Application

4.1. Motivation

4.2. Data Description

4.3. Functional Connectivity

5. Discussion

Acknowledgements

Funding

Footnotes

References

Andreella and Finos supplementary material

Save article to Kindle

Save article to Dropbox

Save article to Google Drive

Reply to: Submit a response

Your details

You have entered the maximum number of contributors

Conflicting interests