Computational Methods of Information Geometry with Real-Time Applications in Audio Signal Processing

From IMTR

Contents

Abstract

English

This thesis proposes novel computational methods of information geometry with real-time applications in audio signal processing. In this context, we address in parallel the applicative problems of real-time audio segmentation, and of real-time polyphonic music transcription. This is achieved by developing theoretical frameworks respectively for sequential change detection with exponential families, and for non-negative matrix factorization with convex-concave divergences. On the one hand, sequential change detection is studied in the light of the dually flat information geometry of exponential families. We notably develop a generic and unifying statistical framework relying on multiple hypothesis testing with decision rules based on exact generalized likelihood ratios. This is applied to devise a modular system for real-time audio segmentation with arbitrary types of signals and of homogeneity criteria. The proposed system controls the information rate of the audio stream as it unfolds in time to detect changes. On the other hand, non-negative matrix factorization is investigated by the way of convex-concave divergences on the space of discrete positive measures. In particular, we formulate a generic and unifying optimization framework for non-negative matrix factorization based on variational bounding with auxiliary functions. This is employed to design a real-time system for polyphonic music transcription with an explicit control on the frequency compromise during the analysis. The developed system decomposes the music signal as it arrives in time onto a dictionary of note spectral templates. These contributions provide interesting insights and directions for future research in the realm of audio signal processing, and more generally of machine learning and signal processing, in the relatively young but nonetheless prolific field of computational information geometry.

Keywords: computational methods, information geometry, real-time applications, audio signal processing, change detection, exponential families, non-negative matrix factorization, convex-concave divergences, audio segmentation, polyphonic music transcription.

French

Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle.

Mots-clés : méthodes computationnelles, géométrie de l'information, applications temps réel, traitement du signal audio, détection de ruptures, familles exponentielles, factorisation en matrices non négatives, divergences convexes-concaves, segmentation audio, transcription de musique polyphonique.

Downloads

PhD Thesis and Defense

PhD Thesis

PhD Defense

Extended Abstract in French

Extended Abstract in French

Sound Examples

Here are some of the sounds used in the experiments.

Segmentation into activity and silence

Segmentation into music and speech

Segmentation into different speakers

Segmentation into polyphonic note slices

Sample example of piano music

Personal tools