Incremental Multi-Source Recognition with Non-Negative Matrix Factorization

From IMTR

Contents

Abstract

English

This master's thesis is dedicated to incremental multi-source recognition using non-negative matrix factorization. A particular attention is paid to providing a mathematical framework for sparse coding schemes in this context. The applications of non-negative matrix factorization problems to sound recognition are discussed to give the outlines, positions and contributions of the present work with respect to the literature. The problem of incremental recognition is addressed within the framework of non-negative decomposition, a modified non-negative matrix factorization scheme where the incoming signal is projected onto a basis of templates learned off-line prior to the decomposition. As it appears that sparsity is one of the main issue in this context, a theoretical approach is followed to overcome the problem. The main contribution of the present work is in the formulation of a sparse non-negative matrix factorization framework. This formulation is motivated and illustrated with a synthetic experiment, and then addressed with convex optimization techniques such as gradient optimization, convex quadratic programming and second-order cone programming. Several algorithms are proposed to address the question of sparsity. To provide results and validations, some of these algorithms are applied to preliminary evaluations, notably that of incremental multiple-pitch and multiple-instrument recognition, and that of incremental analysis of complex auditory scenes.

Keywords: multi-source recognition, incremental system, non-negative matrix factorization, sparsity, convex optimization.

French

Cette thèse de master est dédiée à la factorisation en matrices non-négatives pour la reconnaissance incrémentale multi-source. Une attention toute particulière est attachée à fournir un cadre mathématique pour contrôler la parcimonie dans ce contexte. Les applications des problèmes de factorisation en matrices non-négatives à la reconnaissance des sons sont discutées pour dessiner les grandes lignes ainsi que la position et les contributions du présent travail par rapport à la littérature. Le problème de la reconnaissance incrémentale est attaqué dans un cadre de décomposition non-négative, une modification du problème standard de factorisation en matrices non-négatives où le signal est projeté sur une base de modèles apprise avant la décomposition. La question de parcimonie ressortant comme l'un des principaux problèmes dans ce contexte, elle est abordée par une approche théorique. La contribution principale de ce travail consiste en la formulation d'un cadre de factorisation parcimonieuse en matrices non-négatives. Cette formulation est motivée et illustrée par une expérience synthétique, et approchée par des techniques d'optimisation convexe comme l'optimisation par gradient, la programmation quadratique convexe et la programmation conique de second ordre. Plusieurs algorithmes sont proposés pour attaquer le problème de la parcimonie. Des résultats et validations sont proposés en appliquant certains de ces algorithmes à des évaluations préliminaires, notamment à la reconnaissance multi-pitch et multi-instrument incrémentale, et à l'analyse incrémentale de scènes sonores complexes.

Mots-clés : reconnaissance multi-source, système incrémental, factorisation en matrices non-négatives, parcimonie, optimisation convexe.

Downloads

Master's Thesis and Presentation

Master's Thesis

Presentation

Sound Examples

To play the sounds along the presentation, just save them into a directory "./sounds" where the presentation is saved.

Poulenc - Sonata for Flute and Piano

Drums

Complex auditory scene 1

Complex auditory scene 2

Personal tools