Morphological Segmentation

From IMTR

Master Thesis

Abstract:

Many applications and practices of working with recorded sounds are based on the segmentation and concatenation of fragments of audio streams. In collaborations with composers and sound artists we have observed that a recurrent musical event or sonic shape is often identified by the temporal evolution of the sound features. We would like to contribute to the development of a novel segmentation method based on the evolution of audio features that can be adapted to a given audio material in interaction with the user.

In the first place, a prototype of a semi-supervised and interactive segmentation tool was implemented. With this prototype, the user provides a partial annotation of the stream he wants to segment. In an interactive loop, the system is able to build models of the morphological classes the user defines. These models will then be used to provide an exhaustive segmentation of the stream, generalizing the annotation of the user.

This achievement relies on the use of Segmental Models, that have been adapted and implemented for sound streams represented by a set of audio descriptors (MFCC). The very novelty of this study is to use real data to build models of the morphological classes, issued from various audio materials. A singular method to build our global model is defined, using both learning paradigms and the integration of user knowledge.

The global approach of this work is validated through experimentations with both synthesized streams and real-world materials (environmental sounds and music pieces). A qualitative and less formal validation also emerges from the feedback given by composers that worked with us along the whole internship.

Résumé :

De nombreuses applications et travaux utilisant des sons enregistrés reposent sur la segmentation et la concaténation de fragments de flux audio. A l'occasion de collaborations avec des compositeurs et des artistes, nous avons pu constater qu'un événement musical récurrent ou qu'une forme sonore est souvent identifiable par l'évolution temporelle d'observations du signal. Nous souhaiterions contribuer au développement d'une méthode de segmentation innovante reposant sur l'évolution temporelle de descripteurs audio, et qui s'adapterait aux matériaux audio considérés, en interaction avec l'utilisateur.

En premier lieu, nous avons implémenté un prototype d'outil de segmentation semi-supervisée et interactive. Avec ce prototype, l'utilisateur fournit une annotation partielle du flux qu'il veut segmenter. Dans une boucle d'interaction, le système est alors capable de construire des modèles de classes morphologiques que l'utilisateur définit. Ces modèles sont ensuite utilisés pour proposer une segmentation exhaustive du flux, en généralisant les annotations de l'utilisateur.

Ces résultats reposent sur l'utilisation de Modèles Segmentaux, adaptés et implémentés pour des flux sonores représentés par un ensemble de descripteurs (MFCC). L'originalité de cette étude tient à l'utilisation de données réelles pour construire les classes morphologiques, issues de matériaux sonores divers et variés. Une méthode singulière pour construire le modèle global est alors définie en utilisant à la fois les paradigmes d'apprentissage et l'intégration de connaissances de l'utilisateur.

L'approche globale de ce projet est validée par des expériences menées avec des flux de synthèse ou des sons réels (environnementaux ou des pièces musicales). Une validation plus qualitative et moins formelle tient aussi aux retours donnés par des compositeurs ayant travaillé avec nous tout au long de ce stage.

Personal tools