Recueil d'exercices pour apprendre Python au lycée

M_C

1652.5K views

GitHub

Open Source Your Knowledge, Become a Contributor

Technology knowledge has to be shared and made accessible for free. Join the movement.

Create Content

Previous: Le son Next: Introduction

Utilisation de la transformée de Fourier discrète réelle pour récupérer les harmoniques d'un son

Le but de cette page est de voir un peu ce qui se cache derrière des compressions de sons qu'on retrouve dans des formats de sons comme le MP3 par exemple. Elle est déstinée à des lycéens et/ou curieux donc nous présenterons seulement ce qu'est la transformée de Fourier discrète réelle et comment l'implémenter à la main en python pour la voir fonctionner.

La théorie

Nous avons vu, page précèdente, qu'un son wave est simplement une suite de données joué à une certaine fréquence. Notons $N$ la taille de ces données et $d_{n}$ la donnée d'indice $n$ . A partir de cette suite de données, on peut en créer 2 qu'on appelle coefficients de Fourier réels dont les formules sont :

a_{k} = \sum_{n = 0}^{N - 1} d_{n} c o s (\frac{2 π k n}{N})

b_{k} = \sum_{n = 0}^{N - 1} d_{n} s i n (\frac{2 π k n}{N})

On a alors le miracle suivant : à partir de ces deux suites, on peut retrouver celle de départ par la formule d'inversion :

d_{n} = \frac{1}{N} \sum_{k = 0}^{N - 1} a_{k} c o s (\frac{2 π k n}{N}) + b_{k} s i n (\frac{2 π k n}{N})

Exemple à la main

Si je considère le "son" dont les données sont $[1, 2, - 1]$ . On a alors avec les notations $N = 3$ , $d_{0} = 1$ , $d_{1} = 2$ et $d_{2} = - 1$ .
Calculons les coefficients :

$a_{0} = d_{0} * c o s (\frac{2 π * 0 * 0}{3}) + d_{1} * c o s (\frac{2 π * 0 * 1}{3}) + d_{2} * c o s (\frac{2 π * 0 * 2}{3})$
$a_{0} = 1 * 1 + 2 * 1 + (- 1) * 1 = 2$
$a_{1} = d_{0} * c o s (\frac{2 π * 1 * 0}{3}) + d_{1} * c o s (\frac{2 π * 1 * 1}{3}) + d_{2} * c o s (\frac{2 π * 1 * 2}{3})$
$a_{1} = 1 * 1 + 2 * (- \frac{1}{2}) + (- 1) * (- \frac{1}{2}) = \frac{1}{2}$
$a_{2} = d_{0} * c o s (\frac{2 π * 2 * 0}{3}) + d_{1} * c o s (\frac{2 π * 2 * 1}{3}) + d_{2} * c o s (\frac{2 π * 2 * 2}{3})$
$a_{2} = 1 * 1 + 2 * (- \frac{1}{2}) + (- 1) * (- \frac{1}{2}) = \frac{1}{2}$ Pour les coefficients $b_{k}$ les calculs sont très similaires et on obtient $b_{0} = 0$ , $b_{1} = \frac{3 \sqrt{3}}{2}$ et $b_{2} = \frac{3 \sqrt{3}}{2}$ .

Utilisons maintenant la formule d'inversion pour se convaincre qu'elle marche bien :

$\frac{1}{3} (a_{0} * c o s (\frac{2 π * 0 * 0}{3}) + b_{0} * s i n (\frac{2 π * 0 * 0}{3}) + a_{1} * c o s (\frac{2 π * 1 * 0}{3}) +$
$b_{1} * s i n (\frac{2 π * 1 * 0}{3}) + a_{2} * c o s (\frac{2 π * 2 * 0}{3}) + b_{2} * s i n (\frac{2 π * 2 * 0}{3}))$
$= \frac{1}{3} (2 * 1 + 0 * 0 + \frac{1}{2} * 1 + \frac{3 \sqrt{3}}{2} * 0 + \frac{1}{2} * 1 + \frac{3 \sqrt{3}}{2} * 0) = 1 = d_{0}$
$\frac{1}{3} (a_{0} * c o s (\frac{2 π * 0 * 1}{3}) + b_{0} * s i n (\frac{2 π * 0 * 1}{3}) + a_{1} * c o s (\frac{2 π * 1 * 1}{3}) +$
$b_{1} * s i n (\frac{2 π * 1 * 1}{3}) + a_{2} * c o s (\frac{2 π * 2 * 1}{3}) + b_{2} * s i n (\frac{2 π * 2 * 1}{3}))$
$Missing or unrecognized delimiter for \right Missing or unrecognized delimiter for \right$
Je vous laisse le plaisir de prouver que le dernier calcul donne -1...

Quelques précisions encore : En utilisant les formules de trigonométrie classiques, on peut trouver un $φ_{k}$ tel que les termes des sommes peuvent s'écrire :

a_{k} c o s (\frac{2 π k n}{N}) + b_{k} s i n (\frac{2 π k n}{N}) = \sqrt{a_{k}^{2} + b_{k}^{2}} c o s (\frac{2 π k n}{N} + φ_{k})

La pratique

On peut se demander quel est l'intérêt de faire tous ces calculs avec les données de notre son si au final on retrouve les mêmes qu'au départ. Nous allons voir que c'est pourtant extrêment astucieux. En effet, une fois nos $d_{n}$ écrits sous la forme de somme de cosinus, on peut alors les interpreter comme la somme de signaux fondamentaux (des sons "purs", sinusoidaux). Or notre oreille n'entend (en prenant large mais on pourrait réduire) que les fréquences ente 20hz et 20 000 Hz. Donc tous les termes qui correspondent à des fréquences en dehors de cette plage peuvent être éliminés de notre son.
De plus, tous les coefficients $a_{k}$ ou $b_{k}$ trop petits peuvent être éliminé aussi puisqu'ils n'interviennent que peu dans le son donc nous ne verrons pas la différence en écoutant.
Cette simple réecriture de nos données en somme de Fourier nous permet donc naturellement d'éliminer un grand nombre de données et ainsi réduire la place nécessaire pour stocker notre son. Bien sûr les compressions comme le MP3 sont un peu plus optimales encore que cette méthode mais elles en sont grandement inspirées.

Le codage

Je vais me contenter d'expliquer l'idée général du code ci-dessous. Tout d'abord, le code est séparé en 2 onglets : le premier où on travaille sur notre son et le second où sont regroupées les fonctions calculatoires en lien avec les coefficients de Fourier.

Commençons par le second onglet : Il contient les fonctions correspondant à la théorie présentées ci-dessus. Une qui calcule les coefficients de Fourier. Une qui donne le coefficient si on regroupe le cosinus et le sinus en un seul cosinus. Enfin une fonction d'inversion qui redonne les coefficients initiaux à partir des coefficients de Fourier. Comme sur ce site on est limité à 30 sec de calculs, on est obligé d'utiliser numpy pour accélérer grandement nos calculs. Ils respectent cependant les calculs présentés dans la partie théorique.

Le premier onglet est normalement assez lisible. On charge les données de notre son. On ne peut malheureusement pas faire le traitement avec toutes les données (car le temps de calcul est trop limité sur ce site) donc on coupe un peu la fin du son et on ne garde qu'une donnée sur 3. Du coup notre fréquence d'échantillonage est divisée par 3 aussi.
On calcule ensuite les coefficients de Fourier de notre son. Comme dit précédemment, il ne sert à rien de conserver les coefficients correspondant à des fréquence trop haute. On choisit de couper ici à 4000Hz ce qui est en gros la note la plus aigue d'un piano. On cherche alors à quel indice $k$ va correspondre cette fréquence à partir de laquelle on décide de couper. C'est une simple règle de proportionnalité qui donne $k_{m a x} = \frac{f_{m a x}}{f_{e c h a n t i l l o n}} t a i l l e_{e c h a n t i l l o n}$ .
On affiche ensuite les coefficients harmoniques en fonction des frequences (voir précisions en bas de page). Ce graphique est important car il permet de voir quelles frequences fondamentales se trouve dans notre son. Ici on peut voir qu'il y a un gros pic pour la frequence 440hz (Normal puisque le son représente un LA joué au piano) mais aussi un pic pour les multiples de 440 : 880hz, 1320 hz, 1760 hz, 2200 hz... qui correspondent respectivement à un LA(à l'octave), un MI, un LA (2 octaves au dessus) et un DO#. Donc en réalité, quand on joue une note avec un instrument, le son n'est pas pur mais au contraire il y a plusieurs notes dans une. Par exemple les notes LA+MI+DO# forment l'accord de LA Majeur. Autre remarque : ce qui permet de différencier des instruments (on reconnait très facilement si un LA est joué au piano ou à la guitare ou à la trompette...) c'est simplement les différences de hauteurs des pics dans ce diagramme. On termine le traitement de notre son en arrondissant à 0 tous les coefficients trop faibles (ici inférieur à 2 mais vous pouvez tester avec un seuil plus grand).
Enfin on écoute le résultat après tant d'efforts. Il n'est pas si différent par rapport à l'original pourtant il contient presque 10 fois moins de coefficients.

Transformée de Fourier

import numpy as np
from matplotlib import pyplot as plt
import soundfile as sf
from fonctions_Fourier import * # Les fonctions qui permettent de calculer les coefficients de Fourier etc. (voir onglet)
# Je charge mon fichier ce qui me donne des données (sous forme de vecteur numpy ) et la fréquence d'enregistrement
données_son,frequence_echantillon = sf.read("pianoA.wav")
# On passe en mono (car le son est stéréo), 
# On réduit aussi un peu la longueur de notre son et on ne garde qu'un coefficient sur 4 car on ne peut calculer que 30 sec sur ce site
données_son = données_son[:50000:3,0]
taille_echantillon = données_son.shape[0]
frequence_echantillon //= 3
# On récupère les coefficients de Fouriers
a,b = coeff_Fourier(données_son)
# On cherche pour quelle valeur de k on va dépasser les fréquences audibles pour ne pas faire de calculs inutiles
frequence_max = 4000 # Hz
k_max = int(frequence_max*taille_echantillon/frequence_echantillon)
# On calcule les coefficients des harmoniques audibles
coeff_harmoniques = donner_coefficients_harmoniques(a[:k_max],b[:k_max])
# On affiche les harmoniques
plt.plot(np.arange(0,k_max)*frequence_echantillon/taille_echantillon,coeff_harmoniques)
plt.show()
# On retire les coefficients en dessous du seuil car il ne compte pas vraiment dans le son
seuil = 2
a_coupé = np.where(a<seuil,0,a)
b_coupé = np.where(b<seuil,0,b)
son_épuré = inv_Fourier(a_coupé,b_coupé,k_max)
# On enregistre notre son où on a retiré tous ces coefficients pour voir ce que cela donne
sf.write("Physique/son_epure.wav",son_épuré,frequence_echantillon)
# Pour info : on regarde combien de coefficients il reste 
print("Il reste {} coefficients non nuls au lieu de {} au départ".format(np.count_nonzero(a_coupé)+np.count_nonzero(b_coupé),taille_echantillon))

Tout ce qui précède est très perfectible. Le but était ici de montrer les idées qui sont derrière beaucoup de type de compression de données (sons, images...). Si on veut le faire plus efficacement, il vaut mieux utiliser des fonctions déjà existantes comme celles se trouvant dans le module numpy.fft qui vont beaucoup beaucoup beaucoup plus vite que les fonctions naives présentées ici. Mais ce n'est qu'en codant à la main les techniques qu'on les comprend vraiment. N'hésitez pas à adapter les codes précédents pour pouvoir les utiliser sur votre ordinateur où vous pourrez laisser calculer davantage et sur des sons plus longs.

Quelques précisions sur les fréquences harmoniques

Le fait qu'un son représenté par des valeurs discrètes soit la somme de sons "purs" n'est pas réellement une évidence à partir des formules ci-dessus. En effet, dans ces formules on a $d_{n} = \frac{1}{N} \sum_{k = 0}^{N - 1} \sqrt{a_{k}^{2} + b_{k}^{2}} c o s (\frac{2 π k n}{N} + φ_{k})$ . Or les frequences qui interviennent dépendent de $n$ .
Pour mieux comprendre ce qui se passe, il faut revenir à l'origine : Un son peut être vu comme une fonction $f (t)$ du temps. Pour pouvoir faire un traitement informatique de ce son on est obligé de prélever des données à une frequence $f r e q u e n c e_{e c h a n t i l l o n}$ . On a ainsi nos données $(d_{n})$ pour $n$ allant de 0 à $N - 1$ . Autrement dit on pose $d_{0} = f (0)$ , $d_{1} = f (\frac{1}{f r e q u e n c e_{e c h a n t i l l o n}})$ , $d_{2} = f (\frac{2}{f r e q u e n c e_{e c h a n t i l l o n}})$ ...
On traite ces données comme on a vu précédemment pour obtenir la décomposition $d_{n} = \frac{1}{N} \sum_{k = 0}^{N - 1} \sqrt{a_{k}^{2} + b_{k}^{2}} c o s (\frac{2 π k n}{N} + φ_{k})$ . Maintenant il faut revenir à la fonction d'origine $f$ représentant notre son en fonction du temps. Pour cela, le moyen le plus naturel en utilisant la formule précédente est de poser :

\tilde{f} (t) = \frac{1}{N} \sum_{k = 0}^{N - 1} \sqrt{a_{k}^{2} + b_{k}^{2}} c o s (\frac{2 π k f r e q u e n c e_{e c h a n t i l l o n} t}{N} + φ_{k})

On remarque que pour les valeurs $t = 0, \frac{1}{f r e q u e n c e_{e c h a n t i l l o n}}, \frac{2}{f r e q u e n c e_{e c h a n t i l l o n}}$ ... cette fonction prend exactement les mêmes valeurs que $f$ (qui sont $d_{0}$ , $d_{1}$ , $d_{2}$ ...). A priori, $f$ et $\tilde{f}$ sont différentes en dehors de ces valeurs. Cependant, comme on choisit une frequence d'echantillonage très élevée, les différences ne sont pas audibles. Donc on peut considérer que notre son est représenté par $\tilde{f}$ et c'est cette fonction qui est la somme de sons "purs". En théorie de $N$ sons purs différents d'après la formule mais en général, la plupart des coefficients $\sqrt{a_{k}^{2} + b_{k}^{2}}$ sont trop faibles pour qu'on les prennent en considération.
Une dernière remarque : pour connaitre la fréquence associée au son "pur" il suffit de calculer $f r e q u e n c e_{h a r m o n i q u e} = \frac{k f r e q u e n c e_{e c h a n t i l l o n}}{N}$ .

Open Source Your Knowledge: become a Contributor and help others learn. Create New Content

Open Source Your Knowledge, Become a Contributor

95/141 Transformée de Fourier

Utilisation de la transformée de Fourier discrète réelle pour récupérer les harmoniques d'un son

La théorie

La pratique

Le codage

Quelques précisions sur les fréquences harmoniques

Les bases de Python pour le lycée

Apprendre les bases de Python pour réussir en N.S.I.

Python pour le collège et le lycée. Exercices, Cours, TP, Projets.

Apprendre Python dans le secondaire