Quel est le nombre d'échantillons audio collectés par seconde-Problème commun-php.cn

Le nombre d'échantillons audio collectés par seconde fait référence à la « fréquence d'échantillonnage », qui est mesurée en échantillons par seconde ou Hertz. Une fréquence d'échantillonnage inférieure signifie moins d'échantillons par seconde, ce qui signifie moins de données audio car il y a moins de points d'échantillonnage pour représenter la quantité d'audio ; une fréquence d'échantillonnage plus élevée nécessite plus d'espace de stockage et de puissance de traitement à gérer.

Quel est le nombre d'échantillons audio collectés par seconde

L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.

En matière de traitement audio, il existe de nombreux termes dont la plupart des gens ont déjà entendu parler, mais ne comprennent pas vraiment. J'étais l'une de ces personnes avant de me lancer dans le traitement audio. Pour ce faire, je souhaite parler de certains de ces termes, décrire ce qu'ils sont et montrer ce qu'ils signifient pour la qualité de votre enregistrement ou flux audio. Pour le reste de cet article, nous supposerons que nous n’avons affaire qu’à un seul canal audio non compressé.

1. Taux d'échantillonnage/fréquence d'échantillonnage

Le premier terme que l'on entend souvent est taux d'échantillonnage ou fréquence d'échantillonnage, qui font tous deux référence à la même chose. Certaines valeurs que vous avez peut-être rencontrées sont 8 kHz, 44,1 kHz et 48 kHz. Quelle est exactement la fréquence d’échantillonnage d’un fichier audio ?

Le taux d'échantillonnage fait référence au nombre d'échantillons audio enregistrés par seconde. Elle est mesurée en échantillons par seconde ou hertz (en abrégé Hz ou kHz, 1 kHz équivaut à 1 000 Hz). Un échantillon audio est simplement un nombre qui représente une valeur d’onde sonore mesurée à un moment précis. Il est très important que ces échantillons soient prélevés à des moments égaux dans la seconde. Par exemple, si la fréquence d’échantillonnage est de 8 000 Hz, il ne suffit pas d’avoir 8 000 échantillons en une seconde ; ils doivent être collectés exactement en 1/8 000ème de seconde. Dans ce cas, le nombre 1/8000 est appelé l'intervalle d'échantillonnage (en secondes), et le taux d'échantillonnage n'est que l'inverse multiplicatif de cet intervalle.

Le taux d'échantillonnage est similaire à la mesure de la fréquence d'images ou des FPS (images par seconde) d'une vidéo. Une vidéo est simplement une série d'images, souvent appelées ici « images », affichées dos à dos très rapidement, donnant l'illusion d'un mouvement ou d'un mouvement continu et ininterrompu (du moins pour nous, les humains).

Bien que les fréquences d'échantillonnage audio et les fréquences d'images vidéo soient similaires, les nombres minimum habituels qui garantissent la convivialité dans chacun sont très différents. Pour la vidéo, afin de garantir une description précise du mouvement, il faut au moins 24 images par seconde de moins que ce nombre, le mouvement peut sembler irrégulier et l'illusion d'un mouvement continu et ininterrompu ne peut pas être maintenue. Cela est particulièrement vrai à mesure que le mouvement se produit entre les images. De plus, les vidéos à 1 ou 2 images par seconde peuvent comporter des événements « momentanés » dont il est garanti qu'ils seront manqués entre les images.

Pour l'audio, afin de représenter sans ambiguïté la parole anglaise, le nombre minimum d'échantillons par seconde est de 8 000 Hz. L’utilisation d’un taux d’échantillonnage inférieur à ce nombre rendra la parole inintelligible pour diverses raisons, dont l’une est que des énoncés similaires seront impossibles à distinguer les uns des autres. Des taux d'échantillonnage plus faibles peuvent confondre les phonèmes, ou les sons du langage, qui ont une énergie haute fréquence importante. Par exemple, à 5 000 Hz, il est difficile de distinguer /s/ de /sh/ ou /f/.

Maintenant que nous avons mentionné les images vidéo, un autre terme qui mérite d'être développé est celui des images audio. Bien que les échantillons audio et les images audio soient tous deux mesurés en Hertz, ce n’est pas la même chose. Une trame audio est un groupe d’échantillons audio provenant d’une instance temporelle d’un ou plusieurs canaux audio.

Les valeurs de fréquence d'échantillonnage les plus courantes sont 8 kHz (le plus courant dans les communications téléphoniques), 44,1 kHz (le plus courant dans les CD de musique) et 48 kHz (le plus courant dans les bandes sonores de films). Une fréquence d'échantillonnage plus faible signifie moins d'échantillons par seconde, ce qui signifie moins de données audio car il y a moins de points d'échantillonnage pour représenter la quantité d'audio. Le choix du taux d'échantillonnage dépend des artefacts acoustiques qui doivent être collectés. Certains artefacts acoustiques tels que l'intonation de la parole nécessitent un taux d'échantillonnage inférieur à celui des artefacts acoustiques tels que les airs musicaux d'un CD de musique. Il convient de noter que des taux d'échantillonnage plus élevés nécessitent plus d'espace de stockage et de puissance de traitement, même si cela ne pose peut-être plus autant de problèmes aujourd'hui, alors que le stockage numérique et la puissance de traitement étaient la principale préoccupation dans le passé.

2. Profondeur d'échantillonnage/précision d'échantillonnage/taille d'échantillonnage

En plus du taux d'échantillonnage, qui correspond au nombre de points de données audio dont nous disposons, il y a aussi la profondeur d'échantillonnage. Mesurée en bits par échantillon, la profondeur de l'échantillon (également appelée précision de l'échantillon ou taille de l'échantillon) est la deuxième propriété importante d'un fichier audio ou d'un flux audio et représente le niveau de détail, ou « qualité », de chaque échantillon. Comme nous l'avons mentionné ci-dessus, chaque échantillon audio n'est qu'un nombre, et bien que le fait d'avoir de nombreux nombres aide à représenter l'audio, vous devez également que la plage ou la « masse » de chaque nombre individuel soit suffisamment grande pour représenter avec précision chaque échantillon ou point de données. Que signifie « qualité » ? Pour un échantillon audio, cela signifie simplement que l’échantillon audio peut représenter une plage d’amplitude plus élevée. Une profondeur d'échantillonnage de 8 bits signifie que nous avons 2 ^ 8 = 256 amplitudes différentes, tandis qu'une profondeur d'échantillonnage de 16 bits signifie que nous avons 2 ^ 16 = 65 536 amplitudes différentes, et ainsi de suite pour des profondeurs d'échantillonnage plus élevées. Les profondeurs d'échantillonnage les plus courantes pour l'audio du téléphone sont 16 bits et 32 bits. Dans un enregistrement numérique, plus il y a d'amplitudes différentes, plus l'enregistrement numérique sera proche de l'événement acoustique original.

Encore une fois, cela est similaire aux nombres 8 bits ou 16 bits que nous pourrions entendre à propos de la qualité de l'image. Pour les images ou les vidéos, chaque pixel de l’image ou de la vidéo possède également un certain nombre de bits pour représenter la couleur. Plus la profondeur de bits d'un pixel est élevée, plus les couleurs des pixels résultantes sont précises, car le pixel a plus de bits pour « décrire » la couleur à représenter sur l'écran, et le pixel ou l'image dans son ensemble ressemble davantage à ce que les gens verraient. dans la vraie vie. Techniquement, la profondeur de bits d'un pixel indique le nombre de couleurs différentes que ce pixel peut représenter. Si vous autorisez chacun des R, G et B à être représentés par 8 bits, alors chaque pixel est représenté par 3 x 8 = 24 bits. Cela signifie qu'il y a 2^24~17 millions de couleurs différentes qui peuvent être représentées par ce pixel.

3. Débit binaire

Ce qui lie le taux d'échantillonnage et la profondeur d'échantillonnage est le débit binaire, qui est un simple produit des deux. Étant donné que le taux d'échantillonnage est mesuré en échantillons par seconde et que la profondeur d'échantillonnage est mesurée en bits par échantillon, elle est donnée par (échantillons par seconde) x (bits par échantillon) = Mesurée en bits par seconde, abrégé en bps ou kbps. Il convient de noter que, puisque la profondeur d’échantillonnage et le débit binaire sont liés, ils sont souvent utilisés de manière interchangeable, mais aussi de manière incorrecte.

Le débit binaire audio varie d'une application à l'autre. Les applications qui nécessitent une qualité audio élevée, comme la musique, ont généralement un débit binaire plus élevé, produisant un son de meilleure qualité ou « plus clair ». L'audio du téléphone, y compris l'audio du centre d'appels, ne nécessite pas un débit binaire élevé, de sorte que le débit binaire d'un appel téléphonique ordinaire est généralement bien inférieur à celui d'un CD de musique. Qu'il s'agisse de fréquence d'échantillonnage ou de débit binaire, des valeurs inférieures peuvent sembler pires, mais encore une fois, selon l'application, des valeurs inférieures peuvent économiser de l'espace de stockage et/ou de la puissance de traitement.

Pour résumer, que signifie exactement la compression en matière d'audio ? Les formats audio compressés, tels que AAC ou MP3, ont des débits binaires inférieurs au véritable produit de la fréquence d'échantillonnage et de la profondeur d'échantillonnage. Ces formats sont mis en œuvre en supprimant « chirurgicalement » les informations du flux binaire, ce qui signifie que les fréquences ou les amplitudes biologiquement inaudibles à l'oreille humaine dans des situations dynamiques ne sont pas stockées, ce qui entraîne une taille globale de fichier plus petite.

Pour plus de connaissances connexes, veuillez visiter la rubrique FAQ !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!