Die Anzahl der pro Sekunde gesammelten Audio-Samples bezieht sich auf die „Abtastfrequenz“, die in Samples pro Sekunde oder Hertz gemessen wird. Eine niedrigere Sample-Rate bedeutet weniger Samples pro Sekunde, was wiederum weniger Audiodaten bedeutet, da weniger Sample-Punkte zur Darstellung der Audiomenge vorhanden sind. Eine höhere Sample-Rate erfordert mehr Speicherplatz und Rechenleistung.
Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.
Wenn es um die Audioverarbeitung geht, gibt es viele Begriffe, von denen die meisten Menschen schon einmal gehört haben, die sie aber nicht wirklich verstehen. Ich war einer dieser Menschen, bevor ich mich mit der Audioverarbeitung befassen musste. Dazu möchte ich auf einige dieser Begriffe eingehen, sie beschreiben und zeigen, was sie für die Qualität Ihrer Audioaufnahme oder Ihres Streams bedeuten. Für den Rest dieses Artikels gehen wir davon aus, dass wir es nur mit einem Kanal unkomprimierten Audios zu tun haben.
1. Abtastrate/Abtastfrequenz
Der erste Begriff, den wir oft hören, ist Abtastrate oder Abtastfrequenz, die sich beide auf dasselbe beziehen. Einige Werte, auf die Sie möglicherweise gestoßen sind, sind 8 kHz, 44,1 kHz und 48 kHz. Was genau ist die Samplerate einer Audiodatei?
Die Abtastrate bezieht sich auf die Anzahl der pro Sekunde aufgezeichneten Audio-Samples. Sie wird in Abtastwerten pro Sekunde oder Hertz gemessen (abgekürzt als Hz oder kHz, 1 kHz ist 1000 Hz). Ein Audiobeispiel ist einfach eine Zahl, die einen gemessenen Schallwellenwert zu einem bestimmten Zeitpunkt darstellt. Es ist sehr wichtig, dass diese Proben zu gleichen Zeitpunkten innerhalb einer Sekunde entnommen werden. Wenn die Abtastrate beispielsweise 8000 Hz beträgt, reicht es nicht aus, 8000 Abtastwerte in einer Sekunde zu haben; sie müssen genau in 1/8000 Sekunde erfasst werden. In diesem Fall wird die Zahl 1/8000 als Abtastintervall (in Sekunden) bezeichnet, und die Abtastrate ist lediglich der multiplikative Kehrwert dieses Intervalls.
Die Abtastrate ähnelt der Bildrate oder FPS-Messung (Bilder pro Sekunde) eines Videos. Ein Video ist einfach eine Reihe von Bildern, hier oft „Frames“ genannt, die sehr schnell hintereinander angezeigt werden und den Eindruck einer kontinuierlichen, ununterbrochenen Bewegung oder Bewegung erwecken (zumindest für uns Menschen).
Während Audio- und Videobildraten ähnlich sind, sind die üblichen Mindestzahlen, die die Benutzerfreundlichkeit gewährleisten, sehr unterschiedlich. Um eine genaue Beschreibung der Bewegung zu gewährleisten, sind für Videos mindestens 24 Bilder pro Sekunde erforderlich. Unter dieser Zahl kann die Bewegung ungleichmäßig erscheinen und die Illusion einer kontinuierlichen, ununterbrochenen Bewegung kann nicht aufrechterhalten werden. Dies gilt insbesondere, je mehr Bewegung zwischen den Bildern auftritt. Darüber hinaus können Videos mit 1 oder 2 Bildern pro Sekunde „kurzfristige“ Ereignisse enthalten, die zwischen den Bildern garantiert übersehen werden.
Für Audio beträgt die Mindestanzahl an Samples pro Sekunde 8000 Hz, um die englische Sprache eindeutig darzustellen. Die Verwendung einer niedrigeren Abtastrate als dieser Zahl führt aus verschiedenen Gründen dazu, dass Sprache unverständlich ist. Einer davon ist, dass ähnliche Äußerungen nicht voneinander zu unterscheiden sind. Niedrigere Abtastraten können Phoneme oder Laute in der Sprache verwirren, die eine erhebliche Hochfrequenzenergie aufweisen. Bei 5000 Hz ist es beispielsweise schwierig, /s/ von /sh/ oder /f/ zu unterscheiden.
Nachdem wir nun Videoframes erwähnt haben, ist ein weiterer Begriff, der näher erläutert werden sollte, Audioframes. Obwohl Audio-Samples und Audio-Frames beide in Hertz gemessen werden, sind sie nicht dasselbe. Ein Audio-Frame ist eine Gruppe von Audio-Samples aus einer Zeitinstanz eines oder mehrerer Audiokanäle.
Die häufigsten Abtastratenwerte sind die oben genannten 8 kHz (am häufigsten in der Telefonkommunikation), 44,1 kHz (am häufigsten bei Musik-CDs) und 48 kHz (am häufigsten bei Filmsoundtracks). Eine niedrigere Sample-Rate bedeutet weniger Samples pro Sekunde, was wiederum weniger Audiodaten bedeutet, da weniger Sample-Punkte zur Darstellung der Audiomenge vorhanden sind. Die Wahl der Abtastrate hängt davon ab, welche akustischen Artefakte erfasst werden müssen. Einige akustische Artefakte wie die Intonation von Sprache erfordern eine niedrigere Abtastrate als akustische Artefakte wie Musikstücke auf einer Musik-CD. Es ist erwähnenswert, dass höhere Abtastraten mehr Speicherplatz und Rechenleistung erfordern, obwohl dies heute möglicherweise kein so großes Problem mehr darstellt, da in der Vergangenheit digitale Speicherung und Rechenleistung im Vordergrund standen.
2. Probentiefe/Probengenauigkeit/Probengröße
Zusätzlich zur Sampling-Rate, also der Anzahl der Audio-Datenpunkte, die wir haben, gibt es auch die Sampling-Tiefe. Die in Bits pro Sample gemessene Sample-Tiefe (auch Sample-Präzision oder Sample-Größe genannt) ist die zweite wichtige Eigenschaft einer Audiodatei oder eines Audio-Streams und stellt den Detaillierungsgrad oder die „Qualität“ jedes Samples dar. Wie oben erwähnt, ist jedes Audio-Sample nur eine Zahl, und obwohl viele Zahlen die Darstellung von Audio erleichtern, muss der Bereich oder die „Masse“ jeder einzelnen Zahl groß genug sein, um jedes Sample oder jeden Datenpunkt genau darzustellen. Was bedeutet „Qualität“? Bei einem Audio-Sample bedeutet dies einfach, dass das Audio-Sample einen höheren Amplitudenbereich darstellen kann. Eine Abtasttiefe von 8 Bit bedeutet, dass wir 2^8=256 verschiedene Amplituden haben, während eine Abtasttiefe von 16 Bit bedeutet, dass wir 2^16=65.536 verschiedene Amplituden haben, und so weiter für höhere Abtasttiefen. Die gebräuchlichsten Sampletiefen für Telefonaudio sind 16-Bit und 32-Bit. Bei einer digitalen Aufnahme gilt: Je mehr unterschiedliche Amplituden vorhanden sind, desto näher klingt die digitale Aufnahme an das ursprüngliche akustische Ereignis.
Auch dies ähnelt den 8-Bit- oder 16-Bit-Zahlen, die wir möglicherweise über die Bildqualität hören. Bei Bildern oder Videos verfügt jedes Pixel im Bild- oder Videorahmen auch über eine bestimmte Anzahl von Bits zur Darstellung der Farbe. Je höher die Bittiefe in einem Pixel, desto genauer sind die resultierenden Pixelfarben, da das Pixel über mehr Bits verfügt, um die auf dem Bildschirm darzustellende Farbe zu „beschreiben“ und das Pixel oder Bild insgesamt eher dem entspricht, was Menschen sehen würden im wirklichen Leben. Technisch gesehen gibt die Bittiefe eines Pixels an, wie viele verschiedene Farben dieses Pixel darstellen kann. Wenn Sie zulassen, dass R, G und B jeweils durch 8 Bit dargestellt werden, dann wird jedes Pixel durch 3 x 8 = 24 Bit dargestellt. Das bedeutet, dass dieses Pixel 2^24~17 Millionen verschiedene Farben darstellen kann.
3. Bitrate
Die Verbindung zwischen Abtastrate und Abtasttiefe ist die Bitrate, die ein einfaches Produkt aus beiden ist. Da die Abtastrate in Abtastwerten pro Sekunde und die Abtasttiefe in Bits pro Abtastung gemessen wird, wird sie wie folgt berechnet: (Abtastungen pro Sekunde) x (Bits pro Abtastung) = Gemessen in Bits pro Sekunde, abgekürzt als bps oder kbps. Es ist erwähnenswert, dass die Sample-Tiefe und die Bitrate, da sie zusammenhängen, oft synonym verwendet werden, wenn auch fälschlicherweise.
Bitrate im Audio variiert von App zu App. Anwendungen, die eine hohe Audioqualität erfordern, wie z. B. Musik, verfügen normalerweise über eine höhere Bitrate, was zu einer höheren Qualität oder „klareren“ Audiodaten führt. Telefonton, einschließlich Callcenter-Audio, erfordert keine hohe Bitrate, daher ist die Bitrate eines normalen Telefongesprächs normalerweise viel niedriger als die einer Musik-CD. Unabhängig davon, ob es sich um die Abtastrate oder die Bitrate handelt, klingen niedrigere Werte möglicherweise schlechter, je nach Anwendung können niedrigere Werte jedoch Speicherplatz und/oder Rechenleistung sparen.
Um es zusammenzufassen: Was genau bedeutet Komprimierung, wenn es um Audio geht? Komprimierte Audioformate wie AAC oder MP3 weisen Bitraten auf, die kleiner sind als das tatsächliche Produkt aus Abtastrate und Abtasttiefe. Diese Formate werden durch „chirurgisches“ Entfernen von Informationen aus dem Bitstrom implementiert, was bedeutet, dass Frequenzen oder Amplituden, die in dynamischen Situationen für das menschliche Ohr biologisch nicht hörbar sind, nicht gespeichert werden, was zu kleineren Gesamtdateigrößen führt.
Weitere Informationen zu diesem Thema finden Sie in der Spalte „FAQ“!
Das obige ist der detaillierte Inhalt vonWie viele Audio-Samples werden pro Sekunde gesammelt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!