Heim Mobiles Tutorial iPhone Verwenden Sie Whisper im Terminal am Mac, um eine Mediendatei zu transkribieren

Verwenden Sie Whisper im Terminal am Mac, um eine Mediendatei zu transkribieren

Jul 27, 2025 am 12:42 AM

Verwandeln Sie Ihren Mac in eine leistungsstarke Transkriptionsmaschine mit derselben KI, die OpenAIs Chatgpt anführt. Mit nur wenigen Terminalbefehlen können Sie in Minuten Audio- und Videodateien in genaue Text umwandeln.

Wenn Sie das Terminal noch nie zuvor berührt haben, machen Sie sich keine Sorgen. Es ist einfacher, Flüsterung auf MacOS Sequoia 15 einzurichten, als es sich aussieht und es sich lohnt. Egal, ob Sie mit YouTube -Videos, Interviews, Vorträgen oder Sprachnoten arbeiten, Flüstern kann das schwere Heben bewältigen.

Whisper ist ein kostenloses Open-Source-Sprach-zu-Text-neuronales Netzwerk von OpenAI, das ausschließlich auf Ihrem Computer ausgeführt wird-kein Internet ist nach dem Einrichten erforderlich. Sobald Sie es in Gang gebracht haben, ist es schnell, sicher und tot einfach - und es kann nahezu jedes Audio- oder Video -Format kauen, das Sie darauf werfen. Und es ist das perfekte Werkzeug, wenn Sie es satt haben, webbasierte Transkriptionsdienste, teure MAC-Apps und klobige Browser-Erweiterungen mit Einschränkungen wie Dateiengröße, Wasserzeichen, Anzeigen oder miese Genauigkeit zu ermöglichen.

Ja, es lebt im Terminal - die schwarze Kiste mit Geheimnis, die die meisten Leute vermeiden. Aber hier ist die Sache: Wenn Sie kopieren und einfügen können, können Sie Flüsterung ausführen. Sobald es installiert ist, ist die Transkription einer Datei buchstäblich eine Zeile. Es gibt keine aufgeblähte Schnittstelle, kein Hochladen und Warten und keine monatliche Gebühr.

Und wenn Sie nicht bereit sind, sich mit der Befehlszeile zu vermeiden? Sie haben immer noch Optionen. Es gibt Mac-Apps wie MacWhisper und Whisper Transkription, die Ihnen eine Drag & Drop-Schnittstelle bieten, die von Flüstern unter der Motorhaube angetrieben wird. Browser-basierte Dienste wie Whisper Demo on Hugging Face machen es noch einfacher-obwohl Sie normalerweise etwas Privatsphäre und Flexibilität für die Bequemlichkeit eintauschen werden. Die Befehlszeilenversion ist jedoch immer noch die leistungsstärkste und flexibelste Art, Flüstern zu verwenden, und es ist die offizielle Implementierung von OpenAI. Wenn Sie die vollständige Kontrolle wünschen, ist dies die gewünschte Version.

Oder Sie können alles überspringen und einfach Chatgpt die Datei über die Web- oder Desktop -App senden - sie kann sie mit Flüstern für Sie transkribieren oder übersetzen.

Wenn Sie also es satt haben, durch Reifen zu springen, nur um saubere Transkripte zu erhalten - egal ob Sie Student, Podcaster, Journalist oder nur jemand, der versucht, Ihre Zoomanrufe zu archivieren -, ist es Zeit, fünf Minuten zu dauern und etwas einzurichten, das nur funktioniert. Lassen Sie uns eintauchen.

Anforderungen

In den folgenden Anweisungen installieren und verwenden Sie die folgenden Tools:

  • Whisper Command-Line Tool von OpenAI: Die Kerntranskriptionsmotor, die Sprache in Text umwandelt.

  • FFMPEG: Erforderlich, damit Whisper Audio- und Videodateien öffnen, konvertieren und verarbeitet.

  • Python 3.10 oder höher: Die Programmiersprache Whisper ist geschrieben.

  • Homebrew: Ein Paketmanager, der die Installation von Flüsterung, FFMPEG und Python erleichtert.

Um diese Tools erfolgreich auszuführen, benötigen Sie:

  • Ein Mac, der MacOS Monterey 12.3 oder später ausführt: vorzugsweise macOS Sequoia 15 oder später auf einem Apple Silicon -Chip für eine schnellere Leistung.

  • Mindestens 8 GB RAM und ein paar kostenlose Speicherplätze: Größere Flüstermodelle können viel Speicher verwenden - insbesondere bei langen Dateien -, aber kleinere Modelle funktionieren bei den meisten Setups einwandfrei.

  • Terminal -App: Vorinstalliert auf macOS - Sie werden die Befehle für Setup- und Transkriptionsbefehle eingeben.

Einrichten flüstert auf macos

Befolgen Sie diese Schritte, um alles zu installieren, was Sie benötigen, und starten Sie die Transkription von Dateien. Wenn Sie bereits Homebrew, Python und FFMPEG installiert haben, lohnt es sich weiterhin, diese Schritte zu überprüfen, um sicherzustellen, dass alles auf dem neuesten Stand ist.

Offenes Terminal auf Ihrem Mac

Terminal ist die in macOS integrierte Befehlszeilen-App. So installieren und führen Sie Flüsterung aus. Sie müssen nicht wissen, wie man codiert, wie man Befehle einfügt. Um das Terminal zu öffnen, drücken Sie den Befehlsraum, geben Sie „Terminal“ ein und drücken Sie die Rückgabe. Sie finden es auch im Ordner der Versorgungsunternehmen in Ihrem Anwendungsverzeichnis oder im anderen Ordner im LaunchPad.

Verwenden Sie Whisper im Terminal am Mac, um eine Mediendatei zu transkribieren

Homebrew installieren oder aktualisieren

Homebrew ist ein Paketmanager für MacOS-wie der App Store, aber für leistungsstarke Befehlszeilen-Tools. Es macht es einfach, alles zu installieren, was Flüstern hinter den Kulissen benötigt.

Wenn Sie keine Homebrew installiert haben, fügen Sie diesen Befehl ein und drücken Sie die Rückgabe:

 <code>/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"</code>

Dieser Befehl mag einschüchternd aussehen, aber hier ist das alles bedeutet:

  • /bin/bash ist der Weg zur Bash Shell Binary auf MacOS.

  • -c fordert Ihrem Mac an, den folgenden Befehl (als Zeichenfolge) in der Bash -Shell auszuführen.

  • Der Teil in Zitate - "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" -verwendet curl (ein Befehlszeilen -Tool, das Daten aus dem Internet abreißt), um das offizielle Installationskript von Homebrew von Github herunterzuladen.

  • Hier ist, was diese Flaggen bedeuten:

    • -f = stillschweigend auf Serverfehler fehlschlagen. Dies verhindert, dass unvollständige oder beschädigte Downloads verarbeitet werden.

    • -s = still laufen. Dies unterdrückt die Fortschrittsausgabe und Fehlermeldungen.

    • -S = Fehlern zeigen, falls vorhanden auftritt. Dies zeigt nur Fehlermeldungen an, wenn sie mit -s verwendet werden, sodass der stille Modus immer noch Probleme meldet, wenn etwas schief geht.

    • -L = Weiterleitungen automatisch. Dies ist wichtig für den Umgang mit URL -Weiterleitungen, die beim Herunterladen von GitHub üblich sind.

Dieser One -Liner lädt das offizielle Homebrew -Skript von GitHub herunter, leitet es direkt mit -c in die Bash -Shell und führt es aus, um Homebrew automatisch zu installieren.

Wenn Homebrew bereits installiert ist, aktualisieren Sie es, indem Sie ausführen:

 <code>brew update</code>

Installieren Sie Python 3.10 (oder neuer)

Python ist der Programmiersprache Whisper ist geschrieben. Apple enthält eine ältere Version auf MacOS, aber Whisper braucht eine neuere, um ordnungsgemäß zu laufen. Homebrew macht es einfach, die richtige Version zu installieren.

Whisper benötigt Python 3.10 oder höher. Installieren Sie es mit:

 <code>brew install python</code>

Wenn Sie bereits Python installiert haben, aber nicht sicher sind, ob es sich um die richtige Version handelt, überprüfen Sie sie mit:

 <code>python3 --version</code>

Wenn es älter als 3.10 ist, können Sie es mit:

 <code>brew upgrade python</code>

Es geht gut zu gehen, wenn Sie auf Python 3.10 oder neuer sind.

Installieren Sie FFMPEG

FFMPEG ist ein Tool zur Verarbeitung von Audio- und Videodateien. Es hilft, alle Arten von Medienformaten wie MP3, MP4, M4A und WAV zu verhandeln. Ohne FFMPEG kann Whisper Ihre Dateien nicht lesen oder konvertieren.

So installieren Sie es mit Homebrew:

 <code>brew install ffmpeg</code>

Wenn Sie bereits FFMPEG installiert haben, stellen Sie sicher, dass es auf dem neuesten Stand ist:

 <code>brew upgrade ffmpeg</code>

Sie können überprüfen, ob FFMPEG durch Laufen arbeitet:

 <code>ffmpeg -version</code>

Wenn es Versionsinformationen druckt, sind Sie gut.

Installieren Sie Whisper über PIP

PIP ist Pythons integriertes Paketmanager-So installieren Sie Python-Apps wie Whisper. Sie verwenden PIP, um Whisper direkt vom Github -Repository von OpenAI herunterzuladen und zu installieren.

Stellen Sie zunächst sicher, dass PIP auf dem neuesten Stand ist:

 <code>pip3 install --upgrade pip</code>

Dann flüstere installieren:

 <code>pip3 install git https://github.com/openai/whisper.git</code>

Führen Sie eine Transkription mit Flüstern durch

Sobald Whisper installiert ist, können Sie mit einem einzigen Befehl Audio- und Videodateien (MP3, MP4, M4A, WAV und mehr) transkribieren. Es unterstützt eine Reihe von vorbereiteten Modellen, von leichten und schnellen bis großen und sehr genauen Modellen.

Audiodateien werden viel schneller als Videodateien transkribiert, sodass Sie das Audio aus Ihren Videos extrahieren und stattdessen mit Whisper verwenden möchten - insbesondere bei der Arbeit mit einem größeren Modell. Auf einem Mac können Sie Audio mit QuickTime Player schnell aus einer Videodatei exportieren.

Grundnutzung (automatische Erkennungssprache)

Die --model tiny Option wird am schnellsten ausgeführt und verwendet den geringsten Speicher, während die große Option --model large Option die beste Genauigkeit bietet, aber erheblich mehr RAM erfordert und länger dauert, um zu verarbeiten.

 <code>whisper your_file.mp4 --model tiny whisper your_file.mp4 --model base whisper your_file.mp4 --model small whisper your_file.mp4 --model medium whisper your_file.mp4 --model large</code>

Geben Sie die Sprache für schnellere und genauere Ergebnisse an

Wenn Sie wissen, dass Ihre Datei in englischer Sprache ist, können Sie sie mit --language en oder --language English angeben:

 <code>whisper your_file.mp4 --language English --model tiny whisper your_file.mp4 --language English --model base whisper your_file.mp4 --language English --model small whisper your_file.mp4 --language English --model medium whisper your_file.mp4 --language English --model large</code>

Bei Verwendung eines der obigen Befehle wird der Ausgang direkt im selben Terminalfenster gedruckt.

Verwenden Sie Whisper im Terminal am Mac, um eine Mediendatei zu transkribieren

Whisper kann jedoch .txt (Plain Transcript), .srt (Standard -Untertitelformat, das von den meisten Videoplayern und Editoren verwendet wird) und .VTT (Web Video Text Tracks -Format verwendet, das für HTML5 -Video, YouTube usw.) Transkriptionsdateien im selben Verzeichnis wie die Originalmediendatei verwendet wird, erstellen. Fügen Sie bei Bedarf Flags wie --output_format txt hinzu (um ein bestimmtes Format anzugeben) oder --task translate (die automatisch Fremdsprachen ins Englische übersetzt).

Beispielsweise transkribiert die folgende Datei in englischer Sprache und gibt sie in ein .txt -Dokument im selben Verzeichnis aus.

 <code>whisper your_file.mp4 --language en --model small --output_format txt</code>

Um Untertitel für ein fremdsprachiges Video in Englisch zu generieren, generiert der folgende Befehl .txt-, .srt- und .vtt-Transkriptionsdateien in demselben Ordner wie Ihre Video- oder Audio-Datei.

 <code>whisper your_file.mp4 --task translate --model medium</code>

Willst du nur Untertiteldateien (wie .srt) und nicht das Transkript von einfachem Text? Laufen:

 <code>whisper your_file.mp4 --language en --task translate --output_format srt</code>

So sehen Sie alle verfügbaren Optionen:

 <code>whisper --help</code>

Letzte Gedanken

Whisper im Terminal ist nicht nur ein Transkriptionswerkzeug - es ist eine Geheimwaffe für Schöpfer, Journalisten, Studenten und alle, die sich mit gesprochenen Inhalten befassen. Der Setup -Prozess fühlt sich beim ersten Mal etwas technisch an, aber sobald er in Betrieb ist, ist es unglaublich einfach zu bedienen.

Trotzdem laufen Whisper -Modelle lokal und können je nach Hardware Ihres Mac langsam sein. Wenn Sie mit großen Dateien arbeiten und schnellere Ergebnisse wünschen, halten Sie sich an die winzigen oder Basismodelle. Wenn Sie eine höhere Genauigkeit benötigen und die zusätzliche Verarbeitungszeit nichts ausmachen, gehen Sie für mittel oder groß.

Vollständige Liste der Flüsterargumente und Optionen

Wenn Sie alles erforschen möchten, was Whisper -einschließlich Ausgangsformate, Sprachunterstützung und fortgeschrittene Flags -erforschen möchten, können Sie <code>whisper --help</code> im Terminal ausführen. Hier ist die vollständige Liste der verfügbaren Optionen für die schnelle Referenz:

 <code>usage: whisper [-h] [--model MODEL] [--model_dir MODEL_DIR] [--device DEVICE] [--output_dir OUTPUT_DIR] [--output_format {txt,vtt,srt,tsv,json,all}] [--verbose VERBOSE] [--task {transcribe,translate}] [--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}] [--temperature TEMPERATURE] [--best_of BEST_OF] [--beam_size BEAM_SIZE] [--patience PATIENCE] [--length_penalty LENGTH_PENALTY] [--suppress_tokens SUPPRESS_TOKENS] [--initial_prompt INITIAL_PROMPT] [--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] [--fp16 FP16] [--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK] [--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD] [--logprob_threshold LOGPROB_THRESHOLD] [--no_speech_threshold NO_SPEECH_THRESHOLD] [--word_timestamps WORD_TIMESTAMPS] [--prepend_punctuations PREPEND_PUNCTUATIONS] [--append_punctuations APPEND_PUNCTUATIONS] [--highlight_words HIGHLIGHT_WORDS] [--max_line_width MAX_LINE_WIDTH] [--max_line_count MAX_LINE_COUNT] [--max_words_per_line MAX_WORDS_PER_LINE] [--threads THREADS] [--clip_timestamps CLIP_TIMESTAMPS] [--hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD] audio [audio ...] positional arguments: audio audio file(s) to transcribe options: -h, --help show this help message and exit --model MODEL name of the Whisper model to use (default: turbo) --model_dir MODEL_DIR the path to save model files; uses ~/.cache/whisper by default (default: None) --device DEVICE device to use for PyTorch inference (default: cpu) --output_dir OUTPUT_DIR, -o OUTPUT_DIR directory to save the outputs (default: .) --output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all} format of the output file; if not specified, all available formats will be produced (default: all) --verbose VERBOSE whether to print out the progress and debug messages (default: True) --task {transcribe,translate} whether to perform X->X speech recognition ('transcribe') or X->English translation ('translate') (default: transcribe) --language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba} language spoken in the audio, specify None to perform language detection (default: None) --temperature TEMPERATURE temperature to use for sampling (default: 0) --best_of BEST_OF number of candidates when sampling with non-zero temperature (default: 5) --beam_size BEAM_SIZE number of beams in beam search, only applicable when temperature is zero (default: 5) --patience PATIENCE optional patience value to use in beam decoding, as in https://arxiv.org/abs/2204.05424, the default (1.0) is equivalent to conventional beam search (default: None) --length_penalty LENGTH_PENALTY optional token length penalty coefficient (alpha) as in https://arxiv.org/abs/1609.08144, uses simple length normalization by default (default: None) --suppress_tokens SUPPRESS_TOKENS comma-separated list of token ids to suppress during sampling; '-1' will suppress most special characters except common punctuations (default: -1) --initial_prompt INITIAL_PROMPT optional text to provide as a prompt for the first window. (default: None) --condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT if True, provide the previous output of the model as a prompt for the next window; disabling may make the text inconsistent across windows, but the model becomes less prone to getting stuck in a failure loop (default: True) --fp16 FP16 whether to perform inference in fp16; True by default (default: True) --temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK temperature to increase when falling back when the decoding fails to meet either of the thresholds below (default: 0.2) --compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD if the gzip compression ratio is higher than this value, treat the decoding as failed (default: 2.4) --logprob_threshold LOGPROB_THRESHOLD if the average log probability is lower than this value, treat the decoding as failed (default: -1.0) --no_speech_threshold NO_SPEECH_THRESHOLD if the probability of the  token is higher than this value AND the decoding has failed due to `logprob_threshold`, consider the segment as silence (default: 0.6) --word_timestamps WORD_TIMESTAMPS (experimental) extract word-level timestamps and refine the results based on them (default: False) --prepend_punctuations PREPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the next word (default: "'“¿([{-) --append_punctuations APPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the previous word (default: "'.。,,!!??::”)]}、) --highlight_words HIGHLIGHT_WORDS (requires --word_timestamps True) underline each word as it is spoken in srt and vtt (default: False) --max_line_width MAX_LINE_WIDTH (requires --word_timestamps True) the maximum number of characters in a line before breaking the line (default: None) --max_line_count MAX_LINE_COUNT (requires --word_timestamps True) the maximum number of lines in a segment (default: None) --max_words_per_line MAX_WORDS_PER_LINE (requires --word_timestamps True, no effect with --max_line_width) the maximum number of words in a segment (default: None) --threads THREADS number of threads used by torch for CPU inference; supercedes MKL_NUM_THREADS/OMP_NUM_THREADS (default: 0) --clip_timestamps CLIP_TIMESTAMPS comma-separated list start,end,start,end,... timestamps (in seconds) of clips to process, where the last end timestamp defaults to the end of the file (default: 0) --hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD (requires --word_timestamps True) skip silent periods longer than this threshold (in seconds) when a possible hallucination is detected (default: None)</code> <strong>Verpassen Sie nicht:</strong> <code>usage: whisper [-h] [--model MODEL] [--model_dir MODEL_DIR] [--device DEVICE] [--output_dir OUTPUT_DIR] [--output_format {txt,vtt,srt,tsv,json,all}] [--verbose VERBOSE] [--task {transcribe,translate}] [--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}] [--temperature TEMPERATURE] [--best_of BEST_OF] [--beam_size BEAM_SIZE] [--patience PATIENCE] [--length_penalty LENGTH_PENALTY] [--suppress_tokens SUPPRESS_TOKENS] [--initial_prompt INITIAL_PROMPT] [--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] [--fp16 FP16] [--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK] [--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD] [--logprob_threshold LOGPROB_THRESHOLD] [--no_speech_threshold NO_SPEECH_THRESHOLD] [--word_timestamps WORD_TIMESTAMPS] [--prepend_punctuations PREPEND_PUNCTUATIONS] [--append_punctuations APPEND_PUNCTUATIONS] [--highlight_words HIGHLIGHT_WORDS] [--max_line_width MAX_LINE_WIDTH] [--max_line_count MAX_LINE_COUNT] [--max_words_per_line MAX_WORDS_PER_LINE] [--threads THREADS] [--clip_timestamps CLIP_TIMESTAMPS] [--hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD] audio [audio ...] positional arguments: audio audio file(s) to transcribe options: -h, --help show this help message and exit --model MODEL name of the Whisper model to use (default: turbo) --model_dir MODEL_DIR the path to save model files; uses ~/.cache/whisper by default (default: None) --device DEVICE device to use for PyTorch inference (default: cpu) --output_dir OUTPUT_DIR, -o OUTPUT_DIR directory to save the outputs (default: .) --output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all} format of the output file; if not specified, all available formats will be produced (default: all) --verbose VERBOSE whether to print out the progress and debug messages (default: True) --task {transcribe,translate} whether to perform X->X speech recognition ('transcribe') or X->English translation ('translate') (default: transcribe) --language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba} language spoken in the audio, specify None to perform language detection (default: None) --temperature TEMPERATURE temperature to use for sampling (default: 0) --best_of BEST_OF number of candidates when sampling with non-zero temperature (default: 5) --beam_size BEAM_SIZE number of beams in beam search, only applicable when temperature is zero (default: 5) --patience PATIENCE optional patience value to use in beam decoding, as in https://arxiv.org/abs/2204.05424, the default (1.0) is equivalent to conventional beam search (default: None) --length_penalty LENGTH_PENALTY optional token length penalty coefficient (alpha) as in https://arxiv.org/abs/1609.08144, uses simple length normalization by default (default: None) --suppress_tokens SUPPRESS_TOKENS comma-separated list of token ids to suppress during sampling; '-1' will suppress most special characters except common punctuations (default: -1) --initial_prompt INITIAL_PROMPT optional text to provide as a prompt for the first window. (default: None) --condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT if True, provide the previous output of the model as a prompt for the next window; disabling may make the text inconsistent across windows, but the model becomes less prone to getting stuck in a failure loop (default: True) --fp16 FP16 whether to perform inference in fp16; True by default (default: True) --temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK temperature to increase when falling back when the decoding fails to meet either of the thresholds below (default: 0.2) --compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD if the gzip compression ratio is higher than this value, treat the decoding as failed (default: 2.4) --logprob_threshold LOGPROB_THRESHOLD if the average log probability is lower than this value, treat the decoding as failed (default: -1.0) --no_speech_threshold NO_SPEECH_THRESHOLD if the probability of the  token is higher than this value AND the decoding has failed due to `logprob_threshold`, consider the segment as silence (default: 0.6) --word_timestamps WORD_TIMESTAMPS (experimental) extract word-level timestamps and refine the results based on them (default: False) --prepend_punctuations PREPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the next word (default: "'“¿([{-) --append_punctuations APPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the previous word (default: "'.。,,!!??::”)]}、) --highlight_words HIGHLIGHT_WORDS (requires --word_timestamps True) underline each word as it is spoken in srt and vtt (default: False) --max_line_width MAX_LINE_WIDTH (requires --word_timestamps True) the maximum number of characters in a line before breaking the line (default: None) --max_line_count MAX_LINE_COUNT (requires --word_timestamps True) the maximum number of lines in a segment (default: None) --max_words_per_line MAX_WORDS_PER_LINE (requires --word_timestamps True, no effect with --max_line_width) the maximum number of words in a segment (default: None) --threads THREADS number of threads used by torch for CPU inference; supercedes MKL_NUM_THREADS/OMP_NUM_THREADS (default: 0) --clip_timestamps CLIP_TIMESTAMPS comma-separated list start,end,start,end,... timestamps (in seconds) of clips to process, where the last end timestamp defaults to the end of the file (default: 0) --hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD (requires --word_timestamps True) skip silent periods longer than this threshold (in seconds) when a possible hallucination is detected (default: None)</code>

So entfernen oder fügen Sie "Wo von" Metadaten in Dateien auf macOS hinzu oder fügen Sie hinzu

Titelbild, Screenshots und GIFs von Gadget -Hacks.

Das obige ist der detaillierte Inhalt vonVerwenden Sie Whisper im Terminal am Mac, um eine Mediendatei zu transkribieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Stock Market GPT

Stock Market GPT

KI-gestützte Anlageforschung für intelligentere Entscheidungen

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So schalten Sie die Taschenlampe auf Ihrem iPhone ein So schalten Sie die Taschenlampe auf Ihrem iPhone ein Aug 15, 2025 am 08:54 AM

TOTURNONTHEIFIGHONFLASHLIGHT, OpenControlCenterbyswipingdownfromThetop-rightcorneronfaceIdmodelSorswipingUpFromTomonHomebuttonModels.2.TaptheFlasHlighticon, der sich zumunstener gelten, LikeaBulb, und diskutwithaglowbithboghboghboghboghboghboghbowboghboghboghboghboga, und diskutwithaglowbitowboghboghboghboghboghbog

Wie wäre es mit der offiziellen Version von iOS 18.2? Eingehende Überprüfung und Erfahrungsaustausch Wie wäre es mit der offiziellen Version von iOS 18.2? Eingehende Überprüfung und Erfahrungsaustausch Sep 01, 2025 pm 03:57 PM

Schnittstellenerneuerung: Die Feinheiten zeigen den Einfallsreichtum nach dem Upgrade auf die offizielle Version von iOS 18.2. Das intuitivste Gefühl ist die umfassende Verbesserung der Systemschnittstelle. Apple hat die Animationslogik tief poliert, und der Übergangseffekt ist empfindlicher und reibungsloser, egal ob sie die Anwendung öffnet, den Startbildschirm schaltet oder auf den Desktop zurückkehrt. Das Benachrichtigungszentrum hat ebenfalls eine Revision mit klareren Layout, klareren wichtigen Informationen auf einen Blick und leichteren Schieber Betrieb unterzogen. Gleichzeitig wurde das Systemsymbol neu gestaltet, der Stil ist koordiniert und einheitlicher und die Gesamtvisuelle Sprache ist moderner und bringt ein neues Gebrauchserlebnis. Datenschutz -Upgrade: Die Kontrolle ist zu einer Zeit zurück, in der Datenschutz und Sicherheit zunehmend Aufmerksamkeit erregen, und iOS 18.2 hat viele wichtige Verbesserungen gebracht. Das System hat einen flexibleren Mechanismus für das Erlaubnismanagement hinzugefügt, und Benutzer können den Standort, das Album und das Mikrofon der Anwendung genau festlegen.

Wie man mit dem iPhone misst Wie man mit dem iPhone misst Aug 22, 2025 am 05:46 AM

Usethebuilt-inMeasureAppByOPeningit, zeigte, dass ourcameraatttheObject, TaptingtosetArtPoint, bewegungsbezogene und tappingagaintodisplaythedistanceininChesorcentimeters.2.

Was tun, wenn Instagram immer wieder auf Ihrem iPhone abstürzt Was tun, wenn Instagram immer wieder auf Ihrem iPhone abstürzt Aug 21, 2025 am 12:39 AM

IFINSTAGRAMKEPSCRASHINGONYOURIPHONE, TrytheSteps: 1.RestartTheAppviaAppsWitcher.2.UpdateinStagramthroughtheAppstore.3.CheckForiosUpdateSettings

So aktualisieren Sie Ihre Carrier -Einstellungen auf dem iPhone So aktualisieren Sie Ihre Carrier -Einstellungen auf dem iPhone Aug 21, 2025 am 01:48 AM

Toupdatecarriersettingsonaniphone, Gotosettings> allgemein> orwayhileconnectedtowi-fiorcellulardata;

So ändern Sie die Standard -Mail -App auf dem iPhone So ändern Sie die Standard -Mail -App auf dem iPhone Aug 14, 2025 pm 07:48 PM

Tochangethedefaultmailapponyouriphone, youMustbehusingios14orlater und theProcessinvolvestallingacompatiblethird-partyAppandconfiging.1.installathird-partyMailApplikegmail, Ausblick, Spark, Oryahoomailfromailfromailfromailfromailfromailfromailfromailfromailfromailfromailfromailfromailfromails.

Was tun, wenn das iPhone keinen Ton hat Was tun, wenn das iPhone keinen Ton hat Aug 13, 2025 pm 05:24 PM

Lösung zum iPhone stillen Problem: Überprüfen Sie, ob der Stummschalter aktiviert ist. Starten Sie das iPhone neu. Reinigen Sie den Staub und Trümmer der Lautsprecher. Bluetooth trennen. Aktualisieren Sie die Software. Alle Einstellungen zurücksetzen. Wenden Sie sich an den Apple -Support.

So beheben Sie 'Die Serveridentität kann nicht überprüfen' auf dem iPhone So beheben Sie 'Die Serveridentität kann nicht überprüfen' auf dem iPhone Aug 30, 2025 am 07:58 AM

Ifyouseea "kann nichtverifyServeridentity" -Fehleruryouriphone, CheckTheServer'SSlCertificate, sichergestellt, sorgte, sorgte und orinstallTrustedrootcertificate -isifneded.

See all articles