


Gunakan Whisper di Terminal di Mac untuk menyalin sebarang fail media
Hidupkan Mac anda ke mesin transkripsi yang kuat menggunakan AI yang sama yang menguasai chatgpt OpenAI. Dengan hanya beberapa arahan terminal, anda boleh menukar fail audio dan video ke dalam teks yang tepat dalam beberapa minit.
Sekiranya anda tidak pernah menyentuh Terminal sebelum ini, jangan bimbang - menubuhkan Whisper pada MacOS Sequoia 15 lebih mudah daripada yang kelihatan dan berbaloi. Sama ada anda bekerja dengan video YouTube, wawancara, kuliah, atau nota suara, Whisper boleh mengendalikan semua pengangkat berat.
Whisper adalah rangkaian neural pertuturan-ke-teks yang bebas dan terbuka dari OpenAI yang berjalan sepenuhnya pada mesin anda-tidak diperlukan Internet selepas persediaan. Sebaik sahaja anda melakukannya, ia cepat, selamat, dan mati mudah - dan ia boleh mengunyah melalui mana -mana format audio atau video yang anda buang kepadanya. Dan ia adalah alat yang sempurna jika anda sakit perkhidmatan transkripsi berasaskan web, aplikasi MAC mahal, dan sambungan penyemak imbas kikuk dengan batasan, seperti topi saiz fail, tanda air, iklan, atau ketepatan yang buruk.
Ya, ia tinggal di terminal - kotak hitam misteri yang paling banyak dielakkan. Tetapi inilah perkara itu: jika anda boleh menyalin dan menampal, anda boleh menjalankan Whisper. Sebaik sahaja ia dipasang, menyalin fail secara harfiah satu baris. Tidak ada antara muka yang kembung, tidak memuat naik dan menunggu, dan tiada bayaran bulanan.
Dan jika anda tidak bersedia untuk mengacaukan baris arahan? Anda masih mempunyai pilihan. Terdapat aplikasi Mac seperti MacWhisper dan Transkripsi Whisper yang memberi anda antara muka seret dan drop yang dikuasakan oleh Whisper di bawah tudung. Perkhidmatan berasaskan pelayar seperti Demo Whisper pada muka yang memeluk menjadikannya lebih mudah-walaupun anda biasanya akan berdagang beberapa privasi dan fleksibiliti untuk kemudahan. Walau bagaimanapun, versi baris arahan masih merupakan cara yang paling kuat dan fleksibel untuk menggunakan Whisper, dan ia adalah pelaksanaan rasmi yang dikekalkan oleh OpenAI. Sekiranya anda mahukan kawalan sepenuhnya, ini adalah versi yang anda mahukan.
Atau anda boleh melangkau semua itu dan hanya menghantar chatgpt fail melalui aplikasi web atau desktopnya - ia boleh menyalin atau menterjemahkannya untuk anda menggunakan bisikan.
Jadi, jika anda bosan melompat melalui gelung hanya untuk mendapatkan transkrip yang bersih - sama ada anda seorang pelajar, podcaster, wartawan, atau hanya seseorang yang cuba mengarkibkan panggilan zum anda - sudah tiba masanya untuk mengambil masa lima minit dan menubuhkan sesuatu yang hanya berfungsi. Mari kita menyelam.
Keperluan
Melalui arahan di bawah, anda akan memasang dan menggunakan alat berikut:
Alat baris perintah Whisper dari OpenAI: Enjin Transkripsi Teras yang Menukar Ucapan ke Teks.
FFMPEG: Diperlukan untuk Whisper untuk membuka, menukar, dan memproses fail audio dan video.
Python 3.10 atau lebih baru: Whisper bahasa pengaturcaraan ditulis dalam.
Homebrew: Pengurus pakej yang membuat pemasangan Whisper, FFMPEG, dan Python Easy.
Untuk menjalankan alat ini dengan jayanya, anda memerlukan:
Mac yang menjalankan MacOS Monterey 12.3 atau lebih baru: Sebaiknya MacOS Sequoia 15 atau lebih baru pada cip silikon epal untuk prestasi yang lebih cepat.
Sekurang -kurangnya 8 GB RAM dan beberapa ruang cakera percuma: model bisikan yang lebih besar boleh menggunakan banyak memori - terutamanya pada fail panjang - tetapi model yang lebih kecil berfungsi dengan baik pada kebanyakan persediaan.
App Terminal: Ditempatkan pada MACOS - Anda akan menggunakannya untuk memasukkan perintah persediaan dan transkripsi.
Menyediakan bisikan di maco
Ikuti langkah -langkah ini untuk memasang semua yang anda perlukan dan mula menyalin fail. Jika anda sudah mempunyai Homebrew, Python, dan FFMPEG dipasang, ia masih bernilai memeriksa langkah -langkah tersebut untuk memastikan segala -galanya terkini.
Terminal buka pada Mac anda
Terminal adalah aplikasi baris arahan yang dibina ke dalam macOS-bagaimana anda akan memasang dan menjalankan Whisper. Anda tidak perlu tahu bagaimana untuk kod, bagaimana cara menampal dalam arahan. Untuk membuka terminal, tekan ruang arahan, ketik "terminal," dan tekan kembali. Anda juga boleh menemuinya dalam folder Utiliti dalam direktori aplikasi anda atau dalam folder lain di LaunchPad.
Pasang atau kemas kini homebrew
HomeBrew adalah pengurus pakej untuk macOS-seperti App Store tetapi untuk alat baris arahan yang kuat. Ia memudahkan untuk memasang semua keperluan berbisik di belakang tabir.
Sekiranya anda tidak memasang homebrew, tampal arahan ini dan tekan kembali:
<code>/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"</code>
Perintah ini mungkin kelihatan menakutkan, tetapi inilah maksudnya:
/bin/bash
adalah jalan ke binari shell bash pada macOS.-c
memberitahu Mac anda untuk menjalankan arahan berikut (disediakan sebagai rentetan) dalam shell bash.Bahagian dalam petikan -
"$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
-Menggunakancurl
(alat baris arahan yang mengambil data dari Internet) untuk memuat turun skrip pemasang rasmi Homebrew dari GitHub.-
Inilah maksud bendera itu:
-f
= gagal secara senyap -senyap pada kesilapan pelayan. Ini menghalang muat turun yang tidak lengkap atau rosak daripada diproses.-s
= berlari dengan senyap. Ini menindas perkembangan output dan mesej ralat.-S
= tunjukkan kesilapan jika ada yang berlaku. Ini hanya memaparkan mesej ralat apabila digunakan dengan-s
, membolehkan mod senyap masih melaporkan masalah jika ada yang salah.-L
= Ikuti pengalihan secara automatik. Ini penting untuk mengendalikan pengalihan URL, yang biasa apabila memuat turun dari GitHub.
Satu -liner ini memuat turun skrip pemasangan homebrew rasmi dari GitHub, paip terus ke dalam shell bash menggunakan -c
, dan melaksanakannya untuk memasang homebrew secara automatik.
Jika Homebrew sudah dipasang, kemas kini dengan menjalankan:
<code>brew update</code>
Pasang Python 3.10 (atau lebih baru)
Python adalah bisikan bahasa pengaturcaraan ditulis. Apple termasuk versi yang lebih lama di macOS, tetapi Whisper memerlukan yang lebih baru untuk dijalankan dengan betul. Homebrew menjadikannya mudah untuk memasang versi yang betul.
Whisper memerlukan Python 3.10 atau lebih tinggi. Pasang dengan:
<code>brew install python</code>
Sekiranya anda sudah memasang Python tetapi tidak pasti jika versi yang tepat, periksa dengan:
<code>python3 --version</code>
Sekiranya lebih tua dari 3.10, anda boleh menaik tarafnya dengan:
<code>brew upgrade python</code>
Anda baik untuk pergi apabila anda berada di Python 3.10 atau lebih baru.
Pasang FFMPEG
FFMPEG adalah alat untuk memproses fail audio dan video. Ia membantu Whisper mengendalikan semua jenis format media, seperti MP3, MP4, M4A, dan WAV. Tanpa FFMPEG, Whisper tidak dapat membaca atau menukar fail anda.
Untuk memasangnya menggunakan homebrew:
<code>brew install ffmpeg</code>
Sekiranya anda sudah memasang FFMPEG, pastikan ia terkini:
<code>brew upgrade ffmpeg</code>
Anda boleh mengesahkan bahawa FFMPEG bekerja dengan menjalankan:
<code>ffmpeg -version</code>
Jika ia mencetak maklumat versi, anda baik.
Pasang Whisper melalui Pip
PIP adalah pengurus pakej terbina dalam Python-bagaimana anda memasang aplikasi Python seperti Whisper. Anda akan menggunakan PIP untuk memuat turun dan memasang Whisper terus dari repositori GitHub OpenAI.
Pertama, pastikan PIP terkini:
<code>pip3 install --upgrade pip</code>
Kemudian pasang bisikan:
<code>pip3 install git https://github.com/openai/whisper.git</code>
Jalankan transkripsi dengan bisikan
Setelah Whisper dipasang, anda boleh menyalin fail audio dan video (MP3, MP4, M4A, WAV, dan banyak lagi) menggunakan satu arahan. Ia menyokong pelbagai model pretrained, dari ringan dan cepat hingga besar dan sangat tepat.
Fail audio ditranskripsikan lebih cepat daripada fail video, jadi anda mungkin mahu mengekstrak audio dari video anda dan menggunakannya dengan bisikan sebaliknya - terutamanya apabila bekerja dengan model yang lebih besar. Pada Mac, anda boleh dengan cepat mengeksport audio dari fail video menggunakan pemain QuickTime.
Penggunaan Asas (bahasa automatik)
Pilihan --model tiny
berjalan paling cepat dan menggunakan memori paling sedikit, manakala pilihan --model large
menawarkan ketepatan yang terbaik tetapi memerlukan lebih banyak RAM dan mengambil masa yang lebih lama untuk diproses.
<code>whisper your_file.mp4 --model tiny whisper your_file.mp4 --model base whisper your_file.mp4 --model small whisper your_file.mp4 --model medium whisper your_file.mp4 --model large</code>
Tentukan bahasa untuk hasil yang lebih cepat dan lebih tepat
Sekiranya anda tahu fail anda dalam bahasa Inggeris, anda boleh menentukannya menggunakan --language en
atau --language English
:
<code>whisper your_file.mp4 --language English --model tiny whisper your_file.mp4 --language English --model base whisper your_file.mp4 --language English --model small whisper your_file.mp4 --language English --model medium whisper your_file.mp4 --language English --model large</code>
Apabila menggunakan salah satu arahan di atas, output akan mencetak terus dalam tetingkap terminal yang sama.
Walau bagaimanapun, Whisper boleh membuat .txt (transkrip biasa), .srt (format subtitle standard yang digunakan oleh kebanyakan pemain video dan editor), dan .vtt (format trek teks video web yang digunakan untuk video HTML5, YouTube, dan lain -lain) Fail transkripsi dalam direktori yang sama seperti fail media asal. Jika diperlukan, tambahkan bendera seperti --output_format txt
(untuk menentukan format tertentu) atau --task translate
(yang secara automatik menerjemahkan bahasa asing ke dalam bahasa Inggeris).
Sebagai contoh, yang berikut menyalin fail dalam bahasa Inggeris dan mengeluarkannya ke dokumen .txt dalam direktori yang sama.
<code>whisper your_file.mp4 --language en --model small --output_format txt</code>
Untuk menjana sari kata untuk video bahasa asing dalam bahasa Inggeris, arahan berikut akan menghasilkan fail transkripsi .txt, .srt, dan .vtt dalam folder yang sama seperti video atau audio anda.
<code>whisper your_file.mp4 --task translate --model medium</code>
Mahu hanya fail sari kata (seperti .srt) dan bukan transkrip teks biasa? Jalankan:
<code>whisper your_file.mp4 --language en --task translate --output_format srt</code>
Untuk melihat semua pilihan yang ada:
<code>whisper --help</code>
Pemikiran terakhir
Whisper di Terminal bukan sekadar alat transkripsi - ia adalah senjata rahsia untuk pencipta, wartawan, pelajar, dan sesiapa yang berurusan dengan kandungan yang dituturkan. Proses persediaan mungkin merasakan sedikit teknikal buat kali pertama, tetapi apabila ia berjalan dan berjalan, ia sangat mudah digunakan.
Yang berkata, model Whisper berjalan di dalam negara dan boleh perlahan, bergantung pada perkakasan Mac anda. Jika anda bekerja dengan fail besar dan mahu hasil yang lebih cepat, berpegang pada model kecil atau asas. Jika anda memerlukan ketepatan yang lebih tinggi dan tidak keberatan masa pemprosesan tambahan, pergi untuk sederhana atau besar.
Senarai penuh argumen dan pilihan bisikan
Jika anda ingin meneroka segala -galanya Whisper boleh dilakukan -termasuk format output, sokongan bahasa, dan bendera maju -anda boleh menjalankan <code>whisper --help</code> di Terminal. Inilah senarai lengkap pilihan yang tersedia untuk rujukan cepat:
<code>usage: whisper [-h] [--model MODEL] [--model_dir MODEL_DIR] [--device DEVICE] [--output_dir OUTPUT_DIR] [--output_format {txt,vtt,srt,tsv,json,all}] [--verbose VERBOSE] [--task {transcribe,translate}] [--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}] [--temperature TEMPERATURE] [--best_of BEST_OF] [--beam_size BEAM_SIZE] [--patience PATIENCE] [--length_penalty LENGTH_PENALTY] [--suppress_tokens SUPPRESS_TOKENS] [--initial_prompt INITIAL_PROMPT] [--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] [--fp16 FP16] [--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK] [--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD] [--logprob_threshold LOGPROB_THRESHOLD] [--no_speech_threshold NO_SPEECH_THRESHOLD] [--word_timestamps WORD_TIMESTAMPS] [--prepend_punctuations PREPEND_PUNCTUATIONS] [--append_punctuations APPEND_PUNCTUATIONS] [--highlight_words HIGHLIGHT_WORDS] [--max_line_width MAX_LINE_WIDTH] [--max_line_count MAX_LINE_COUNT] [--max_words_per_line MAX_WORDS_PER_LINE] [--threads THREADS] [--clip_timestamps CLIP_TIMESTAMPS] [--hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD] audio [audio ...] positional arguments: audio audio file(s) to transcribe options: -h, --help show this help message and exit --model MODEL name of the Whisper model to use (default: turbo) --model_dir MODEL_DIR the path to save model files; uses ~/.cache/whisper by default (default: None) --device DEVICE device to use for PyTorch inference (default: cpu) --output_dir OUTPUT_DIR, -o OUTPUT_DIR directory to save the outputs (default: .) --output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all} format of the output file; if not specified, all available formats will be produced (default: all) --verbose VERBOSE whether to print out the progress and debug messages (default: True) --task {transcribe,translate} whether to perform X->X speech recognition ('transcribe') or X->English translation ('translate') (default: transcribe) --language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba} language spoken in the audio, specify None to perform language detection (default: None) --temperature TEMPERATURE temperature to use for sampling (default: 0) --best_of BEST_OF number of candidates when sampling with non-zero temperature (default: 5) --beam_size BEAM_SIZE number of beams in beam search, only applicable when temperature is zero (default: 5) --patience PATIENCE optional patience value to use in beam decoding, as in https://arxiv.org/abs/2204.05424, the default (1.0) is equivalent to conventional beam search (default: None) --length_penalty LENGTH_PENALTY optional token length penalty coefficient (alpha) as in https://arxiv.org/abs/1609.08144, uses simple length normalization by default (default: None) --suppress_tokens SUPPRESS_TOKENS comma-separated list of token ids to suppress during sampling; '-1' will suppress most special characters except common punctuations (default: -1) --initial_prompt INITIAL_PROMPT optional text to provide as a prompt for the first window. (default: None) --condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT if True, provide the previous output of the model as a prompt for the next window; disabling may make the text inconsistent across windows, but the model becomes less prone to getting stuck in a failure loop (default: True) --fp16 FP16 whether to perform inference in fp16; True by default (default: True) --temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK temperature to increase when falling back when the decoding fails to meet either of the thresholds below (default: 0.2) --compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD if the gzip compression ratio is higher than this value, treat the decoding as failed (default: 2.4) --logprob_threshold LOGPROB_THRESHOLD if the average log probability is lower than this value, treat the decoding as failed (default: -1.0) --no_speech_threshold NO_SPEECH_THRESHOLD if the probability of the token is higher than this value AND the decoding has failed due to `logprob_threshold`, consider the segment as silence (default: 0.6) --word_timestamps WORD_TIMESTAMPS (experimental) extract word-level timestamps and refine the results based on them (default: False) --prepend_punctuations PREPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the next word (default: "'“¿([{-) --append_punctuations APPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the previous word (default: "'.。,,!!??::”)]}、) --highlight_words HIGHLIGHT_WORDS (requires --word_timestamps True) underline each word as it is spoken in srt and vtt (default: False) --max_line_width MAX_LINE_WIDTH (requires --word_timestamps True) the maximum number of characters in a line before breaking the line (default: None) --max_line_count MAX_LINE_COUNT (requires --word_timestamps True) the maximum number of lines in a segment (default: None) --max_words_per_line MAX_WORDS_PER_LINE (requires --word_timestamps True, no effect with --max_line_width) the maximum number of words in a segment (default: None) --threads THREADS number of threads used by torch for CPU inference; supercedes MKL_NUM_THREADS/OMP_NUM_THREADS (default: 0) --clip_timestamps CLIP_TIMESTAMPS comma-separated list start,end,start,end,... timestamps (in seconds) of clips to process, where the last end timestamp defaults to the end of the file (default: 0) --hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD (requires --word_timestamps True) skip silent periods longer than this threshold (in seconds) when a possible hallucination is detected (default: None)</code> <strong>Jangan ketinggalan:</strong> <code>usage: whisper [-h] [--model MODEL] [--model_dir MODEL_DIR] [--device DEVICE] [--output_dir OUTPUT_DIR] [--output_format {txt,vtt,srt,tsv,json,all}] [--verbose VERBOSE] [--task {transcribe,translate}] [--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}] [--temperature TEMPERATURE] [--best_of BEST_OF] [--beam_size BEAM_SIZE] [--patience PATIENCE] [--length_penalty LENGTH_PENALTY] [--suppress_tokens SUPPRESS_TOKENS] [--initial_prompt INITIAL_PROMPT] [--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] [--fp16 FP16] [--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK] [--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD] [--logprob_threshold LOGPROB_THRESHOLD] [--no_speech_threshold NO_SPEECH_THRESHOLD] [--word_timestamps WORD_TIMESTAMPS] [--prepend_punctuations PREPEND_PUNCTUATIONS] [--append_punctuations APPEND_PUNCTUATIONS] [--highlight_words HIGHLIGHT_WORDS] [--max_line_width MAX_LINE_WIDTH] [--max_line_count MAX_LINE_COUNT] [--max_words_per_line MAX_WORDS_PER_LINE] [--threads THREADS] [--clip_timestamps CLIP_TIMESTAMPS] [--hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD] audio [audio ...] positional arguments: audio audio file(s) to transcribe options: -h, --help show this help message and exit --model MODEL name of the Whisper model to use (default: turbo) --model_dir MODEL_DIR the path to save model files; uses ~/.cache/whisper by default (default: None) --device DEVICE device to use for PyTorch inference (default: cpu) --output_dir OUTPUT_DIR, -o OUTPUT_DIR directory to save the outputs (default: .) --output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all} format of the output file; if not specified, all available formats will be produced (default: all) --verbose VERBOSE whether to print out the progress and debug messages (default: True) --task {transcribe,translate} whether to perform X->X speech recognition ('transcribe') or X->English translation ('translate') (default: transcribe) --language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,yue,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba} language spoken in the audio, specify None to perform language detection (default: None) --temperature TEMPERATURE temperature to use for sampling (default: 0) --best_of BEST_OF number of candidates when sampling with non-zero temperature (default: 5) --beam_size BEAM_SIZE number of beams in beam search, only applicable when temperature is zero (default: 5) --patience PATIENCE optional patience value to use in beam decoding, as in https://arxiv.org/abs/2204.05424, the default (1.0) is equivalent to conventional beam search (default: None) --length_penalty LENGTH_PENALTY optional token length penalty coefficient (alpha) as in https://arxiv.org/abs/1609.08144, uses simple length normalization by default (default: None) --suppress_tokens SUPPRESS_TOKENS comma-separated list of token ids to suppress during sampling; '-1' will suppress most special characters except common punctuations (default: -1) --initial_prompt INITIAL_PROMPT optional text to provide as a prompt for the first window. (default: None) --condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT if True, provide the previous output of the model as a prompt for the next window; disabling may make the text inconsistent across windows, but the model becomes less prone to getting stuck in a failure loop (default: True) --fp16 FP16 whether to perform inference in fp16; True by default (default: True) --temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK temperature to increase when falling back when the decoding fails to meet either of the thresholds below (default: 0.2) --compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD if the gzip compression ratio is higher than this value, treat the decoding as failed (default: 2.4) --logprob_threshold LOGPROB_THRESHOLD if the average log probability is lower than this value, treat the decoding as failed (default: -1.0) --no_speech_threshold NO_SPEECH_THRESHOLD if the probability of the token is higher than this value AND the decoding has failed due to `logprob_threshold`, consider the segment as silence (default: 0.6) --word_timestamps WORD_TIMESTAMPS (experimental) extract word-level timestamps and refine the results based on them (default: False) --prepend_punctuations PREPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the next word (default: "'“¿([{-) --append_punctuations APPEND_PUNCTUATIONS if word_timestamps is True, merge these punctuation symbols with the previous word (default: "'.。,,!!??::”)]}、) --highlight_words HIGHLIGHT_WORDS (requires --word_timestamps True) underline each word as it is spoken in srt and vtt (default: False) --max_line_width MAX_LINE_WIDTH (requires --word_timestamps True) the maximum number of characters in a line before breaking the line (default: None) --max_line_count MAX_LINE_COUNT (requires --word_timestamps True) the maximum number of lines in a segment (default: None) --max_words_per_line MAX_WORDS_PER_LINE (requires --word_timestamps True, no effect with --max_line_width) the maximum number of words in a segment (default: None) --threads THREADS number of threads used by torch for CPU inference; supercedes MKL_NUM_THREADS/OMP_NUM_THREADS (default: 0) --clip_timestamps CLIP_TIMESTAMPS comma-separated list start,end,start,end,... timestamps (in seconds) of clips to process, where the last end timestamp defaults to the end of the file (default: 0) --hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD (requires --word_timestamps True) skip silent periods longer than this threshold (in seconds) when a possible hallucination is detected (default: None)</code>
Cara Menghapus atau Menambah 'Wher dari' Metadata dalam Fail di MacOS
Tutup foto, tangkapan skrin, dan gif oleh hacks alat.
Atas ialah kandungan terperinci Gunakan Whisper di Terminal di Mac untuk menyalin sebarang fail media. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Spigen OneTap (MAGFIT) yang direka untuk Magsafe Stand $ 15 $ 20 Simpan $ 5 pendirian ini serasi dengan mana-mana telefon yang dibolehkan Magsafe, seperti barisan iPhone 12 dan model baru, atau peranti Android menggunakan kes Magsafe. Walau bagaimanapun, ia tidak termasuk mengecas FU

Apple telah mengeluarkan iPados 15.4 untuk iPad, bersama dengan iOS 15.4 untuk iPhone, dan MacOS Monterey 12.3 untuk Mac. iPados 15.4 termasuk sokongan untuk kawalan sejagat, ciri yang membolehkan berkongsi tetikus dan papan kekunci antara Mac dan iPad, sokongan untuk f

Mod video gambar-dalam-gambar adalah ciri popular yang membolehkan anda menonton video dalam panel overlay semasa melakukan perkara lain pada iPhone atau iPad anda. Semasa menggunakan gambar dalam gambar dengan YouTube harus berfungsi untuk kebanyakan pengguna seperti yang diharapkan (walaupun tanpa t

Ramai pengguna komputer mengaitkan kawalan f dengan mencari teks di laman web, dan jika anda datang ke iPhone atau iPad dari dunia Windows, anda mungkin tertanya -tanya bagaimana anda boleh menggunakan bersamaan dengan carian kawalan F dalam pelayar safari di IPH

iOS 15.1 dan iPados 15.1 telah dikeluarkan untuk iPhone dan iPad, kemas kini termasuk perkongsian skrin shareplay melalui FaceTime, penambahan sokongan teks langsung dalam aplikasi kamera iPad, penangkapan video Prores untuk pengguna iPhone 13 Pro, kemasukan C

¿Mahu memasukkan tanda tanya terbalik pada iPhone atau iPad anda? Sama ada anda mengkaji bahasa baru, sudah fasih berbahasa lain, atau hanya perlu menggunakan simbol ¿untuk apa -apa tujuan, memasuki watak khas ini adalah mudah pada iPhone dan iPad.He

iPhone tidak menyokong membuat kumpulan hubungan secara langsung dalam aplikasi buku alamat, tetapi fungsi yang serupa dapat dicapai melalui kaedah berikut: 1. Gunakan fungsi "kumpulan" dalam aplikasi buku alamat, klik "Edit"> "Tambah Kumpulan" untuk membuat kumpulan tersuai; 2. Tambah setiap kenalan ke kumpulan yang sepadan dengan mengeditnya; 3. Jika anda perlu menghantar mesej kumpulan, anda boleh membuat perbualan berbilang orang baru dalam aplikasi maklumat; 4. Gunakan iCloud atau Gmail untuk menyegerakkan kumpulan yang ditandakan untuk memudahkan pengurusan sejumlah besar kenalan pada komputer. Kaedah ini digunakan bersempena dengan pengurusan kumpulan hubungan yang cekap.

Jika anda menggunakan iPad dengan papan kekunci sihir, anda mungkin menyedari bahawa ia datang dengan papan kekunci backlit yang bergaya dan mudah. Ciri ini amat berguna ketika bekerja dalam pencahayaan yang redup, walaupun ia juga hanya menarik secara visual. Beberapa pengguna th
