ハグフェイスの BART モデルを使用したテキストの要約
今日のペースの速い世界では、論文を素早く読んだり、研究論文の重要なポイントを強調したりするために、長い形式のコンテンツを簡潔な要約に凝縮することが不可欠です。 Hugging Face は、テキスト要約のための強力なツールである BART モデルを提供します。この記事では、Hugging Face の事前トレーニング済みモデル、特に facebook/bart-large-cnn モデルを活用して、長い記事やテキストを要約する方法を検討します。
Hugging Face の BART モデルの開始
Hugging Face は、テキスト分類、翻訳、要約などの NLP タスク用のさまざまなモデルを提供します。要約用の最も人気のあるモデルの 1 つは BART (双方向および自己回帰トランスフォーマー) です。これは、大きなドキュメントから一貫した要約を生成するようにトレーニングされています。
ステップ 1: ハグフェイストランスフォーマーライブラリをインストールする
Hugging Face モデルを開始するには、トランスフォーマー ライブラリをインストールする必要があります。これは pip を使用して行うことができます:
pip install transformers
ステップ 2: 要約パイプラインのインポート
ライブラリがインストールされたら、要約のために事前トレーニングされたモデルを簡単にロードできます。 Hugging Face のパイプライン API は、要約タスク用に微調整された facebook/bart-large-cnn などのモデルを使用するための高レベルのインターフェイスを提供します。
from transformers import pipeline # Load the summarization model summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
ステップ 3: サマライザーの実行
サマライザーの準備ができたので、長いテキストを入力して要約を生成できます。以下は、英国の有名な女優、デイム マギー スミスに関するサンプル記事を使用した例です。
ARTICLE = """ Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades and was one of Britain's most recognisable and prolific actresses. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award, as well as nominations for six Olivier Awards. Smith is one of the few performers to earn the Triple Crown of Acting. Smith began her stage career as a student, performing at the Oxford Playhouse in 1952, and made her professional debut on Broadway in New Faces of '56. Over the following decades Smith established herself alongside Judi Dench as one of the most significant British theatre performers, working for the National Theatre and the Royal Shakespeare Company. On Broadway, she received the Tony Award for Best Actress in a Play for Lettice and Lovage (1990). She was Tony-nominated for Noël Coward's Private Lives (1975) and Tom Stoppard's Night and Day (1979). Smith won Academy Awards for Best Actress for The Prime of Miss Jean Brodie (1969) and Best Supporting Actress for California Suite (1978). She was Oscar-nominated for Othello (1965), Travels with My Aunt (1972), A Room with a View (1985) and Gosford Park (2001). She portrayed Professor Minerva McGonagall in the Harry Potter film series (2001–2011). She also acted in Death on the Nile (1978), Hook (1991), Sister Act (1992), The Secret Garden (1993), The Best Exotic Marigold Hotel (2012), Quartet (2012) and The Lady in the Van (2015). Smith received newfound attention and international fame for her role as Violet Crawley in the British period drama Downton Abbey (2010–2015). The role earned her three Primetime Emmy Awards; she had previously won one for the HBO film My House in Umbria (2003). Over the course of her career she was the recipient of numerous honorary awards, including the British Film Institute Fellowship in 1993, the BAFTA Fellowship in 1996 and the Society of London Theatre Special Award in 2010. Smith was made a dame by Queen Elizabeth II in 1990. """ # Generate the summary summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False) # Print the summary print(summary)
出力:
[{'summary_text': 'Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award.'}]
出力からわかるように、サマリーは記事の要点を短く読みやすい形式に凝縮し、彼女のキャリアの長さや賞賛などの重要な事実を強調しています。
別のアプローチ: ファイルからテキストを要約する
使用例によっては、ハードコードされた文字列ではなくファイルからテキストを読み取りたい場合があります。以下は、テキスト ファイルから記事を読み取り、概要を生成する更新された Python スクリプトです。
from transformers import pipeline # Load the summarizer pipeline summarizer = pipeline("summarization", model="facebook/bart-large-cnn") # Function to read the article from a text file def read_article_from_file(file_path): with open(file_path, 'r') as file: return file.read() # Path to the text file containing the article file_path = 'article.txt' # Change this to your file path # Read the article from the file ARTICLE = read_article_from_file(file_path) # Get the summary summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False) # Print the summary print(summary)
ファイル入力:
この場合、記事をテキスト ファイル (この例ではarticle.txt) に保存する必要があります。スクリプトはコンテンツを読み取って要約します。
結論
Hugging Face の BART モデルは、自動テキスト要約のための優れたツールです。長い記事、研究論文、または大量のテキストを処理する場合でも、このモデルは情報を抽出して簡潔な要約を作成するのに役立ちます。
この記事では、ハードコーディングされたテキストとファイル入力の両方を使用して、Hugging Face の事前トレーニング済み要約モデルをプロジェクトに統合する方法を説明しました。わずか数行のコードを書くだけで、Python プロジェクトで効率的な要約パイプラインを立ち上げて実行できます。
以上がハグフェイスの BART モデルを使用したテキストの要約の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undress AI Tool
脱衣画像を無料で

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

Pythonオブジェクト指向プログラミングのコアコンセプトであるPythonは、「1つのインターフェイス、複数の実装」を指し、異なるタイプのオブジェクトの統一処理を可能にします。 1。多型は、メソッドの書き換えを通じて実装されます。サブクラスは、親クラスの方法を再定義できます。たとえば、Animal ClassのSOCK()方法は、犬と猫のサブクラスに異なる実装を持っています。 2.多型の実用的な用途には、グラフィカルドローイングプログラムでdraw()メソッドを均一に呼び出すなど、コード構造を簡素化し、スケーラビリティを向上させる、ゲーム開発における異なる文字の共通の動作の処理などが含まれます。 3. Pythonの実装多型を満たす必要があります:親クラスはメソッドを定義し、子クラスはメソッドを上書きしますが、同じ親クラスの継承は必要ありません。オブジェクトが同じ方法を実装する限り、これは「アヒル型」と呼ばれます。 4.注意すべきことには、メンテナンスが含まれます

イテレータは、__iter __()および__next __()メソッドを実装するオブジェクトです。ジェネレーターは、単純化されたバージョンのイテレーターです。これは、収量キーワードを介してこれらのメソッドを自動的に実装しています。 1. Iteratorは、次の()を呼び出すたびに要素を返し、要素がなくなると停止例外をスローします。 2。ジェネレーターは関数定義を使用して、オンデマンドでデータを生成し、メモリを保存し、無限シーケンスをサポートします。 3。既存のセットを処理するときに反復器を使用すると、大きなファイルを読み取るときに行ごとにロードするなど、ビッグデータや怠zyな評価を動的に生成するときにジェネレーターを使用します。注:リストなどの反復オブジェクトは反復因子ではありません。イテレーターがその端に達した後、それらは再作成する必要があり、発電機はそれを一度しか通過できません。

クラスメソッドは、@ClassMethodデコレーターを介してPythonで定義されるメソッドです。最初のパラメーターはクラス自体(CLS)で、クラス状態へのアクセスまたは変更に使用されます。特定のインスタンスではなく、クラス全体に影響を与えるクラスまたはインスタンスを通じて呼び出すことができます。たとえば、Personクラスでは、show_count()メソッドは作成されたオブジェクトの数を数えます。クラスメソッドを定義するときは、@ClassMethodデコレータを使用して、Change_Var(new_Value)メソッドなどの最初のパラメーターCLSに名前を付けてクラス変数を変更する必要があります。クラス方法は、インスタンスメソッド(自己パラメーター)および静的メソッド(自動パラメーターなし)とは異なり、工場の方法、代替コンストラクター、およびクラス変数の管理に適しています。一般的な用途には以下が含まれます。

パラメーターは関数を定義するときはプレースホルダーであり、引数は呼び出し時に特定の値が渡されます。 1。位置パラメーターを順番に渡す必要があり、順序が正しくない場合は結果のエラーにつながります。 2。キーワードパラメーターはパラメーター名で指定されており、順序を変更して読みやすさを向上させることができます。 3.デフォルトのパラメーター値は、複製コードを避けるために定義されたときに割り当てられますが、変数オブジェクトはデフォルト値として避ける必要があります。 4. Argsおよび *Kwargsは、不確実な数のパラメーターを処理でき、一般的なインターフェイスまたはデコレータに適していますが、読みやすさを維持するためには注意して使用する必要があります。

API認証を扱うための鍵は、認証方法を正しく理解して使用することです。 1。Apikeyは、通常、リクエストヘッダーまたはURLパラメーターに配置されている最も単純な認証方法です。 2。BasicAuthは、内部システムに適したBase64エンコード送信にユーザー名とパスワードを使用します。 3。OAUTH2は、最初にclient_idとclient_secretを介してトークンを取得し、次にリクエストヘッダーにbearertokenを持ち込む必要があります。 4。トークンの有効期限に対処するために、トークン管理クラスをカプセル化し、トークンを自動的に更新できます。要するに、文書に従って適切な方法を選択し、重要な情報を安全に保存することが重要です。

PythonのMagicMethods(またはDunder Methods)は、オブジェクトの動作を定義するために使用される特別な方法であり、二重のアンダースコアで始まり、終了します。 1.オブジェクトは、追加、比較、文字列表現などの組み込み操作に応答できるようにします。 2.一般的なユースケースには、オブジェクトの初期化と表現(__init__、__Repr__、__str__)、算術操作(__ add__、__sub__、__mul__)、および比較操作(__eq__、___lt__)が含まれます。 3。それを使用するときは、彼らの行動が期待を満たしていることを確認してください。たとえば、__Repr__はリファクタリング可能なオブジェクトの式を返す必要があり、算術メソッドは新しいインスタンスを返す必要があります。 4.過剰使用または混乱を招くことは避ける必要があります。

PythonManagesMemoryAutomatelyUsingTuntingAndagarBageCollector.ReferencountingTrackShowManyvariablesRefertoAnobject、およびThemeMoryisfreed.

Pythonのごみ収集メカニズムは、参照カウントと定期的なごみ収集を通じてメモリを自動的に管理します。そのコアメソッドは参照カウントであり、オブジェクトの参照の数がゼロになるとすぐにメモリを解放します。ただし、円形の参照を処理できないため、ループを検出してクリーニングするために、Garbage Collection Module(GC)が導入されています。通常、ガベージコレクションは、プログラムの操作中に参照カウントが減少したときにトリガーされます。割り当てとリリースの差がしきい値を超える、またはgc.collect()が手動で呼ばれるときにトリガーされます。ユーザーは、gc.disable()を介して自動リサイクルをオフにし、gc.collect()を手動で実行し、gc.set_threshold()を介して制御を実現するためにしきい値を調整できます。すべてのオブジェクトがループリサイクルに参加するわけではありません。参照が含まれていないオブジェクトが参照カウントによって処理されている場合、それは組み込まれています
