Java: 文字列内の単語の出現回数を数える

プラトン再発行

フォロワー： 0

概要

文字列内の単語の出現回数を数えるのはかなり簡単な作業ですが、それにはいくつかの方法があります。通常、手作業を実行したくない場合、つまり検索スペースが大きい場合は、自動化されたツールを使用する必要があるため、方法の効率も考慮する必要があります。

このガイドでは、Java で文字列内の単語の出現回数をカウントする方法を学習します。

String searchText = "Your body may be chrome, but the heart never changes. It wants what it wants.";
String targetWord = "wants";

の出現回数を検索します。 targetWord、使用して String.split(), Collections.frequency() および正規表現。

文字列内の単語の出現回数をカウントする String.split（）

文字列内の対象単語の出現をカウントする最も簡単な方法は、単語ごとに文字列を分割し、配列を反復処理して、 wordCount 各試合で。単語の前後に何らかの句読点がある場合に注意してください。 wants. 文末 – 単純な単語レベルの分割では正しく処理されます wants および wants. 別の言葉として！

これを回避するには、文からすべての句読点を簡単に削除できますそれを分割する：

String[] words = searchText.replaceAll("p{Punct}", "").split(" ");

int wordCount = 0;
for (int i=0; i < words.length; i++)
    if (words[i].equals(targetWord))
        wordCount++;
System.out.println(wordCount);

for ループでは、配列を単純に繰り返し処理し、各インデックスの要素が targetWord. そうであれば、 wordCount、実行の最後に、次を出力します。

文字列内の単語の出現回数をカウントするコレクション.frequency()

　 Collections.frequency() メソッドは、単純な for ループし、両方の ID (オブジェクトかどうか) をチェックします。 is 別のオブジェクト) と同等性 (そのオブジェクトの質的特徴に応じて、オブジェクトが別のオブジェクトと等しいかどうか)。

　 frequency() メソッドは、検索するリストとターゲットオブジェクトを受け入れ、他のすべてのオブジェクトに対しても機能します。動作は、オブジェクト自体の実装方法によって異なります。 equals(). 文字列の場合、 equals() をチェックします 文字列の内容:


searchText = searchText.replaceAll("p{Punct}", "");

int wordCount = Collections.frequency(Arrays.asList(searchText.split(" ")), targetWord);
System.out.println(wordCount);

ここでは、から取得した配列を変換しました split() Javaに ArrayList、ヘルパーを使用して asList() の方法 Arrays クラス。リダクション操作 frequency() の頻度を示す整数を返します targetWord リストに表示され、結果は次のようになります。

を使用した文字列内の単語の出現 Matcher (正規表現 – RegEx)

最後に、正規表現を使用してパターンを検索し、一致したパターンの数をカウントできます。正規表現はこのために作成されているため、このタスクには非常に自然に適合します。 Java では、 Pattern クラスは、正規表現を表現およびコンパイルするために使用され、 Matcher クラスは、パターンを見つけて一致させるために使用されます。

RegEx を使用すると、句読点の不変性を式自体にコーディングできるため、文字列を外部でフォーマットしたり、句読点を削除したりする必要はありません。これは、別の変更されたバージョンをメモリに保存するとコストがかかる可能性がある大きなテキストに適しています。

Pattern pattern = Pattern.compile("b%s(?!w)".format(targetWord));

Pattern pattern = Pattern.compile("bwants(?!w)");
Matcher matcher = pattern.matcher(searchText);

int wordCount = 0;
while (matcher.find())
    wordCount++;

System.out.println(wordCount);

これも結果として：

効率ベンチマーク

それで、どれが最も効率的ですか？小さなベンチマークを実行してみましょう。

int runs = 100000;

long start1 = System.currentTimeMillis();
for (int i = 0; i < runs; i++) {
    int result = countOccurencesWithSplit(searchText, targetWord);
}

long end1 = System.currentTimeMillis();
System.out.println(String.format("Array split approach took: %s miliseconds", end1-start1));

long start2 = System.currentTimeMillis();
  for (int i = 0; i < runs; i++) {
    int result = countOccurencesWithCollections(searchText, targetWord);
}

long end2 = System.currentTimeMillis();
System.out.println(String.format("Collections.frequency() approach took: %s miliseconds", end2-start2));

long start3 = System.currentTimeMillis();
for (int i = 0; i < runs; i++) {
    int result = countOccurencesWithRegex(searchText, targetWord);
}

long end3 = System.currentTimeMillis();
System.out.println(String.format("Regex approach took: %s miliseconds", end3-start3));

各メソッドは 100000 回実行されます (数値が大きいほど、大数の法則により、偶然による分散と結果が低くなります)。このコードを実行すると、次のようになります。

Array split approach took: 152 miliseconds
Collections.frequency() approach took: 140 miliseconds
Regex approach took: 92 miliseconds

しかし、検索を大きくして計算コストを高くするとどうなるでしょうか? 合成文を生成しましょう:

List possibleWords = Arrays.asList("hello", "world ");
StringBuffer searchTextBuffer = new StringBuffer();

for (int i = 0; i < 100; i++) {
    searchTextBuffer.append(String.join(" ", possibleWords));
}
System.out.println(searchTextBuffer);

これにより、次の内容の文字列が作成されます。

hello world hello world hello world hello ...

ベストプラクティス、業界で認められた標準、および含まれているチートシートを含む、Gitを学習するための実践的で実用的なガイドを確認してください。グーグルGitコマンドを停止し、実際に学ぶそれ！

ここで、「hello」または「world」のいずれかを検索すると、前の XNUMX つよりも多くの一致が得られます。私たちの方法は現在、ベンチマークでどのように機能していますか?

Array split approach took: 606 miliseconds
Collections.frequency() approach took: 899 miliseconds
Regex approach took: 801 miliseconds

これで、配列の分割が最速になりました! 一般に、ベンチマークはさまざまな要因 (検索スペース、ターゲットワードなど) に依存し、個人のユースケースはベンチマークとは異なる場合があります。

アドバイス： 独自のテキストでメソッドを試し、時間を記録して、最も効率的で洗練されたものを選択してください。

まとめ

この短いガイドでは、Java の文字列でターゲット単語の出現回数をカウントする方法を調べました。文字列を分割し、単純なカウンターを使用することから始めました。 Collections ヘルパークラス、そして最後に正規表現を使用します。

最後に、メソッドのベンチマークを行い、パフォーマンスが線形ではなく、検索スペースに依存することに気付きました。多くの一致がある長い入力テキストの場合、配列の分割が最もパフォーマンスが高いようです。 XNUMX つの方法をすべて自分で試して、最もパフォーマンスの高い方法を選択してください。

タイムスタンプ： 2022 年 9 月 21 日2022 年 10 月 8 日

より多くのスタックアバス

カスタムデータでのオープンソース LLM モデルの微調整ガイド

ソースクラスター：

スタックアバス

ソースノード： 1857021

タイムスタンプ： 2023 年 7 月 7 日

Keras/TensorFlow と DeepVision を使用した Neural Radiance Field (NeRF) モデルのトレーニング

ソースクラスター：

スタックアバス

ソースノード： 1809254

タイムスタンプ： 2023 年 3 月 2 日

Webpack 5 PlatoBlockchain データインテリジェンスのガイド。垂直検索。あい。

Webpack 5 のガイド

ソースクラスター：

スタックアバス

ソースノード： 1774097

タイムスタンプ： 2022 年 12 月 4 日

Bashで改行を印刷

ソースクラスター：

スタックアバス

ソースノード： 1780886

タイムスタンプ： 2022 年 12 月 6 日

Python のヒープガイド

ソースクラスター：

スタックアバス

ソースノード： 1913758

タイムスタンプ： 2023 年 11 月 15 日

Python のスタックガイド

ソースクラスター：

スタックアバス

ソースノード： 1908829

タイムスタンプ： 2023 年 11 月 2 日

Java と Spring Boot の Jackson で Null フィールドを無視する

ソースクラスター：

スタックアバス

ソースノード： 1732334

タイムスタンプ： 2022 年 10 月 10 日

Python PlatoBlockchain データインテリジェンスにおけるロジスティック回帰の決定版ガイド。垂直検索。あい。

Python でのロジスティック回帰の決定版ガイド

ソースクラスター：

スタックアバス

ソースノード： 1673442

タイムスタンプ： 2022 年 9 月 3 日

Reactでホバーのスタイルを設定する方法

ソースクラスター：

スタックアバス

ソースノード： 1574773

タイムスタンプ： 2022 年 7 月 6 日

Python と Scikit-Learn PlatoBlockchain Data Intelligence を使用して、ランダムフォレストの機能重要度を取得します。垂直検索。あい。

Python と Scikit-Learn を使用してランダムフォレストの機能の重要度を取得する

ソースクラスター：

スタックアバス

ソースノード： 1751996

タイムスタンプ： 2022 年 10 月 18 日

Vue Router PlatoBlockchain データインテリジェンスのガイド。垂直検索。あい。

Vueルーターのガイド

ソースクラスター：

スタックアバス

ソースノード： 1552920

タイムスタンプ： 2022 年 6 月 20 日

JSON を Python オブジェクトに変換する方法

ソースクラスター：

スタックアバス

ソースノード： 1772030

タイムスタンプ： 2022 年 11 月 30 日

Java: 文字列内の単語の出現回数を数える

プラトン再発行

概要

文字列内の単語の出現回数をカウントする String.split（）

文字列内の単語の出現回数をカウントするコレクション.frequency()

を使用した文字列内の単語の出現 Matcher (正規表現 – RegEx)

効率ベンチマーク

まとめ

より多くのスタックアバス

カスタムデータでのオープンソース LLM モデルの微調整ガイド

Keras/TensorFlow と DeepVision を使用した Neural Radiance Field (NeRF) モデルのトレーニング

Webpack 5 のガイド

Bashで改行を印刷

Python のヒープガイド

Python のスタックガイド

Java と Spring Boot の Jackson で Null フィールドを無視する

Python でのロジスティック回帰の決定版ガイド

Reactでホバーのスタイルを設定する方法

Python と Scikit-Learn を使用してランダムフォレストの機能の重要度を取得する

Vueルーターのガイド

JSON を Python オブジェクトに変換する方法

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

概要

文字列内の単語の出現回数をカウントする String.split（）

文字列内の単語の出現回数をカウントする コレクション.frequency()

を使用した文字列内の単語の出現 Matcher (正規表現 – RegEx)

効率ベンチマーク

まとめ

より多くの スタックアバス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

文字列内の単語の出現回数をカウントするコレクション.frequency()

より多くのスタックアバス