Revert "Introduced the Word2VecSynonymFilter (#12169)"

This reverts commit 1f4f2bf.
apache · Apr 25, 2023 · 7e15a39 · 7e15a39
1 parent 19925d4
commit 7e15a39
Show file tree

Hide file tree

Showing 24 changed files with 23 additions and 1,450 deletions.
diff --git a/lucene/CHANGES.txt b/lucene/CHANGES.txt
@@ -32,8 +32,6 @@ New Features
   crash the JVM. To disable this feature, pass the following sysprop on Java command line:
   "-Dorg.apache.lucene.store.MMapDirectory.enableMemorySegments=false" (Uwe Schindler)
 
-* GITHUB#12169: Introduce a new token filter to expand synonyms based on Word2Vec DL4j models. (Daniele Antuzi, Ilaria Petreti, Alessandro Benedetti)
-
 Improvements
 ---------------------
 

diff --git a/lucene/analysis.tests/src/test/org/apache/lucene/analysis/tests/TestRandomChains.java b/lucene/analysis.tests/src/test/org/apache/lucene/analysis/tests/TestRandomChains.java
@@ -89,8 +89,6 @@
 import org.apache.lucene.analysis.standard.StandardTokenizer;
 import org.apache.lucene.analysis.stempel.StempelStemmer;
 import org.apache.lucene.analysis.synonym.SynonymMap;
-import org.apache.lucene.analysis.synonym.word2vec.Word2VecModel;
-import org.apache.lucene.analysis.synonym.word2vec.Word2VecSynonymProvider;
 import org.apache.lucene.store.ByteBuffersDirectory;
 import org.apache.lucene.tests.analysis.BaseTokenStreamTestCase;
 import org.apache.lucene.tests.analysis.MockTokenFilter;
@@ -101,10 +99,8 @@
 import org.apache.lucene.tests.util.automaton.AutomatonTestUtil;
 import org.apache.lucene.util.AttributeFactory;
 import org.apache.lucene.util.AttributeSource;
-import org.apache.lucene.util.BytesRef;
 import org.apache.lucene.util.CharsRef;
 import org.apache.lucene.util.IgnoreRandomChains;
-import org.apache.lucene.util.TermAndVector;
 import org.apache.lucene.util.Version;
 import org.apache.lucene.util.automaton.Automaton;
 import org.apache.lucene.util.automaton.CharacterRunAutomaton;
@@ -419,27 +415,6 @@ private String randomNonEmptyString(Random random) {
                       }
                     }
                   });
-              put(
-                  Word2VecSynonymProvider.class,
-                  random -> {
-                    final int numEntries = atLeast(10);
-                    final int vectorDimension = random.nextInt(99) + 1;
-                    Word2VecModel model = new Word2VecModel(numEntries, vectorDimension);
-                    for (int j = 0; j < numEntries; j++) {
-                      String s = TestUtil.randomSimpleString(random, 10, 20);
-                      float[] vec = new float[vectorDimension];
-                      for (int i = 0; i < vectorDimension; i++) {
-                        vec[i] = random.nextFloat();
-                      }
-                      model.addTermAndVector(new TermAndVector(new BytesRef(s), vec));
-                    }
-                    try {
-                      return new Word2VecSynonymProvider(model);
-                    } catch (IOException e) {
-                      Rethrow.rethrow(e);
-                      return null; // unreachable code
-                    }
-                  });
               put(
                   DateFormat.class,
                   random -> {

diff --git a/lucene/analysis/common/src/java/module-info.java b/lucene/analysis/common/src/java/module-info.java
@@ -78,7 +78,6 @@
   exports org.apache.lucene.analysis.sr;
   exports org.apache.lucene.analysis.sv;
   exports org.apache.lucene.analysis.synonym;
-  exports org.apache.lucene.analysis.synonym.word2vec;
   exports org.apache.lucene.analysis.ta;
   exports org.apache.lucene.analysis.te;
   exports org.apache.lucene.analysis.th;
@@ -257,7 +256,6 @@
       org.apache.lucene.analysis.sv.SwedishMinimalStemFilterFactory,
       org.apache.lucene.analysis.synonym.SynonymFilterFactory,
       org.apache.lucene.analysis.synonym.SynonymGraphFilterFactory,
-      org.apache.lucene.analysis.synonym.word2vec.Word2VecSynonymFilterFactory,
       org.apache.lucene.analysis.core.FlattenGraphFilterFactory,
       org.apache.lucene.analysis.te.TeluguNormalizationFilterFactory,
       org.apache.lucene.analysis.te.TeluguStemFilterFactory,

diff --git a/...analysis/common/src/java/org/apache/lucene/analysis/synonym/word2vec/Dl4jModelReader.java b/...analysis/common/src/java/org/apache/lucene/analysis/synonym/word2vec/Dl4jModelReader.java
diff --git a/...e/analysis/common/src/java/org/apache/lucene/analysis/synonym/word2vec/Word2VecModel.java b/...e/analysis/common/src/java/org/apache/lucene/analysis/synonym/word2vec/Word2VecModel.java