Add CQADupStack flat baselines for BEIR regressions (#1846)

Add resources for beir_v1.0.0 cqadupstack regressions Rearrange beir_v1.0.0 regression orders in README.md
castorini · Apr 19, 2022 · 4530b59 · 4530b59
1 parent 9c790b9
commit 4530b59
Show file tree

Hide file tree

Showing 61 changed files with 25,743 additions and 12 deletions.
diff --git a/README.md b/README.md
@@ -101,23 +101,35 @@ See individual pages for details!
 + Regressions for FIRE 2012: [Monolingual Bengali](docs/regressions-fire12-bn.md), [Monolingual Hindi](docs/regressions-fire12-hi.md), [Monolingual English](docs/regressions-fire12-en.md)
 + Regressions for Mr. TyDi (v1.1) baselines : [ar](docs/regressions-mrtydi-v1.1-ar.md), [bn](docs/regressions-mrtydi-v1.1-bn.md), [en](docs/regressions-mrtydi-v1.1-en.md), [fi](docs/regressions-mrtydi-v1.1-fi.md), [id](docs/regressions-mrtydi-v1.1-id.md), [ja](docs/regressions-mrtydi-v1.1-ja.md), [ko](docs/regressions-mrtydi-v1.1-ko.md), [ru](docs/regressions-mrtydi-v1.1-ru.md), [sw](docs/regressions-mrtydi-v1.1-sw.md), [te](docs/regressions-mrtydi-v1.1-te.md), [th](docs/regressions-mrtydi-v1.1-th.md)
 + Regressions for BEIR (v1.0.0):
-  + ArguAna: ["flat" baseline](docs/regressions-beir-v1.0.0-arguana-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-arguana-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-arguana-splade-distil-cocodenser-medium.md)
-  + Climate-FEVER: ["flat" baseline](docs/regressions-beir-v1.0.0-climate-fever-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-climate-fever-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-climate-fever-splade-distil-cocodenser-medium.md)
-  + DBPedia: ["flat" baseline](docs/regressions-beir-v1.0.0-dbpedia-entity-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-dbpedia-entity-splade-distil-cocodenser-medium.md)
-  + FEVER: ["flat" baseline](docs/regressions-beir-v1.0.0-fever-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-fever-splade-distil-cocodenser-medium.md)
-  + FiQA-2018: ["flat" baseline](docs/regressions-beir-v1.0.0-fiqa-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-fiqa-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-fiqa-splade-distil-cocodenser-medium.md)
-  + HotpotQA: ["flat" baseline](docs/regressions-beir-v1.0.0-hotpotqa-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-hotpotqa-splade-distil-cocodenser-medium.md)
-  + NFCorpus: ["flat" baseline](docs/regressions-beir-v1.0.0-nfcorpus-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-nfcorpus-splade-distil-cocodenser-medium.md)
-  + NQ: ["flat" baseline](docs/regressions-beir-v1.0.0-nq-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-nq-splade-distil-cocodenser-medium.md)
-  + Quora: ["flat" baseline](docs/regressions-beir-v1.0.0-quora-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-quora-splade-distil-cocodenser-medium.md)
-  + SCIDOCS: ["flat" baseline](docs/regressions-beir-v1.0.0-scidocs-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-scidocs-splade-distil-cocodenser-medium.md)
-  + SciFact: ["flat" baseline](docs/regressions-beir-v1.0.0-scifact-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-scifact-splade-distil-cocodenser-medium.md)
   + TREC-COVID: ["flat" baseline](docs/regressions-beir-v1.0.0-trec-covid-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-trec-covid-splade-distil-cocodenser-medium.md)
-  + Touche2020: ["flat" baseline](docs/regressions-beir-v1.0.0-webis-touche2020-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-webis-touche2020-splade-distil-cocodenser-medium.md)
   + BioASQ: ["flat" baseline](docs/regressions-beir-v1.0.0-bioasq-flat.md)
+  + NFCorpus: ["flat" baseline](docs/regressions-beir-v1.0.0-nfcorpus-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-nfcorpus-splade-distil-cocodenser-medium.md)
+  + NQ: ["flat" baseline](docs/regressions-beir-v1.0.0-nq-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-nq-splade-distil-cocodenser-medium.md)
+  + HotpotQA: ["flat" baseline](docs/regressions-beir-v1.0.0-hotpotqa-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-hotpotqa-splade-distil-cocodenser-medium.md)
+  + FiQA-2018: ["flat" baseline](docs/regressions-beir-v1.0.0-fiqa-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-fiqa-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-fiqa-splade-distil-cocodenser-medium.md)
   + Signal-1M(RT): ["flat" baseline](docs/regressions-beir-v1.0.0-signal1m-flat.md)
   + TREC-NEWS: ["flat" baseline](docs/regressions-beir-v1.0.0-trec-news-flat.md)
   + Robust04: ["flat" baseline](docs/regressions-beir-v1.0.0-robust04-flat.md)
+  + ArguAna: ["flat" baseline](docs/regressions-beir-v1.0.0-arguana-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-arguana-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-arguana-splade-distil-cocodenser-medium.md)
+  + Touche2020: ["flat" baseline](docs/regressions-beir-v1.0.0-webis-touche2020-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-webis-touche2020-splade-distil-cocodenser-medium.md)
+  + CQADupStack-Android: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-android-flat.md)
+  + CQADupStack-English: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-english-flat.md)
+  + CQADupStack-Gaming: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-gaming-flat.md)
+  + CQADupStack-Gis: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-gis-flat.md)
+  + CQADupStack-Mathematica: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-mathematica-flat.md)
+  + CQADupStack-Physics: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-physics-flat.md)
+  + CQADupStack-Programmers: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-programmers-flat.md)
+  + CQADupStack-Stats: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-stats-flat.md)
+  + CQADupStack-Tex: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-tex-flat.md)
+  + CQADupStack-Unix: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-unix-flat.md)
+  + CQADupStack-Webmasters: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-webmasters-flat.md)
+  + CQADupStack-Wordpress: ["flat" baseline](docs/regressions-beir-v1.0.0-cqadupstack-wordpress-flat.md)
+  + Quora: ["flat" baseline](docs/regressions-beir-v1.0.0-quora-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-quora-splade-distil-cocodenser-medium.md)
+  + DBPedia: ["flat" baseline](docs/regressions-beir-v1.0.0-dbpedia-entity-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-dbpedia-entity-splade-distil-cocodenser-medium.md)
+  + SCIDOCS: ["flat" baseline](docs/regressions-beir-v1.0.0-scidocs-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-scidocs-splade-distil-cocodenser-medium.md)
+  + FEVER: ["flat" baseline](docs/regressions-beir-v1.0.0-fever-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-fever-splade-distil-cocodenser-medium.md)
+  + Climate-FEVER: ["flat" baseline](docs/regressions-beir-v1.0.0-climate-fever-flat.md), ["multifield" baseline](docs/regressions-beir-v1.0.0-climate-fever-multifield.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-climate-fever-splade-distil-cocodenser-medium.md)
+  + SciFact: ["flat" baseline](docs/regressions-beir-v1.0.0-scifact-flat.md), [SPLADE-distill CoCodenser-medium](docs/regressions-beir-v1.0.0-scifact-splade-distil-cocodenser-medium.md)
 
 ## Additional Documentation
 

diff --git a/docs/regressions-beir-v1.0.0-cqadupstack-android-flat.md b/docs/regressions-beir-v1.0.0-cqadupstack-android-flat.md
@@ -0,0 +1,68 @@
+# Anserini Regressions: BEIR (v1.0.0) &mdash; CQADupStack-Android
+
+This page documents BM25 regression experiments for [BEIR (v1.0.0) &mdash; CQADupStack-Android](http://beir.ai/).
+These experiments index the corpus in a "flat" manner, by concatenating the "title" and "text" into the "contents" field.
+
+The exact configurations for these regressions are stored in [this YAML file](../src/main/resources/regression/beir-v1.0.0-cqadupstack-android-flat.yaml).
+Note that this page is automatically generated from [this template](../src/main/resources/docgen/templates/beir-v1.0.0-cqadupstack-android-flat.template) as part of Anserini's regression pipeline, so do not modify this page directly; modify the template instead.
+
+From one of our Waterloo servers (e.g., `orca`), the following command will perform the complete regression, end to end:
+
+```
+python src/main/python/run_regression.py --index --verify --search --regression beir-v1.0.0-cqadupstack-android-flat
+```
+
+## Indexing
+
+Typical indexing command:
+
+```
+target/appassembler/bin/IndexCollection \
+  -collection BeirFlatCollection \
+  -input /path/to/beir-v1.0.0-cqadupstack-android-flat \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-android-flat/ \
+  -generator DefaultLuceneDocumentGenerator \
+  -threads 1 -storePositions -storeDocvectors -storeRaw \
+  >& logs/log.beir-v1.0.0-cqadupstack-android-flat &
+```
+
+For additional details, see explanation of [common indexing options](common-indexing-options.md).
+
+## Retrieval
+
+After indexing has completed, you should be able to perform retrieval as follows:
+
+```
+target/appassembler/bin/SearchCollection \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-android-flat/ \
+  -topics src/main/resources/topics-and-qrels/topics.beir-v1.0.0-cqadupstack-android.test.tsv.gz \
+  -topicreader TsvString \
+  -output runs/run.beir-v1.0.0-cqadupstack-android-flat.bm25.topics.beir-v1.0.0-cqadupstack-android.test.txt \
+  -bm25 -removeQuery -hits 1000 &
+```
+
+Evaluation can be performed using `trec_eval`:
+
+```
+tools/eval/trec_eval.9.0.4/trec_eval -c -m ndcg_cut.10 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-android.test.txt runs/run.beir-v1.0.0-cqadupstack-android-flat.bm25.topics.beir-v1.0.0-cqadupstack-android.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.100 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-android.test.txt runs/run.beir-v1.0.0-cqadupstack-android-flat.bm25.topics.beir-v1.0.0-cqadupstack-android.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.1000 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-android.test.txt runs/run.beir-v1.0.0-cqadupstack-android-flat.bm25.topics.beir-v1.0.0-cqadupstack-android.test.txt
+```
+
+## Effectiveness
+
+With the above commands, you should be able to reproduce the following results:
+
+| nDCG@10                                                                                                      | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-android                                                                           | 0.3801    |
+
+
+| R@100                                                                                                        | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-android                                                                           | 0.6829    |
+
+
+| R@1000                                                                                                       | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-android                                                                           | 0.8632    |
diff --git a/docs/regressions-beir-v1.0.0-cqadupstack-english-flat.md b/docs/regressions-beir-v1.0.0-cqadupstack-english-flat.md
@@ -0,0 +1,68 @@
+# Anserini Regressions: BEIR (v1.0.0) &mdash; CQADupStack-English
+
+This page documents BM25 regression experiments for [BEIR (v1.0.0) &mdash; CQADupStack-Engligh](http://beir.ai/).
+These experiments index the corpus in a "flat" manner, by concatenating the "title" and "text" into the "contents" field.
+
+The exact configurations for these regressions are stored in [this YAML file](../src/main/resources/regression/beir-v1.0.0-cqadupstack-english-flat.yaml).
+Note that this page is automatically generated from [this template](../src/main/resources/docgen/templates/beir-v1.0.0-cqadupstack-english-flat.template) as part of Anserini's regression pipeline, so do not modify this page directly; modify the template instead.
+
+From one of our Waterloo servers (e.g., `orca`), the following command will perform the complete regression, end to end:
+
+```
+python src/main/python/run_regression.py --index --verify --search --regression beir-v1.0.0-cqadupstack-english-flat
+```
+
+## Indexing
+
+Typical indexing command:
+
+```
+target/appassembler/bin/IndexCollection \
+  -collection BeirFlatCollection \
+  -input /path/to/beir-v1.0.0-cqadupstack-english-flat \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-english-flat/ \
+  -generator DefaultLuceneDocumentGenerator \
+  -threads 1 -storePositions -storeDocvectors -storeRaw \
+  >& logs/log.beir-v1.0.0-cqadupstack-english-flat &
+```
+
+For additional details, see explanation of [common indexing options](common-indexing-options.md).
+
+## Retrieval
+
+After indexing has completed, you should be able to perform retrieval as follows:
+
+```
+target/appassembler/bin/SearchCollection \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-english-flat/ \
+  -topics src/main/resources/topics-and-qrels/topics.beir-v1.0.0-cqadupstack-english.test.tsv.gz \
+  -topicreader TsvString \
+  -output runs/run.beir-v1.0.0-cqadupstack-english-flat.bm25.topics.beir-v1.0.0-cqadupstack-english.test.txt \
+  -bm25 -removeQuery -hits 1000 &
+```
+
+Evaluation can be performed using `trec_eval`:
+
+```
+tools/eval/trec_eval.9.0.4/trec_eval -c -m ndcg_cut.10 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-english.test.txt runs/run.beir-v1.0.0-cqadupstack-english-flat.bm25.topics.beir-v1.0.0-cqadupstack-english.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.100 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-english.test.txt runs/run.beir-v1.0.0-cqadupstack-english-flat.bm25.topics.beir-v1.0.0-cqadupstack-english.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.1000 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-english.test.txt runs/run.beir-v1.0.0-cqadupstack-english-flat.bm25.topics.beir-v1.0.0-cqadupstack-english.test.txt
+```
+
+## Effectiveness
+
+With the above commands, you should be able to reproduce the following results:
+
+| nDCG@10                                                                                                      | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-english                                                                           | 0.3453    |
+
+
+| R@100                                                                                                        | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-english                                                                           | 0.5757    |
+
+
+| R@1000                                                                                                       | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-english                                                                           | 0.7323    |
diff --git a/docs/regressions-beir-v1.0.0-cqadupstack-gaming-flat.md b/docs/regressions-beir-v1.0.0-cqadupstack-gaming-flat.md
@@ -0,0 +1,68 @@
+# Anserini Regressions: BEIR (v1.0.0) &mdash; CQADupStack-Gaming
+
+This page documents BM25 regression experiments for [BEIR (v1.0.0) &mdash; CQADupStack-Gaming](http://beir.ai/).
+These experiments index the corpus in a "flat" manner, by concatenating the "title" and "text" into the "contents" field.
+
+The exact configurations for these regressions are stored in [this YAML file](../src/main/resources/regression/beir-v1.0.0-cqadupstack-gaming-flat.yaml).
+Note that this page is automatically generated from [this template](../src/main/resources/docgen/templates/beir-v1.0.0-cqadupstack-gaming-flat.template) as part of Anserini's regression pipeline, so do not modify this page directly; modify the template instead.
+
+From one of our Waterloo servers (e.g., `orca`), the following command will perform the complete regression, end to end:
+
+```
+python src/main/python/run_regression.py --index --verify --search --regression beir-v1.0.0-cqadupstack-gaming-flat
+```
+
+## Indexing
+
+Typical indexing command:
+
+```
+target/appassembler/bin/IndexCollection \
+  -collection BeirFlatCollection \
+  -input /path/to/beir-v1.0.0-cqadupstack-gaming-flat \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-gaming-flat/ \
+  -generator DefaultLuceneDocumentGenerator \
+  -threads 1 -storePositions -storeDocvectors -storeRaw \
+  >& logs/log.beir-v1.0.0-cqadupstack-gaming-flat &
+```
+
+For additional details, see explanation of [common indexing options](common-indexing-options.md).
+
+## Retrieval
+
+After indexing has completed, you should be able to perform retrieval as follows:
+
+```
+target/appassembler/bin/SearchCollection \
+  -index indexes/lucene-index.beir-v1.0.0-cqadupstack-gaming-flat/ \
+  -topics src/main/resources/topics-and-qrels/topics.beir-v1.0.0-cqadupstack-gaming.test.tsv.gz \
+  -topicreader TsvString \
+  -output runs/run.beir-v1.0.0-cqadupstack-gaming-flat.bm25.topics.beir-v1.0.0-cqadupstack-gaming.test.txt \
+  -bm25 -removeQuery -hits 1000 &
+```
+
+Evaluation can be performed using `trec_eval`:
+
+```
+tools/eval/trec_eval.9.0.4/trec_eval -c -m ndcg_cut.10 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-gaming.test.txt runs/run.beir-v1.0.0-cqadupstack-gaming-flat.bm25.topics.beir-v1.0.0-cqadupstack-gaming.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.100 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-gaming.test.txt runs/run.beir-v1.0.0-cqadupstack-gaming-flat.bm25.topics.beir-v1.0.0-cqadupstack-gaming.test.txt
+tools/eval/trec_eval.9.0.4/trec_eval -c -m recall.1000 src/main/resources/topics-and-qrels/qrels.beir-v1.0.0-cqadupstack-gaming.test.txt runs/run.beir-v1.0.0-cqadupstack-gaming-flat.bm25.topics.beir-v1.0.0-cqadupstack-gaming.test.txt
+```
+
+## Effectiveness
+
+With the above commands, you should be able to reproduce the following results:
+
+| nDCG@10                                                                                                      | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-gaming                                                                            | 0.4822    |
+
+
+| R@100                                                                                                        | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-gaming                                                                            | 0.7651    |
+
+
+| R@1000                                                                                                       | BM25      |
+|:-------------------------------------------------------------------------------------------------------------|-----------|
+| BEIR (v1.0.0): cqadupstack-gaming                                                                            | 0.8945    |