JohnSnowLabs · maziyarpanahi · Sep 26, 2024 · Nov 21, 2022 · Nov 25, 2022 · Dec 15, 2022
diff --git a/docs/_posts/DevinTDHa/2024-09-23-phi3.5_mini_4k_instruct_q4_gguf_en.md b/docs/_posts/DevinTDHa/2024-09-23-phi3.5_mini_4k_instruct_q4_gguf_en.md
@@ -0,0 +1,120 @@
+---
+layout: model
+title: Phi-3.5-mini Q4_K_M GGUF
+author: John Snow Labs
+name: phi3.5_mini_4k_instruct_q4_gguf
+date: 2024-09-23
+tags: [gguf, phi, open_source, en, tensorflow]
+task: Text Generation
+language: en
+edition: Spark NLP 5.5.0
+spark_version: 3.0
+supported: true
+engine: tensorflow
+annotator: AutoGGUFModel
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+Phi-3.5-mini is a lightweight, state-of-the-art open model built upon datasets used for Phi-3 - synthetic data and filtered publicly available websites - with a focus on very high-quality, reasoning dense data. The model belongs to the Phi-3 model family and supports 128K token context length.
+
+Original model from https://huggingface.co/bartowski/Phi-3.5-mini-instruct-GGUF.
+
+## Predicted Entities
+
+
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/phi3.5_mini_4k_instruct_q4_gguf_en_5.5.0_3.0_1727109802829.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/phi3.5_mini_4k_instruct_q4_gguf_en_5.5.0_3.0_1727109802829.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+import sparknlp
+from sparknlp.base import *
+from sparknlp.annotator import *
+from pyspark.ml import Pipeline
+
+document = DocumentAssembler() \
+    .setInputCol("text") \
+    .setOutputCol("document")
+
+autoGGUFModel = AutoGGUFModel.pretrained() \
+    .setInputCols(["document"]) \
+    .setOutputCol("completions") \
+    .setBatchSize(4) \
+    .setNPredict(20) \
+    .setNGpuLayers(99) \
+    .setTemperature(0.4) \
+    .setTopK(40) \
+    .setTopP(0.9) \
+    .setPenalizeNl(True)
+
+pipeline = Pipeline().setStages([document, autoGGUFModel])
+data = spark.createDataFrame([["Hello, I am a"]]).toDF("text")
+result = pipeline.fit(data).transform(data)
+result.select("completions").show(truncate = False)
+```
+```scala
+import com.johnsnowlabs.nlp.base._
+import com.johnsnowlabs.nlp.annotator._
+import org.apache.spark.ml.Pipeline
+import spark.implicits._
+
+val document = new DocumentAssembler()
+  .setInputCol("text")
+  .setOutputCol("document")
+
+val autoGGUFModel = AutoGGUFModel
+  .pretrained()
+  .setInputCols("document")
+  .setOutputCol("completions")
+  .setBatchSize(4)
+  .setNPredict(20)
+  .setNGpuLayers(99)
+  .setTemperature(0.4f)
+  .setTopK(40)
+  .setTopP(0.9f)
+  .setPenalizeNl(true)
+
+val pipeline = new Pipeline().setStages(Array(document, autoGGUFModel))
+
+val data = Seq("Hello, I am a").toDF("text")
+val result = pipeline.fit(data).transform(data)
+result.select("completions").show(truncate = false)
+```
+</div>
+
+## Results
+
+```bash
++-----------------------------------------------------------------------------------------------------------------------------------+
+|completions                                                                                                                        |
++-----------------------------------------------------------------------------------------------------------------------------------+
+|[{document, 0, 78,  new user.  I am currently working on a project and I need to create a list of , {prompt -> Hello, I am a}, []}]|
++-----------------------------------------------------------------------------------------------------------------------------------+
+```
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|phi3.5_mini_4k_instruct_q4_gguf|
+|Compatibility:|Spark NLP 5.5.0+|
+|License:|Open Source|
+|Edition:|Official|
+|Input Labels:|[document]|
+|Output Labels:|[completions]|
+|Language:|en|
+|Size:|2.4 GB|
diff --git a/docs/_posts/ahmedlone127/2024-07-01-mpnet_base_token_classifier_en.md b/docs/_posts/ahmedlone127/2024-07-01-mpnet_base_token_classifier_en.md
@@ -0,0 +1,91 @@
+---
+layout: model
+title: MPnetForTokenClassification Base Model English
+author: John Snow Labs
+name: mpnet_base_token_classifier
+date: 2024-07-01
+tags: [token_classification, mpnet, ner, en, open_source, onnx]
+task: Named Entity Recognition
+language: en
+edition: Spark NLP 5.4.0
+spark_version: 3.0
+supported: true
+engine: onnx
+annotator: MPNetForTokenClassification
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+Pretrained MPNetForTokenClassification, fine tuned in huggingface in house and then imported to Spark-NLP o provide scalability and production-readiness.
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/mpnet_base_token_classifier_en_5.4.0_3.0_1719843589238.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/mpnet_base_token_classifier_en_5.4.0_3.0_1719843589238.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+
+documentAssembler = DocumentAssembler() \
+    .setInputCol('text') \
+    .setOutputCol('document')
+
+tokenizer = Tokenizer() \
+    .setInputCols(['document']) \
+    .setOutputCol('token')
+
+tokenClassifier  = MPNetForTokenClassification.pretrained("mpnet_base_token_classifier","en") \
+     .setInputCols(["documents","token"]) \
+     .setOutputCol("ner")
+
+pipeline = Pipeline().setStages([documentAssembler, tokenizer, tokenClassifier])
+data = spark.createDataFrame([["I love spark-nlp"]]).toDF("text")
+pipelineModel = pipeline.fit(data)
+pipelineDF = pipelineModel.transform(data)
+
+```
+```scala
+
+val documentAssembler = new DocumentAssembler()
+    .setInputCols("text")
+    .setOutputCols("document")
+
+val tokenizer = new Tokenizer()
+    .setInputCols("document")
+    .setOutputCol("token")
+
+val tokenClassifier = MPNetForTokenClassification.pretrained("mpnet_base_token_classifier", "en")
+    .setInputCols(Array("documents","token")) 
+    .setOutputCol("ner") 
+
+val pipeline = new Pipeline().setStages(Array(documentAssembler, tokenizer, tokenClassifier))
+val data = Seq("I love spark-nlp").toDS.toDF("text")
+val pipelineModel = pipeline.fit(data)
+val pipelineDF = pipelineModel.transform(data)
+
+```
+</div>
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|mpnet_base_token_classifier|
+|Compatibility:|Spark NLP 5.4.0+|
+|License:|Open Source|
+|Edition:|Official|
+|Input Labels:|[token, document]|
+|Output Labels:|[label]|
+|Language:|en|
+|Size:|395.9 MB|
+|Case sensitive:|true|
diff --git a/docs/_posts/ahmedlone127/2024-07-03-mistral_7b_en.md b/docs/_posts/ahmedlone127/2024-07-03-mistral_7b_en.md
@@ -0,0 +1,84 @@
+---
+layout: model
+title: Mistral text-to-text model 7b int8
+author: John Snow Labs
+name: mistral_7b
+date: 2024-07-03
+tags: [mistral, en, llm, open_source, openvino]
+task: Text Generation
+language: en
+edition: Spark NLP 5.4.0
+spark_version: 3.0
+supported: true
+engine: openvino
+annotator: MistralTransformer
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+Pretrained MistralTransformer, adapted and imported into Spark NLP.
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/mistral_7b_en_5.4.0_3.0_1720021606199.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/mistral_7b_en_5.4.0_3.0_1720021606199.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+
+documentAssembler = DocumentAssembler() \
+	.setInputCol('text') \
+	.setOutputCol('document')
+
+mistral = MistralTransformer .pretrained() \
+	.setMaxOutputLength(50) \
+	.setDoSample(False) \
+	.setInputCols(["document"]) \
+	.setOutputCol("mistral_generation")
+
+pipeline = Pipeline().setStages([documentAssembler, mistral])
+data = spark.createDataFrame([["Who is the founder of Spark-NLP?"]]).toDF("text")
+pipelineModel = pipeline.fit(data)
+pipelineDF = pipelineModel.transform(data)
+
+```
+```scala
+
+val documentAssembler = new DocumentAssembler()
+	.setInputCols("text")
+	.setOutputCols("document")
+
+val mistral = MistralTransformer .pretrained()
+	.setMaxOutputLength(50)
+	.setDoSample(False)
+	.setInputCols(["document"])
+	.setOutputCol("mistral_generation")
+
+val pipeline = new Pipeline().setStages(Array(documentAssembler, mistral))
+val data = Seq("Who is the founder of Spark-NLP?").toDS.toDF("text")
+val pipelineModel = pipeline.fit(data)
+val pipelineDF = pipelineModel.transform(data)
+
+```
+</div>
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|mistral_7b|
+|Compatibility:|Spark NLP 5.4.0+|
+|License:|Open Source|
+|Edition:|Official|
+|Language:|en|
+|Size:|6.6 GB|
diff --git a/docs/_posts/ahmedlone127/2024-07-05-phi2_7b_en.md b/docs/_posts/ahmedlone127/2024-07-05-phi2_7b_en.md
@@ -0,0 +1,80 @@
+---
+layout: model
+title: Phi2 text-to-text model 7b int8
+author: John Snow Labs
+name: phi2
+date: 2024-07-05
+tags: [phi2, en, llm, open_source, openvino]
+task: Text Generation
+language: en
+edition: Spark NLP 5.4.0
+spark_version: 3.0
+supported: true
+engine: openvino
+annotator: Phi2Transformer
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+Pretrained phi2 model , adapted and imported into Spark NLP.
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/phi2_en_5.4.0_3.0_1720187078320.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/phi2_en_5.4.0_3.0_1720187078320.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+
+documentAssembler = DocumentAssembler() \
+	.setInputCol('text') \
+	.setOutputCol('document')
+
+phi2 = Phi2Transformer \
+        .pretrained() \
+        .setMaxOutputLength(50) \
+        .setDoSample(False) \
+        .setInputCols(["document"]) \
+        .setOutputCol("phi2_generation")
+
+pipeline = Pipeline().setStages([documentAssembler, phi2])
+data = spark.createDataFrame([["Who is the founder of Spark-NLP?"]]).toDF("text")
+pipelineModel = pipeline.fit(data)
+pipelineDF = pipelineModel.transform(data)
+
+```
+```scala
+
+val documentAssembler = new DocumentAssembler()
+	.setInputCols("text")
+	.setOutputCols("document")
+
+val phi2 = Phi2Transformer         .pretrained()         .setMaxOutputLength(50)         .setDoSample(False)         .setInputCols(["document"])         .setOutputCol("phi2_generation")
+
+val pipeline = new Pipeline().setStages(Array(documentAssembler, phi2))
+val data = Seq("Who is the founder of Spark-NLP?").toDS.toDF("text")
+val pipelineModel = pipeline.fit(data)
+val pipelineDF = pipelineModel.transform(data)
+```
+</div>
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|phi2|
+|Compatibility:|Spark NLP 5.4.0+|
+|License:|Open Source|
+|Edition:|Official|
+|Language:|en|
+|Size:|9.1 GB|