Environment Setup
如何安装 Spark NLP
有关如何使 Spark NLP 在本地计算机上运行的分步教程
Apache Spark 是一个用于快速和通用数据处理的开源框架。它提供了一个统一的引擎,可以以快速和分布式的方式运行复杂的分析,包括机器学习。
Spark NLP 是一个 Apache Spark 模块,它为 Spark 应用程序提供高级自然语言处理 (NLP) 功能。它可用于构建复杂的文本处理管道,包括标记化、句子拆分、词性标注、解析和命名实体识别。
尽管描述如何安装 Spark NLP 的文档非常清楚,但有时您在安装时可能会卡住。出于这个原因,在本文中,我将尝试描述使 Spark NLP 在您的计算机上运行的分步过程。
要安装 Spark NLP,您应该安装以下工具:
- Python
- Java
- Scala
- Apache Spark
- PySpark
- Spark NLP.
1 Python
您已经按照技术要求部分中描述的过程安装了 Python。因此,我们可以从第二步 Java 开始安装软件。
2 Java
Spark NLP 构建在 Apache Spark 之上,可以安装在任何支持 Java 8 的操作系统上。通过在终端中运行以下命令来检查您是否拥有 Java 8:
java –version
如果已经安装了 Java,您应该会看到以下输出:
openjdk version “1.8.0_322”
OpenJDK Runtime Environment (build 1.8.0_322-bre_2022_02_28_15_01-b00)OpenJDK 64-Bit Server VM (build 25.322-b00, mixed mode)
如果未安装 Java 8,您可以从此链接下载 Java 8 并按照向导进行操作。[0]
在 Ubuntu 中,您可以通过包管理器安装 openjdk-8:
sudo apt-get install openjdk-8-jre
在 Mac OS 中,您可以通过 brew 安装 openjdk-8:
brew install openjdk@8
如果您安装了其他版本的 Java,您可以下载 Java 8,如前所述,然后将 JAVA_HOME 环境变量设置为 Java 8 目录的路径。
3 Scala
Apache Spark 需要 scala 2.12 或 2.13 才能正常工作。您可以按照此处描述的过程安装 scala 2.12.15。[0][1]
安装后,您可以通过运行以下命令来验证 scala 是否正常工作:
scala -version
4 Apache Spark
您可以从其官方网站下载 Apache Spark,可在此处获得。 Apache Spark 有很多版本。就个人而言,我已经安装了 3.1.2 版,可以在此处获得。[0][1]
您下载该软件包,然后您可以将其解压缩,并将其放在文件系统中您想要的任何位置。然后,您需要将 spark 目录中包含的 bin 目录的路径添加到 PATH 环境变量中。在 Unix 中,您可以导出 PATH 变量:
export PATH=$PATH:/path/to/spark/bin
然后,将 SPARK_HOME 环境变量与 spark 目录的路径一起导出。在 Unix 中,您可以按如下方式导出 SPARK_HOME 变量:
export SPARK_HOME=”/path/to/spark”
要检查 Apache Spark 是否安装正确,可以运行以下命令:
spark-shell
外壳应该打开:
Welcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ `/ __/ ‘_//___/ .__/\_,_/_/ /_/\_\ version 3.1.2/_/Using Scala version 2.12.15 (OpenJDK 64-Bit Server VM, Java 1.8.0_322)Type in expressions to have them evaluated.Type :help for more information.scala>
要退出 shell,可以使用 Ctrl+C。
5 PySpark 和 Spark NLP
PySpark 和 Spark NLP 是两个 Python 库,可以通过 pip 安装:
pip install pyspark
pip install spark-nlp
现在 Spark NLP 应该已在您的计算机上准备就绪!
Summary
恭喜!您刚刚在计算机上安装了 Spark NLP!您已经安装了 Java、Scala、Apache Spark、Spark NLP 和 PySpark!
现在是玩 Spark NLP 的时候了。网上有很多教程。我建议您从以下笔记本开始:
您还可以查看本教程,该教程解释了如何将 Spark NLP 与 Comet 集成,Comet 是一个用于监控机器学习实验的平台[0]
如果你已经读了这么多,对我来说今天已经很多了。谢谢!您可以在此链接上阅读我的热门文章。[0]
Related Articles
文章出处登录后可见!