Data Engineering

  • 在问题上投入更多计算

    为什么它在长期或短期内都不是一个好的策略——背景 是的,这是查询编写者在面对他们编写了一个错误查询的事实时通常会采取的第一个出路。有时,他们有能力获得更多的计算来解决问题。大多数时候,事实并非如此。设计了…

    2022年6月14日
    1800
  • 解释 SQL 查询以获得更好的性能

    窥探数据库查询执行引擎——背景数据分析师和数据工程师面临的最常见问题之一是非性能查询,通常称为慢查询。这些查询很慢,通常不是因为处理查询的资源短缺,而是因为您编写的查询效率低下,使用了更多……

    2022年6月14日
    1720
  • 如何在 Apache Airflow 中设计更好的 DAG

    设计工作流时需要了解的两个最重要的属性——上周,我们学习了如何快速启动 Apache Airflow 的开发环境。这太棒了!然而,我们还没有学会如何设计一个高效的工作流程。仅仅拥有一个触手可及的好工具并不能单独达成交易——不幸的是。尽管 Apache Airflow 确实…

    2022年6月14日
    3980
  • 遵循这些获取高质量数据的最佳实践

    如何选择正确的工具并将其集成到您的数据管道中——数据摄取可能只是 ETL/ELT 流程中最重要的一步。毕竟,没有数据就无法进行任何转换!数据摄取管道将您的工具和数据库连接到您的数据仓库,即整个数据堆栈的中心。您设置的将数据摄取到……的过程

    技术文章 2022年5月13日
    3120
  • 时间序列数据库的前景

    对当今时间序列数据库的简短调查 – 背景 在使用过一些重要的时间序列数据库产品并从技术爱好者的角度探索了其他产品之后,我认为快速总结一下我所学到的知识可能会有所帮助写上去。当我开始使用 InfluxDB 时,我开始喜欢上时间序列数据库……

    技术文章 2022年5月11日
    4350