论文笔记：The Impact of AI on Developer Productivity:Evidence from GitHub Copilot

扎眼的阳光 • 2023年12月28日下午5:57 • IT • 阅读 104

Table of Contents

0 abstract

本文介绍了一项对GitHub Copilot（一种人工智能编程助手）的控制实验结果。
研究人员招募了软件开发人员，要求他们尽可能快地用JavaScript实现一个HTTP服务器。实验组可以访问人工智能编程助手，比对照组完成任务的速度快55.8%。
观察到的异质性效应表明，人工智能编程助手有望帮助人们过渡到软件开发职业。

1 实验设计

计算了两个指标作为衡量每个组的表现：任务成功率和任务完成时间。
- 任务成功率是指一个组中成功完成任务的参与者所占的百分比。
- 任务完成时间是从任务开始到结束所需的时间
在参与者完成任务后，研究者向他们发送了退出调查的链接。
- 询问了实验组他们在执行任务时发现GitHub Copilot有多有帮助，以及他们估计与不使用GitHub Copilot相比，他们完成任务的速度提高了多少。
- 还要求对照组估计如果他们使用了GitHub Copilot，他们会经历多大的速度提升，这是在向他们展示了一分钟的演示视频之后

2 实验对象

95名开发者被随机分配到对照组和实验组，实验组45人，对照组50人。实验组和对照组各有35名开发者完成了任务和调查
大多数参与者的年龄在25-34岁之间，来自印度和巴基斯坦。
- 这组参与者的特点是相对较低的收入（与美国标准相比，年中位收入在10,000至19,000美元之间）但教育水平较高（大多数人拥有4年制学位及以上）。
- 这个组别的平均编程经验为6年，并且平均报告在一个工作日中花费9小时进行编程。

3 实验结果

实验组——使用copilot

对照组——不适用copilot

3.1 完成时间

实验组的平均完成时间为71.17分钟，对照组为160.89分钟。
- 这代表了55.8%的完成时间缩短。t检验的p值为0.0017，改善的95%置信区间在[21%, 89%]之间。
有四个异常值的完成时间超过300分钟。
- 所有异常值都在对照组，但即使去掉这些异常值，我们的结果依然稳健。
这一结果表明，在我们的实验人群中，Copilot显著提高了平均生产力。

3.2 完成时间在不同维度上是否有差异

然后，论文调查这种效应在不同维度（包括经验、就业状况、收入、教育和软件语言偏好）上是否存在异质性。
- 应用Horvitz-Thomson转换，然后对观测到的转换后结果进行回归分析。
表1中的估计结果报告了这次回归的系数。
- 结果显示，经验较少的开发者（职业编程年数）、编码负载较重的开发者（每天编程时间）、以及年龄较大的开发者（年龄在25至44岁之间的开发者）从Copilot中获益更多。

3.3 受试对象的体验

进行了一项包含两个问题的退出调查，以了解受试对象的体验。
- 首先，要求他们估计Copilot在完成任务方面提供的生产力增益或损失（以百分比表示）。
- 虽然对照组在执行任务期间没有接触到Copilot，但在回答这个问题之前，他们观看了教程视频，因此了解了Copilot的功能。
图7展示了对照组和实验组自我报告的生产力增益估计的分布。
- 平均而言，实验组和对照组的参与者估计生产力增加了35%，与他们实际显示的55.8%的增幅相比，这是一种低估。

3.4 支付意愿

在第二个问题中，参与者被问到他们愿意为获取GitHub Copilot发布通知的最高月价格是多少。
这个问题的目的是了解开发者支付Copilot的意愿，因为这个问题的答案提供了开发者支付意愿的上限。
- 图8展示了对照组和实验组分开的无关价格分布。
  - 实验组的平均无关价格为每月27.25美元，对照组的平均无关价格为每月16.91美元。
  - 这种差异在95%的水平上具有统计学意义。
  - 这一结果间接证明了实验组在任务中受益于Copilot，因为他们的支付意愿显著高于对照组。

文章出处登录后可见！

已经登录？立即刷新

copilot 人工智能

赞 (0)

扎眼的阳光普通用户

0

基于Java+Vue+uniapp微信小程序婚庆摄影系统设计和实现

上一篇 2023年12月28日

Java支付SDK接口远程调试 – 支付宝沙箱环境【公网地址调试】

下一篇 2023年12月28日

此站出售，如需请站内私信或者邮箱！