Allen Gary Grimm,美国波特兰的开发者
Allen is available for hire
Hire Allen

Allen Gary Grimm

Verified Expert  in Engineering

Agile Data Science Developer

Location
Portland, United States
Toptal Member Since
November 5, 2014

艾伦被抽象与现实的交集所吸引,他在数据科学中找到了自己的使命. 在机器学习方面接受过正式培训,在将机器学习作为原型应用到生产过程中具有广泛的经验, 他的专长是为复杂的数据建模问题寻找和实现可处理的解决方案.g., user behavior prediction, recommender systems, NLP, spam filters, deduplication, or feature engineering.

Portfolio

Grimm Science
亚马逊网络服务(AWS)、DigitalOcean、谷歌云、敏捷、机器学习...
CVS
Python, PySpark, Databricks, Apache气流,MLflow,决策树...
Doing, Inc.
Doc2Vec,图论,神经网络,Tf-idf, SQLAlchemy, Python...

Experience

Availability

Part-time

Preferred Environment

Git, Python, Linux

The most amazing...

...我编写的是一种进化算法,用来发展复杂的网络,代表大规模并行处理器,以研究新线路类型的潜力.

Work Experience

Founder, Engineer, and Data Scientist

2016 - PRESENT
Grimm Science
  • 基于逻辑回归和几次完全以语言特征为中心的特征工程迭代,为网站构建了一个高质量的垃圾邮件过滤器.
  • 使用AWS Rekognition开发图像和视频分类,从媒体中提取关键字.
  • 重写了用Lambda封装的dynamodb支持的CloudSearch实现. Started from a failed proof of concept.
  • 为客户用例编译并配置约束满足代码(SCIP). 将软件调用封装在Docker容器中,并使用AWS Batch将其作为服务部署.
  • 构建自定义推荐系统-隐式用户-项目协同过滤器,根据产品定制返回相关人员. 将它封装在Django项目中,使用DRF作为API,为承包商制作的web界面提供支持.
  • 使用卷积神经网络在埃及Hieratic上创建OCR.
  • 使用一个简单的GNU Wget和一个动态导航站点的bot执行了几次web抓取.
  • Debugged, updated, and cleaned inherited Looker Integration, now a part of Google Cloud, 启用内部和外部分析仪表板.
  • 使用TF-IDF和word2vec实现从简历和欧博体育app下载中提取关键字.
Technologies: 亚马逊网络服务(AWS)、DigitalOcean、谷歌云、敏捷、机器学习, Python, Amazon S3 (AWS S3), AWS Lambda, Amazon EC2, REST APIs, PySpark, Multi-Armed Bandit, A/B Testing, Uplift Modeling, SQL

Senior Data Scientist and Data Engineer

2019 - 2021
CVS
  • 在具有数百万行和数百个变量的基准数据集上,优化了基于pyspark的提升模型,将运行时间从8小时减少到5分钟.
  • 将Uplift模型打包成一个适当版本的pip可安装包,在整个团队中共享.
  • 添加MLflow接口来提升模型,以适应团队模型管道的其余部分.
  • 将基于树的隆升模型的决策功能更新到最前沿, 将整个团队的平均模型性能提高了50个BPS.
  • 帮助重构实验管道,以便更好地使用气流和PySpark,将扩展性差的管道重新纳入SLA需求.
Technologies: Python, PySpark, Databricks, Apache气流,MLflow,决策树, Gradient Boosted Trees, Azure, Uplift Modeling, A/B Testing, Multi-Armed Bandit, SQL

Data Scientist and Web Developer

2016 - 2017
Doing, Inc.
  • 领导确定和选择机器学习的可能用途, prototyping chosen initiatives, and productizing final models.
  • 对规范化项目的开发做出了贡献. Doing的核心数据是从几个主要的事件发布者那里收集来的事件帖子. Through this, 我们经常遇到源之间重复的位置以及源之间和源内部重复的事件. A distance-based test done theoretically comparing every event to every other event (but optimized enough to be computationally feasible; almost fast) or every location to every other location let us find events and locations that were so similar they were likely the same. 这个项目是通过产品化从零开始构建的.
  • Helped build a tag extraction project. To help users quickly understand events, 为每个事件附加一个有效标记的简短列表是很有用的. 这个项目使用Doc2vec和Tf-idf的集合进行原型化. 通过谷歌Docs系统地生成调查,让团队对生成的标签质量给出反馈,验证了这一点.
  • Helped build a categorization project. Similar to tags, 分类有助于我们更好地理解事件,并帮助用户更好地导航可用事件. 这也是使用Doc2vec将每个事件与可用类别的白名单进行比较的原型(这来自于选择我们的数据源列出的最受欢迎的类别). This one reached the stage of prototype.
  • 对DoingRank项目的开发做出了贡献. 考虑到完全缺乏用户数据(初创公司的应用程序仍未发布),但重要的事件数据, none of the supervised recommender algorithms fit. 所以第一个版本(几乎没有达到原型阶段)有两个组件. The first, to encode an abstract notion of event quality, 在好的事件发布中,是否期望有一个数学化的属性直觉(与描述匹配的标题), consistent event postings, etc). 第二部分是用户特定的,通过标签/类别映射rsvp和其他直接应用程序交互,形成一个高层次的偏好概念.
技术:Doc2Vec,图论,神经网络,Tf-idf, SQLAlchemy, Python, Amazon S3 (AWS S3)

Senior Data Scientist

2014 - 2016
Veelo
  • 构思、原型化和产品化数据科学计划. 研究模型并将有价值的模型写入应用程序.
  • 根据用户对内容的消费和反应,创建了应用于内容的相关性评分模型. It was a mathematical equivalent to a neural network, 虽然培训主要是通过采访领域专家,由于可用的数据很少.
  • 开发了一个模型,该模型根据谁在哪个上下文中消费了什么内容来生成附加到内容的标签. For example, 如果很多销售人员都使用了一份文件,而没有其他人接触它, the content is probably for salespeople.
  • 记录和识别当前面向客户的报告基础结构中的漏洞. Built new reports into the app as appropriate. 我的贡献主要集中在后端,但偶尔也需要前端工作.
  • 升级当前的搜索引擎,包括拼写检查, faceting on our current tag infrastructure, and autocomplete.
Technologies: Angular, JavaScript, HTML, Django REST Framework, SQLAlchemy, Solr, Haystack, Git, Django, Python, REST APIs, SQL, Elasticsearch

Data Scientist

2014 - 2014
Cloudability (via Grimm Science)
  • Surveyed time series prediction methods.
  • 对时间序列预测应用于R中的服务器使用情况进行了案例研究.
  • 用Python从头开始编写所选时间序列模型(holt winters)的产品质量实现.
  • 根据性能校准预测间隔(预测的预期准确性), and trained and tested sets of data.
  • 文档化的模型实现和测试过程,使客户的工程团队能够将模型构建到他们的仪表板中.
Technologies: Holt-Winters, R, Python

Senior Data Scientist

2014 - 2014
Sovolve (via Grimm Science)
  • 对用户活动和交互进行建模,通过将内容过滤为可能最有趣和最有用的内容来优化用户体验.
  • 帮助构建后端数据基础设施,以提高应用程序性能并为可扩展性做好准备.
  • Conducted A/B studies to help with product decisions.
  • 将用户行为分成不同的、可理解的部分.
  • 执行并在内部发布应用的病毒式传播,以报告产品成功并指导产品决策.
技术:Mixpanel, Neo4j, PostgreSQL, Python, Linux, REST api

Data Scientist

2012 - 2014
PlayHaven
  • Modeled and predicted user behavior in mobile games. 核心项目包括流失预测和用户路径预测.
  • 管理数据科学和工程之间的关系,以促进计划的产品化.
  • 进行特别的高级分析,以协助产品决策,并为未来的数据建模提供思路.
  • 重建的系统日志:解决了观察到的设备标识符中的错误,并标记了无效的日志条目. More precisely, 任务是使用Hadoop Streaming和Python编写一个迭代mapreduce算法来解决数十亿节点网络中所有连接的组件.
  • 招募、培训和管理小型实习生团队以协助项目.
技术:Hadoop, R, GitHub, Python, Linux, Amazon S3 (AWS S3), Amazon EC2, REST api

Data Miner, Software Engineer, and Data Engineer

2011 - 2012
Nike Sport Research Lab
  • Demoed data mining.
  • Defined roles for new full-time data miners in a lab.
  • 创建了一个数据库架构,以集中实验室的数据收集和分析.
  • 与研究人员合作,将他们的个人研究数据导入一致的格式.
  • 联络实验室研究人员和Wolfram团队建立中央数据库.
Technologies: Wolfram, MySQL, Python, C++, REST APIs

Research Assistant

2010 - 2011
Portland State University - Teuscher Lab
  • 使用库ParadisEO在c++中构建了一个进化算法来进化复杂的网络.
  • 编写了一个网络评估实用程序来模拟流量并计算网络上的其他指标,这些网络表示具有非传统互连的大规模并行处理器.
  • 建立并记录实验过程,使大学内外的研究人员能够使用我的框架.
  • 进行实验,将链路的属性与它最适合使用的网络类型联系起来.
  • 撰写了一篇关于框架创建和初步实验结果的论文.
技术:网络分析、仿真、进化算法、ParadisEO、c++、Linux

PDX Data

http://www.meetup.com/Portland-Data-Science-Group/
我创建了一个本地数据聚会,后来发展成为波特兰地区组织良好的数据聚会集群. Within that cluster, 我也是参加人数最多,也是两个最活跃的数据聚会之一的负责人

The website for the cluster is http://pdxdata.org/

我参与最多的聚会的网站是http://www.meetup.com/Portland-Data-Science-Group/

Churn Precition with Graphical Models

我的旗舰项目让我从一个数据挖掘者变成了一个数据科学家. 我做过的幻灯片和其他演讲可以在这里找到:http://github.com/TheGrimmScientist/SlidesFromTalks.

Trials and Tribulations of a Data Scientist

My blog on data science. 我计划将其发展成为数据科学教育的独立资源,包括从业务到理论和执行的所有内容.

An Exploration of Heterogeneous Networks On Chip

http://pdxscholar.library.pdx.edu/cgi/viewcontent.cgi?article=1184&context=open_access_etds
My thesis, 这篇文章探讨了链接属性和最佳构建网络属性之间的关系.

引文和其他元数据可在这里获得:http://archives.pdx.edu/ds/psu/7239

Discrete Multivariate Modeling Simulator

http://github.com/TheGrimmScientist/DMM_Sim
这是我拥有并可以分享的最新代码示例. 它将成为Occam3的开源版本(http://dmm).sysc.pdx.edu/weboccam.cgi?行动=搜索),这是我用于流失预测的建模技术.

Languages

Python, SQL, Wolfram, HTML, c++, C, R, Octave, JavaScript

Libraries/APIs

Scikit-learn, SQLAlchemy, Django ORM, Matplotlib, PySpark, REST api, Pandas

Tools

IPython Notebook, Apache Solr, Haystack, Git, GitHub, Solr, Doc2Vec, Vagrant, Occam3, MATLAB, Boto 3, Apache Airflow

Paradigms

数据科学,测试驱动开发(TDD),敏捷软件开发,敏捷

Platforms

Linux, AWS Lambda, Amazon EC2, Mixpanel, DigitalOcean, MacOS, Windows, AWS Elastic Beanstalk, Amazon Web Services (AWS), Databricks, Azure

Other

Agile Data Science, Decision Trees, Random Forests, Neural Networks, Cython, Uplift Modeling, Machine Learning Operations (MLOps), A/B Testing, Multi-Armed Bandit, Simulated Annealing, Graphical Models, Evolutionary Algorithms, Markov Model, ParadisEO, Simulations, Network Analysis, Holt-Winters, Tf-idf, Graph Theory, Machine Learning, SVMs, Regression, Lambda Functions, Mixed-integer Linear Programming, MLflow, Gradient Boosted Trees

Frameworks

Django, Django REST框架,Angular, Apache Spark, Hadoop, Flask, AngularJS

Storage

PostgreSQL, MySQL, Amazon DynamoDB, NoSQL, Redshift, Column-oriented DBMS, Neo4j, HDFS, Amazon S3 (AWS S3), Elasticsearch, Google Cloud

2009 - 2011

Master of Science Degree in Electrical Engineering

Portland State University - Portland, Oregon

2005 - 2009

Bachelor of Science Degree in Electrical Engineering

Gannon University - Erie, Pennsylvania