Alex is available for hire

Alex Risman

Verified Expert in Engineering

Software Developer

Location

Chicago, United States

Toptal Member Since

September 6, 2018

In Alex's current role, 他利用人工智能在2D和3D医学图像中自动检测疾病，并结合一些算法实现超人的性能. Previously, 他在一家电子商务公司担任数据科学家, 他在哪里建立并部署了一个基于深度学习的产品搜索引擎.

Data Engineering Artificial Intelligence (AI)Deep Learning Computer Vision Natural Language Processing (NLP)R ETL Python Pandas SQL NumPy Keras PySpark Amazon Web Services (AWS)Amazon EC2

Portfolio

Realize

Amazon Web Services (AWS)、Spark、DICOM、Python、Docker、Kubernetes、Keras...

虚拟/增强现实咨询公司

c++， Python, PyTorch, Torch, OpenCV, Amazon SageMaker，对象检测...

Stealth Healthcare Startup

Python, Databricks, XGBoost, NumPy, Pandas, JSON API, JSON, Confluence...

Experience

SQL - 7 years Python - 7 years 亚马逊网络服务(AWS)——5年 Spark - 5 years Kubernetes - 4 years TensorFlow - 4 years Azure - 3 years Google Cloud - 1 year

Availability

Part-time

Preferred Environment

Unix, Git, Jupyter Notebook

The most amazing...

...我开发的软件是一个可以在胸部x光中检测14种不同疾病的工具

Work Experience

CTO

2016 - PRESENT

Realize

获得多项美国专利，结合卷积和循环神经网络，在CT扫描和核磁共振中自动检测疾病, the current state-of-the-art.
为世界上最大的放射集团开发了一个人工智能系统, 作为容器化RESTful API部署, 包括从放射学报告中提取诊断的NLP系统，准确率超过95%.
创建了一种算法，可以在胸部x光片中以世界一流的精度(大于0.9 AUC)，由多个第三方评估确定.
组建并领导创始团队，包括一名营销人员和一名医学博士/博士.担任首席执行官，直到2018年与非洲领先的放射学IT公司合并. 这次合并发生时，我们的实收资本估值超过了30倍.
就人工智能医疗保健应用向政府和非政府组织官员提供建议.

技术:亚马逊网络服务(AWS)、Spark、DICOM、Python、Docker、Kubernetes、Keras, PyTorch, Matplotlib, Seaborn, Image Recognition, TensorFlow, APIs, REST APIs, RESTful Development, Twisted, Open Data, OpenCV, Architecture, Integration, DevOps, Neural Networks, CTO, Microservices

Computer Vision Developer

2021 - 2022

虚拟/增强现实咨询公司

开发了一款“通用绿屏”应用程序，可以实时移除人物背后的移动背景，将该人物的视频叠加到虚拟环境中.g., a video game).
使用Python原型化新功能，并将其移植到c++和OpenCV中以实现实时性能.
与不同的利益相关者合作，确保细分质量的适当平衡, speed, and hardware usage.

Technologies: c++， Python, PyTorch, Torch, OpenCV, Amazon SageMaker，对象检测, Computer Vision Algorithms, Computer Vision

Head of Data and AI

2021 - 2022

Stealth Healthcare Startup

Led a team of data scientists, data engineers, 机器学习工程师正在开发检测医疗保险索赔中潜在错误的系统.
协商数据采购和许可协议.
推动公司围绕第三方软件供应商的选择和购买与构建的讨论做出决策.

Technologies: Python, Databricks, XGBoost, NumPy, Pandas, JSON API, JSON, Confluence, Analytics, Business Intelligence (BI), Software Design, API Integration, 机器学习操作(MLOps), Software Architecture

Interim CTO

2021 - 2021

Blockchain Startup (via Toptal)

带领工程团队开发React和Django应用, enabling users to create, customize, 并根据一组精心策划的数据源分享有关加密市场的信息图表.
定义产品需求并监督其执行.
在2021年迈阿密比特币大会上进行了第一手的市场研究.

Technologies: React, Django, Amazon Web Services (AWS), REST APIs, Leadership, Product Management, IT Project Management, CTO

Python Developer

2020 - 2020

Confidential (MBB Consulting Firm

将我的客户为他们(一家财富500强制药公司)建立的机器学习原型产品化, 将代码库减少数千行, adding modularity, 并且在保留原始输出的同时极大地简化了逻辑.
支持通过配置而不是更改代码来部署新的营销活动.
为所有重构模块编写单元测试，并为整个系统编写端到端自动测试.

Technologies: Python, Pytest, Unit Testing, Refactoring, NumPy, Pandas, Azure, Tableau, Azure Data Lake

Data Engineering Architect

2018 - 2020

机密(美国主要连锁药店，

Created systems, 包括复杂的Spark SQL查询和机器学习模型的深度链, 根据疾病预防控制中心的指南确定1亿多名患者疫苗接种史中的差距，并每天提出个性化的疫苗建议.
开发了一个PySpark方法，可以在不合并到单个分区的情况下向DataFrame添加唯一的18位ID, 消除整个部门的瓶颈.
扩展现有系统，从单个节点通知患者处方已准备就绪, on-premises SQL, to distributed Spark SQL in Azure.
负责数据科学家和数据工程师的招聘.

Technologies: Databricks, Spark, PySpark, Spark SQL, Spark ML, Apache Airflow, SQL, Jira, Agile, Python, Azure, NumPy, Pandas, Scikit-learn, Unit Testing, Big Data, Big Data Architecture, Data Pipelines, Architecture, Integration, Databases, CSV, Legacy Code, Legacy Software, Data Analysis, Data Analytics, Data

Spark Consultant

2018 - 2018

FLYR

优化了运行在GCP上的现有yarn管理的PySpark作业，减少了80%以上的运行时间和成本.
培训客户员工Spark和数据工程的最佳实践.
使用敏捷方法管理我的工作，包括与Jira一起进行每日scrum和冲刺计划.

技术:谷歌云平台(GCP), Google Cloud Dataproc, Spark, PySpark, Spark ML, BigQuery, Kubernetes, YARN, Agile, Jira

Data Scientist

2013 - 2017

McMaster-Carr Supply

构思并开发了一个基于深度学习的电子商务搜索引擎，该引擎使用循环神经网络对数百万客户搜索进行NLP模型训练, 将给定搜索以“add to order”结束的概率增加1.07%.
用R/ggplot2估计和可视化“打卡”采购软件对销售的因果关系, 使用30个客户在激活前后两年内每月销售数据的面板数据集.
使用Neo4J图形数据库和R构建跟踪和分析A/B测试的系统，并使用验证假设和估计优势和非劣效试验中的治疗效果的方法.
开发了一个机器学习模型，根据供应商的描述来决定为客户采购的非目录产品是否需要危险处理, achieving .AUC 99，准确率98%，检测无假阴性.
使用Scikit-learn和Pandas在Python中设计了上述机器学习模型.
在最流行的Accord上用c#实现了一个随机森林算法 .NET ML framework, for production; Random Forest pull request to Accord accepted to master branch.
Prototyped the above machine learning model in R using Random Forest; the implementation is pending production.

技术:Theano, Keras, Scikit-learn, NumPy, Pandas, Python, c#.NET, Neo4j, Splunk, Time Series, Time Series Analysis, Forecasting, Supply Chain Management, Supply Chain Optimization, Recommendation Systems, C#, Cypher, .. NET，电子商务，HTML, Elasticsearch, Solr，可扩展性，搜索引擎，数据可视化

Experience

基于序列卷积和循环神经网络的体积图像异常检测

http://patents.google.com/patent/US10347010B2/en

我创造了现在最先进的用于分析CT扫描的深度学习架构. 提供了在体积图像中进行异常检测的计算机实现方法和设备. 利用二维卷积神经网络(CNN)对体积图像中的切片进行编码, such as a CT scan. CNN可以使用输出层进行训练，该输出层随后在使用CNN作为编码器期间被省略. 将CNN编码器输出应用于递归神经网络(RNN)。, 比如长短期记忆网络. RNN可以输出各种存在的指示, probability, 和/或在体积图像中的异常位置.

CT Lung Nodule Detection

http://www.youtube.com/watch?v=X_8bpuL0G3Q

我开发了一个人工智能软件，可以自动检测出放射科医生经常遗漏的肺结节，在CT扫描中可以预示癌症. 所附的链接指向一个演示人工智能结果的视频，并将其集成到放射学工作流程中.

放大音乐|加州大学伯克利分校硕士项目

我部署并使用了一个Spark集群，使用音量数据来预测the Echo Nest的百万歌曲数据集中的歌曲类型, tempo, pitch, and “danceability”. 我还编写了使用Spark的MLlib来训练模型的代码.

多个开源深度学习模型在胸部x射线上检测COVID-19的评估

http://pubmed.ncbi.nlm.nih.gov/35005058/

我是一项利用人工智能检测COVID-19的国际研究的主要研究者和第一作者, 发表在同行评议的医学杂志上.

Abstract
目的:在2019冠状病毒病大流行背景下, 使用人工智能(AI)快速分类病例和排除其他病理可以帮助过度紧张的放射科.
我们的目标是在一个外部测试集上验证三个开源AI模型.

Approach:
我们测试了三个开源的深度学习模型, COVID-Net, COVIDNet-S-GEO, and CheXNet, 利用来自两家不同供应商的129张胸部x光片检测COVID-19肺炎并确定其严重程度的能力. 结果:三种模型均检测到COVID-19肺炎. Only the COVID-19 Net-S-GEO and CheXNet models performed well on severity scoring; COVID-Net only performed well at either task on images taken with a Philips machine (AUC 0.735)，而不是爱克发机器(AUC 0.598).

Conclusions:
利用现有的机器学习模型对COVID-19肺炎进行胸部x线分诊，可以利用开源人工智能模型成功实施. 强烈建议在实施之前使用本地x光机和协议对模型进行评估，以避免供应商或协议相关的偏差.

获取和分析SEC 10K备案管理层的情绪数据的讨论与分析

http://s3-us-west-2.amazonaws.com/riteshsoni/papers/MDA_Analysis.pdf

摘要:美国证券交易委员会(SEC)是监管美国金融市场的机构. 对证券市场参与者的一项要求是向公众披露信息. 美国证券交易委员会EDGAR(电子数据收集)
分析与检索数据库汇集并传播公开披露的数据. 市场参与者填写并以电子方式向EDGAR提交的表格有100多种. 这个项目的重点是一个非常重要的文件类型，10-K. 上市公司定期披露有关公司运营的全面信息. 这个项目演示了数据收集, manipulation, 以及利用Hadoop数据处理框架进行快速数据分析的10-K文件分析(基于NLP的情绪分析).

Skills

Languages

Python, R, SQL, c#， Cypher, c++， HTML, c#.NET, JavaScript, Scala

Frameworks

Spark, Apache Spark, .. NET, Hadoop, YARN, Twisted, Django

Libraries/APIs

PyTorch, OpenCV, PySpark, Pandas, Scikit-learn, TensorFlow, Keras, NumPy, SciPy, Theano, MLlib, Spark ML, Matplotlib, React, REST APIs, XGBoost, JSON API

Tools

Spark SQL, Apache Airflow, Jira, Tableau, Jupyter, Git, Google Cloud Dataproc, BigQuery, Pytest, Seaborn, Splunk, Collada, CAD, Amazon SageMaker, Confluence, Solr

Paradigms

Data Science, ETL, DevOps, RESTful Development, Distributed Computing, Agile, Parallel Computing, Unit Testing, Refactoring, Business Intelligence (BI), Microservices

Platforms

Databricks, Amazon Web Services (AWS), Amazon EC2, Kubernetes, Docker, NVIDIA CUDA, Ubuntu, Linux, Azure, Jupyter Notebook, Unix, Google Cloud Platform (GCP), Apache Kafka

Storage

Amazon S3 (AWS S3), Neo4j, PostgreSQL, Data Pipelines, Cassandra, Google Cloud, Databases, JSON, Elasticsearch

Other

APIs, Image Analysis, 3D Image Processing, Image Processing, Machine Learning, Data Engineering, Big Data, Big Data Architecture, Architecture, Integration, Neural Networks, Time Series, Time Series Analysis, Artificial Intelligence (AI), Deep Learning, Random Forests, Computer Vision, Natural Language Processing (NLP), Convolutional Neural Networks, Recurrent Neural Networks (RNNs), GPU Computing, Graphics Processing Unit (GPU), Software Design, API Integration, Recommendation Systems, Data Analysis, Data Analytics, Data, eCommerce, 机器学习操作(MLOps), Statistical Modeling, Mathematical Modeling, Statistical Methods, Object Detection, Algorithms, Computer Vision Algorithms, GPT, 生成预训练变压器(GPT), Data Modeling, Object Tracking, OCR, Video Analysis, Legacy Code, Legacy Software, DICOM, Economics, Image Recognition, Apache Cassandra, Open Data, Forecasting, 3D CAD, Leadership, Product Management, IT Project Management, Torch, CTO, Azure Data Lake, CSV, Supply Chain Management, Supply Chain Optimization, Technical Writing, Writing & Editing, Statistics, Point Clouds, Analytics, 生成对抗网络(GANs), Software Architecture, Scalability, Search Engines, Data Visualization

Education

2014 - 2015

信息与数据科学硕士学位

加州大学伯克利分校-美国加州伯克利

2009 - 2013

社会科学、经济学数学方法学士学位

西北大学-埃文斯顿，伊利诺伊州，美国