Artur Brugeman,车里雅宾斯克,车里雅宾斯克州,俄罗斯的开发商
Artur is available for hire
Hire Artur

Artur Brugeman

Verified Expert  in Engineering

Web Crawlers Developer

Location
Chelyabinsk, Chelyabinsk Oblast, Russia
Toptal Member Since
August 13, 2014

Artur是一名软件工程师,具有高效开发的能力, robust, 以及处理大型数据集的简单后端解决方案. 他目前的研究重点是大规模的网络抓取和抓取数据的处理.

Portfolio

MegaIndex.com
HTTP API, Libcurl, Protobuf, ZeroMQ, MySQL, Go, c++ 11
Rustoria.ru
Apache, XML, OSGeo, OpenStreetMap API, Mapnik, OpenStreetMap, Linux, Windows...
Papillon.ru
生物识别,面部识别,图像指纹,图像处理,NIST...

Experience

Availability

Part-time

Preferred Environment

Git, Valgrind, GDB, Emacs, Linux

The most amazing...

...我做了一个每天扫描数十亿网页的网络爬虫.

Work Experience

Software Engineer and Architect

2014 - PRESENT
MegaIndex.com
  • 建立了一个每天扫描超过30亿页的网络爬虫, 100x improvement compared to previous system.
  • Implemented highly efficient HTML parser.
  • 为逆链接图构建自定义健壮的分布式数据存储, allowing for very high write/read throughput. 目前存储2000亿个独立链接,从4亿个网站的300亿个抓取页面中找到.
  • Built an HTTP API to access link graph database.
  • 建立了一个服务,执行实时排名建议,而用户输入他们的网站网址, performs up to 100K qps. Compact prefix arrays with pre-build result sets, 实时更新的多线程读取和无锁数据结构.
  • 建立了一个基于链接IP地址数量的网站评级,通过用户输入过滤. Compact suffix arrays for fast filtering, 实时更新的多线程读取和无锁数据结构.
  • 重新建立了一个API,以提供网站搜索引擎排名报告, 实现异步MYSQL客户端库来执行对多个服务器的并发请求.
  • 建立了一个新的存储网站搜索引擎排名, 扩展到每月100亿条记录.
  • 构建了一个服务来聚合来自网络爬虫节点的各种计数器, storing data on 10 billion domain names.
  • 建立了一个HTTP API来访问搜索引擎排名数据库.
  • 上述所有服务的实施都注重成本效益:支持所有上述服务的硬件成本可以忽略不计.
技术:HTTP API, Libcurl, Protobuf, ZeroMQ, MySQL, Go, c++ 11

Software Engineer

2013 - 2014
Rustoria.ru
  • 为世界地图的3D层创建了一个高质量的渲染后端, using OpenGL, NVIDIA Iray, NVIDIA Optix.
  • 使用OpenGL和Qt创建了一个工具来预览3D模型并在世界地图上定位它们.
  • 制作辅助工具以配合OpenStreetMap数据格式(c++、XML).
  • 使用Mapnik, pgSQL, mod_tile, Apache和MapQuest风格设置一个2D世界地图渲染后端.
  • Extended a PROJ.4库添加支持等距投影到Mapnik和更多.
Technologies: Apache, XML, OSGeo, OpenStreetMap API, Mapnik, OpenStreetMap, Linux, Windows, PostgreSQL, MySQL, SQLite, NVIDIA OptiX, NVIDIA Iray, OpenGL, Qt, C++, C

Software Engineer

2007 - 2013
Papillon.ru
  • 为专有的NoSQL数据库创建分布式缓存,以便在大集群上更靠近处理节点的地方提供数据(2013年), ZeroMQ, C, C++).
  • 为专有NoSQL数据库开发分布式文本搜索引擎, 包括高度可扩展的分布式排序(2012-2013), ZeroMQ, ICU, C, C++).
  • 将土耳其国家指纹数据库从五种不同的数据格式进行转换. 建立一个为期一个月的项目,在300个节点的集群上自动处理数据(2013年), C, Oracle, MS SQL, XML, PHP).
  • 为乌兹别克斯坦生物识别护照系统的刑事部门创建决策引擎, 将三个生物识别系统集成到一个解决方案中(2011-2012), Oracle, C, distributed transactions).
  • 重构了一个后端组件,用于聚合来自集群节点的指纹搜索结果. Reduced processing time by 10x. 记录算法并编写可维护的代码(2012年,C语言).
  • 创建一个GUI应用程序来管理集群节点之间的数据分布(2012,c++, Qt).
  • 创建了一个GUI应用程序来控制分布在集群节点之间的AFIS搜索过程. (2012, C++, Qt).
  • Created a web application to train, test, 并检查学习AFIS系统的学生(2010-2011), PHP, MySQL, Apache, JavaScript, jQuery).
  • 建立了一个库,对AFIS搜索结果进行多准则评估(2010,C).
  • 设计了一个数据库,对来自数百个AFIS安装的日常日志进行多维分析. 构建了一个自动将日志导入数据库的过程(2009,MySQL, C).
  • Created an automated system to collect, extract, translate, 并维护约3M的LOC代码库文档(2009年), Doxygen, XSLT, XML, PHP, HTML, JavaScript, Apache).
  • 增加了对文本CRUD应用程序中可自定义表单的支持. Refactored the code. 使用静态分析来查找和删除过时的代码路径(2008,C).
  • 为各种格式的生物特征数据创建了查看器, including NIST, EFTS, Papillon, and Interpol (2007, C++, Qt).
Technologies: 生物识别,面部识别,图像指纹,图像处理,NIST, Berkeley DB, Microsoft SQL Server, MySQL, Oracle, jQuery, JavaScript, HTML, Doxygen, XSLT, XML, PHP, ZeroMQ, Networking, Multithreading, POSIX, Qt, Linux, C++, C

Sobnik

Sobnik是Chrome浏览器的扩展,可以检测俄罗斯房地产公告板上的经纪人. It is actively used by thousands of users. 使用Chrome API, JavaScript, Golang, MongoDB, ZeroMQ,图像处理构建.

Languages

c++, C, XML, XSLT, HTML, c++ 11, PHP, Go, SQL-99, JavaScript

Libraries/APIs

HTTP API, Protobuf, Libcurl, ZeroMQ, OpenGL, OpenStreetMap API, POSIX, jQuery, Node.js, Gmail API, Twitter API, FFmpeg

Other

Web Crawlers, Multithreading, Networking, Image Processing, TCP/IP, Non-blocking I/O, Proxy Servers, WebSockets, Arbitrage, NVIDIA Iray, NVIDIA OptiX, OpenStreetMap, Mapnik, Doxygen, NIST, Image Fingerprinting, Facial Recognition, Biometrics, Lightning Network, OAuth, Bitcoind, P2P, ML Kit, Network Programming

Frameworks

Qt, AngularJS

Tools

V8, Emacs, OSGeo, Apache, Git, Valgrind, GDB

Platforms

Linux, Android, Oracle, Windows

Storage

SQLite, MySQL, Berkeley DB, MongoDB, PostgreSQL, Microsoft SQL Server

Paradigms

Concurrent Programming

2003 - 2008

Bachelor's Degree in Information Technology

南乌拉尔国立大学-车里雅宾斯克,俄罗斯

Collaboration That Works

How to Work with Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

Choose your talent

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

Start your risk-free talent trial

与你选择的人才一起工作,试用最多两周. Pay only if you decide to hire them.

Top talent is in high demand.

Start hiring