Распараллеливание парсинга форматов данных — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(Новая страница: «{{Карточка_командного_проекта |name=Распараллеливание парсинга форматов данных |company=Яндек…») |
(нет различий)
|
Текущая версия на 14:45, 15 октября 2018
| Компания | Яндекс |
| Учебный семестр | Осень 2018 |
| Учебный курс | 3-4-й курс |
| Максимальное количество студентов, выбравших проект: ? | |
Иногда узким местом при загрузке данных в ClickHouse является разбор формата входных данных (например, CSV). Хотя в ClickHouse уделено большое внимание, чтобы парсинг форматов был максимально эффективным, он всё же, ограничен скоростью одного процессорного ядра.
Предлагается превзойти это путём распараллеливания парсинга. Для этого в парсер форматов добавляется метод для быстрого получения чанка (куска файла для обработки, не пересекающего границы строк), так что чанки можно обрабатывать параллельно. Это будет полезно сделать для форматов CSV, TSV, JSONEachRow.