Распараллеливание парсинга форматов данных

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Компания Яндекс
Учебный семестр Осень 2018
Учебный курс 3-4-й курс
Максимальное количество студентов, выбравших проект: ?



Иногда узким местом при загрузке данных в ClickHouse является разбор формата входных данных (например, CSV). Хотя в ClickHouse уделено большое внимание, чтобы парсинг форматов был максимально эффективным, он всё же, ограничен скоростью одного процессорного ядра.

Предлагается превзойти это путём распараллеливания парсинга. Для этого в парсер форматов добавляется метод для быстрого получения чанка (куска файла для обработки, не пересекающего границы строк), так что чанки можно обрабатывать параллельно. Это будет полезно сделать для форматов CSV, TSV, JSONEachRow.