Методология

Откъде идват данните, как са обработени и какви са известните ограничения.

1. Източник на данните

Всички сурови данни са публично достъпни от Централизираната автоматизирана информационна система „Електронни обществени поръчки" (ЦАИС ЕОП) на адрес eop.bg ↗. ЕОП е официалният регистър на Агенцията по обществени поръчки за всички процедури по ЗОП.

Proceno не препубликува необработени документи — всеки запис в базата е извлечен и нормализиран чрез автоматизиран процес.

2. Покритие

  • Период: публикувани процедури от 2018 г. до момента (датата на последния sync се показва в подножието на сайта).
  • Обхват: процедури по ЗОП, публикувани в ЦАИС ЕОП. Не покриваме процедури извън ЕОП (напр. малки поръчки под прага, обявени само на профил на купувача).
  • Тип: строителство, доставки и услуги. Аналитичният фокус е върху строителството (категории като пътно строителство, ВиК, сграден ремонт и др.).

3. Честота на обновяване

Scrape-ърът се пуска ежедневно и добавя новопубликуваните процедури, оферти и сключени договори. Точният timestamp на последния успешен sync е видим в подножието на всяка страница („Обновено преди …").

Старите процедури не се пресвалят при всеки sync — нови данни се добавят инкрементално. Когато ЕОП пусне корекция на стар запис, тя се отразява при следващия пълен rescrape (рядко, на ad-hoc принцип).

4. Обработка на данните

  • Нормализация на цени: всички суми се водят в български лева без ДДС, освен когато ЕОП изрично е публикувал стойност с ДДС — тогава се прави корекция.
  • Нормализация на единици: кубични метри, тонове, линейни метри, кв. метри, броя — конвертирани към canonical форма (напр. „м3", „т", „м", „м2", „бр").
  • Категоризация: поръчките се класифицират в 22 категории чрез хибриден подход: CPV mapping (когато има налични CPV кодове), regex правила върху заглавието и, за част от некласифицираните записи, LLM enrichment с confidence праг и проследим source.
  • Дедупликация на фирми: имена на изпълнители се почистват от кавички, водещи/задни интервали и дублиращи се whitespace символи. Сливания и преименувания на ЮЛ не се проследяват автоматично.
  • Ценови outliers: при изчисляване на средна / медианна цена за дадена позиция не премахваме outlier-и автоматично — показваме целия диапазон. Анализирайте критично, преди да цитирате „средна цена" от много малка извадка.
  • Специализация на изпълнител: в профила на фирма („Специализация — спечелени договори") разпределяме всеки спечелен договор като 1.0 договор-еквивалент, разделен между категориите си пропорционално на броя матнали се КСС позиции. Така един типичен пътен договор с изкопи, бетон, асфалт и ВиК позиции допринася ~0.4 към „Пътно строителство", ~0.2 към „Бетонови работи" и т.н. — а не +1 към всяка от 5-те категории. Сборът на процентите е 100% (преди беше >100% поради multi-label броене — issue #84). Договорите без КСС данни се класифицират по заглавие в една категория (single-label).

5. Известни ограничения

  • Coverage преди 2018 г. е непълен — старите процедури в ЕОП често нямат структурирани оферти или КСС файлове.
  • Не всички сключени договори имат съответстващ КСС файл (тогава единичните цени липсват).
  • Категоризацията е полу-автоматична (CPV + regex + частичен LLM enrichment) — гранични случаи могат да попаднат в „Други" или да останат некласифицирани при ниска увереност.
  • „Прогнозна стойност" в обявлението не винаги съответства на реалната договорна стойност. Двете се пазят като отделни полета.
  • Преименувания на фирми (промяна на ЕИК наименование) не се обединяват — могат да се появят като два отделни записа, докато не се добави ръчно правило за дедупликация.

6. Цитиране

При цитиране е препоръчително да се посочи конкретната версия / дата на достъп:

По данни на proceno.net (достъп: дд.мм.гггг).

За академични цели: при цитиране запиши датата на достъп — версията на данните към тази дата може да бъде възстановена при поискване.

7. Audit trail

Schema-та на базата данни и историята на миграциите са версионирани вътрешно. Всяка промяна в данните или структурата им е проследима назад във времето.

Ако намериш конкретен запис, който изглежда грешен, пиши на hello@proceno.net с линк към процедурата в ЕОП и кратко описание.

Последна актуализация: 05.06.2026