Прогнозная аналитика в биотехнологии
14 августа
Статьи

Перспективы больших данных

Готовы услышать невероятную правду? Национальный научно-исследовательский институт генома США подсчитал, что:

  • в начале 2007 года декодирование всего генома стоило бы около 10 миллионов долларов.
  • Благодаря разработке секвенсера следующего поколения, его стоимость теперь приближается к 1000 $ за каждый геном.

Более того, теперь этот процесс занимает считанные часы.

Но геномика – это не единственная область, на которую оказывают влияние большие данные. Как пишет Райан Макбрайд в своей статье «10 причин, почему биотехнология нуждается в больших данных», глубокий анализ данных приводит к появлению целого ряда прибыльных бизнес-возможностей для отраслей экономики.

Геномика

Возьмем, к примеру, геномику. В количественном отношении каждый человеческий геном состоит из 20 000-25 000 генов, состоящих из 3 миллиардов пар оснований. Это около 3 гигабайт данных.

Бонни Фельдман в своей статье «Геномика и роль больших данных в персонализации опыта здравоохранения» отмечает:

  • Секвенирование миллионов человеческих геномов позволило бы получить сотни петабайт данных.
  • Анализ взаимодействия генов еще больше увеличивает количество данных.

В дополнение к данным по секвенированию в хранилища данных вводятся огромные объемы информации об аннотациях структуры/функции, корреляции болезней, популяционной изменчивости… Этот список можно продолжать еще долго. Компании-разработчики ПО ни на минуту не прекращают разработку инструментов и продуктов для анализа этих скрытых сокровищ.

Например, RainDance Technologies предоставляет исследователям, университетам и частным компаниям геномные инструменты, используемые для ультрачувствительного обнаружения рака и наследственных заболеваний.

  • В 2013 году RainDance выделила 35 млн. долларов на финансирование коммерческой экспансии продукции компаний Digital PCR и Next Generation Targeted DNA Sequencing.

Используя среду Google в качестве отправной точки, в NextBio создали платформу, которая позволяет биотехнологам искать информацию о медико-биологических разработках, обмениваться данными и сотрудничать с другими исследователями.

  • В 2012 году NextBio и Intel объявили о партнерстве, направленном на оптимизацию и стабилизацию стека Hadoop и развитии использования больших технологий данных в геномике.

Микрофлора человека

Хотя в наше время геномике отводят ведущую роль, есть много других областей в биотехнологиях, оперирующих большими данными.

Действительно, когда дело доходит до человеческих микробов - бактерий, грибков и вирусов, которые живут на нас или внутри нас, мы говорим о просто астрономическом количестве данных. Ученые проекта «Микробиом человека» НИЗ насчитывают более 10000 микробов в организме человека, у которых в 100 раз больше генов, чем в собственных клетках организма.

Чтобы определить, какие микробы являются наиболее важными для нашего здоровья, исследователи из Гарвардского института общественного здравоохранения использовали уникальные вычислительные методы для идентификации примерно 350 наиболее важных микроорганизмов в их микробных сообществах.

С помощью секвенирования ДНК они отсортировали 3,5 терабайта геномных данных и определили генетические «метки имени» - специфичные последовательности для этих ключевых бактерий. Затем они смогли определить, где и как часто эти маркеры прослеживаются у здорового населения.

Это дало им возможность систематизировать более 100 условно патогенных микроорганизмов и понять, где эти микроорганизмы обычно встречаются в микробиоме.

Как и в области геномики, здесь также множество стартапов: Libra Biosciences, Vedanta Biosciences, Seres Health, Onsel, стремящихся извлечь выгоду из новых открытий.

Краудсорсинг

В 2011 году поклонникам онлайн-игры под названием Foldit потребовалось три недели, чтобы создать точную трехмерную модель фермента ретровирусного протеаза M-PMV. Структура фермента, играющего важную роль в распространении вируса, похожего на ВИЧ, у макак-резусов, ускользала от исследователей на протяжении пятнадцати лет.

В январе 2012 года игроки добились еще одного замечательного успеху – первого краудсорсингового редизайна белка. Путем добавления 13 аминокислот в фермент, катализирующим реакции Дильса-Альдера, игроки Foldit увеличили свою активность более чем в 18 раз.

В мире социальных сетей, интернет-сообществ и проектов, финансируемых государством, краудсорсинг стал неотъемлемой частью жизни людей. Дальновидные ученые начали использовать эту коллективную мудрость для развития своих научно-исследовательских разработок.

Они также сотрудничают с частными компаниями для доступа к информации. Компания 23andMe сделала себе имя, предложив тест-набор персонального генома. Клиенты предоставляют образец слюны, а компания дает онлайн-анализ унаследованных признаков, раскрывает генеалогию и возможные врожденные факторы риска.

Их постоянно растущий банк цифровых данных о пациентах, включая одну из крупнейших баз данных о генах, способствующих болезни Паркинсона, обеспечил компании ведущие позиции на рынке. В последние годы они

  • проводили тестирование и сотрудничали с университетами и учреждениями, занимающимися исследованиями болезней.
  • получили свой первый генетический патент "Полиморфизмы, связанные с болезнью Паркинсона"
  • выкупили у CureTogether управляемую пациентом онлайн-платформу, предоставляющую инструментарий и результаты медицинских исследований, позволяющие пользователям отслеживать состояние их здоровья

Синтез разнообразных данных

Возможно, самой большой проблемой для биотехнологов – это синтез. Как ученые могут объединять большое количество разнообразных наборов данных - геномные, протеомические, фенотипические, клинические, семантические, социальные и т. д. - в единое целое?

Многие группы разработчиков готовы ответить на эти вопросы:

  • Cambridge Semantics разработала сложные семантические веб-технологии, которые помогают фармацевтическим компаниям сортировать и выбирать, какие компании приобретать и какие лекарственные препараты лицензировать.
  • Специалисты по теории и методам анализа данных, работающие в Институте Брода Массачусетского технологического института и Гарвардского университета разработали интегрированное программное обеспечение Genomics Viewer (IGV) с открытым исходным кодом, которое позволяет осуществлять интерактивное исследование больших интегрированных наборов данных о геноме.
  • GNS Healthcare использует коммерческое причинно-следственное Байесовское сетевое моделирование и программные средства имитационного моделирования для анализа разнообразных наборов данных и создания прогностических моделей и сигнатур биомаркеров.

Благодаря массивам данных, увеличивающихся с каждой минутой, ученые не страдают из-за нехватки исходного материала.

Риски и правила работы с данными

Подходите к выбору данных разумно

Что означает эта фраза? Что у каждой розы есть шипы? В области биотехнологий каждое открытие имеет свои побочные эффекты.

Как предостерегает вице-президент по информационным научно-исследовательским разработкам AstraZeneca Джон Рейндерс в статье «Большие данные пришли в биотехнологию. Что теперь?» Генерация гипотез и прогностическая аналитика немного проще, когда вы просто пытаетесь угадать, кто какие книги предпочитает. С другой стороны, геномные данные гораздо более сложны и обширны.

Объем, скорость и разнообразие (3V - volume, velocity, variety) данных также вызывают головную боль. Когда постоянно сталкиваешься с растущей как снежной ком информацией, требуются хорошие профессиональные навыки, чтобы понять, какие вопросы нужно задавать и как лучше всего найти на них ответы.

Из-за чрезмерного энтузиазма, специалисты по обработке и анализу данных рискуют предпочесть один источник данных другому. Что это? Письменные заключения врачей? Случайные разговоры в больничных коридорах? Такого рода неструктурированные данные редко попадают в банки данных.

Исполнительный директор Warp Drive Bio Алексис Бориси высказывается в более прозаической форме: "Наши беспристрастные, феноменальные данные - это полный отстой".

Эти проблемы решаемы, но их много. С ростом объемов, скорости поступления и разнообразия данных, биотехнологическим компаниям следует вести себя осторожно, чтобы не оказаться предвзятыми и высокомерными.

Я бы хотел сохранить это в секрете

В отличие от Европы, в США отсутствует основополагающий закон о защите данных. Тем не менее, существует большое количество законодательных актов, как на федеральном уровне, так и на уровне штатов, которые касаются компаний, занимающихся персональными данными. Эти законы и акты могут варьироваться в зависимости от той или иной отрасли.

Например, биотехнологические компании, которые сотрудничают с поставщиками медицинских услуг, могут столкнуться с действием Закона о преемственности и подотчетности медицинского страхования (HIPAA). Принятое в 1996 году правило конфиденциальности HIPAA гласит, что компании, на которые распространяется их действие, должны обеспечить:

«Защиту медицинских записей отдельных лиц и другой личной медицинской информации, требуя надлежащих гарантий для защиты конфиденциальности, установления пределов и условий использования и раскрытия информации, которые могут проистекать из такой информации без разрешения пациента».

Забегая на шаг вперед, Закон от 2009 года "О применении медицинских информационных технологий в экономической деятельности и клинической практике" делает закон "Об ответственности и переносе данных о страховании здоровья граждан" применимым к деловым партнерам.

Компании, которые намерены хранить персональные данные, также должны знать о строгих законах, применяемых для защиты потребителей в США. Федеральная торговая комиссия обладает всеми полномочиями для приведения в исполнение принудительных мер для обеспечения того, чтобы компании выполняли свои обещания в области конфиденциальности.

История «анализа данных и биотехнологии»

"Большие данные только становятся такими же внятными, как вопросы, относящиеся к ним. Именно человеческий фактор оказывается в центре внимания, когда речь идет об исследовании этих данные", – Джон Рейндерс.

В последний день февраля 1953 лохматые американец и британец ввалились в Игл-паб в Кембридже. В обеденное время паб был наполнен шумом и дразнящим ароматом мяса с овощами. "Мы нашли секрет жизни!" – ошарашил они посетителей.

В той или иной степени – это миф, относящийся к открытию Джеймсом Уотсоном и Фрэнсисом Криком структуры ДНК. Хотя в нем и игнорируется роль Розалинды Франклин и других, он намекает на один неоспоримый факт - невероятный скачок вперед, который биотехнология (и анализ данных) совершили в 20-м веке.

Ломая барьеры

Можно сказать, что современная биотехнология берет свое начало в 1917 году. Именно в тот год инженер-механизатор из Венгрии Кароли Эреки впервые использовал это слово в своей книге "Биотехнология производства мяса, жира и молока на крупномасштабной сельскохозяйственной ферме". Для Эреки биотехнология была средством в достижении цели: "способом, посредством которого сырье может быть биологически модернизировано в общественно полезные продукты".

Большие объемы научных данных были, конечно, неотъемлемой частью развития отрасли. По мере того, как мир путешествий и телекоммуникаций сужался, расширялись также возможности для обмена информацией.

Война ускорила этот процесс. При небольшом содействии Александра Флеминга и Клодомиро Пикадо Твит были предприняты скоординированные усилия для массового производства чудодейственного препарата под названием пенициллин. К 1943 году учеными были найдены заплесневелые дыни в Пеории, содержащие лучший штамм для его производства. К 1944 году перед высадкой в Нормандии в наличии уже было 2,3 миллиона доз.

Взлет генетики

Затем появилась генетика. В 1958 году впервые был осуществлен синтез ДНК в пробирке. В 1981 году ученые из Университета Огайо с помощью метода встраивания мышам генов других животных получили первых трансгенных животных. Год спустя, Управление по санитарному надзору одобрило первый биотехнологический лекарственный препарат (человеческий инсулин) с использованием генетически модифицированных бактерий.

Эти открытия дополнялись и подпитывались технологическими достижениями. В середине 1970-х годов автоматизация секвенирования белков и ДНК становится реальностью. Спустя десятилетие ученые смогли получить удаленный доступ к огромным объемам данных, хранящихся в центральных компьютерных хранилищах данных.

Многие биотехнологи были готовы поделиться своими результатами с коллегами. В 1977 году Роджер Стаден и его группа из Кембриджа разработали пакет Staden Package для секвенирования ДНК, первоначально доступный научным сотрудникам, а затем и всем остальным, поскольку он базировался на открытом исходном коде.

В Соединенных Штатах НИЗ участвовал в спонсировании PROPHET - национального вычислительного ресурса, адаптированного для удовлетворения потребностей в области управления и анализа данных ученых-биологов. Главной привлекательностью PROPHET был "широкий спектр интегрированных графических средств обработки информации".

1980 - 1990 годы

В годы, когда Мадонна была на пике своей популярности, биотехнология и аналитика данных сделали огромный шаг вперед. Университетские ученые, Национальные институты здравоохранения, Европейская лаборатория по молекулярной биологии и крупные исследовательские фонды тратили свое время и деньги на новые биоинформационные базы данных и программное обеспечение.

Ключевые события этого периода:

  • 1986: Амос Байрох, молодой швейцарский биоинформатик, начинает разрабатывать аннотированный банк данных последовательности белка, известный как Swiss-Prot. Полномасштабная версия вышла в 1991 году и имела большой успех.
  • 1986: Интерферон становится первым противораковым препаратом, производимым благодаря достижениям в области биотехнологий.
  • Конец 1980х: Genofit и Intelli-Genetics коммерциализируют PC/GENE - программный пакет, созданный Амосом Байрохом для анализа белковых и нуклеотидных последовательностей.
  • 1991 год: Байрох создает PROSITE, базу данных последовательности белков и структурных корреляций. Он дополняет его ENZYME - номенклатурной базой данных по ферментам и SeqAnalRef - справочной базой данных, ориентированной на анализ последовательностей.
  • 1991 год: Марк П. МакКахилл и его команда из группы по разработке протокола Gopher, лежащего в основе Интернете, и являющегося удобной платформой для крупномасштабных электронных библиотечных подключений.
  • 1993 год: Создана SWISS-2DPAGE, база данных, ориентированная на протеомику. Она содержит данные о двухмерных, полиакриламидных гель-электрофорезных (2-D PAGE) картах белков из ряда здоровых и больных тканей.
  • 1993 год: Швейцарский институт биоинформатики (SIB) представляет ExPAsy, интегрирующий портал по биоинформатике, который опирается на широкий спектр научных ресурсов, баз данных и программных средств.
  • 1996 год: Овца Долли становится первым животным, клонированным из зрелой клетки.

Новый век

Взрыв данных стал залогом множества достижений в области биотехнологий в 21 веке. Промышленные отрасли ухватились за открытия, начав инвестировать в разработку новых лекарств, биоинженерию и альтернативную энергетику.

События "Большого шока" в этот период включают в себя:

  • 2000 год: Проект Генома человека и компания Celera Genomics запускают проект последовательности человеческого генома. Их работа публикуется в журнале Science and Nature.
  • 2001 год: Gleevec® (иматиниб), препарат для пациентов с хроническим миелоидным лейкозом, становится первым лекарственным средством, обладающим целевым генным воздействием, получившим одобрение Управления по контролю за продуктами питания и лекарственными средствами США.
  • 2002 год: Рис становится первой культурой с расшифрованным геномом.
  • 2003 год: В рамках «Проекта генома человека» завершается секвенирование человеческого генома.
  • 2004 год: Продовольственная и сельскохозяйственная организация США поддерживает биотехнологические культуры, заявляя, что биотехнология может "способствовать решению проблем", стоящих перед бедными фермерами и развивающимися странами.
  • 2005 год: Закон об энергетической политике создает множество стимулов для развития производства биоэтанола.
  • 2006 год: Управление по контролю за продуктами питания и лекарственными средствами США одобряет Gardasil®, первую вакцину, разработанную против вируса папилломы человека (HPV) и первую профилактическую противораковую вакцину.
  • 2007 год: Управление по контролю за продуктами питания и лекарственными средствами США одобряет вакцину H5N1, первую вакцину от птичьего гриппа.
  • 2008 год: НИЗ запускает пятилетний проект человеческого микробиома (HMP), целью которого является выявление и описание микроорганизмов, обнаруженных у здоровых и больных людей.
  • 2009 год: Площадь посевов биотехнологических культур достигает 330 млн. акров.